Sunteți pe pagina 1din 20

1

UNIDAD

4 Unidad 4

Correlación y
regresión lineal

Estadística

Autor: Patricia Castillo


i Índice Introducción

Metodología

Desarrollo temático
Introducción Hasta el momento los temas vistos atañen a datos descritos
por una sola variable, pero existen situaciones en las que se
hace necesario trabajar simultáneamente con dos variables,
tales como los casos en que se analiza dos características en
un mismo individuo, por ejemplo el peso y la estatura de cada
persona, el tiempo de estudios y el nivel de ingresos por em-
pleado o los costos de publicidad y los ingresos por ventas.
También se tiene el caso de dos variables correspondientes
a diferentes individuos, situación relacionada con distribucio-
nes bidimensionales. En esta cartilla se aborda los principios
de correlación y regresión, mediante los cuales, si es posible,
se busca establecer la relación entre dos variables asociadas a
características de los individuos de una muestra o población.
El análisis se limita al caso de relaciones lineales, por lo que la
temática específica es correlación y regresión lineal.

Fundación Universitaria del Área Andina 3


U4 Metodología

Es altamente recomendable que el estudiante realice la lectura de esta cartilla de forma muy
cuidadosa. Teniendo en cuenta que los principios de cálculo asociados a las temáticas de
correlación y regresión están fuertemente marcadas por cálculos numéricos, se recomienda
que realice los repasos y refuerzos requeridos antes de enfrentase a ellos. Específicamente se
requiere total claridad en el manejo de sumatorias y cálculo de media aritmética ya que ellas
son el soporte para realizar los cálculos. Se recomienda la verificación de los cálculos numé-
ricos presentados, teniendo especial cuidado con las sumas de cuadrados y cuadrados de
sumas. Todo lo anterior, además de contribuir a afianzar el conocimiento del tema, le brinda
la posibilidad de tomar mayor confianza hacia lo que sigue a cada eje temático.

Fundación Universitaria del Área Andina 4


Desarrollo temático

Esta cartilla trata algunos importantes conceptos y principios estadísticos relacionados


con datos bivariados. Estas situaciones surgen cuando se observa simultáneamente dos
características en cada uno de los individuos de una muestra o una población,

Correlación y regresión

Cuando se trabaja con pares de valores, cada uno correspondiente a un mismo


individuo, estos se asocian a dos variables, una de las cuales se identifica como variable
independiente y la otra como variable dependiente. En estudios estadísticos interesa
saber si se puede establecer alguna relación entre las variables, es decir se quiere saber
si existe alguna dependencia entre ellas y de ser así, interesa saber el grado y determinar
el tipo de dependencia. La tarea de determinar si existe o no dependencia y el grado de
la misma es abarcada por los principios de correlación, mientras que la determinación
del tipo de dependencia se abarca por los principios de análisis de regresión.

Coeficiente de Correlación

El coeficiente de correlación, denotado con 𝑟, es un descriptor numérico que mide el


grado de asociación entre dos variables, a partir de la tabla de valores de las variables, el
valor del coeficiente de correlación se puede hallar mediante el uso de la siguiente
fórmula:

(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝒓=
(𝑵 𝑿𝟐 ) − 𝑿 𝟐 . (𝑵 𝒀𝟐 ) − 𝒀 𝟐

Según el valor del coeficiente de correlación, se tiene los siguientes criterios de


clasificación:

!
! Si 𝒓 toma un valor cercano a 1, se considera que hay correlación positiva entre las
variables.

! Si 𝒓 toma un valor cercano a -1, se considera que hay correlación negativa entre
las variables.

! Si 𝒓 toma un valor cercano a 0, se considera que no hay correlación entre las


variables, es decir, las variables son independientes o el valor que tome una de
ellas no afecta el valor de la otra.  
Este coeficiente se interpreta teniendo en cuenta su valor como tal y su signo. Si el signo
es positivo indica que hay una relación directa entre 𝑋 y 𝑌, es decir, a mayores valores de
𝑋 mayores valores de 𝑌 y si es negativo, la relación es inversa, es decir, a mayores valores
de 𝑋 menores valores de 𝑌.

Al observar la formula se nota la necesidad de elaborar una tabla en la que existan


columnas para los valores de 𝑿, 𝒀, 𝑿, 𝒀, 𝑿𝟐 , 𝒀𝟐 . Se debe tener bien presente la diferencia
entre expresiones como 𝑿𝟐 y 𝑿 𝟐 .  En laprimera se calcula inicialmente el valor 𝑿𝟐
para cada valor de 𝑿 y luego se calcula la suma de todos los cuadrados, mientras que en
𝑿 𝟐 primero se calcula la suma de los valores de 𝑿, luego se realiza la suma de estos
valores y finalmente se eleva el resultado al cuadrado.

Diagrama de dispersión

El diagrama de dispersión o nube de puntos corresponde a una representación gráfica


de las parejas ordenadas (𝑿, 𝒀). Esta representación se realiza sobre un plano cartesiano.
La elaboración del diagrama de dispersión resulta fundamental ya que a partir de él se
puede visualizar el comportamiento de los datos e indica, en forma aproximada, el
posible tipo de relación que hay entre las variables. La nube de dispersión podría indicar
una relación aproximadamente lineal, cuadrática u otra. En esta cartilla solo se considera
el caso lineal, si se tiene una nube de puntos que no sugiere una relación lineal no se
puede aplicar los principios aquí tratados.

Ejemplo 7.1:

Se quiere establecer la relación entre el número de anuncios comerciales que se


transmiten al día sobre un producto y las ventas semanales del producto en miles de
unidades monetarias. Para esto se tiene la siguiente información:

Núm. 4 4 5 6 9 11 13 14 17 18
comerciales𝑿
Ventas 2 1,3 1,5 2 2,8 3 3,5 3 4 4,5
semanales 𝒀

Tabla 1. Diagrama de dispersión

Solución:

El diagrama de dispersión correspondiente se muestra a continuación:


Título  del  gráfico  
5  
4,5  
4  
3,5  
3  
2,5  
2  
1,5  
1  
0,5  
0  
0   2   4   6   8   10   12   14   16   18   20  

Figura 1. Diagrama de dispersión

Cálculo del coeficiente de correlación


Para el cálculo del coeficiente de correlación se elabora la tabla que facilita la aplicación
de la fórmula para determinar el coeficiente de correlación y la determinación de la
ecuación de regresión lineal, la tabla es la siguiente:

𝑿 𝒀 𝑿𝒀 𝑿𝟐 𝒀𝟐

4 2 8 16 4

4 1,3 5,2 16 1,69

5 1,5 7,5 25 2,25

6 2 12 36 4

9 2,8 25,2 81 7,84

11 3 33 121 9

13 3,5 45,5 169 12,25

14 3 42 196 9

17 4 68 289 16

18 4,5 81 324 20,25

𝑿 = 𝟏𝟎𝟏 𝒀 = 𝟐𝟕, 𝟔 𝑿. 𝒀 =  𝟑𝟐𝟕, 𝟒 𝑿𝟐 = 𝟏𝟐𝟕𝟑 𝒀𝟐 = 𝟖𝟔, 𝟐𝟖

Tabla 2. Coeficiente de correlación  


Aplicando la fórmula del coeficiente de correlación, con la información de la tabla y el
valor de 𝑵   =  𝟏𝟎, se tiene:
(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝒓=
(𝑵 𝑿𝟐 ) − 𝑿 𝟐 . (𝑵 𝒀𝟐 ) − 𝒀 𝟐

𝟏𝟎 𝟑𝟐𝟕, 𝟒 − 𝟏𝟎𝟏 . (𝟐𝟕, 𝟔)


𝒓=
𝟏𝟎 . 𝟏𝟐𝟕𝟑 − (𝟏𝟎𝟏)𝟐 . 𝟏𝟎 . 𝟖𝟔, 𝟐𝟖 − (𝟐𝟕, 𝟔)𝟐

𝟑𝟐𝟕𝟒 − 𝟐𝟕𝟖𝟕, 𝟔
𝒓=
𝟏𝟐𝟕𝟑𝟎 − 𝟏𝟎𝟐𝟎𝟏. 𝟖𝟔𝟐, 𝟖 − 𝟕𝟔𝟏, 𝟕𝟔

𝟒𝟖𝟔, 𝟒
𝒓=
𝟐𝟓𝟐𝟖. 𝟏𝟎𝟏, 𝟒

𝟒𝟖𝟔, 𝟒
𝒓=
(𝟓𝟎, 𝟐𝟕𝟗). (𝟏𝟎, 𝟎𝟔𝟗)

𝟒𝟖𝟔, 𝟒
𝒓=
𝟓𝟎𝟔, 𝟐𝟓𝟗

𝒓 = 𝟎, 𝟗𝟔𝟎𝟕𝟕
En el ejemplo el coeficiente de correlación con un valor de 0,96077, muy cercano a 1,
indica que existe una relación fuerte entre el número de anuncios comerciales emitidos
y las ventas semanales del producto. Como el resultado es positivo, indica que a medida
en que aumenta el número de comerciales, aumentan también las ventas semanales.

Una vez establecida la relación entre variables, es importante establecer la influencia


que tiene la variable independiente sobre la dependiente, es decir, en qué medida el
número de anuncios comerciales, determina el valor de las ventas semanales.

Para cuantificar dicha relación y tener una aproximación de la magnitud de la influencia


de los gastos en publicidad sobre las ventas, se debe trabajar el modelo de regresión.  
Regresión lineal simple

El diagrama de dispersión brinda una idea del tipo de relación entre las variables, si
resulta razonable pensar que la secuencia de puntos se encuentra sobre una curva que
se asemeja a una línea recta, se estaría en un caso de modelo de regresión lineal. La
representación gráfica de la recta se obtiene dibujando sobre la nube de puntos una
recta que cobije la mayoría de los puntos. La regresión lineal establece, como vínculo
entre las dos variables, la ecuación de una línea recta, cuya forma es:

𝒀 = 𝑨𝑿 + 𝑩
Dónde:

𝒀  es la variable dependiente calculada (diferente de la real u observada 𝒀)

𝑩  es el intercepto o punto de corte de la recta con el eje Y.

𝑨  es la pendiente de la recta, e indica el incremento que sufre la variable 𝒀 cuando la


variable  𝑿 aumenta en una unidad.

𝑨  y  𝑩 son conocidos como los parámetros del modelo, sus valores son desconocidos y
se pueden calcular por un método numérico conocido como el método de los mínimos
cuadrados. En este módulo no se describe en detalle el método de los mínimos
cuadrados, sólo se presenta las fórmulas que permiten determinar los valores de 𝑨 y 𝑩.

Determinación de los parámetros del modelo de regresión lineal

Para determinar el valor de 𝑨, que representa la pendiente de la recta, y el valor 𝑩, que


representa el punto de corte de la recta con el eje 𝒀, se emplean las siguientes
ecuaciones:
(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝑨= 𝟐
(𝑵 𝑿 ) − 𝑿 𝟐

𝑩 =   𝒀 − 𝑨𝑿
Es decir, el valor 𝑨 de la pendiente se halla a partir de cálculos sobre los valores de las
observaciones, mientras que para el cálculo de 𝑩 se requiere el conocimiento del valor
de la pendiente y la media aritmética de cada una de las variables.
Ejemplo 7.2:

Hallar la ecuación de regresión para el conjunto de datos del ejemplo 7.1.

Solución:

Como el diagrama de dispersión sugiere la semejanza con una línea recta, se puede
asumir que los datos del ejemplo encajan en un problema de regresión lineal, por lo
tanto se procede a calcular los valores de 𝑨 y 𝑩 usando las fórmulas correspondientes a
los parámetros del modelo de regresión lineal.

El cálculo de la pendiente es el siguiente:

(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝑨= 𝟐
(𝑵 𝑿 ) − 𝑿 𝟐

𝟏𝟎 . 𝟑𝟐𝟕, 𝟒 − 𝟏𝟎𝟏 . 𝟐𝟕, 𝟔


𝑨=
𝟏𝟎 . 𝟏𝟐𝟕𝟑 − (𝟏𝟎𝟏)𝟐

𝟑𝟐𝟕𝟒 − 𝟐𝟕𝟖𝟕, 𝟔
𝑨=
𝟏𝟐𝟕𝟑𝟎 − 𝟏𝟎𝟐𝟎𝟏

𝟒𝟖𝟔, 𝟒
𝑨=
𝟐𝟓𝟐𝟗

𝑨 = 𝟎, 𝟏𝟗𝟐𝟑

El cálculo del intercepto con el eje Y es:

𝑩 =   𝒀 − 𝑨𝑿
Dado que se requiere la media de las dos variables, se calculan mediante:
𝑿 𝒀
𝑿=                    𝑦                  𝒀 =
𝑵 𝑵
Por tanto:

𝑿 𝟏𝟎𝟏
𝑿= =   = 𝟏𝟎, 𝟏
𝟏𝟎 𝟏𝟎

𝒀 𝟐𝟕, 𝟔
𝒀= = = 𝟐, 𝟕𝟔
𝟏𝟎 𝟏𝟎

Con lo cual el valor de B es: 𝑩 = 𝟐, 𝟕𝟔 − 𝟎, 𝟏𝟗𝟐𝟑 . (𝟏𝟎, 𝟏)  

𝑩 = 𝟐, 𝟕𝟔 − 𝟏, 𝟗𝟒𝟐
𝑩 = 𝟎, 𝟖𝟏𝟖
Con lo que finalmente se encuentra que la recta que mejor describe la relación entre los
datos está dada por la ecuación:

𝒀 = 𝑨𝑿 + 𝑩

𝒀 = 𝟎, 𝟏𝟗𝟐𝟑𝑿 + 𝟎, 𝟖𝟏𝟖
Con base en la ecuación anterior se puede predecir con un razonable grado de
aproximación los valores que tomará la variable 𝒀  a partir del conocimiento de los
valores de 𝑿,  es decir se podrá tomar la decisión de cuanto es razonable invertir en
publicidad para obtener un determinado nivel de ventas.

El punto de corte indica que si 𝑿 = 𝟎,   es decir si no hay anuncios comerciales, se


estiman ventas mínimas de 0,8175 miles de unidades monetarias. Por otra parte la
pendiente indica que al aumentar el número de anuncios comerciales en una unidad, el
aumento estimado de las ventas será de 0,1923 miles de unidades monetarias, es decir,
192,3 unidades monetarias.

Coeficiente de determinación

El coeficiente de determinación mide el porcentaje de valores de la variable


dependiente 𝒀, que caen sobre la línea recta, se interpreta como el porcentaje de
valores de 𝒀 que son explicados por el modelo lineal en función de la variable 𝑿.

El coeficiente de determinación se simboliza con 𝑟 ! y se obtiene como el cuadrado del


coeficiente de correlación.
Este coeficiente siempre da un valor entre 0 y 1 y para dar una interpretación en
porcentaje su valor se multiplica por 100%. Un modelo de regresión lineal presenta
buen ajuste, es decir, se considera un buen modelo, si el coeficiente de determinación es
mayor o igual que el 75%.

Si  r ! ≥ 75  %, el  modelo  presenta  buen  ajuste  


Para el modelo del ejemplo anterior se tiene que:

𝒓 = 𝟎, 𝟗𝟔𝟎𝟕𝟕
Por lo tanto:

𝒓𝟐 = 𝟎, 𝟗𝟐𝟑𝟎×𝟏𝟎𝟎%

𝒓𝟐 = 𝟗𝟐, 𝟑𝟎%
Se tiene entonces que el 𝟗𝟐, 𝟑𝟎%  de las ventas son explicadas por el modelo de
regresión lineal en función del número de comerciales. El modelo presenta un buen
ajuste para los datos.

Ejemplo 7.3

Se quiere medir la relación que existe entre el número de empleados 𝑿 y las ventas
semanales 𝒀 (en millones de $), para un grupo de almacenes del sector de los alimentos
en una ciudad. Los datos obtenidos son los siguientes:

𝑋 12 16 20 28 30 32 36 40
𝑌 20 30 36 44 80 60 95 98

Tabla 3. Datos

A partir de los datos se pide:

! Dibujar el gráfico de dispersión que muestre el comportamiento de las variables.


! Hallar la ecuación o modelo de regresión lineal para estimar las ventas semanales
en función del número de empleados.
! Interpretar los parámetros del modelo.
! Hallar el nivel o grado de asociación entre variables.
! Indicar qué porcentaje de las ventas son explicadas por el modelo lineal en
función del número de empleados.
! Estimar las ventas para un almacén que tiene 50 empleados.
Solución:

Gráfico de dispersión: sobre el eje X se ubican los valores para el número de empleados
y en el eje Y, los valores de las ventas, en ambos casos se debe tener en cuenta el uso de
una escala apropiada. El gráfico de dispersión es el siguiente

Figura 2. Gráfico de dispersión

Modelo de regresión: para construir el modelo de regresión lineal:

𝒀 = 𝑨𝑿 + 𝑩
Se elabora la siguiente tabla que facilita los cálculos.

𝑿 𝒀 𝑿. 𝒀 𝑿𝟐 𝒀𝟐

12 20 240 144 400

16 30 480 256 900

20 36 720 400 1296

28 44 1232 784 1936

30 80 2400 900 6400

32 60 1920 1024 3600

36 95 3420 1296 9025

40 98 3920 1600 9604

𝑿 = 𝟐𝟏𝟒 𝒀 = 𝟒𝟔𝟑 𝑿. 𝒀 = 𝟏𝟒𝟑𝟑𝟐 𝑿𝟐 = 𝟔𝟒𝟎𝟒 𝒀𝟐 = 𝟑𝟑𝟏𝟔𝟏

Tabla 4. Modelo de regresión


Con los valores del final de las columnas de la tabla anterior y el valor 𝑵   =  𝟖 se tiene
inicialmente los cálculos de los valores de 𝑨  y  𝑩.

(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝑨=
(𝑵 𝑿𝟐 ) − 𝑿 𝟐
𝟖 . 𝟏𝟒𝟑𝟑𝟐 − 𝟐𝟏𝟒 . 𝟒𝟔𝟑
𝑨=
𝟖 . 𝟔𝟒𝟎𝟒 − (𝟐𝟏𝟒)𝟐
𝟏𝟏𝟒𝟔𝟓𝟔 − 𝟗𝟗𝟎𝟖𝟐
𝑨=
𝟓𝟏𝟐𝟑𝟐 − 𝟒𝟓𝟕𝟗𝟔
𝟏𝟓𝟓𝟕𝟒
𝑨=
𝟓𝟒𝟑𝟔
𝑨 = 𝟐, 𝟖𝟔𝟒𝟗

Los valores de las medias aritméticas 𝑿 y 𝒀  son:

𝑿 𝟐𝟏𝟒
𝑿= =
𝑵 𝟖
𝑿 = 𝟐𝟔, 𝟕𝟓
𝒀 𝟒𝟔𝟑
𝒀= =
𝑵 𝟖
𝒀 = 𝟓𝟕, 𝟖𝟕𝟓

Con el valor hallado para 𝑨, y los de 𝑿  y  𝒀, el cálculo del intercepto con el eje 𝒀 es:

𝑩 =   𝒀 − 𝑨𝑿

𝑩 = 𝟓𝟕, 𝟖𝟕𝟓 − 𝟐, 𝟖𝟔𝟒𝟗 . (𝟐𝟔, 𝟕𝟓)  


𝑩 = 𝟓𝟕, 𝟖𝟕𝟓 − 𝟕𝟔, 𝟔𝟑𝟔𝟎
𝑩 = −𝟏𝟖, 𝟕𝟔  
 

 
Entonces la recta que mejor describe la relación entre las variables es:

𝒀 = 𝑨𝑿 + 𝑩

𝒀 = 𝟐, 𝟖𝟔𝟒𝟗𝑿 −  𝟏𝟖, 𝟕𝟔
Interpretación de los parámetros del modelo de regresión: en este modelo el valor de
𝑩 = 𝟏𝟖, 𝟕𝟔,  lo cual indica que si no hay empleados, es decir si 𝑿 = 𝟎, se estaría dejando
de vender $18`763.000. El valor de 𝑨 = 𝟐, 𝟖𝟔𝟒𝟗 indica que por cada empleado se estima
que las ventas semanales aumentan en $2`864.900.

Nivel o grado de asociación de las variables: el nivel o grado de asociación de las


variables se mide con el coeficiente de correlación r:
(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝒓=
(𝑵 𝑿𝟐 ) − 𝑿 𝟐 . (𝑵 𝒀𝟐 ) − 𝒀 𝟐

𝟖 . 𝟏𝟒𝟑𝟑𝟐 − 𝟐𝟏𝟒 . 𝟒𝟔𝟑


𝒓=
𝟖 . 𝟔𝟒𝟎𝟒 − (𝟐𝟏𝟒)𝟐 . 𝟖 . 𝟑𝟑𝟏𝟔𝟏 −   (𝟒𝟔𝟑)𝟐

𝟏𝟏𝟒𝟔𝟓𝟔 − 𝟗𝟗𝟎𝟖𝟐
𝒓=
𝟓𝟏𝟐𝟑𝟐 − 𝟒𝟓𝟕𝟗𝟔. 𝟐𝟔𝟓𝟐𝟖𝟖 −  𝟐𝟏𝟒𝟑𝟔𝟗

𝟏𝟓𝟓𝟕𝟒
𝒓=
𝟓𝟒𝟑𝟔. 𝟓𝟎𝟗𝟏𝟗

𝟏𝟓𝟓𝟕𝟒
𝒓=
(𝟕𝟑, 𝟕𝟐𝟗). (𝟐𝟐𝟓, 𝟔𝟓𝟐)

𝟏𝟓𝟓𝟕𝟒
𝒓=
𝟏𝟔𝟔𝟑𝟕, 𝟎𝟗𝟔
𝒓 = 𝟎, 𝟗𝟑𝟔

El valor es positivo y cercano a 1, lo que indica que existe una correlación fuerte entre el
número de empleados y las ventas semanales. El signo positivo indica que a mayor
número de empleados, en los almacenes se tienen mayores ventas semanales.  
El porcentaje de las ventas semanales explicadas por el modelo lineal en función del
número de empleados, se mide con el coeficiente de determinación:

𝒓𝟐 = (𝟎, 𝟗𝟑𝟔)𝟐 ×𝟏𝟎𝟎%

𝒓𝟐 = 𝟎, 𝟖𝟕𝟔×𝟏𝟎𝟎%

𝒓𝟐 = 𝟖𝟕, 𝟔  %

El 87,6% de las ventas son explicadas por el modelo lineal, presentando un buen modelo
para hacer estimación de valores, ya que 𝒓𝟐 > 𝟕𝟓  %.

Ventas estimadas para un almacén con 50 empleados: atendiendo a que el modelo


lineal encontrado se considera un buen modelo, es de esperarse que el valor de las
ventas para un número de 50 empleados esté alrededor de:

𝒀 = 𝟐, 𝟖𝟔𝟒𝟗𝑿 −  𝟏𝟖, 𝟕𝟔

𝒀 = 𝟐, 𝟖𝟔𝟒𝟗 . (𝟓𝟎) −  𝟏𝟖, 𝟕𝟔

𝒀 = 𝟏𝟒𝟑, 𝟐𝟒𝟓 −  𝟏𝟖, 𝟕𝟔

𝒀 = 𝟏𝟐𝟒, 𝟒𝟖𝟓

Se estiman ventas de $124`482.000 para un almacén con 50 empleados.


Ejemplo 7.4:

En un estudio de consumidores se quiere analizar el comportamiento del consumo


semanal del producto 𝒀  (en libras), en función del precio por libra  𝑿  (en miles de pesos)
y para esto se tiene información de los últimos meses, encontrándose la información de
la siguiente tabla:

𝑿 𝒀 𝑿. 𝒀 𝑿𝟐 𝒀𝟐

17 9 153 289 81

15 12 180 225 144

15 13 195 225 169

13 16 208 169 256

12 20 240 144 400

10 20 200 100 400

8 23 184 64 529

𝑿 = 𝟗𝟎 𝒀 = 𝟏𝟏𝟑 𝑿. 𝒀 = 𝟏𝟑𝟔𝟎 𝑿𝟐 = 𝟏𝟐𝟏𝟔 𝒀𝟐 = 𝟏𝟗𝟕𝟗

Tabla 5. Datos

Con base en esta información, se pide:

! Hallar el modelo de regresión lineal.


! Interpretar los parámetros del modelo.
! Calcular e interpretar el coeficiente de correlación.
! Calcular e interpretar el coeficiente de determinación.
! Estimar el consumo del producto para un precio de $20.000.

Solución:

Determinación del modelo de regresión lineal: con 𝑵   =  𝟖 y los valores en la última fila
de la tabla, se halla primero los valores de los parámetros 𝑨  y  𝑩.
(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝑨= 𝟐
(𝑵 𝑿 ) − 𝑿 𝟐

𝟕 . 𝟏𝟑𝟔𝟎 − 𝟗𝟎 . 𝟏𝟏𝟑
𝑨=
𝟕 . 𝟏𝟐𝟏𝟔 − (𝟗𝟎)𝟐

−𝟔𝟓𝟎
𝑨=
𝟒𝟏𝟐

𝑨 = −𝟏, 𝟓𝟕𝟕

Los valores de las medias aritméticas 𝑿 y 𝒀  son:

𝑿 𝟗𝟎
𝑿= = = 𝟏𝟐, 𝟖𝟓𝟕
𝑵 𝟕

𝒀 𝟏𝟏𝟑
𝒀= = = 𝟏𝟔, 𝟏𝟒𝟐
𝑵 𝟕

Por tanto el valor de 𝑩 corresponde a:

𝑩 =   𝒀 − 𝑨𝑿
𝑩 = 𝟏𝟔, 𝟏𝟒𝟐 − −𝟏, 𝟓𝟕𝟕 . (𝟏𝟐, 𝟖𝟓𝟕)  

𝑩 = 𝟑𝟔, 𝟒𝟏𝟕
Entonces el modelo lineal es:

𝒀 = 𝑨𝑿 + 𝑩

𝒀 = −𝟏, 𝟓𝟕𝟕𝑿 +  𝟑𝟔, 𝟒𝟏𝟕


Interpretación de los valores de los parámetros del modelo de regresión: para la
interpretación de los parámetros 𝑨 y 𝑩 se tiene encuenta que la pendiente es negativa,
por tanto el consumo máximo estimado es de 36,417 unidades del producto. Cuando el
precio aumenta en $1.000 el consumo disminuye en 1,577 unidades.

Coeficiente de correlación: el coeficiente de correlación, el cual mide el grado de


asociación entre variables, está dado por:

(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝒓=
(𝑵 𝑿𝟐 ) − 𝑿 𝟐 . (𝑵 𝒀𝟐 ) − 𝒀 𝟐

𝟕 . 𝟏𝟑𝟔𝟎 − 𝟗𝟎 . 𝟏𝟏𝟑
𝒓=
𝟕 . 𝟏𝟐𝟏𝟔 − (𝟗𝟎)𝟐 . 𝟕 . 𝟏𝟗𝟕𝟗 −   (𝟏𝟏𝟑)𝟐
−𝟔𝟓𝟎 −𝟔𝟓𝟎
𝒓= =
𝟒𝟏𝟐. 𝟏𝟎𝟖𝟒 𝟔𝟔𝟖, 𝟐𝟓

𝒓 = −𝟎, 𝟗𝟕𝟐

El valor obtenido indica que hay correlación negativa entre el precio del producto y el
consumo, esto significa que a medida que aumenta el precio disminuye el consumo.

Coeficiente de determinación: este mide el porcentaje de consumo que es explicado por


el modelo lineal en función del precio de venta es:

𝒓𝟐 = (−𝟎, 𝟗𝟕𝟐)𝟐 ×𝟏𝟎𝟎%

𝒓𝟐 = 𝟎, 𝟗𝟒𝟒×𝟏𝟎𝟎%

𝒓𝟐 = 𝟗𝟒, 𝟒  %
Esto significa que el 94,4 % del consumo corresponde al modelo lineal encontrado.
Puesto que el coeficiente de determinación supera el 75 %, se considera que el modelo
es apropiado para hacer estimación de valores.

Consumo estimado del producto para un precio de 20.000: según el modelo lineal
hallado, el consumo para un precio de 20.000 es:

𝒀 == −𝟏, 𝟓𝟕𝟕𝑿 +  𝟑𝟔, 𝟒𝟏𝟕

𝒀 = −𝟏, 𝟓𝟕𝟕. (𝟐𝟎) +  𝟑𝟔, 𝟒𝟏𝟕

𝒀 = 𝟒, 𝟖𝟕𝟕
Con este ejemplo y esta cartilla finaliza el contenido relativo al establecimiento de la
relación entre dos variables observadas en un estudio estadístico. Al igual que en las
cartillas anteriores se requiere que el estudiante revise minuciosamente los ejemplos
desarrollados y aplique las estrategias de trabajo a los ejercicios propuestos en el taller.
La temática de la siguiente unidad corresponde a distribuciones bidimensionales y
números índice.

S-ar putea să vă placă și