Sunteți pe pagina 1din 6

Estadı́stica Inferencial

REGRESIÓN LINEAL Y CORRELACIÓN


Coordinadora de curso: Mg. Luz Ramos

Existen dos métodos distintos pero relacionadas para determinar si existe algún tipo de
relación entre dos variables.
El primer método consiste en determinar el grado o nivel de asociación entre las variables que
se estudian. Este método se denomina análisis de correlación.
El segundo método consiste en determinar una relación funcional de la variable dependiente Y
con respecto a una variable independiente X con el fin de predecir valores de Y . Este método,
es el análisis de regresión.
Los métodos de regresión y correlación entre variables se clasifican de acuerdo al numero de vari-
ables independientes, se denomina simple si hay una sola variable independiente y se denomina
múltiple si hay dos o más variables independientes.

1. Diagrama de dispersión
Sean (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) n valores de la variable bidimensional (X, Y ), observados
en una muestra, donde los xi son los valores de la variable X y los yi son los valores de la
variable Y .
Se denomina diagrama de dispersión o nube de puntos, a la representación gráfica de los
distintos valores (xi , yi ) de las variables X e Y en el mismo sistema cartesiano.

2. Covarianza
La covarianza mide el grado de dispersión o variabilidad conjunta de dos variables X e Y
con respecto a sus medias respectivas (x, y).
La covarianza de n valores (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) de una variable bidimensional (X, Y ) y
es dado por:
Pn Pn
i=1 (xi − x)(yi − y) xi y i
sXY = = i=1 −x y
n n

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

3. Coeficiente o ı́ndice de correlación


El coeficiente de correlación lineal de Pearson de n pares de valores (x1 , y1 ), (x2 , y2 ), ..., (xn , yn )
de la variable bidimensional (X, Y ), es denotado por r y es dado por:

n ni=1 xi yi − ni=1 xi ni=1 yi


P P P
sXY
r= = p Pn 2
n i=1 xi − ( ni=1 xi )2 n ni=1 yi2 − ( ni=1 yi )2
p P
sX sY
P P

donde, sXY es la covarianza de X e Y , sX es la desviación estándar de X y sY es la desviación


estándar de Y
El coeficiente de correlación r es número comprendido entre -1 y 1, esto es, −1 ≤ r ≤ 1.
Interpretación:

Si r = 1, se dice que hay una correlación perfecta positiva.

Si r = −1, se dice que hay una correlación perfecta negativa.

Si r = 0, se dice que no hay correlación entre las dos variables.

4. Estimación del modelo de regresión lineal


Dado (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) una muestra de tamaño n de una variable bidimensional
(X, Y ), el modelo de regresión lineal simple de Y (variable dependiente) con respecto de X
(variable independiente), consiste en determinar la ecuación de la recta:

Y = a + bX

que mejor se ajuste a los datos de la muestra, con el fin de predecir o estimar Y a partir de X.
El valor yb denominado valor estimado o predecido,representa un valor de Y calculado de la
ecuación Y = a + bX cuando X = xi .
Para determinar dicha ecuación de regresión utilizaremos el método de mı́nimos cuadrados.

4.1. Método de mı́nimos cuadrados


Cuando se considera la ecuación de regresión lineal muestral, cada dato (xi , yi ) de la muestra,
satisface la ecuación:
yi = a + bxi + ei

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

en donde ei = yi − ybi se denomina error o residuo y describe el error en el ajuste del modelo de
regresión muestral en el punto i de los datos.
Consideremos la suma
P de cuadrados P de errores:
SCE = ni=1 e2i = ni=1 (yi − ybi )2 = ni=1 (yi − a − bxi )2
P
Determinar una recta de regresión de mı́nimos cuadrados consiste en hallar los valores de a y
b de tal manera que SCE sea mı́nimo. Derivando SCE con respecto a a y con respecto a b y
luego igualando a cero se obtiene las siguientes ecuaciones:
n
X n
X
yi = na + b xi
i=1 i=1

n
X n
X n
X
xi y i = a xi + b x2i
i=1 i=1 i=1

Resolviendo el sistema de ecuaciones se obtiene:

n ni=1 xi yi − ni=1 xi ni=1 yi


P P P
b=
n ni=1 x2i − ( ni=1 xi )2
P P
sXY
es equivalente a: b = s2X

a = y − bx
Interpretación:

Si b > 0, entonces, la tendencia lineal es creciente, es decir, a mayores valores de X se


tiene mayores valores de Y .

Si b < 0, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X se


tiene menores valores de Y .

Si b = 0, se dice que no hay regresión muestral.

5. Coeficiente de determinación
El coeficiente de determinación mide el porcentaje de variación en la variable respuesta,
explicada por la variable independiente, es denotada por r2 y se define por:

s2X
r 2 = b2
s2Y

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

es equivalente a:
SCR SCE
r2 = =1−
SCT SCT
Donde, las sumas de cuadrados:
SCT = SCE + SCR
son respectivamente
n
X n
X n
X
2 2
(yi − y) = (yi − yb) + y − y)2
(b
i=1 i=1 i=1
SCT : Suma de cuadrados total
SCE: Suma de cuadrados de los errores
SCR: Suma de cuadrados debido a la regresión
Cuanto mayor es el valor de r2 menor es la dispersión y mayor el ajuste de la recta de regresión
a los datos.

Ejercicios explicativos
1. Un comerciante mayorista encargó un estudio para determinar la relación entre los gastos
de publicidad semanal por radio y las ventas de sus productos. En el estudio se obtuvieron
los siguientes resultados:
Gastos de publicidad ($) 30 20 40 50 70 60 80 70 80
Ventas ($) 300 250 400 550 750 630 930 700 840
a) Realice el diagrama de dispersión, e indicar la tendencia de los datos.
Solución:

b) Calcular la recta de regresión con el fin de predecir las ventas e interprete la pendiente
de la regresión.
Solución:

c) Estime la venta si en una semana el gasto de publicidad es de $90.


Solución:

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

d ) Si la venta es de $800, ¿cuánto es el gasto de publicidad?


Solución:

e) Determine e interprete el coeficiente de correlación.


Solución:

f ) Determine e interprete el coeficiente de determinación.


Solución:

2. Se han estudiado las calificaciones de 20 alumnos en dos asignaturas: Matemática (X) y


Estadı́stica (Y), obteniéndose los siguientes resultados:

x = 13, y = 15, s2X = 4, s2Y = 2,25

Además se sabe que el coeficiente de correlación de ambas variables es r = 0,90. ¿Qué nota
se puede predecir en la asignatura de Estadı́stica, para un alumno que ha obtenido 14 en
Matemática?
Solución:

Ejercicios propuestos
1. Una compañı́a de alimentos maneja una cadena de tiendas al menudeo. Para medir la
eficiencia de las tiendas se estudió la relación del número de empleados (X) y el promedio
del volumen de ventas mensuales (Y ) expresadas en cientos de dólares para todas las
tiendas durante el año pasado. La gráfica de los datos sugiere una relación lineal entre las
variables. Se tiene la siguiente información:

UTP sede Arequipa Guı́a N◦ 18


Estadı́stica Inferencial

Pn Pn Pn Pn Pn
n = 100, i=1 xi = 600, i=1 yi = 1600, i=1 xi yi = 13600, i=1 x2i = 5200, i=1 yi2 =
37700

a) Hallar la recta de mı́nimos cuadrados para estimar las ventas a partir del número
de empleados.
b) ¿En cuánto se estiman las ventas para una tienda de 8 empleados?
c) ¿Qué porcentaje de la varianza de las ventas es explicada por la variabilidad del
número de empleados?
d ) ¿Cuántos empleados tiene la tienda cuya venta se estima en $1100?

2. Al estudiar la relación entre la edad (X) y la presión sanguı́nea (Y ) a partir de una


muestra de mujeres, se obtuvo la siguiente información:
sX = 7,5, sY = 10, x = 50, y = 120, r = 0,90

a) Hallar la relación lineal de la presión con respecto a la edad.


b) Predecir la presión sanguı́nea para una mujer de 45 años.
c) Calcule e interprete el coeficiente de determinación.

3. Un profesor de estadı́stica se interesa en la relación entre las horas de estudio y los puntos
obtenidos en el curso. A continuación vemos los datos reunidos de 9 alumnos que acaban
de tomar el curso.

Horas de estudio 45 30 90 60 105 65 90 80 55


Total de puntos obtenidos 40 35 75 65 90 50 90 80 45

a) Determine e interprete el coeficiente de correlación.


b) Realice el diagrama de dispersión, e indicar la tendencia.
c) Determine la ecuación de regresión que estime el total de puntos obtenidos en el
curso y comente sobre la pendiente.
d ) Estime el total de puntos obtenidos por un alumno que estudio 95 horas.
e) Determine e interprete el coeficiente de determinación.

4. Se supone que el alargamiento de un cable de acero está relacionado linealmente con la


intensidad de la fuerza aplicada. Cinco especı́menes idénticos de cable dieron los resulta-
dos siguientes:

Fuerza (X) 1 1.5 2 2.5 3


Alargamiento (Y) 3 3.5 5.4 6.9 8.4

a) Determine e interprete el coeficiente de correlación.


b) Determine la ecuación de regresión que relacione la fuerza aplicada y el alargamiento.

UTP sede Arequipa Guı́a N◦ 18

S-ar putea să vă placă și