Sunteți pe pagina 1din 33

MATERIAL DE PROFUNDIZACIÓN

Estadística bivariada
Estadística Bivariada

¿Te has preguntado alguna vez si


existe algún tipo de relación entre el
peso corporal y la estatura?
¿Qué vamos a estudiar?
Las diferentes formas de dependencia entre dos
variables, cada vez que estemos trabajando con
variables cuantitativas.
Por ejemplo:
- Estudiar si hay relación entre los años de estudio
y el ingreso mensual de una persona.

- Estudiar si hay relación entre el peso de la carga


(en toneladas) que transporta un camión y el
rendimiento de combustible (en km/litro).

- Estudiar si hay relación entre la inversión


realizada en una institución financiera y la
utilidad generada por esta.
Modelos de regresión

Un modelo de regresión es una función Matemática f que intenta modelar el valor


estimado de una variable respuesta en función de uno o más predictores de interés,
es decir, permite predecir el valor de Y, dado valores de la variable X.

El análisis de regresión sirve para predecir una medida Y en función de otra medida X
(o varias).

En tal caso, diremos que:

Y = variable dependiente.
X = variable independiente, explicativa o predictora.

Notación: Y = f(X) (se lee: “Y está en función de X”).


Tipos de modelos
Existen diferentes tipos de modelos de regresión,
sin embargo, la forma en que se relacionan las
variables nos indicará la conveniencia de utilizar
uno u otro modelo para realizar estimaciones o
intentar explicar la variable dependiente en
función de la variable predictora.

Entre los modelos de regresión más conocidos


están:
- Modelo de regresión lineal.
- Modelo de regresión exponencial.
- Modelo de regresión logarítmica.
¿Cómo elegir un buen modelo
de regresión?

Diagrama de dispersión

Variable dependiente
Una representación gráfica útil para
describir el comportamiento conjunto de dos
variables es el diagrama de dispersión o
nube de puntos, donde cada caso aparece
representado como un punto en el plano
definido por las variables X e Y.
Esta representación gráfica permite Variable independiente
visualizar la relación entre dos variables o predictora.
cuantitativas.
Pero ojo, un diagrama o gráfico de dispersión aportará información solo en la medida que
conozcamos y seamos capaces de distinguir entre las distintas curvas de tales funciones.

Por esta razón, es importante conocer y distinguir las gráficas de algunas funciones recurrentes en
esta materia:

Gráfico de una Gráfico de una Gráfico de una


función lineal función exponencial función logarítmica
Medidas de asociación entre dos variables Covarianza
S xy  xy  x  y
La covarianza (Sxy) indica si la posible relación entre dos
Al estudiar la relación entre dos variables,
variables es directa o inversa. Por lo que:
debemos ser capaces de responder las
siguientes preguntas:
• Si Sxy > 0; la relación entre la variable X e Y es directa
- ¿Las variables están relacionadas o no? o creciente, es decir, si una de las variables aumenta
- ¿Es lineal esta relación y cuál es su grado? la otra también aumenta y viceversa.

Las preguntas anteriores pueden ser


respondidas utilizando las medidas de • Si Sxy < 0; la relación entre la variable X e Y es inversa
covarianza y coeficiente de correlación lineal de o decreciente, es decir, si una de las variables
Pearson. aumenta la otra disminuye y viceversa.
Observación:
El signo de la covarianza dice si el aspecto de la nube d
puntos es creciente o decreciente, pero no da mayo
información respecto al grado de la relación.
Relación directa e inversa
110 80
Fuerte relación 70 Cierta relación
90 directa. 60 inversa
50
70
40
30
50
20

30 10
140 150 160 170 180 190 200 0
140 150 160 170 180 190 200
Relación directa o creciente Relación inversa o decreciente
330

280
Incorrelación

230

180

130

80

30
140 150 160 170 180 190 200

Incorrelación
Coeficiente de correlación lineal de
Covarianza
Pearson
S xy  xy  x  y
Una medida estandarizada para poder
determinar la relación lineal se conoce como
coeficiente de correlación lineal. Desviación estándar de x

S S  x2   x  2
xy
Rxy  x
S *S
x y
Desviación estándar de x

S  y2   y2
y
¿Para qué sirve el Rxy? El coeficiente de correlación lineal entre dos
variables (Rxy) indica si los puntos tienen una
El coeficiente de correlación lineal de Pearson tendencia lineal (excluyendo rectas horizontales y
verticales), pero no servirá para otro tipo de
de dos variables, Rxy es útil para determinar si
relaciones, como, por ejemplo, exponencial o
hay relación lineal entre dos variables, pero no logarítmica. Por lo que:
servirá para otro tipo de relaciones
(cuadrática, logarítmica u otra).
• Si Rxy ≈ 1; la relación entre la variable X e Y es
lineal con pendiente positiva.

• Si Rxy ≈ -1; la relación entre la variable X e Y es


lineal con pendiente negativa.

• Si Rxy ≈ 0; no existe relación lineal entre la


variable X e Y, aunque podría existir otro tipo de
correlación (exponencial, logarítmica, entre
otras).
Propiedades de Rxy
• Es adimensional (no posee unidades de medida).
• Solo toma valores en [-1,1].
• Las variables son incorrelacionadas  R = 0.
• Relación lineal perfecta entre dos variables  R = 1 o R = -1.
• Cuanto más cerca esté R de 1 o -1, mayor será el grado de relación lineal.

Relación Variables Relación


inversa incorrelacionadas directa
perfecta perfecta

-1 0 1
Entrenando el ojo: correlaciones positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

110 100
100 90
90 80
80
70
70
60
60
50 50

40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo: correlaciones casi perfectas y
positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Entrenando el ojo: correlaciones negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Coeficiente de correlación lineal Ejemplo 2: En este caso, Rxy ≈ -1.
Y La nube de puntos puede
de Pearson en Excel aproximarse por una recta
1° Fórmula en Excel del coeficiente de correlación decreciente. Por ejemplo, el
peso de una carga (X) y el
lineal:
rendimiento de combustible
=COEF.DE.CORREL(matriz1; matriz2) (Y) de un camión, ya que un
X camión con mayor carga
tiene menor rendimiento de
2° Ejemplos de representaciones gráficas del Rxy.
combustible.
Ejemplo 1: Ejemplo 3:
En este caso, Rxy ≈ 1. Y
Y
En este caso, Rxy ≈ 0.
La nube de puntos puede
aproximarse por una recta La nube de puntos
creciente. Por ejemplo, la indica que no hay
altura (X) y el peso (Y) de los correlación lineal.
alumnos, ya que los alumnos
X más altos suelen pesar más.
X
Ejercicio:
Rendimiento
Peso de la carga
combustible
7,9 5,3 El dueño de una flota de camiones desea estudiar si hay
0,2 9 relación lineal entre el peso de la carga y el rendimiento
6,5 6,6 del combustible, para ello consideró una muestra de 20
2,5 7,7 viajes, de los cuales se registró el peso de la carga (en
8,8 4,9 toneladas) y el rendimiento del combustible (en km/litro).
4,5 6,6
12 4,2
5 6,8
11,9 3,4
Utilizando la información, realiza lo siguiente:
0,5 8,7
2,8 7,9
3,7 6,9
8,3 4,1
4,4 5,9
3,8 7,7
9,4 4
3,6 7,5
11,6 2,3
10,9 3,5
11 3,6
1) Determina la variable dependiente e
independiente, y construye un gráfico de
dispersión que relacione las variables peso de la Relación entre el peso de la carga y el
carga y rendimiento del combustible. rendimiento del combustible
10
9

Rendim iento, en km /l
8
Respuesta: 7
6
5
4
Y = rendimiento del combustible, en km/l (variable 3
dependiente). 2
1
0
X = peso de la carga, en tn (variable independiente). 0 2 4 6 8 10 12 14

Peso carga, en toneladas


2) Calcula la covarianza e interpreta su
resultado.
Respuesta:
Fórmula Valor Interpretación
La covarianza indica que hay una relación o influencia
inversa entre las variables, por lo que a mayor peso de
=COVAR(matriz1; matriz2) -7,00195 carga, menor será el rendimiento del combustible.

3) Calcula el coeficiente de correlación e interpreta su resultado.

Respuesta:

Fórmula Valor Interpretación

El grado de correlación lineal entre las variables es


-0,96 e indica que hay alta correlación lineal con
=COEF.DE.CORREL(matriz1; matriz2) -0,9633 pendiente negativa entre las variables peso de la
carga y rendimiento del combustible.
Modelo de regresión lineal simple Y e Ŷ rara vez coincidirán, por muy bueno que
sea el modelo de regresión.
El modelo de regresión lineal simple consiste en A la cantidad ei se le denomina residuo o
aproximar los valores de la variable dependiente error residual.
(Y) a partir de la variable independiente (X), para
ello se determina una función lineal, que tiene la ei  y i  y
ˆi
siguiente forma:

yˆ  m  x  n S xy
Pendiente m
Donde m y n son los parámetros del modelo lineal.  Sx  2
n = coeficiente de posición.
m = pendiente.
Coef .dePosición n  y  m x
Ŷ = variable dependiente.
X = variable independiente, explicativa o predictora.
Ejemplo:

Considerando el ejercicio anterior, cuyas variables eran el peso de la carga (en toneladas) y el
rendimiento del combustible (en km/litro) de una muestra de 20 viajes.

1) Construye el modelo de regresión lineal.


Relación entre el peso de carga y el
Respuesta: rendimiento del combustible
10
9
8 Modelo Lineal

Rendimiento, en km/l
7 y = -0,494x + 9,0236
Modelo de regresión 6
y = -0,494x + 9,0236
lineal 5
4
3
2
1
0
0 2 4 6 8 10 12 14
Peso carga, en toneladas
2) Interpreta la pendiente del modelo de regresión lineal.
Respuesta:
Fórmula Valor Interpretación
Por cada tonelada que aumenta el peso de la
Pendiente =PENDIENTE(conocido_y; conocido_x) -0,494 carga, el rendimiento del combustible
disminuye en 0,494 km/l.

3) Considera el modelo de regresión lineal y responde las siguientes preguntas:

a) Si en un viaje el peso de la carga es de 8 b) Estima el peso de la carga de un viaje cuyo


toneladas, estima el rendimiento del rendimiento de combustible es de 7,5 km/l.
combustible.
Se utiliza el modelo de regresión Usando el modelo de regresión
X = 8 X = 3,1
lineal para estimar el valor de la lineal se despeja la variable
Y = 5,1 variable dependiente. Y = 7,5 independiente.

Y = -0,494*8+9,0236 ≈ 5,1 X = (7,5-9,0236)/-0,494 ≈ 3,1


Respuesta: Respuesta:
El rendimiento del combustible se estima en 5,1 km/l. Se estima que el peso de la carga es de 3,1 toneladas.
Ejercicio propuesto modelo de regresión lineal simple
A partir de los siguientes datos referentes a las horas trabajadas en un taller (X) y a las unidades producidas (Y)...
Respuestas:
a) Determina la covarianza y coeficiente de
correlación lineal de Pearson.
a) Covxy = 217,667 (relación directa).
b) Determina el modelo de regresión lineal.
Rxy = 0,954 (correlación positiva muy fuerte).
c) Estima el número de unidades producidas
cuando se han trabajado 75 horas.
d) ¿Cuántas horas se deben trabajar para b) y = 3,4734x + 31,741
producir 320 unidades?
c) 292 unidades.

d) 83 horas.
Modelo de regresión exponencial
simple
Al tratar de explicar (o predecir) la variable dependiente (Y) a través de una variable independiente (X),
puede ocurrir que la relación no sea lineal. La regresión exponencial se utiliza cuando podemos asumir
que la relación entre ambas variables es del tipo:

b x
yˆ  a  e Ŷ = variable dependiente.
X = variable independiente, explicativa o predictora.

Donde a y b son los parámetros del modelo


exponencial.
Años de % de artículos
Ejercicio: experiencia defectuosos
12 0,9
13 0,5
2 9,8 Un ingeniero industrial desea determinar un
13 0,7 modelo de regresión que explique el
2 10,6
porcentaje de artículos defectuosos producidos
10 1,2
7 3,4 por los operarios de una planta con respecto a
0 16,6 los años de experiencia que estos tienen. Para
13 0,4 ello consideró una muestra de 20 operarios, de
10 1,2 los cuales se registraron los años de
5 3,5 experiencia y el porcentaje de artículos
12 1,4 defectuosos producidos.
8 2,1
2 8,9
3 8,3
Utilizando la información:
11 0,8
10 2,2
8 2
9 1,6
8 1,1
1) Determina la variable dependiente e independiente, y construye un gráfico de dispersión que
relacione las variables años de experiencia y el porcentaje de artículos defectuosos producidos.
Incluye los modelos de regresión lineal y exponencial con sus respectivos coeficientes de
determinación.
Respuesta:
Relación años de experiencia y porcentaje de
artículos defectuosos
% d e a r tí c u lo s d e f e c t u o s o s

18

16 Modelo Lineal
14 y = -0,9705x + 11,527
R² = 0,8277
12

10
Modelo Exponencial
8 y = 15,704e-0,251x
R² = 0,9328
6

0
0 2 4 6 8 10 12 14

Años de experiencia

Y = porcentaje de artículos defectuosos producidos (variable dependiente).


X = años de experiencia (variable independiente).
2) Calcula la covarianza e interpreta su resultado.
Respuesta:
Fórmula Valor Interpretación

La covarianza indica que hay una relación o influencia inversa


=COVAR(matriz1; matriz2) -16,294 entre las variables, por lo que a mayor años de experiencia del
operario, menor será el porcentaje de artículos defectuosos
producidos.

3) Calcula el coeficiente de correlación e interpreta su resultado.

Respuesta:

Fórmula Valor Interpretación


El grado de correlación lineal entre las variables es de -0,91 e
indica que hay alta correlación lineal con pendiente negativa
=COEF.DE.CORREL(matriz1; matriz2) -0,9098 entre las variables años de experiencia del operario y
porcentaje de artículos defectuosos.
4) Interpreta la pendiente del modelo de regresión lineal.

Respuesta:

Fórmula Valor Interpretación


Por cada año que aumenta la experiencia del
Pendiente =PENDIENTE(conocido_y; conocido_x) -0,9705 operario, el porcentaje de artículos defectuosos
disminuye en 0,97%.
5) Considera el modelo de regresión lineal de las variables años de experiencia y el porcentaje de
artículos defectuosos producidos para responder las siguientes preguntas:

a) Estima el porcentaje de artículos defectuosos b) Si un operario produce 2,5% de artículos


que produce un operario con 8 años de defectuosos, estima la cantidad de años de
experiencia en la planta. experiencia que tiene en la planta.

Utilizando el modelo de regresión lineal para estimar el Utilizando el modelo de regresión lineal se despeja la
valor de la variable dependiente: variable independiente:

Y = -0,9705*8+11,527 ≈ 3,8 X = (2,5-11,527)/-0,9705 ≈ 9,3

X= 8 X= 9,3
Y = 3,8 Y = 2,5

Respuesta: Respuesta:
Se estima que el 3,8% de artículos son Se estima que el operario tiene 9,3 años de experiencia.
defectuosos.
6) Determina el modelo que mejor se ajusta a los datos. Justifica tu respuesta.

Respuesta:

El modelo de regresión exponencial se ajusta mejor


a los datos debido a que su coeficiente de
determinación es mayor, ya que el 93,3% de la
variabilidad del porcentaje de artículos
defectuosos producidos se explica por la variación
de los años de experiencia del operario. Además,
hay un 6,7% de variabilidad no explicada.
7) Utilizando el modelo que mejor se ajusta a los datos, responde las siguientes preguntas:

a) Estima el porcentaje de artículos defectuosos b) Si un operario produce un 4% de artículos


que produce un operario con 10 años de defectuosos, estima la cantidad de años de
experiencia en la planta. experiencia que tiene en la planta.

Usando el modelo de regresión exponencial se Usando el modelo de regresión exponencial se despeja


calcula la variable dependiente: la variable independiente:

Y = 15,704*EXP(-0,251*10) ≈ 1,3 X = LN(4/15,704)/-0,251 ≈ 5,4


X= 10 X= 5,4
Y = 1,3 Y = 4

Respuesta: Respuesta:

Se estima que el 1,3% de artículos son Se estima que el operario tiene 5,4 años de experiencia.
defectuosos.
(9) ¡Felicidades, has finalizado la revisión del material!
Es momento de explorar el aula y poner en práctica todos los consejos revisados.

¿Qué hacer en caso de dudas?


Contactar al Docente online a través de correo interno o en el foro de consultas de la unidad y/o al
Consejero Online con preguntas generales al correo o telefónicamente, de lunes a viernes de 08:00 a
18:00 horas.

S-ar putea să vă placă și