Sunteți pe pagina 1din 33

U.N.T.

Ing. Industrial
2019-1

ESTADÍSTICA Y PROBABILIDADES

• Sesión 6

Dra. Laura Rivera León

1
CORRELACIÓN
CORRELACIÓN LINEAL
• MIDE LA RELACIÓN ENTRE DOS VARIABLES.

• Ejemplos:

Horas de estudio (X) Calificación obtenida (Y)


N° Libros leídos (X) N° Errores ortográficos (Y)
Inversión en Medidas preventivas (X) N° de Lesiones (Y)
Edad (X) Gasto Mensual (Y)
Índice de Contaminación(X) Tasa de Enfermedades(Y)
Correlación Lineal - Tendencias
Correlación Positiva
Significa que individuos que tienen puntuaciones
ALTAS en una variable, tienden a obtener
puntuaciones ALTAS en la otra variable y viceversa.

G
A
N
A
N
C
I
A
S

VENTAS
Correlación Negativa
Significa que individuos que tienen puntuaciones
ALTAS en una variable, tienden a obtener
puntuaciones BAJAS en la otra variable y viceversa.

E
M
B
A
R
A
Z
O
S

INVERSIÓN EN ANTICONCEPTIVOS
Correlación Nula
Significa que no existe dependencia entre las variables.

P G
a a
r n
t a
i d
d o
o s
s

Calificaciones
DIAGRAMA DE
DISPERSIÓN

Representación en un
sistema de
coordenadas
rectangulares, donde
(X, Y) son los valores
de las variables
correlacionadas.
Grado de relación entre las variables
Coeficiente de Correlación de Pearson «R»
El coeficiente de correlación de Pearson, indica la fuerza y la
dirección de una relación lineal entre dos variables aleatorias. Se
considera que dos variables cuantitativas están correlacionadas
cuando los valores de una de ellas varían sistemáticamente con
respecto a los valores de la otra.
𝒏 ∗ σ 𝑿𝒀 − σ 𝑿 ∗ σ 𝒀
𝑹=
𝒏 ∗ σ 𝑿𝟐 − σ 𝑿 𝟐 ∗ 𝒏 ∗ σ 𝒀𝟐 − σ 𝒀 𝟐

n: Número de datos
Grado de relación entre las variables
Coeficiente de Correlación de Pearson «R»
 Indica si los puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales y
verticales).
 El valor R está acotado en [-1; 1].
 Si está cercana a -1, indica que las variables están
relacionadas en forma inversa, si está cercana a +1, la
relación es directa y si está cercana a 0, las variables no
están relacionadas.
 Cuanto más cerca esté R de -1 o +1 mejor será el grado
de relación lineal. Siempre que no existan observaciones
atípicas.
Grado de relación entre las variables
Coeficiente de Correlación de Pearson «R»
Mide el grado de asociación lineal entre 2 variables.
Oscila entre -1 y 1.

Valor de R Interpretación
0 Ausencia de Correlación Lineal
0 < R ≤ ± 0,20 Correlación Lineal Insignificante
± 0,20 < R ≤ ± 0,40 Correlación Lineal Leve
± 0,40 < R ≤ ± 0,60 Correlación Lineal Regular
± 0,60 < R ≤ ± 0,80 Correlación Lineal Alta
± 0,80 < R < ± 1 Correlación Lineal Muy Alta
±1 Correlación Lineal Perfecta
Coeficiente de Correlación de Pearson «R»
Ejemplo:
El jefe de personal de una empresa cree que existe una relación
entre la ausencia al trabajo y la edad del empleado. Tomó en
cuenta la edad de 10 trabajadores y contabilizó los días de
ausencia en un año:
Edad 25 50 35 20 45 50 30 40 62 40

N° días de
20 5 10 20 8 2 15 12 1 8
ausencia

- Trace el diagrama de dispersión.


- Determine el grado de relación lineal
entre estas 2 variables.
Coeficiente de Correlación de Pearson «R»
Ejemplo:
- Diagrama de dispersión, en el plano cartesiano:

- En el eje X a la variable que influye sobre la otra: X → Edad


- En el eje Y a la variable que depende de la variable X: Y → N° días de ausencia


a
u
d
s
í
e
a
n
s
c
i
d
a
e

Edad
Coeficiente de Correlación de Pearson «R»
Ejemplo:
- Para calcular el valor de R:
N° días de
Edad XY X2 Y2
- 1° Realizamos los cálculos de ausencia
25 20 500 625 400
XY (cada valor de X 50 5 250 2500 25
multiplicado por su respectivo 35 10 350 1225 100
20 20 400 400 400
valor Y), X² (cada valor de X al
45 8 360 2025 64
cuadrado) y Y² (cada valor de Y 50 2 100 2500 4
30 15 450 900 225
al cuadrado); tal como se
40 12 480 1600 144
observa en la tabla adjunta. 62 1 62 3844 1
- 2° Se procede a sumar los 40 8 320 1600 64
397 101 3272 17219 1427
totales de cada columna.
Coeficiente de Correlación de Pearson «R»
Ejemplo:
- Para calcular el valor de R:

Las sumatorias: ෍ 𝑋 = 397 ෍ 𝑌 = 101 ෍ 𝑋𝑌 = 3272

෍ 𝑋 2 = 17219 ෍ 𝑌 2 = 1427 𝑛 = 10

10 ∗ 3272 − 397 ∗ (101)


𝑅=
10 ∗ 17219 − 397 2 ∗ [10 ∗ 1427 − 101 2 ]

𝑹 = −𝟎, 𝟗𝟓𝟕𝟕𝟐𝟖𝟐𝟐
La relación entre las variables es Inversa (R<0). Es decir; a
mayor Edad (X), el n° de días de ausencia (Y) es menor.
Ejemplo: (en Excel)

Considere un estudio donde se mide el DAP: Diámetro a la Altura del


Pecho (X) en centímetros y la Altura (Y) en metros. Se considera una
muestra de 10 árboles, los datos son:
DAP Altura
15.6 17.4
14.8 18.4
15.5 16.5
Calcule e interprete
12.5 15.2
la correlación.
14.2 19.9
15.7 22.1
12.3 14.8
14.2 17.3
8.8 10.3
11.9 14.6
Ejemplo: (en Excel)
El gráfico de dispersión en plano cartesiano:
Ejemplo: (en Excel)
Para calcular el coeficiente de Correlación de Pearson. En excel:
=COEF.DE.CORREL(matriz1,matriz2)

0.86450137 La correlación lineal


existente entre el DAP
(X) y la Altura (Y), es
MUY ALTA.

La relación entre las variables es Positiva (R>0). Es decir; a


mayor DAP (X), la Altura (Y) del árbol es mayor.
REGRESIÓN LINEAL SIMPLE
Regresión Lineal Simple:

Una de las aplicaciones más importantes de la


estadística implica la estimación del valor medio de
una variable de respuesta Y o la predicción de
algún valor futuro de Y con base el conocimiento
de un conjunto de variables independientes
relacionadas: X1, X2, . . . XK.
Regresión Lineal Simple:
Los modelos que se emplean para relacionar una
variable dependiente Y con las variables
independientes X1, X2, . . . XK se denominan modelos
de regresión o modelos estadísticos lineales porque
expresan el valor medio de Y para valores dados de
X1, X2, . . . XK como una función lineal de un conjunto
de parámetros desconocidos.
Regresión Lineal Simple:

Los conceptos de análisis de regresión se


presentan empleando un modelo de regresión muy
sencillo, uno que relaciona Y con una sola variable
X. Aprenderemos a ajustar este modelo a un
conjunto de datos mediante el método de los
mínimos cuadrados.
GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN

La relación entre dos variables métricas puede ser


representada mediante la línea de mejor ajuste a los datos.
Esta recta se le denomina recta de regresión, que puede ser
negativa o positiva, la primera con tendencia decreciente y la
segunda creciente.
GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN
Para el cálculo de la recta de regresión se aplica el método de
mínimos cuadrados entre dos variables. Esta línea es la que
hace mínima la suma de los cuadrados de los residuos, es
decir, es aquella recta en la que las diferencias elevadas al
cuadrado entre los valores calculados por la ecuación de la
recta y los valores reales de la serie, son las menores posibles.

𝒀 = 𝜷𝟎 + 𝜷𝟏 𝑿
Recta de Regresión
Pendiente

yn
yn 1 yˆ i
y3
u3 ui
yi
y1
yi
y2

x1 x2 x3 xi xn 1 xn
Intercepto

𝒀 = 𝜷𝟎 + 𝜷𝟏 𝑿 + 𝒖𝒊
Error
ui  yi  yˆi
Estimación de Coeficientes de Regresión:
Pendiente: 𝜷𝟏

𝒏 ∗ σ 𝑿𝒀 − σ 𝑿 ∗ σ 𝒀
𝜷𝟏 =
𝒏 ∗ σ 𝑿𝟐 − σ 𝑿 𝟐

Intercepto u Ordenada en el origen: 𝜷𝟎

σ𝒀 σ𝑿
𝜷𝟎 = − 𝜷𝟏 ∗
𝒏 𝒏
Otro objetivo de la regresión es la predicción de una variable
para un valor determinado de la otra.
La predicción de Y para X=x0 será simplemente el valor
obtenido en la recta de regresión de Y sobre X al sustituir el
valor de X por x0. La fiabilidad de esta predicción será tanto
mayor cuando mayor sea la correlación entre las variables.

Dado un valor de la variable “X” que no ha sido observado,


estimar el correspondiente valor de “Y”
Regresión Lineal Simple
Ejemplo:
- Tomando los datos del ejemplo de la ausencia al trabajo y la edad del
empleado :
N° días de
Edad XY X2 Y2
ausencia
- Obtenga la ecuación de 25 20 500 625 400
regresión. 50 5 250 2500 25
- Interprete el valor de la
35 10 350 1225 100
pendiente.
20 20 400 400 400
- Si un trabajador tiene 38 años,
45 8 360 2025 64
¿cuántos días se espera que
50 2 100 2500 4
falte al año?
30 15 450 900 225
40 12 480 1600 144
62 1 62 3844 1
40 8 320 1600 64
397 101 3272 17219 1427
Regresión Lineal Simple
Ejemplo:
- Para calcular el valor de los Coeficientes de la Ecuación:

Las sumatorias: ෍ 𝑋 = 397 ෍ 𝑌 = 101 ෍ 𝑋𝑌 = 3272

෍ 𝑋 2 = 17219 ෍ 𝑌 2 = 1427 𝑛 = 10

Pendiente: 𝜷𝟏
𝒏 ∗ σ 𝑿𝒀 − σ 𝑿 ∗ σ 𝒀
𝜷𝟏 =
𝒏 ∗ σ 𝑿𝟐 − σ 𝑿 𝟐
𝟏𝟎 ∗ 𝟑𝟐𝟕𝟐 − 𝟑𝟗𝟕 ∗ (𝟏𝟎𝟏)
𝜷𝟏 =
𝟏𝟎 ∗ 𝟏𝟕𝟐𝟏𝟗 − 𝟑𝟗𝟕 𝟐

𝜷𝟏 = −𝟎, 𝟓𝟎𝟓𝟗
Regresión Lineal Simple
Ejemplo:
- Para calcular el valor de los Coeficientes de la Ecuación:

Las sumatorias: ෍ 𝑋 = 397 ෍ 𝑌 = 101 ෍ 𝑋𝑌 = 3272

෍ 𝑋 2 = 17219 ෍ 𝑌 2 = 1427 𝑛 = 10

Intercepto u Ordenada en el origen: 𝜷𝟎


σ𝒀 σ𝑿
𝜷𝟎 = − 𝜷𝟏 ∗
𝒏 𝒏
𝟏𝟎𝟏 𝟑𝟗𝟕
𝜷𝟎 = − −𝟎, 𝟓𝟎𝟓𝟗 ∗
𝟏𝟎 𝟏𝟎
𝜷𝟎 = 𝟑𝟎, 𝟏𝟖𝟔
Regresión Lineal Simple
Ejemplo:
- La Ecuación:
𝒀 = 𝟑𝟎, 𝟏𝟖𝟔 − 𝟎, 𝟓𝟎𝟓𝟗𝑿

- Interpretación de la Pendiente: 𝜷𝟏 = −𝟎, 𝟓𝟎𝟓𝟗

Por cada año adicional en la Edad del empleado (X), el n° de días de


ausencia (Y) disminuye en 0,5059.

- Si un trabajador tiene 38 años, ¿cuántos días se espera que


falte al año?
𝒀 = 𝟑𝟎, 𝟏𝟖𝟔 − 𝟎, 𝟓𝟎𝟓𝟗 ∗ 𝟑𝟖 = 𝟏𝟎, 𝟗𝟔𝟏𝟖
Si un trabajador tiene 38 años (X=38), se espera que durante el año
registre, aproximadamente, 11 faltas.
Ejemplo: (en Excel)
Considerando los datos del problema anterior, encuentre la ecuación de
regresión entre el DAP y la altura.
Datos→Análisis de Datos→Regresión (activar Nivel de Confianza) →Aceptar
Ejemplo: (en Excel)

Interpretación de 𝜷𝟏 = 𝟏, 𝟐𝟖𝟏𝟎𝟐𝟖
Por cada centímetro adicional en el DAP
𝒀 = −𝟎, 𝟕𝟎𝟕𝟗𝟑𝟑 + 𝟏, 𝟐𝟖𝟏𝟎𝟐𝟖𝑿 (X), la Altura del árbol (Y) aumentará en
1,281028 metros.

S-ar putea să vă placă și