Documente Academic
Documente Profesional
Documente Cultură
Introducción al Análisis de
Correlación y de Regresión Lineal
14-1
Correlación y Regresión lineal
14-2
Ejemplos
Un analista financiero podría estar interesado en la relación entre
el comportamiento de los precios de las acciones y la política de
dividendos de las compañías del mercado de valores.
14-3
Objetivos
Continua….
14-4
Objetivos
(continuación)
14-5
Gráficos de Dispersión
Un gráfico de dispersión (o diagrama de dispersión) es
usado para mostrar la relación entre dos variables
cuantitativas.
14-6
Gráficos de Dispersión: Ejemplo
Relaciones lineales Relaciones curvilíneas
y y
x x
y y
x x
14-7
Gráficos de Dispersión: Ejemplo
(continuación)
Relaciones fuertes Relaciones débiles
y y
x x
y y
x x
14-8
Gráficos de Dispersión: Ejemplo
(continuación)
No hay relación
x
14-9
Coeficiente de Correlación
14-10
Características de r
No tiene unidad de medida.
Varía entre -1 y 1.
La cercanía a -1 indica fuerte relación lineal
negativa.
La cercanía a 1 indica fuerte relación lineal
positiva.
La cercanía a 0 indica débil relación lineal.
+1 ó -1 son correlaciones perfectas donde
todos los datos (puntos) caen sobre una línea
recta.
14-11
Ejemplos de Valores
Aproximados de r
y y y
x x x
r = -1 r = -.6 r=0
y y
x x
r = +.3 r = +1 14-12
Calculando el Coeficiente de
Correlación
Coeficiente de correlación muestral:
r=
∑( x −x )( y −y )
2 2
[∑( x −x ) ][ ∑( y −y ) ]
O el equivalente algebraico:
n∑ xy −∑ x ∑ y
r=
[n( ∑x 2 ) −( ∑ x )2 ][n( ∑ y 2 ) −( ∑y )2 ]
Donde:
r = Coeficiente de correlación muestral
n = Tamaño muestral
x = Valor de una variable (eje horizontal)
y = Valor de la otra variable (eje vertical)
14-13
Correlación: Ejemplo
Altura Diámetro
del árbol del tronco
y x xy y2 x2
35 8 280 1225 64
49 9 441 2401 81
27 7 189 729 49
33 6 198 1089 36
60 13 780 3600 169
21 7 147 441 49
45 11 495 2025 121
51 12 612 2601 144
=321 =73 =3142 =14111 =713
14-14
Correlación: Ejemplo
(continuación
)
Gráfico de dispersión n∑ xy −∑x ∑ y
Altura del r=
árbol, y
70
[n( ∑ x 2 ) −( ∑x)2 ][n( ∑ y 2 ) −( ∑y)2 ]
60
8(3142) −(73)(321)
50 =
[8(713) −(73)2 ][8(14111) −(321)2 ]
40
30
= 0.886
20
10
r = 0.886 → Asociación lineal positiva
0
0 2 4 6 8 10 12 14
relativamente fuerte entre x e y
Diámetro del tronco, x
14-15
Correlación: Usando Excel
14-16
Prueba de Significancia para la
Correlación
Hipótesis
Supuestos:
H0 : ρ = 0 (No hay correlación)
La medida de los datos es
HA: ρ ≠ 0 (Existe correlación) de intervalo o de razón
x e y están normalmente
La letra griega ρ (rho) representa el distribuidos
coeficiente de correlación poblacional
Estadístico de prueba
r
t= (con n – 2 grados de libertad)
1 −r 2
n −2
Se pierde 1 grado de libertad por
cada media muestral
14-17
Prueba de Significancia para la
Correlación (continuación)
¿Es significativa la relación lineal entre las
alturas de los árboles y los diámetros de sus
troncos al nivel de significancia de 0.05?
r 0.886
t= = = 4.68
1 −r 2 1 −0.886 2
n −2 8 −2
14-18
Prueba de Significancia para la
Correlación (continuación)
Región de rechazo:
g.l. = 8-2 = 6
/2=0.025 /2=0.025
Conclusión: Hay suficiente evidencia para concluir que existe relación lineal
significativa entre las alturas de los árboles y los diámetros de sus troncos al
nivel de significancia de 0.05.
14-19
Prueba de Significancia para la Correlación
14-20
Advertencia
La correlación entre dos variables no implica ninguna relación de causa-
efecto. El cálculo de una alta correlación positiva entre años de experiencia
y ventas en los vendedores de una empresa no es una prueba estadística
que los años de experiencia tenga como consecuencia mayores ventas,
solo significa que marchan en forma conjunta.
Para un período determinado se podría calcular una alta correlación entre
el salario promedio de los ingenieros del Ecuador y el precio de las uvas en
Francia, esto de ninguna forma significa que lo uno cause lo otro. Se está
ante lo que se denomina correlación espúrea.
La correlación también se puede dar por los efectos de un factor común
que incide sobre las dos variables en cuestión. Por ejemplo las mayores
ventas de los vendedores de mayor experiencia podría ser debido a que los
vendedores de más edad se les asigna los mejores territorios.
Relaciones de causa-efecto requieren de construcción de modelos
vinculados al fenómeno que se analiza.
14-21
Regresión Lineal Simple
14-22
Regresión Lineal
X, Y Análisis
X, Y
Correlacionadas
Regresión Lineal
y = β0 + β1x + ε
14-23
Introducción al Análisis de
Regresión
El análisis de regresión es usado para:
Predecir el valor de una variable dependiente (y)
basado en el valor de al menos una variable
independiente (x).
Explicar el impacto de cambios de una variable
independiente sobre la variable dependiente.
Variable dependiente: Variable que se desea
explicar.
Variable independiente: Variable usada para
explicar la variable dependiente.
14-24
Modelo de Regresión Lineal
Simple
Sólo una variable independiente, x.
14-25
Tipos de Regresión Lineal
Relación Lineal Positiva Relación NO Lineal
14-26
Modelo de Regresión Lineal
Simple (Poblacional)
Pendiente
Intercepto y de regresión Variable
poblacional independiente Error
poblacional
aleatorio,
Variable
o residual
y = â 0 + â1x + å
dependiente
14-27
Supuestos de la Regresión
Lineal
Los términos de error (ε) son realizaciones estadísticamente
independientes de una variable aleatoria para cada nivel de x.
Para un valor dado de x, pueden existir muchos valores de y por
lo tanto muchos valores de . La distribución de los posibles
errores para cualquier valor de x es normal.
Las distribuciones de los valores de tienen igual varianza para
todos los valores de x.
Las medias de la variable dependiente, y, para todos los valores
especificados de la variable independiente, x, pueden ser
conectados por una línea recta la cual es el componente lineal
del modelo de regresión poblacional.
Supuestos RL - Gráfica.pdf
14-28
Regresión Lineal Poblacional
(continuación)
y = â 0 + â1x + å μ = â 0 + â 1x
y y/ x
Valor observado
de y para xi
εi Pendiente = β1
Valor estimado Error aleatorio pa-
de y para xi ra este valor de x
Intercepto = β0
0 xi x
14-29
Coeficientes del Modelo Poblacional
Pendiente β1
Cambio promedio en la variable dependiente (y) ante
una variación unitaria de la variable independiente (x).
Cambio en μy/x ante una variación unitaria de x.
Intercepto β0
Valor promedio de la variable dependiente (y) cuando la
variable independiente (x) es cero. Interpretación válida
si x puede asumir el valor 0, caso contrario, no se tiene
una interpretación válida.
14-30
Regresión Lineal Estimada
La línea de regresión muestral proporciona un
estimado de la línea de regresión poblacional
Variable
ŷ = b 0 + b1x independiente
14-32
Criterio de Mínimos Cuadrados
∑e 2
= ∑(y −ŷ) 2
14-33
Ecuación de Mínimos
Cuadrados
Las ecuaciones para b1 y b0 son:
El equivalente algebraico
∑(x −x)(y −y) para b1 es:
b1 =
∑(x −x) 2
∑ x∑y
∑xy − n
b1 = 2
y 2 ( ∑ x )
∑x − n
b0 = y −b1x
14-34
Regresión de Mínimos Cuadrados:
Propiedades
La suma de los residuales de la línea de
regresión de mínimos cuadrados es siempre
cero.
La suma de los cuadrados de los residuales es
la mínima.
La línea de regresión siempre pasa a través del
punto ( x , y ).
Los coeficientes de mínimos cuadrados son
estimados insesgados de 0 y 1
14-35
Hallando la Ecuación de
Mínimos Cuadrados
Los coeficientes b0 y b1 usualmente son
hallados usando programas como Excel,
SPSS, etc.
14-36
Regresión Lineal Simple: Pasos
14-37
Regresión Lineal Simple:
Ejemplo
Un agente inmobilario desea examinar la relación
entre los precios de venta de casas y sus áreas
(pies cuadrados)
cuadrados)
14-38
Datos Muestrales para el
Modelo de Precios de Casas
Precio de casa, $1000s Área, pies cuadrados
(y) (x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
14-39
Regresión usando Excel
Pasos:
Datos /
Análisis de datos /
Regresión
14-40
Excel: Resultado
Pendiente
= 0.10977
Intercepto
= 98.248
14-42
Interpretación del estimado del
intercepto, b0
Precio de casa = 98.24833 + 0.10977 (área)
14-44
Variación Explicada y
No Explicada
La variación total se desagrega en dos partes:
14-46
Variación Explicada y
No Explicada
(continuación)
y
yi
2
SSE = (yi - yi ) y
_
SST = (yi - y)2
y _2
_ SSR = (yi - y) _
y y
Xi x
14-47
Coeficiente de Determinación, R2
El coeficiente de determinación es la porción
de la variación total de la variable dependiente
que es explicada por su relación lineal con la
variable independiente
SSR
R =2 donde 0 ≤R 2 ≤1
SST
14-48
Coeficiente de Determinación, R2
(continuación
)
Coeficiente de determinación
SSR Suma de cuadrados explicada por la regresión
R =
2
=
SST Suma total de cuadrados
Donde:
R =r2 2
R2 = Coeficiente de determinación
r = Coeficiente de correlación muestral
14-49
Ejemplos de Valores R2
y
R2 = 1
x
R =1
2
14-50
Ejemplos de Valores R2(continuación
)
y
0 < R2 < 1
x
14-51
Ejemplos de Valores R2(continuación
y )
R2 = 0
SSR 18934.9348
R =
2
= = 0.58082
SST 32600.5000
El 58.08% de la variación en los
precios de casas es explicada
por la variación en el área (pies
cuadrados)
14-53
Pruebas de Significancia
14-54
Pruebas de Significancia
14-55
Prueba para la Significancia del
Coeficiente de Determinación
Hipótesis
H0: La variación de la variable independiente no explica
H0: ρ = 0
2
la variación de la variable dependiente
Estadístico de prueba
SSR/1
F=
SSE/(n −2) (con glnumerador = 1 y gldenominador = n – 2)
14-56
Excel: Resultado
SSR/1 18934.93/1
F= = = 11.085
SSE/(n - 2) 13665.57/( 10 - 2)
El valor crítico F para = 0.05 y glnumerador=1
y gldenominador=8 es 5.318. Como 11.08 > 5.31
entonces se rechaza H0 (ρ ( 2 = 0)
14-57
Significancia Estadística
de la
Pendiente
14-58
b1(1)
Valores
Población que
Media β1 puede
tomar la
Muestra1
variable
Muestra 2 aleatoria
b1(2)
Muestra n
Describir b1
b1(3)
a través de
una
distribución
muestral
7-59
Distribución muestral de b1
σb1
͞ b1= β1
14-60
Desviación Estándar de la Pendiente
de Regresión
σå
σ b1 = 2
∑ (x −x)
Donde, σ b1 : Desviación estándar de la estimación de la pendiente de
regresión
σ å : Error estándar de la estimación
σ bes estimado por: så så
1 sb1 = =
2
∑(x −x) ( ∑ x)2
2
∑x − n
Donde: sb1 = Estimador de la desviación estándar de la pendiente
de regresión de mínimos cuadrados
SSE
så =
n −2 = Error (desviación) estándar muestral de la estimación
14-61
Error Estándar de la Estimación
Es la desviación estándar de la variación
de observaciones alrededor de la línea de
regresión simple estimada por:
SSE
så =
n −2
Donde:
SSE = Suma de cuadrados del error
n = Tamaño de la muestra
14-62
Comparando los Errores
Estándar
Variación de los valores obser- Variación en la pendiente de las
vados y respecto a la línea de líneas de regresión de diferentes
y regresión
y muestras posibles
s ε ( pequeño) x s b1 ( pequeño) x
y y
sε ( grande) x s b1 ( grande) x
14-63
Excel: Resultado
så = 41.33032
sb1 = 0.03297
14-64
Evaluación de la Pendiente de
Regresión: Prueba t
Prueba t para una pendiente poblacional
¿Hay relación lineal entre x e y?
Hipótesis nula y alternativa
H0: β1 = 0 (No hay relación lineal)
HA: β1 0 (Existe relación lineal)
Estadístico de prueba
b1 −â1 Donde: b1 = Coeficiente de la pen-
t= diente de regresión
sb1 muestral
β1 = Pendiente (hipótesis)
sb1 = Estimador del error es-
g.l. = n −2 tandar de la pendiente
14-65
Evaluación de la Pendiente de
Regresión: Prueba t
(continuación)
Ejemplo:
Ecuación de regresión estimada:
Precio de Área, pies
casa, $1000s cuadrados
(y) (x) Precio de casa = 98.25 + 0.1098 (Área)
245 1400
312 1600
279 1700
308 1875
La pendiente de este modelo es
199 1100 0.1098
219 1550
¿Los precios de las casas son
405 2350
324 2450
afectados por sus áreas?
319 1425
255 1700
14-66
Evaluación de la Pendiente de
Regresión: Prueba t
(continuación)
Ejemplo: H0: β1 = 0 HA: β1 0
Excel, resultado: b1 sb1
Coeficiente Error Estándar t Valor p
Intercepto 98.24833 58.03348 1.69296 0.12892
Área 0.10977 0.03297 3.32938 0.01039
g.l. = 10-2 = 8
Estadístico de prueba:
t = 3.329
/2=0.025
/2=0.025
-2.3060
0 2.3060
Decision: Rechazar H0
Conclusion: Hay suficiente evidencia para concluir que la pendiente no es cero
14-67
Usos del Análisis de Regresión
Para descripción
Para predicción
14-68
Intervalo de Confianza
para la
Pendiente
14-69
Análisis de Regresión para la
Descripción
Intervalo de confianza para la pendiente:
b1 ± t α/2 sb1 g.l. = n - 2
Excel, resultados:
14-70
Análisis de Regresión para la
Descripción
(continuación)
Intervalo de Confianza
para
ŷ
14-72
Intervalos para Diferentes
Valores de x
Intervalo de
confianza
+ b x para la
y = b0
1
media de y,
dado xp
x
x xp
14-73
Intervalo de Confianza para el
Promedio de y, Dado x
Intervalo de confianza para la media de y
dado un valor particular xp
2
1 (x p −x)
ŷ ± t α/2 så + 2
n ∑(x −x)
14-74
Intervalo de Confianza para el Promedio de y, Dado x
2
1 (x p −x)
ŷ ± t α/2 så + 2
n ∑(x −x)
14-75
Intervalos para Diferentes
Valores de x
Intervalo de
confianza
+ b x para la
y = b0
1
media de y,
dado xp
x
x xp
14-76
Intervalo de Confianza para el Promedio de y, Dado x
Xp - X y precisión de predicción.pdf
14-77
Intervalo de Predicción
para un “y” dado un “x”
14-78
Intervalo de Predicción para un y
particular, Dado x
Intervalo de predicción para un valor
individual de y dado un xp particular
2
1 (x p −x)
y ± tα /2s å 1+ + 2
n ∑(x −x)
14-79
Intervalo de Predicción para
un y particular, Dado x
Intervalo de predic-
ción para un y indi-
y vidual, dado xp
Intervalo de
confianza
+ b x para la
y = b0
1
media de y,
dado xp
x
x xp
14-80
Análisis de Regresión para Predicción,
Ejemplo: Precios de Casas
14-81
Análisis de Regresión para Predicción,
Ejemplo: Precios de Casas
(continuación)
1 (x p −x)2
ŷ ± t á/2 så + 2
= 317.85 ± 37.12
n ∑(x −x)
1 (x p −x) 2
y ± t á/2 s å 1+ + 2
= 317.85 ±102.28
n ∑(x −x)
14-85
Resumen
Se introdujo el análisis de correlación
Se discutió la correlación para medir la intensidad
de una asociación lineal
Se introdujo el análisis de regresión lineal simple
Se calculó los coeficientes para la ecuación de
regresión lineal simple
Se describió medidas de variación (R2 y sε)
Se expuso los supuestos de correlación y
regresión
14-86
Resumen
(continuación
)
Se describió la inferencia acerca de la
pendiente
Se expuso la estimación de promedios de y,
así como la predicción de y’s individuales
14-87