10616738

14
Introducción al Análisis de
Correlación y de Regresión Lineal
14-1
Correlación y Regresión lineal
Se dan situaciones donde el análisis involucra

considerar la relación de dos o más variables…..
14-2
Ejemplos
 Un analista financiero podría estar interesado en la relación entre
el comportamiento de los precios de las acciones y la política de
dividendos de las compañías del mercado de valores.
 Un gerente de ventas puede estar interesado en examinar la

relación entre las ventas y el gasto en publicidad.
 El gerente de créditos de un banco podría estar interesado en la

relación entre el precio de una casa y diversos factores, como su
área, antigüedad, etc.
El análisis de correlación y el de regresión lineal son técnicas

estadísticas de aplicación difundida para estas situaciones.
14-3
Objetivos
 Calcular e interpretar la correlación entre dos variables.

 Determinar si la correlación es significativa.
 Calcular e interpretar la ecuación de regresión lineal
simple para un conjunto de datos.
 Entender los supuestos detrás del análisis de regresión.
 Determinar si el modelo de regresión es significativo.
Continua….
14-4
Objetivos
(continuación)
 Calcular e interpretar intervalos de confianza para

coeficientes de regresión.
 Reconocer aplicaciones de análisis de regresión para

situaciones de predicción y descripción.
 Reconocer algunos problemas portenciales si el

análisis de regresión es usado incorrectamente.
14-5
Gráficos de Dispersión
 Un gráfico de dispersión (o diagrama de dispersión) es
usado para mostrar la relación entre dos variables
cuantitativas.
 La relación lineal puede ser:

 Positiva – cuando “x” crece, “y” crece
 Cuando la inversión en publicidad crece, las
ventas crecen.
 Negativa – cuando “x” crece, “y” decrece
 Cuando el gasto crece, el ingreso neto
decrece.
14-6
Gráficos de Dispersión: Ejemplo
Relaciones lineales Relaciones curvilíneas
y y
x x
y y
x x
14-7
(continuación)
Relaciones fuertes Relaciones débiles
y y
x x
y y
x x
14-8
(continuación)
No hay relación
x
14-9
Coeficiente de Correlación
 La correlación mide la intensidad de la asociación lineal (relación

lineal) entre dos variables.
 Enfocada solamente en la intensidad de la relación.
 No implica relaciones de causa-efecto.
 El coeficiente de correlación muestral r es una medida de la

intensidad de la relación lineal entre dos variables, basado en
observaciones muestrales.
 Se tiene una correlación espuria cuando existe una asociación lineal

entre variables aparentemente no relacionadas.
 Ejemplo, la correlación entre las ventas de las compañías y el
número de hijos que tienen los empleados.
14-10
Características de r
 No tiene unidad de medida.
 Varía entre -1 y 1.
 La cercanía a -1 indica fuerte relación lineal
negativa.
 La cercanía a 1 indica fuerte relación lineal
positiva.
 La cercanía a 0 indica débil relación lineal.
 +1 ó -1 son correlaciones perfectas donde
todos los datos (puntos) caen sobre una línea
recta.
14-11
Ejemplos de Valores
Aproximados de r
y y y
x x x
r = -1 r = -.6 r=0
y y
x x
r = +.3 r = +1 14-12
Calculando el Coeficiente de
Correlación
Coeficiente de correlación muestral:
r=
∑( x −x )( y −y )
2 2
[∑( x −x ) ][ ∑( y −y ) ]
O el equivalente algebraico:
n∑ xy −∑ x ∑ y
r=
[n( ∑x 2 ) −( ∑ x )2 ][n( ∑ y 2 ) −( ∑y )2 ]
Donde:
r = Coeficiente de correlación muestral
n = Tamaño muestral
x = Valor de una variable (eje horizontal)
y = Valor de la otra variable (eje vertical)
14-13
Correlación: Ejemplo
Altura Diámetro
del árbol del tronco
y x xy y2 x2
35 8 280 1225 64
49 9 441 2401 81
27 7 189 729 49
33 6 198 1089 36
60 13 780 3600 169
21 7 147 441 49
45 11 495 2025 121
51 12 612 2601 144
=321 =73 =3142 =14111 =713
14-14
Correlación: Ejemplo
(continuación
)
Gráfico de dispersión n∑ xy −∑x ∑ y
Altura del r=
árbol, y
70
[n( ∑ x 2 ) −( ∑x)2 ][n( ∑ y 2 ) −( ∑y)2 ]
60
8(3142) −(73)(321)
50 =
[8(713) −(73)2 ][8(14111) −(321)2 ]
40
30
= 0.886
20
10
r = 0.886 → Asociación lineal positiva
0
0 2 4 6 8 10 12 14
relativamente fuerte entre x e y
Diámetro del tronco, x
14-15
Correlación: Usando Excel
Pasos en Excel para calular la correlación

Datos / Análisis de datos / Coeficiente de correlation:
Correlación entre altura del

árbol y diámetro del tronco
14-16
Prueba de Significancia para la
Correlación
 Hipótesis
Supuestos:
H0 : ρ = 0 (No hay correlación)
La medida de los datos es
HA: ρ ≠ 0 (Existe correlación) de intervalo o de razón
x e y están normalmente
La letra griega ρ (rho) representa el distribuidos
coeficiente de correlación poblacional
 Estadístico de prueba
r
t= (con n – 2 grados de libertad)
1 −r 2
n −2
Se pierde 1 grado de libertad por
cada media muestral
14-17
Correlación (continuación)
¿Es significativa la relación lineal entre las
alturas de los árboles y los diámetros de sus
troncos al nivel de significancia de 0.05?
H0: ρ = 0 (No hay correlación)

H1: ρ ≠ 0 (Existe correlación)
 =0.05 , gl = 8 - 2 = 6
r 0.886
t= = = 4.68
1 −r 2 1 −0.886 2
n −2 8 −2
14-18
Correlación (continuación)
Región de rechazo:
g.l. = 8-2 = 6
/2=0.025 /2=0.025
Rechazar H0 No rechazar H0 Rechazar H0

-tα/2 0
tα/2
-2.4469 2.4469
Estadístico de prueba: r 0.886
t = = = 4.68
1 −r 2 1 −0.886 2
n −2 8 −2
Decisión: Como t = 4.68 > 2.45 = tα/2 , entonces se rechaza H0
Conclusión: Hay suficiente evidencia para concluir que existe relación lineal
significativa entre las alturas de los árboles y los diámetros de sus troncos al
nivel de significancia de 0.05.
14-19
Prueba de Significancia para la Correlación
 La prueba t para la determinación de si la correlación poblacional

es significativamente diferente de cero requiere de los siguientes
dos supuestos:
 La data es de intervalo o de ratio.
 Las dos variables (x e y) se distribuyen según una distribución
normal bivariada (la distribución conjunta es normal).
 Sin embargo, respecto del supuesto de normalidad, la prueba es

robusta; esto es, las inferencias son correctas, aún cuando se
tenga algunas desviaciones respecto de la distribución mormal.
14-20
Advertencia
 La correlación entre dos variables no implica ninguna relación de causa-
efecto. El cálculo de una alta correlación positiva entre años de experiencia
y ventas en los vendedores de una empresa no es una prueba estadística
que los años de experiencia tenga como consecuencia mayores ventas,
solo significa que marchan en forma conjunta.
 Para un período determinado se podría calcular una alta correlación entre
el salario promedio de los ingenieros del Ecuador y el precio de las uvas en
Francia, esto de ninguna forma significa que lo uno cause lo otro. Se está
ante lo que se denomina correlación espúrea.
 La correlación también se puede dar por los efectos de un factor común
que incide sobre las dos variables en cuestión. Por ejemplo las mayores
ventas de los vendedores de mayor experiencia podría ser debido a que los
vendedores de más edad se les asigna los mejores territorios.
 Relaciones de causa-efecto requieren de construcción de modelos
vinculados al fenómeno que se analiza.
14-21
Regresión Lineal Simple
Suponga que se ha calculado y validado la correlación entre los años

de venta de los vendedores y su volumen de ventas, se quiere
analizar esa relación. El método estadístico para este fin es el
Análisis de Regresión.
Si solo se tienen dos variables la técnica se refiere como Análisis de

Regresión Lineal Simple, el cual se ve en esta sesión. La siguiente
sesión considerará el caso del Análisis de Regresión Lineal Múltiple.
14-22
Regresión Lineal
X, Y Análisis
X, Y
Correlacionadas
Regresión Lineal
y = β0 + β1x + ε
14-23
Introducción al Análisis de
Regresión
 El análisis de regresión es usado para:
 Predecir el valor de una variable dependiente (y)
basado en el valor de al menos una variable
independiente (x).
 Explicar el impacto de cambios de una variable
independiente sobre la variable dependiente.
Variable dependiente: Variable que se desea
explicar.
Variable independiente: Variable usada para
explicar la variable dependiente.
14-24
Modelo de Regresión Lineal
Simple
 Sólo una variable independiente, x.
 La relación entre x e y es descrita por

una función lineal.
 Se asume que los cambios en y son

causados por cambios en x.
14-25
Tipos de Regresión Lineal
Relación Lineal Positiva Relación NO Lineal
Relación Lineal Negativa No Hay Relación
14-26
Modelo de Regresión Lineal
Simple (Poblacional)
Pendiente
Intercepto y de regresión Variable
poblacional independiente Error
poblacional
aleatorio,
Variable
o residual
y = â 0 + â1x + å
dependiente
Componente lineal Componente

error aleatorio
14-27
Supuestos de la Regresión
Lineal
 Los términos de error (ε) son realizaciones estadísticamente
independientes de una variable aleatoria para cada nivel de x.
 Para un valor dado de x, pueden existir muchos valores de y por
lo tanto muchos valores de . La distribución de los posibles
errores para cualquier valor de x es normal.
 Las distribuciones de los valores de tienen igual varianza para
todos los valores de x.
 Las medias de la variable dependiente, y, para todos los valores
especificados de la variable independiente, x, pueden ser
conectados por una línea recta la cual es el componente lineal
del modelo de regresión poblacional.
Supuestos RL - Gráfica.pdf
14-28
Regresión Lineal Poblacional
(continuación)
y = â 0 + â1x + å μ = â 0 + â 1x
y y/ x
Valor observado
de y para xi
εi Pendiente = β1
Valor estimado Error aleatorio pa-
de y para xi ra este valor de x
Intercepto = β0
0 xi x
14-29
Coeficientes del Modelo Poblacional
 Pendiente β1
Cambio promedio en la variable dependiente (y) ante
una variación unitaria de la variable independiente (x).
Cambio en μy/x ante una variación unitaria de x.
 Intercepto β0
Valor promedio de la variable dependiente (y) cuando la
variable independiente (x) es cero. Interpretación válida
si x puede asumir el valor 0, caso contrario, no se tiene
una interpretación válida.
14-30
Regresión Lineal Estimada
La línea de regresión muestral proporciona un
estimado de la línea de regresión poblacional
Valor Estimado del Estimado de la

predecido intercepto de pendiente de
de y regresión regresión
Variable
ŷ = b 0 + b1x independiente
Los términos de errores individuales (ei) tienen una media

de cero
14-31
Interpretación de la Pendiente y
del Intercepto
Modelo regresión lineal poblacional: y = â 0 + â 1x + å
Componente lineal poblacional: μ y/ x = â 0 + â 1x
Modelo regresión lineal muestral: y = b 0 + b1x + e
Regresión lineal muestral: ŷ = b 0 + b1x
 b0 es el estimado del valor promedio de y cuando

el valor de x es cero.
 b1 es el estimado del cambio en el valor promedio

de y que resulta de un cambio de una unidad en x.
14-32
Criterio de Mínimos Cuadrados
 b0 y b1 son obtenidos hallando los valores

de b0 y b1 que minimizan la suma de
cuadrados de los residuales (error)
∑e 2
= ∑(y −ŷ) 2
= ∑(y −(b0 + b1x)) 2
14-33
Ecuación de Mínimos
Cuadrados
 Las ecuaciones para b1 y b0 son:
El equivalente algebraico
∑(x −x)(y −y) para b1 es:
b1 =
∑(x −x) 2
∑ x∑y
∑xy − n
b1 = 2
y 2 ( ∑ x )
∑x − n
b0 = y −b1x
14-34
Regresión de Mínimos Cuadrados:
Propiedades
 La suma de los residuales de la línea de
regresión de mínimos cuadrados es siempre
cero.
 La suma de los cuadrados de los residuales es
la mínima.
 La línea de regresión siempre pasa a través del
punto ( x , y ).
 Los coeficientes de mínimos cuadrados son
estimados insesgados de 0 y 1
14-35
Hallando la Ecuación de
Mínimos Cuadrados
 Los coeficientes b0 y b1 usualmente son
hallados usando programas como Excel,
SPSS, etc.
 Otras medidas de regresión también son

calculadas como parte del análisis de
regresión de los programas.
14-36
Regresión Lineal Simple: Pasos
1. Especificar la variable independiente (x) y la

dependiente (y)
2. Desarrollar un gráfico de dispersión
3. Calcular el coeficiente de correlación
4. Determinar la ecuación de regresión lineal
14-37
Regresión Lineal Simple:
Ejemplo
 Un agente inmobilario desea examinar la relación
entre los precios de venta de casas y sus áreas
(pies cuadrados)
 Una muestra al azar de 10 casas fue seleccionada

 Variable dependiente (y) = Precio ($1000s)
 Variable independiente (x) = Área (pies
cuadrados)
14-38
Datos Muestrales para el
Modelo de Precios de Casas
Precio de casa, $1000s Área, pies cuadrados
(y) (x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
14-39
Regresión usando Excel
Pasos:
Datos /
Análisis de datos /
Regresión
14-40
Excel: Resultado
La ecuación de regresión es:

Precio de casa = 98.24833 + 0.10977 (área)
14-41
Presentación Gráfica
 Modelo de precio de casa: Gráfico de
dispersión y línea de regresión
Pendiente
= 0.10977
Intercepto
= 98.248
14-42
Interpretación del estimado del
intercepto, b0
 b0 es el estimado del valor promedio de y

cuando el valor de x es cero (si x = 0 está en el
rango de los valores observados de x)
 Como no hay casas que tengan de área 0 pies cua-
drados, entonces b0 = 98.24833 indica que, para las
casas cuyas áreas estén dentro del rango observado,
$98,248.33 es la porción del precio promedio
de de la casa no explicado por el área.
14-43
Interpretación del estimado de la
pendiente, b1
 b1 mide el estimado del cambio en el

valor promedio de “y” que resulta de un
cambio de una unidad de “x”
 b1 = 0.10977 indica que el valor promedio de una
casa se incrementa en 0.10977($1000) = $109.77,
por cada unidad de pie cuadrado adicional.
14-44
Variación Explicada y
No Explicada
 La variación total se desagrega en dos partes:
SST = SSE + SSR

Suma Total de Suma de Cuadra- Suma de Cuadra-
Cuadrados dos del Error dos de Regresión
SST = ∑( y −y )2 SSE = ∑( y −ŷ )2 SSR = ∑( ŷ −y )2

Donde:
y = Valor promedio de la variable dependiente
y = Valor observado de la variable dependiente
ŷ = Valor predecido de y para un valor x dado
14-45
No Explicada
(continuación)
 SST = Suma Total de Cuadrados

 Mide la variación de los valores yi respecto a su media
y
 SSE = Suma de Cuadrados del Error
 Variación atribuible a otros factores no incluidos en la
relación entre x e y
 SSR = Suma de Cuadrados de Regresión
 Variación explicada atribuible a la relación lineal entre
x e y
14-46
No Explicada
(continuación)
y
yi 
 2
SSE = (yi - yi ) y
_
SST = (yi - y)2

y  _2
_ SSR = (yi - y) _
y y
Xi x
14-47
Coeficiente de Determinación, R2
 El coeficiente de determinación es la porción
de la variación total de la variable dependiente
que es explicada por su relación lineal con la
variable independiente
 El coeficiente de determinación es también

llamado R-cuadrado y es denotado como R2
SSR
R =2 donde 0 ≤R 2 ≤1
SST
14-48
Coeficiente de Determinación, R2
(continuación
)
Coeficiente de determinación
SSR Suma de cuadrados explicada por la regresión
R =
2
=
SST Suma total de cuadrados
Nota: Para el caso de una sola variable independiente, el

coeficiente de determinación es
Donde:
R =r2 2
R2 = Coeficiente de determinación
r = Coeficiente de correlación muestral
14-49
Ejemplos de Valores R2
y
R2 = 1
Relación lineal perfecta

entre x e y:
x
R2 = 1
y El100% de la variación en
y es explicada por la
variacion en x
x
R =1
2
14-50
Ejemplos de Valores R2(continuación
)
y
0 < R2 < 1
Relación lineal no perfecta

entre x e y:
x
Parte de la variación en y
y
es explicada por la
variación en x
x
14-51
Ejemplos de Valores R2(continuación
y )
R2 = 0
No hay relación lineal entre

x x e y:
R2 = 0
y
Los valores de Y no
dependen de X. (Nada de
la variación en y es
explicada por la variación
en x)
x
R2 = 0
14-52
Excel: Resultado
SSR 18934.9348
R =
2
= = 0.58082
SST 32600.5000
El 58.08% de la variación en los
precios de casas es explicada
por la variación en el área (pies
cuadrados)
14-53
Pruebas de Significancia
 El coeficiente de correlación (r), el coeficiente de

determinación (R2) y los coeficientes de regresión (b0 y
b1) son estimados puntuales, a partir de la muestra, de
los respectivos verdaderos valores poblacionales: ρ, ρ2
y β0, β1. Por lo tanto están sujetos a error muestral.
 Se requieren procedimientos de pruebas estadística

para determinar la significancia estadística de estos
estimados.
14-54
Pruebas de Significancia
 Para la regresión lineal simple hay tres pruebas

estadísticas equivalentes:
 Prueba para la significancia de la correlación (ρ)

entre x e y
 Prueba para la significancia del coeficiente de
determinación (ρ 2)
 Prueba para la significancia de la pendiente de
regresión (1)
14-55
Prueba para la Significancia del
Coeficiente de Determinación
 Hipótesis
H0: La variación de la variable independiente no explica
H0: ρ = 0
2
la variación de la variable dependiente
HA: La variación de la variable independiente explica

una porción de la variación de la variable
HA: ρ2 > 0 dependiente
SSR/1
F=
SSE/(n −2) (con glnumerador = 1 y gldenominador = n – 2)
14-56
Excel: Resultado
SSR/1 18934.93/1
F= = = 11.085
SSE/(n - 2) 13665.57/( 10 - 2)
El valor crítico F para  = 0.05 y glnumerador=1
y gldenominador=8 es 5.318. Como 11.08 > 5.31
entonces se rechaza H0 (ρ ( 2 = 0)
14-57
Significancia Estadística
de la
Pendiente
14-58
b1(1)
Valores
Población que
Media β1 puede
tomar la
Muestra1
variable
Muestra 2 aleatoria
b1(2)
Muestra n
Describir b1
b1(3)
a través de
una
distribución
muestral
7-59
Distribución muestral de b1
σb1
͞ b1= β1
14-60
Desviación Estándar de la Pendiente
de Regresión
σå
σ b1 = 2
∑ (x −x)
Donde, σ b1 : Desviación estándar de la estimación de la pendiente de
regresión
σ å : Error estándar de la estimación

σ bes estimado por: så så
1 sb1 = =
2
∑(x −x) ( ∑ x)2
2
∑x − n
Donde: sb1 = Estimador de la desviación estándar de la pendiente
de regresión de mínimos cuadrados
SSE
så =
n −2 = Error (desviación) estándar muestral de la estimación
14-61
Error Estándar de la Estimación
 Es la desviación estándar de la variación
de observaciones alrededor de la línea de
regresión simple estimada por:
SSE
så =
n −2
Donde:
SSE = Suma de cuadrados del error
n = Tamaño de la muestra
14-62
Comparando los Errores
Estándar
Variación de los valores obser- Variación en la pendiente de las
vados y respecto a la línea de líneas de regresión de diferentes
y regresión
y muestras posibles
s ε ( pequeño) x s b1 ( pequeño) x
y y
sε ( grande) x s b1 ( grande) x
14-63
Excel: Resultado
så = 41.33032
sb1 = 0.03297
14-64
Evaluación de la Pendiente de
Regresión: Prueba t
 Prueba t para una pendiente poblacional
 ¿Hay relación lineal entre x e y?
 Hipótesis nula y alternativa
H0: β1 = 0 (No hay relación lineal)
HA: β1 0 (Existe relación lineal)
b1 −â1 Donde: b1 = Coeficiente de la pen-
t= diente de regresión
sb1 muestral
β1 = Pendiente (hipótesis)
sb1 = Estimador del error es-
g.l. = n −2 tandar de la pendiente
14-65
(continuación)
Ejemplo:
Ecuación de regresión estimada:
Precio de Área, pies
casa, $1000s cuadrados
(y) (x) Precio de casa = 98.25 + 0.1098 (Área)
245 1400
312 1600
279 1700
308 1875
La pendiente de este modelo es
199 1100 0.1098
219 1550
¿Los precios de las casas son
405 2350
324 2450
afectados por sus áreas?
319 1425
255 1700
14-66
(continuación)
Ejemplo: H0: β1 = 0 HA: β1  0
Excel, resultado: b1 sb1
Coeficiente Error Estándar t Valor p
Intercepto 98.24833 58.03348 1.69296 0.12892
Área 0.10977 0.03297 3.32938 0.01039
g.l. = 10-2 = 8
Estadístico de prueba:
t = 3.329
/2=0.025
/2=0.025
-tα/2No rechazar H0 tα/2

Rechazar H0 Rechazar H0
-2.3060
0 2.3060
Decision: Rechazar H0
Conclusion: Hay suficiente evidencia para concluir que la pendiente no es cero
14-67
Usos del Análisis de Regresión
 Para descripción
 Para predicción
14-68
Intervalo de Confianza
para la
Pendiente
14-69
Análisis de Regresión para la
Descripción
Intervalo de confianza para la pendiente:
b1 ± t α/2 sb1 g.l. = n - 2
Excel, resultados:
Con un nivel de confianza del 95%, el intervalo de

confianza para la pendiente es (0.0337, 0.1858)
14-70
Análisis de Regresión para la
Descripción
(continuación)
Como la variable precio de casa está expresada

en miles de dólares, estamos 95% seguros que el
impacto promedio sobre el precio de casa está
entre $33.70 y $185.80 por pie cuadrado
Este intervalo de confianza (al 95%) no incluye 0.

Conclusión: Hay una relación lineal estadísticamente
significativa entre el precio de casa y el área al nivel de
significancia de 0.05
14-71
Descripción
Intervalo de Confianza
para
ŷ
14-72
Intervalos para Diferentes
Valores de x
Intervalo de
confianza
 + b x para la
y = b0
1
media de y,
dado xp
x
x xp
14-73
Intervalo de Confianza para el
Promedio de y, Dado x
Intervalo de confianza para la media de y
dado un valor particular xp
2
1 (x p −x)
ŷ ± t α/2 så + 2
n ∑(x −x)
14-74
Intervalo de Confianza para el Promedio de y, Dado x
El intervalo de confianza depende en forma

importante de la distancia de xp respecto del valor
medio de x. Cuanto más lejos xp del punto medio,
el intervalo de confianza será más amplio, para
un mismo nivel de confianza.
2
1 (x p −x)
ŷ ± t α/2 så + 2
n ∑(x −x)
14-75
Intervalos para Diferentes
Valores de x
Intervalo de
confianza
 + b x para la
y = b0
1
media de y,
dado xp
x
x xp
14-76
Intervalo de Confianza para el Promedio de y, Dado x
Xp - X y precisión de predicción.pdf
14-77
Intervalo de Predicción
para un “y” dado un “x”
14-78
Intervalo de Predicción para un y
particular, Dado x
Intervalo de predicción para un valor
individual de y dado un xp particular
2
1 (x p −x)
y ± tα /2s å 1+ + 2
n ∑(x −x)
Este término extra alarga el intervalo al reflejar la

incertidumbre adicional considerada en un caso
individual
14-79
Intervalo de Predicción para
un y particular, Dado x
Intervalo de predic-
ción para un y indi-
y vidual, dado xp
Intervalo de
confianza
 + b x para la
y = b0
1
media de y,
dado xp
x
x xp
14-80
Análisis de Regresión para Predicción,
Ejemplo: Precios de Casas
Precio de Área, pies Ecuación de regresión estimada:

casa, $1000s cuadrados
(y) (x)
Precio de casa = 98.25 + 0.1098 (Área)
245 1400
312 1600
279 1700
308 1875 Predecir el precio para una
199 1100 casa de 2000 pies cuadrados
219 1550
405 2350
324 2450
319 1425
255 1700
14-81
Análisis de Regresión para Predicción,
Ejemplo: Precios de Casas
(continuación)
Predecir el precio para una

casa de 2000 pies cuadrados
Precio de casa = 98.25 + 0.1098 (Área)

= 98.25 + 0.1098(2000)
= 317.85
El precio predecido para una casa de
2000 pies cuadrados es
317.85($1,000s) = $317,850
14-82
Estimación de Promedios:
Ejemplo
Intervalo de Confianza para E(y)|xp
Hallar el intervalo de confianza al 95% para el precio
promedio de casas de 2000 pies cuadrados

Precio Predecido Yi = 317.85 ($1,000s)
1 (x p −x)2
ŷ ± t á/2 så + 2
= 317.85 ± 37.12
n ∑(x −x)
El intervalo de confianza es 280.66 -- 354.90, o

$280,730 -- $354,970
14-83
Predicción para y’s Individuales:
Ejemplo
Intervalo de predicción para y|xp
Hallar el intervalo de predicción al 95% para el precio
de una casa de 2,000 pies cuadrados

Precio Predecido Yi = 317.85 ($1,000s)
1 (x p −x) 2
y ± t á/2 s å 1+ + 2
= 317.85 ±102.28
n ∑(x −x)
El intervalo de predicción es 215.57 -- 420.13, o

$215,570 -- $420,130
14-84
Problemas con Regresión
 Aplicando análisis de regresión con fines
predictivos
 Pueden ocurrir errores grandes de predicción
 No suponer que correlación implica causalidad
 Un alto coeficiente de determinación, R2, no

garantiza que el modelo sea un buen predictor
 R2 es simplemente el ajuste de la línea de regresión a los
datos muestrales
14-85
Resumen
 Se introdujo el análisis de correlación
 Se discutió la correlación para medir la intensidad
de una asociación lineal
 Se introdujo el análisis de regresión lineal simple
 Se calculó los coeficientes para la ecuación de
regresión lineal simple
 Se describió medidas de variación (R2 y sε)
 Se expuso los supuestos de correlación y
regresión
14-86
Resumen
(continuación
)
 Se describió la inferencia acerca de la
pendiente
 Se expuso la estimación de promedios de y,
así como la predicción de y’s individuales
14-87

10616738

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

10616738

Încărcat de

Drepturi de autor:

Formate disponibile

14

Se dan situaciones donde el análisis involucra

 Un gerente de ventas puede estar interesado en examinar la

 El gerente de créditos de un banco podría estar interesado en la

El análisis de correlación y el de regresión lineal son técnicas

 Calcular e interpretar la correlación entre dos variables.

 Calcular e interpretar intervalos de confianza para

 Reconocer aplicaciones de análisis de regresión para

 Reconocer algunos problemas portenciales si el

 La relación lineal puede ser:

 La correlación mide la intensidad de la asociación lineal (relación

 No implica relaciones de causa-efecto.

 El coeficiente de correlación muestral r es una medida de la

 Se tiene una correlación espuria cuando existe una asociación lineal

número de hijos que tienen los empleados.

Pasos en Excel para calular la correlación

Correlación entre altura del

H0: ρ = 0 (No hay correlación)

Rechazar H0 No rechazar H0 Rechazar H0

Decisión: Como t = 4.68 > 2.45 = tα/2 , entonces se rechaza H0

 La prueba t para la determinación de si la correlación poblacional

 Las dos variables (x e y) se distribuyen según una distribución

normal bivariada (la distribución conjunta es normal).

 Sin embargo, respecto del supuesto de normalidad, la prueba es

Suponga que se ha calculado y validado la correlación entre los años

Si solo se tienen dos variables la técnica se refiere como Análisis de

 La relación entre x e y es descrita por

 Se asume que los cambios en y son

Relación Lineal Negativa No Hay Relación

Componente lineal Componente

Valor Estimado del Estimado de la

Los términos de errores individuales (ei) tienen una media

 b0 es el estimado del valor promedio de y cuando

 b1 es el estimado del cambio en el valor promedio

 b0 y b1 son obtenidos hallando los valores

= ∑(y −(b0 + b1x)) 2

 Otras medidas de regresión también son

1. Especificar la variable independiente (x) y la

2. Desarrollar un gráfico de dispersión

3. Calcular el coeficiente de correlación

4. Determinar la ecuación de regresión lineal

 Una muestra al azar de 10 casas fue seleccionada

 Variable independiente (x) = Área (pies

La ecuación de regresión es:

Precio de casa = 98.24833 + 0.10977 (área)

 b0 es el estimado del valor promedio de y

 b1 mide el estimado del cambio en el

SST = SSE + SSR

SST = ∑( y −y )2 SSE = ∑( y −ŷ )2 SSR = ∑( ŷ −y )2

 SST = Suma Total de Cuadrados

 El coeficiente de determinación es también

Nota: Para el caso de una sola variable independiente, el

Relación lineal perfecta

Relación lineal no perfecta

No hay relación lineal entre

 El coeficiente de correlación (r), el coeficiente de

 Se requieren procedimientos de pruebas estadística

 Para la regresión lineal simple hay tres pruebas

 Prueba para la significancia de la correlación (ρ)

HA: La variación de la variable independiente explica

-tα/2No rechazar H0 tα/2

Con un nivel de confianza del 95%, el intervalo de

Como la variable precio de casa está expresada

Este intervalo de confianza (al 95%) no incluye 0.