Sunteți pe pagina 1din 87

14

Introducción al Análisis de
Correlación y de Regresión Lineal

14-1
Correlación y Regresión lineal

Se dan situaciones donde el análisis involucra


considerar la relación de dos o más variables…..

14-2
Ejemplos
 Un analista financiero podría estar interesado en la relación entre
el comportamiento de los precios de las acciones y la política de
dividendos de las compañías del mercado de valores.

 Un gerente de ventas puede estar interesado en examinar la


relación entre las ventas y el gasto en publicidad.

 El gerente de créditos de un banco podría estar interesado en la


relación entre el precio de una casa y diversos factores, como su
área, antigüedad, etc.

El análisis de correlación y el de regresión lineal son técnicas


estadísticas de aplicación difundida para estas situaciones.

14-3
Objetivos

 Calcular e interpretar la correlación entre dos variables.


 Determinar si la correlación es significativa.
 Calcular e interpretar la ecuación de regresión lineal
simple para un conjunto de datos.
 Entender los supuestos detrás del análisis de regresión.
 Determinar si el modelo de regresión es significativo.

Continua….

14-4
Objetivos
(continuación)

 Calcular e interpretar intervalos de confianza para


coeficientes de regresión.

 Reconocer aplicaciones de análisis de regresión para


situaciones de predicción y descripción.

 Reconocer algunos problemas portenciales si el


análisis de regresión es usado incorrectamente.

14-5
Gráficos de Dispersión
 Un gráfico de dispersión (o diagrama de dispersión) es
usado para mostrar la relación entre dos variables
cuantitativas.

 La relación lineal puede ser:


 Positiva – cuando “x” crece, “y” crece
 Cuando la inversión en publicidad crece, las
ventas crecen.
 Negativa – cuando “x” crece, “y” decrece
 Cuando el gasto crece, el ingreso neto
decrece.

14-6
Gráficos de Dispersión: Ejemplo
Relaciones lineales Relaciones curvilíneas

y y

x x

y y

x x
14-7
Gráficos de Dispersión: Ejemplo
(continuación)
Relaciones fuertes Relaciones débiles

y y

x x

y y

x x
14-8
Gráficos de Dispersión: Ejemplo
(continuación)
No hay relación

x
14-9
Coeficiente de Correlación

 La correlación mide la intensidad de la asociación lineal (relación


lineal) entre dos variables.
 Enfocada solamente en la intensidad de la relación.

 No implica relaciones de causa-efecto.

 El coeficiente de correlación muestral r es una medida de la


intensidad de la relación lineal entre dos variables, basado en
observaciones muestrales.

 Se tiene una correlación espuria cuando existe una asociación lineal


entre variables aparentemente no relacionadas.
 Ejemplo, la correlación entre las ventas de las compañías y el

número de hijos que tienen los empleados.

14-10
Características de r
 No tiene unidad de medida.
 Varía entre -1 y 1.
 La cercanía a -1 indica fuerte relación lineal
negativa.
 La cercanía a 1 indica fuerte relación lineal
positiva.
 La cercanía a 0 indica débil relación lineal.
 +1 ó -1 son correlaciones perfectas donde
todos los datos (puntos) caen sobre una línea
recta.

14-11
Ejemplos de Valores
Aproximados de r
y y y

x x x
r = -1 r = -.6 r=0
y y

x x
r = +.3 r = +1 14-12
Calculando el Coeficiente de
Correlación
Coeficiente de correlación muestral:

r=
∑( x −x )( y −y )
2 2
[∑( x −x ) ][ ∑( y −y ) ]

O el equivalente algebraico:
n∑ xy −∑ x ∑ y
r=
[n( ∑x 2 ) −( ∑ x )2 ][n( ∑ y 2 ) −( ∑y )2 ]
Donde:
r = Coeficiente de correlación muestral
n = Tamaño muestral
x = Valor de una variable (eje horizontal)
y = Valor de la otra variable (eje vertical)
14-13
Correlación: Ejemplo
Altura Diámetro
del árbol del tronco
y x xy y2 x2
35 8 280 1225 64
49 9 441 2401 81
27 7 189 729 49
33 6 198 1089 36
60 13 780 3600 169
21 7 147 441 49
45 11 495 2025 121
51 12 612 2601 144
=321 =73 =3142 =14111 =713

14-14
Correlación: Ejemplo
(continuación
)
Gráfico de dispersión n∑ xy −∑x ∑ y
Altura del r=
árbol, y
70
[n( ∑ x 2 ) −( ∑x)2 ][n( ∑ y 2 ) −( ∑y)2 ]
60
8(3142) −(73)(321)
50 =
[8(713) −(73)2 ][8(14111) −(321)2 ]
40

30
= 0.886
20

10
r = 0.886 → Asociación lineal positiva
0
0 2 4 6 8 10 12 14
relativamente fuerte entre x e y
Diámetro del tronco, x

14-15
Correlación: Usando Excel

Pasos en Excel para calular la correlación


Datos / Análisis de datos / Coeficiente de correlation:

Correlación entre altura del


árbol y diámetro del tronco

14-16
Prueba de Significancia para la
Correlación
 Hipótesis
Supuestos:
H0 : ρ = 0 (No hay correlación)
La medida de los datos es
HA: ρ ≠ 0 (Existe correlación) de intervalo o de razón
x e y están normalmente
La letra griega ρ (rho) representa el distribuidos
coeficiente de correlación poblacional

 Estadístico de prueba
r
t= (con n – 2 grados de libertad)
1 −r 2
n −2
Se pierde 1 grado de libertad por
cada media muestral
14-17
Prueba de Significancia para la
Correlación (continuación)
¿Es significativa la relación lineal entre las
alturas de los árboles y los diámetros de sus
troncos al nivel de significancia de 0.05?

H0: ρ = 0 (No hay correlación)


H1: ρ ≠ 0 (Existe correlación)
 =0.05 , gl = 8 - 2 = 6

r 0.886
t= = = 4.68
1 −r 2 1 −0.886 2
n −2 8 −2
14-18
Prueba de Significancia para la
Correlación (continuación)
Región de rechazo:
g.l. = 8-2 = 6

/2=0.025 /2=0.025

Rechazar H0 No rechazar H0 Rechazar H0


-tα/2 0
tα/2
-2.4469 2.4469
Estadístico de prueba: r 0.886
t = = = 4.68
1 −r 2 1 −0.886 2
n −2 8 −2

Decisión: Como t = 4.68 > 2.45 = tα/2 , entonces se rechaza H0

Conclusión: Hay suficiente evidencia para concluir que existe relación lineal
significativa entre las alturas de los árboles y los diámetros de sus troncos al
nivel de significancia de 0.05.
14-19
Prueba de Significancia para la Correlación

 La prueba t para la determinación de si la correlación poblacional


es significativamente diferente de cero requiere de los siguientes
dos supuestos:
 La data es de intervalo o de ratio.

 Las dos variables (x e y) se distribuyen según una distribución

normal bivariada (la distribución conjunta es normal).

 Sin embargo, respecto del supuesto de normalidad, la prueba es


robusta; esto es, las inferencias son correctas, aún cuando se
tenga algunas desviaciones respecto de la distribución mormal.

14-20
Advertencia
 La correlación entre dos variables no implica ninguna relación de causa-
efecto. El cálculo de una alta correlación positiva entre años de experiencia
y ventas en los vendedores de una empresa no es una prueba estadística
que los años de experiencia tenga como consecuencia mayores ventas,
solo significa que marchan en forma conjunta.
 Para un período determinado se podría calcular una alta correlación entre
el salario promedio de los ingenieros del Ecuador y el precio de las uvas en
Francia, esto de ninguna forma significa que lo uno cause lo otro. Se está
ante lo que se denomina correlación espúrea.
 La correlación también se puede dar por los efectos de un factor común
que incide sobre las dos variables en cuestión. Por ejemplo las mayores
ventas de los vendedores de mayor experiencia podría ser debido a que los
vendedores de más edad se les asigna los mejores territorios.
 Relaciones de causa-efecto requieren de construcción de modelos
vinculados al fenómeno que se analiza.

14-21
Regresión Lineal Simple

Suponga que se ha calculado y validado la correlación entre los años


de venta de los vendedores y su volumen de ventas, se quiere
analizar esa relación. El método estadístico para este fin es el
Análisis de Regresión.

Si solo se tienen dos variables la técnica se refiere como Análisis de


Regresión Lineal Simple, el cual se ve en esta sesión. La siguiente
sesión considerará el caso del Análisis de Regresión Lineal Múltiple.

14-22
Regresión Lineal

X, Y Análisis
X, Y
Correlacionadas
Regresión Lineal
y = β0 + β1x + ε

14-23
Introducción al Análisis de
Regresión
 El análisis de regresión es usado para:
 Predecir el valor de una variable dependiente (y)
basado en el valor de al menos una variable
independiente (x).
 Explicar el impacto de cambios de una variable
independiente sobre la variable dependiente.
Variable dependiente: Variable que se desea
explicar.
Variable independiente: Variable usada para
explicar la variable dependiente.

14-24
Modelo de Regresión Lineal
Simple
 Sólo una variable independiente, x.

 La relación entre x e y es descrita por


una función lineal.

 Se asume que los cambios en y son


causados por cambios en x.

14-25
Tipos de Regresión Lineal
Relación Lineal Positiva Relación NO Lineal

Relación Lineal Negativa No Hay Relación

14-26
Modelo de Regresión Lineal
Simple (Poblacional)

Pendiente
Intercepto y de regresión Variable
poblacional independiente Error
poblacional
aleatorio,
Variable
o residual

y = â 0 + â1x + å
dependiente

Componente lineal Componente


error aleatorio

14-27
Supuestos de la Regresión
Lineal
 Los términos de error (ε) son realizaciones estadísticamente
independientes de una variable aleatoria para cada nivel de x.
 Para un valor dado de x, pueden existir muchos valores de y por
lo tanto muchos valores de . La distribución de los posibles
errores para cualquier valor de x es normal.
 Las distribuciones de los valores de tienen igual varianza para
todos los valores de x.
 Las medias de la variable dependiente, y, para todos los valores
especificados de la variable independiente, x, pueden ser
conectados por una línea recta la cual es el componente lineal
del modelo de regresión poblacional.

Supuestos RL - Gráfica.pdf

14-28
Regresión Lineal Poblacional
(continuación)
y = â 0 + â1x + å μ = â 0 + â 1x
y y/ x

Valor observado
de y para xi

εi Pendiente = β1
Valor estimado Error aleatorio pa-
de y para xi ra este valor de x

Intercepto = β0

0 xi x
14-29
Coeficientes del Modelo Poblacional

 Pendiente β1
Cambio promedio en la variable dependiente (y) ante
una variación unitaria de la variable independiente (x).
Cambio en μy/x ante una variación unitaria de x.

 Intercepto β0
Valor promedio de la variable dependiente (y) cuando la
variable independiente (x) es cero. Interpretación válida
si x puede asumir el valor 0, caso contrario, no se tiene
una interpretación válida.

14-30
Regresión Lineal Estimada
La línea de regresión muestral proporciona un
estimado de la línea de regresión poblacional

Valor Estimado del Estimado de la


predecido intercepto de pendiente de
de y regresión regresión

Variable
ŷ = b 0 + b1x independiente

Los términos de errores individuales (ei) tienen una media


de cero
14-31
Interpretación de la Pendiente y
del Intercepto
Modelo regresión lineal poblacional: y = â 0 + â 1x + å
Componente lineal poblacional: μ y/ x = â 0 + â 1x
Modelo regresión lineal muestral: y = b 0 + b1x + e
Regresión lineal muestral: ŷ = b 0 + b1x

 b0 es el estimado del valor promedio de y cuando


el valor de x es cero.

 b1 es el estimado del cambio en el valor promedio


de y que resulta de un cambio de una unidad en x.

14-32
Criterio de Mínimos Cuadrados

 b0 y b1 son obtenidos hallando los valores


de b0 y b1 que minimizan la suma de
cuadrados de los residuales (error)

∑e 2
= ∑(y −ŷ) 2

= ∑(y −(b0 + b1x)) 2

14-33
Ecuación de Mínimos
Cuadrados
 Las ecuaciones para b1 y b0 son:
El equivalente algebraico
∑(x −x)(y −y) para b1 es:
b1 =
∑(x −x) 2
∑ x∑y
∑xy − n
b1 = 2
y 2 ( ∑ x )
∑x − n
b0 = y −b1x

14-34
Regresión de Mínimos Cuadrados:
Propiedades
 La suma de los residuales de la línea de
regresión de mínimos cuadrados es siempre
cero.
 La suma de los cuadrados de los residuales es
la mínima.
 La línea de regresión siempre pasa a través del
punto ( x , y ).
 Los coeficientes de mínimos cuadrados son
estimados insesgados de 0 y 1

14-35
Hallando la Ecuación de
Mínimos Cuadrados
 Los coeficientes b0 y b1 usualmente son
hallados usando programas como Excel,
SPSS, etc.

 Otras medidas de regresión también son


calculadas como parte del análisis de
regresión de los programas.

14-36
Regresión Lineal Simple: Pasos

1. Especificar la variable independiente (x) y la


dependiente (y)

2. Desarrollar un gráfico de dispersión

3. Calcular el coeficiente de correlación

4. Determinar la ecuación de regresión lineal

14-37
Regresión Lineal Simple:
Ejemplo
 Un agente inmobilario desea examinar la relación
entre los precios de venta de casas y sus áreas
(pies cuadrados)

 Una muestra al azar de 10 casas fue seleccionada


 Variable dependiente (y) = Precio ($1000s)

 Variable independiente (x) = Área (pies

cuadrados)

14-38
Datos Muestrales para el
Modelo de Precios de Casas
Precio de casa, $1000s Área, pies cuadrados
(y) (x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700

14-39
Regresión usando Excel

Pasos:
Datos /
Análisis de datos /
Regresión

14-40
Excel: Resultado

La ecuación de regresión es:


Precio de casa = 98.24833 + 0.10977 (área)
14-41
Presentación Gráfica
 Modelo de precio de casa: Gráfico de
dispersión y línea de regresión

Pendiente
= 0.10977

Intercepto
= 98.248

Precio de casa = 98.24833 + 0.10977 (área)

14-42
Interpretación del estimado del
intercepto, b0
Precio de casa = 98.24833 + 0.10977 (área)

 b0 es el estimado del valor promedio de y


cuando el valor de x es cero (si x = 0 está en el
rango de los valores observados de x)
 Como no hay casas que tengan de área 0 pies cua-
drados, entonces b0 = 98.24833 indica que, para las
casas cuyas áreas estén dentro del rango observado,
$98,248.33 es la porción del precio promedio
de de la casa no explicado por el área.
14-43
Interpretación del estimado de la
pendiente, b1
Precio de casa = 98.24833 + 0.10977 (área)

 b1 mide el estimado del cambio en el


valor promedio de “y” que resulta de un
cambio de una unidad de “x”
 b1 = 0.10977 indica que el valor promedio de una
casa se incrementa en 0.10977($1000) = $109.77,
por cada unidad de pie cuadrado adicional.

14-44
Variación Explicada y
No Explicada
 La variación total se desagrega en dos partes:

SST = SSE + SSR


Suma Total de Suma de Cuadra- Suma de Cuadra-
Cuadrados dos del Error dos de Regresión

SST = ∑( y −y )2 SSE = ∑( y −ŷ )2 SSR = ∑( ŷ −y )2


Donde:
y = Valor promedio de la variable dependiente
y = Valor observado de la variable dependiente
ŷ = Valor predecido de y para un valor x dado
14-45
Variación Explicada y
No Explicada
(continuación)

 SST = Suma Total de Cuadrados


 Mide la variación de los valores yi respecto a su media
y
 SSE = Suma de Cuadrados del Error
 Variación atribuible a otros factores no incluidos en la
relación entre x e y
 SSR = Suma de Cuadrados de Regresión
 Variación explicada atribuible a la relación lineal entre
x e y

14-46
Variación Explicada y
No Explicada
(continuación)
y
yi 
 2
SSE = (yi - yi ) y
_
SST = (yi - y)2

y  _2
_ SSR = (yi - y) _
y y

Xi x
14-47
Coeficiente de Determinación, R2
 El coeficiente de determinación es la porción
de la variación total de la variable dependiente
que es explicada por su relación lineal con la
variable independiente

 El coeficiente de determinación es también


llamado R-cuadrado y es denotado como R2

SSR
R =2 donde 0 ≤R 2 ≤1
SST
14-48
Coeficiente de Determinación, R2
(continuación
)
Coeficiente de determinación
SSR Suma de cuadrados explicada por la regresión
R =
2
=
SST Suma total de cuadrados

Nota: Para el caso de una sola variable independiente, el


coeficiente de determinación es

Donde:
R =r2 2

R2 = Coeficiente de determinación
r = Coeficiente de correlación muestral

14-49
Ejemplos de Valores R2
y
R2 = 1

Relación lineal perfecta


entre x e y:
x
R2 = 1
y El100% de la variación en
y es explicada por la
variacion en x

x
R =1
2

14-50
Ejemplos de Valores R2(continuación
)
y
0 < R2 < 1

Relación lineal no perfecta


entre x e y:
x
Parte de la variación en y
y
es explicada por la
variación en x

x
14-51
Ejemplos de Valores R2(continuación
y )

R2 = 0

No hay relación lineal entre


x x e y:
R2 = 0
y
Los valores de Y no
dependen de X. (Nada de
la variación en y es
explicada por la variación
en x)
x
R2 = 0
14-52
Excel: Resultado

SSR 18934.9348
R =
2
= = 0.58082
SST 32600.5000
El 58.08% de la variación en los
precios de casas es explicada
por la variación en el área (pies
cuadrados)

14-53
Pruebas de Significancia

 El coeficiente de correlación (r), el coeficiente de


determinación (R2) y los coeficientes de regresión (b0 y
b1) son estimados puntuales, a partir de la muestra, de
los respectivos verdaderos valores poblacionales: ρ, ρ2
y β0, β1. Por lo tanto están sujetos a error muestral.

 Se requieren procedimientos de pruebas estadística


para determinar la significancia estadística de estos
estimados.

14-54
Pruebas de Significancia

 Para la regresión lineal simple hay tres pruebas


estadísticas equivalentes:

 Prueba para la significancia de la correlación (ρ)


entre x e y
 Prueba para la significancia del coeficiente de
determinación (ρ 2)
 Prueba para la significancia de la pendiente de
regresión (1)

14-55
Prueba para la Significancia del
Coeficiente de Determinación
 Hipótesis
H0: La variación de la variable independiente no explica
H0: ρ = 0
2
la variación de la variable dependiente

HA: La variación de la variable independiente explica


una porción de la variación de la variable
HA: ρ2 > 0 dependiente

 Estadístico de prueba
SSR/1
F=
SSE/(n −2) (con glnumerador = 1 y gldenominador = n – 2)

14-56
Excel: Resultado
SSR/1 18934.93/1
F= = = 11.085
SSE/(n - 2) 13665.57/( 10 - 2)
El valor crítico F para  = 0.05 y glnumerador=1
y gldenominador=8 es 5.318. Como 11.08 > 5.31
entonces se rechaza H0 (ρ ( 2 = 0)

14-57
Significancia Estadística
de la
Pendiente

14-58
b1(1)
Valores
Población que
Media β1 puede
tomar la
Muestra1
variable
Muestra 2 aleatoria
b1(2)

Muestra n

Describir b1
b1(3)
a través de
una
distribución
muestral

7-59
Distribución muestral de b1

σb1

͞ b1= β1

14-60
Desviación Estándar de la Pendiente
de Regresión
σå
σ b1 = 2
∑ (x −x)
Donde, σ b1 : Desviación estándar de la estimación de la pendiente de
regresión
σ å : Error estándar de la estimación

σ bes estimado por: så så
1 sb1 = =
2
∑(x −x) ( ∑ x)2
2
∑x − n
Donde: sb1 = Estimador de la desviación estándar de la pendiente
de regresión de mínimos cuadrados

SSE
så =
n −2 = Error (desviación) estándar muestral de la estimación
14-61
Error Estándar de la Estimación
 Es la desviación estándar de la variación
de observaciones alrededor de la línea de
regresión simple estimada por:

SSE
så =
n −2
Donde:
SSE = Suma de cuadrados del error
n = Tamaño de la muestra

14-62
Comparando los Errores
Estándar
Variación de los valores obser- Variación en la pendiente de las
vados y respecto a la línea de líneas de regresión de diferentes
y regresión
y muestras posibles

s ε ( pequeño) x s b1 ( pequeño) x

y y

sε ( grande) x s b1 ( grande) x
14-63
Excel: Resultado
så = 41.33032

sb1 = 0.03297

14-64
Evaluación de la Pendiente de
Regresión: Prueba t
 Prueba t para una pendiente poblacional
 ¿Hay relación lineal entre x e y?
 Hipótesis nula y alternativa
H0: β1 = 0 (No hay relación lineal)
HA: β1 0 (Existe relación lineal)
 Estadístico de prueba
b1 −â1 Donde: b1 = Coeficiente de la pen-
t= diente de regresión
sb1 muestral
β1 = Pendiente (hipótesis)
sb1 = Estimador del error es-
g.l. = n −2 tandar de la pendiente
14-65
Evaluación de la Pendiente de
Regresión: Prueba t
(continuación)
Ejemplo:
Ecuación de regresión estimada:
Precio de Área, pies
casa, $1000s cuadrados
(y) (x) Precio de casa = 98.25 + 0.1098 (Área)
245 1400
312 1600
279 1700
308 1875
La pendiente de este modelo es
199 1100 0.1098
219 1550
¿Los precios de las casas son
405 2350
324 2450
afectados por sus áreas?
319 1425
255 1700

14-66
Evaluación de la Pendiente de
Regresión: Prueba t
(continuación)
Ejemplo: H0: β1 = 0 HA: β1  0
Excel, resultado: b1 sb1
  Coeficiente Error Estándar t Valor p
Intercepto 98.24833 58.03348 1.69296 0.12892
Área 0.10977 0.03297 3.32938 0.01039

g.l. = 10-2 = 8
Estadístico de prueba:
t = 3.329
/2=0.025
/2=0.025

-tα/2No rechazar H0 tα/2


Rechazar H0 Rechazar H0

-2.3060
0 2.3060
Decision: Rechazar H0
Conclusion: Hay suficiente evidencia para concluir que la pendiente no es cero
14-67
Usos del Análisis de Regresión

 Para descripción

 Para predicción

14-68
Intervalo de Confianza
para la
Pendiente

14-69
Análisis de Regresión para la
Descripción
Intervalo de confianza para la pendiente:
b1 ± t α/2 sb1 g.l. = n - 2

Excel, resultados:

Con un nivel de confianza del 95%, el intervalo de


confianza para la pendiente es (0.0337, 0.1858)

14-70
Análisis de Regresión para la
Descripción
(continuación)

Como la variable precio de casa está expresada


en miles de dólares, estamos 95% seguros que el
impacto promedio sobre el precio de casa está
entre $33.70 y $185.80 por pie cuadrado

Este intervalo de confianza (al 95%) no incluye 0.


Conclusión: Hay una relación lineal estadísticamente
significativa entre el precio de casa y el área al nivel de
significancia de 0.05
14-71
Descripción

Intervalo de Confianza
para
ŷ

14-72
Intervalos para Diferentes
Valores de x

Intervalo de
confianza
 + b x para la
y = b0
1
media de y,
dado xp

x
x xp
14-73
Intervalo de Confianza para el
Promedio de y, Dado x
Intervalo de confianza para la media de y
dado un valor particular xp

2
1 (x p −x)
ŷ ± t α/2 så + 2
n ∑(x −x)

14-74
Intervalo de Confianza para el Promedio de y, Dado x

El intervalo de confianza depende en forma


importante de la distancia de xp respecto del valor
medio de x. Cuanto más lejos xp del punto medio,
el intervalo de confianza será más amplio, para
un mismo nivel de confianza.

2
1 (x p −x)
ŷ ± t α/2 så + 2
n ∑(x −x)

14-75
Intervalos para Diferentes
Valores de x

Intervalo de
confianza
 + b x para la
y = b0
1
media de y,
dado xp

x
x xp
14-76
Intervalo de Confianza para el Promedio de y, Dado x

Xp - X y precisión de predicción.pdf

14-77
Intervalo de Predicción
para un “y” dado un “x”

14-78
Intervalo de Predicción para un y
particular, Dado x
Intervalo de predicción para un valor
individual de y dado un xp particular

2
1 (x p −x)
y ± tα /2s å 1+ + 2
n ∑(x −x)

Este término extra alarga el intervalo al reflejar la


incertidumbre adicional considerada en un caso
individual

14-79
Intervalo de Predicción para
un y particular, Dado x
Intervalo de predic-
ción para un y indi-
y vidual, dado xp

Intervalo de
confianza
 + b x para la
y = b0
1
media de y,
dado xp

x
x xp
14-80
Análisis de Regresión para Predicción,
Ejemplo: Precios de Casas

Precio de Área, pies Ecuación de regresión estimada:


casa, $1000s cuadrados
(y) (x)
Precio de casa = 98.25 + 0.1098 (Área)
245 1400
312 1600
279 1700
308 1875 Predecir el precio para una
199 1100 casa de 2000 pies cuadrados
219 1550
405 2350
324 2450
319 1425
255 1700

14-81
Análisis de Regresión para Predicción,
Ejemplo: Precios de Casas
(continuación)

Predecir el precio para una


casa de 2000 pies cuadrados

Precio de casa = 98.25 + 0.1098 (Área)


= 98.25 + 0.1098(2000)
= 317.85
El precio predecido para una casa de
2000 pies cuadrados es
317.85($1,000s) = $317,850
14-82
Estimación de Promedios:
Ejemplo
Intervalo de Confianza para E(y)|xp
Hallar el intervalo de confianza al 95% para el precio
promedio de casas de 2000 pies cuadrados

Precio Predecido Yi = 317.85 ($1,000s)

1 (x p −x)2
ŷ ± t á/2 så + 2
= 317.85 ± 37.12
n ∑(x −x)

El intervalo de confianza es 280.66 -- 354.90, o


$280,730 -- $354,970
14-83
Predicción para y’s Individuales:
Ejemplo
Intervalo de predicción para y|xp
Hallar el intervalo de predicción al 95% para el precio
de una casa de 2,000 pies cuadrados

Precio Predecido Yi = 317.85 ($1,000s)

1 (x p −x) 2
y ± t á/2 s å 1+ + 2
= 317.85 ±102.28
n ∑(x −x)

El intervalo de predicción es 215.57 -- 420.13, o


$215,570 -- $420,130
14-84
Problemas con Regresión
 Aplicando análisis de regresión con fines
predictivos
 Pueden ocurrir errores grandes de predicción

 No suponer que correlación implica causalidad

 Un alto coeficiente de determinación, R2, no


garantiza que el modelo sea un buen predictor
 R2 es simplemente el ajuste de la línea de regresión a los
datos muestrales

14-85
Resumen
 Se introdujo el análisis de correlación
 Se discutió la correlación para medir la intensidad
de una asociación lineal
 Se introdujo el análisis de regresión lineal simple
 Se calculó los coeficientes para la ecuación de
regresión lineal simple
 Se describió medidas de variación (R2 y sε)
 Se expuso los supuestos de correlación y
regresión

14-86
Resumen
(continuación
)
 Se describió la inferencia acerca de la
pendiente
 Se expuso la estimación de promedios de y,
así como la predicción de y’s individuales

14-87

S-ar putea să vă placă și