Sunteți pe pagina 1din 35

Regresión Lineal y

Correlación
Maestría en Ingeniería Industrial
Gerencia de Operaciones
Regresión
• La regresión comprende el intento de
desarrollar una ecuación matemática que
describa la relación entre dos o más
variables.
• Es útil para predecir valores futuros de
una variable, explicar el comportamiento
de una variable o establecer variables
menos costosas para ensayos.
Correlación
• Técnica estadística para describir y medir
la relación entre dos variables.
• Se utiliza para determinar la consistencia
de una relación entre observaciones por
pares.
R2 : Coeficiente de determinación (% de aprox.)

R2  r : coeficiente de correlación

Mide el grado de aproximación de los puntos a la recta de


regresión:

r=1 Si todos los puntos están sobre la recta


r=0 Si no hay relación lineal
r = -1 Si los puntos están sobre la recta y b es negativa

Fuerza de la asociación:
|r|  0,8: Relación fuerte
0,6  |r| < 0,8: Relación mediana
0,4  |r| < 0,6: Relación débil
|r| < 0,4: Relación muy débil
Análisis de regresión y
correlación múltiple
Análisis de Regresión Múltiple
• Para dos variables independientes, la forma
general de la ecuación de regresión múltiple es:
Y '  a  b1 X 1  b2 X 2
Donde X1 y X2 son las variables independientes.
a es el intersecto con Y.

b 1es el cambio neto de Y por cada unidad de cambio de


X1 manteniendo a X2 constante. Se le llama coeficiente
de regresión parcial, coeficiente de regresión neta o sólo
coeficiente de regresión.
Análisis de Regresión Múltiple

• La regresión general múltiple con k variables


independiente es:
Y '  a  b1 X 1  b2 X 2 ...bk X k

Se usa mínimos cuadrados para desarrollar la


ecuación.
Debido a que la determinación de b1, b2, etc. es
muy tediosa se utiliza los paquetes Excel or
MINITAB.
Error Estándar Multiple de
Estimación
• El error estándar múltiple de estimación es
una medida de efectividad de la ecuación de
regresión
Tiene las mismas unidades que la variable
dependiente.
Es difícil determinar cuando se refiere a un gran
o pequeño valor del error estándar.
Error Estándar Múltiple de
Estimación
• Su fórmula es:

(Y  Y ' )
2
s y.12...k 
n  (k  1)
Supuestos de la Correlación y
Regresión Múltiple
Las variables independientes y la dependiente tienen
relación lineal.
La variable dependiente debe ser continua por lo
menos en un intervalo.
La variación de (Y-Y’) o residuo es consante a lo
largo de las observaciones. Cuando este es el caso,
referimos la diferencia como homocedasticidad.
Los residuos siguen una distribución normal con
media 0.
Valores sucesivos de la variable independiente
deben ser no correlacionadas
Cuadro ANOVA
• La Tabla ANOVA reporta la variación de
la variable independiente. La variación
tiene dos componentes.
La Variación explicada debido a las variables
independientes.
La La Variación no explicada o aleatoria no
atribuible a las variables independientes.
Matriz de Correlación
Una matriz de correlación se utiliza para
determinar toda correlación simple entre
todas las variables.
• Esta matriz es útil para evaluar la
correlación entre variables
independientes.
• Se considera │r│<0.7 entre variables
independientes adecuado
Prueba Global
• La prueba global se usa para investigar
si cualquiera de las variables
independientes tienen coeficientes
significativos. Las hipótesis son:
H 0 : 1   2  ...   k  0
H1 : No toda  es igual 0
Prueba Global continuación

• Es estadístico sigue la distribución


F con k (número de variables
independientes) y
n-(k+1) grados de libertad, donde n
es el tamaño de la muestra.
Prueba Individual de Variables
• Esta prueba es usada para determinar qué
variables independientes tienen coeficiente
de regresión diferente de cero.
Las variables con coeficientes iguales a cero se
descartan del análisis.
El estadística sigue la distribución t con n-(k+1)
grados de libertad.
Ejemplo 1
Se está evaluando cuánto gasta
una familia de cuatro o más
anualmente en alimentos. Se han
considerado tres variables
independientes: ingreso total
familiar ($), tamaño de la familia y
si tiene o no niños en la escuela.
Ejemplo 1 continuación
Respecto a la regresión.
• La variable escuela es ficticia. Puede tomar sólo
dos valores. Si los niños están o no en el
colegio.

Otros ejemplos son: se acepta o no, ha pagado o no su


cuota.
Se representan numéricamente mediante “1” ó “0.”
Ejemplo 1 continuación

Familia Alimentos (c$)Ingresos Tamaño Escuela


1 3900 376 4 0
2 5300 515 5 1
3 4300 516 4 0
4 4900 468 5 0
5 6400 538 6 1
6 7300 626 7 1
7 4900 543 5 0
8 5300 437 4 0
9 6100 608 5 1
10 6400 513 6 1
11 7400 493 6 1
12 5800 563 5 0
Ejemplo…

• Mediante el software evaluar la matriz


de correlación.
• Luego encontrar la ecuación de
regresión lineal:
Y’ = 954 +1.09X1 + 748X2 + 565X3
¿Cuánto en alimentos gasta una
familia de 4, con ingresos de $50,000
sin niños en la escuela?
Ejemplo 1….
Del reporte:
• El coeficiente de determinación es 80.4 porciento (ajustado
73). Significa que más del 80 por ciento de la variación de lo
que se gasta en alimentos se debe a las variable ingreso
familiar, tamaño de familia y escolaridad

Por cada $10000 de ingreso por año genera compras por


$109 en alimentos por año.
Un miembro adicional en la familia genera gastos en
alimentos por $74838 al año.
Una familia con estudiantes genera $56552 más en
alimentos por año que los que no tienen estudiantes
Ejemplo……
• La matriz de correlación a continuación:
Alimentos Ingresos Tamaño
Ingresos 0.587
Tamaño 0.876 0.609
Estudiante0.773 0.491 0.743

• Las mayor correlación entre variable


dependiente y las independientes
corresponde al tamaño de la familia.
• No hay dificultad con las correlaciones entre
variables independientes si │r│<0.7.
Ejemplo……
Los gastos anuales estimados àra una familia
de 4 con ingresos de $500 ($50,000) y sin
estudiantes es $4,491.

Y’ = 954 + 1.09(500) + 748(4) + 565 (0)


= 4491
Ejemplo…..
Prueba Global para probar la hipótesis si algún
coeficiente de regresión no es cero
H 0 : 1   2   3  0 H1 : at least one  

H0 se rechaza si F>4.07.


Del reporte, F es 10.94.

Decisión: H0 se rechaza. Los coefientes de


regresión no son iguales a cero.
Ejemplo …..
• Hacer la prueba individual para determinar cuales
coeficientes no son cero. Esta es la prueba para la
variable independiente tamaño de familia.

H0 : 2  0 H1: 2  0
• Evaluamos a partir del reporte para cada coeficiente de t y
lo comparamos con el valor de tabla con 5% de nivel de
significancia y n-(k+1) grados de libertad.
Ejemplo 1…
• Se hace nuevamente el cálculo de los coeficientes
considerando sólo a la variable independiente
tamaño de familia.
• La nueva ecuación es

Y’ = 340 + 1031X2

• El coeficiente de determinación es 76.8 % (el


ajustado aumenta de 73 a 74%).
Análisis de residuos

• Un residuo es la diferencia entre el


valor real de Y y el valor estimado
Y’.
Los residuos se distribuyen de forma
aproximadamente normal. Los histogramas y
gráficos de dispersión son útiles para el análisis.
Este análisis muestra si hay o no una tendencia en
los residuos
Dispersión de Residuos

1000
Residuals

500

-500
4500 6000 7500

Y’

S-ar putea să vă placă și