Sunteți pe pagina 1din 19

ESCUELA DE POSGRADO

DOCTORADO EN EDUCACIÓN

Programas Estadísticos

Semana 10:
Regresión Lineal Simple

Profesora: Dra. Alejandrina Gonzales Ochoa

1
Regresión Lineal Simple

Objetivo

Encontrar modelos estadísticos que puedan ser usados para


predecir los valores de una variable dependiente en función a los
valores de una variable independiente.

2
REGRESIÓN LINEAL SIMPLE

Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable dependiente
“Y”, en base a lo que ocurre o lo que sucede con la variable independiente ”X”.

Modelo Poblacional:
Yi = β0 +β1 Xi + εi , Xi = x1, x2,………………………………..., xn.
Donde:

Yi = Variable dependiente (respuesta).


Xi = Variable independiente (explicativa, regresora, predictora).
β0 = Intercepto en la ordenada. Cuando X= 0, Y= β0
β1 = Pendiente de la recta.
Pendiente positiva (β1 > 0). Existe una relación lineal directa.
Pendiente negativa (β1 < 0). Existe una relación Lineal inversa.
εi = Variable aleatoria no observable, denominada también error aleatorio, representa a las otras
variables no consideradas en el modelo.

3
Ejemplos:

Pueden existir variables que presenten un grado de relación natural entre sí , como
por ejemplo :

¿Existe una relación lineal entre las dos variables?


1. El ingreso de un trabajador se relaciona con el número de horas trabajadas.
2. Las ventas en función a los gastos de publicidad.
3. Los egresos en relación a los ingresos de los trabajadores de una empresa.
4. El precio de un producto en relación a la producción.
5. El precio de entrada a un evento en relación al número de entradas vendidas.
6. Nota obtenida en un curso en relación al número de horas dedicada al estudio.

4
Pasos a seguir para realizar un análisis de
Regresión Lineal Simple

1. Identificar la variable dependiente y la variable independiente en el modelo.


2. Elaborar un gráfico de dispersión.
3. Definir la función de regresión.
4. Estimar los coeficientes del modelo, mediante el método de mínimos cuadrados.
5. Estudiar la adecuación del modelo, se realiza mediante:
a) Coeficiente de Correlación.
b) Coeficiente de Determinación.
d) Prueba de hipótesis global (Prueba F).
6. Validar el modelo. Se realiza la comprobación de los supuestos en relación al error
aleatorio:
a) Prueba de Normalidad
b) Prueba de Homocedasticidad
7. Usar el modelo para realizar estimaciones para la variable dependiente en función a los
valores de la variable independiente.

5
1. Identificar:
Variable dependiente: Y
Variable independiente: X

2. Elaborar un gráfico de dispersión:

6
DIAGRAMA DE DISPERSIÓN
y y

x x
Relación lineal directa Relación lineal inversa

y
y

x x
Relación no-lineal No hay relación

7
3. Definir la función de regresión lineal:
Y = f (x)
Ecuación de la recta:
Y=a+bX

Modelo de regresión lineal poblacional:


Y = β0 +β1 X1 + Ԑ

Modelo de regresión lineal muestral:

Y = β0 +β1 X1 + ei

8
4. Estimar los coeficientes del modelo, a través del Método de Mínimos Cuadrados:
Realizada la gráfica , se procede a calcular cuál es la ecuación de regresión lineal
apropiada que mejor represente los datos. La recta apropiada tendrá que ser la que
tenga la suma mínima del cuadrado de los errores definido como la diferencia entre el
valor observado (Y) y el valor estimado por la ecuación de regresión lineal (Ŷ) . A este
método se denomina Mínimos Cuadrados.

El método de los Mínimos cuadrados minimiza la expresión:

 
n n

 i  i i  m ínim o
  ˆ
2 2
e Y Y
i 1 i 1

donde:
ei= Error residual o diferencia entre el valor observado y el valor estimado.
Yi= Valor observado.
Ŷi= Valor estimado por la ecuación de regresión.

9
Fórmula para calcular la pendiente:
n n n
n  x i yi   x i  yi
1  i 1 i 1 i 1
2
n
 
n
n xi    xi 
2

i 1  i 1 

Fórmula para calcular el intercepto:


n
 n

 y i   x i 
0  i 1  1  i 1 
n  n 
 
 
0  y  1 x

10
Estimación del modelo de regresión lineal simple:

Recta de Mínimos
Cuadrados

Fuente: Véliz, Carlos. Estadística para administración y negocios. 2011


14
5) Estudiar la adecuación del modelo:
a) Coeficiente de Correlación : r
El análisis de CORRELACIÓN nos permite determinar el grado en el que están
relacionadas las variables X e Y.

Fórmula: n n n
n xi yi   xi  yi
r i 1 i 1 i 1

 n 2  n  2  n 2  n  2 
    
 n x   x   n y   y  
i i

 i 1   i 1
i
 i 1  
i
 i 1

-1 ≤ r ≤ 1

-1 -0.70 0 0.70 1
Cuando r se aproxime a 1 ó -1, existe una fuerte relación.

12
b) Coeficiente de Determinación ( r2 ) :
Indica en qué proporción la variable independiente X explica el comportamiento de la
variable dependiente Y.
Fórmula:

 n n

 n  X i  Yi 
1 *   X iYi  i 1 i 1 
 i 1 
 Yˆ  Y 
n
2 n
i  
SCR S 2Yˆ  
r 
2
 2  i 1
n
 2
STC S Y

 i
Y  Y 2  n
  Yi 

 i 1 
i 1 n

 i 
2
Y
i 1 n

Donde: 0≤ r2 ≤1
2
S Yˆ = Es la varianza explicada por la ecuación.
2
S Y = Es la varianza Total

13
c) Prueba de significancia global: Prueba F
El análisis de la adecuación del modelo a nivel población se reduce al análisis de la
significancia estadística de la suma de cuadrados debido a la regresión, respecto de la
suma de los cuadrados de los errores. Esta significancia se mide con el estadístico F,
también conocida como prueba de significancia global.

Pasos a seguir:
1) Planteamiento de la hipótesis:
H0: β1 = 0 (El modelo no es adecuado a nivel poblacional)
H1: β1 ≠ 0 (El modelo es adecuado a nivel poblacional)

2) Nivel de significancia:
α = 0.05 (Nivel de confianza 95%)

3) Estadística de Prueba:
Para ello se construye la tabla ANOVA

14
Tabla de Análisis de Varianza
(ANOVA)

Fuente de Suma de Grados de Cuadrado Estadística P_Valor

Variación Cuadrados Libertad Medio de prueba


(Prueba F)
Regresión SCR k-1 CMR =SCR/k-1
CMR
Fcal 
CME
Residual SCE n–k CME =SCE/n-k

Total SCT n-1

n __ 2 n 
SCT   (Yi  Y) SCE   (Yi  Y ) 2 SCR = SCT - SCE
i 1 i 1
i

15
Entonces el estadístico de prueba es:

CMR
Fcal 
CME
4) Comparar:
Decisión 1:
Si Fcal > Ftab Entonces se rechaza la hipótesis nula.
FTab(α ;k-1,n-k) = Este valor se halla en la tabla de la distribución F.
Decisión 2:
Si P_valor < . Entonces se rechaza la hipótesis nula.

5) Conclusión:
Como se rechaza, la hipótesis nula, entonces se cumple la hipótesis alternativa, con lo que
se concluye que el modelo es adecuado a nivel poblacional.

16
6. Validar el modelo: Comprobación de supuestos
a) Homocedasticidad:
En el diagrama no debe existir tendencias, que la variabilidad de los residuos se mantengan
aproximadamente constante, que exista homocedasticidad.

20
Fuente: Véliz, Carlos. Estadística para administración y negocios. 2011
b) Normalidad:
Si los puntos están alineados alrededor de la recta diagonal, se considera que los residuales
tienen una buena aproximación a la curva normal.

Fuente: Véliz, Carlos. Estadística para administración y negocios. 2011

18
7. Usar el modelo para estimar valores para la variable dependiente en función de
los valores de la variable independiente.
Luego de verificar la adecuación y la validación del modelo y si el modelo logra pasar este
proceso, entonces estamos en condiciones de utilizar el modelo de regresión lineal simple
para predecir una nueva observación de la variable Y, en función a un valor de X.
Está estimación puede realizarse de dos formas: Puntual y por intervalos de confianza, para
el curso se utilizará la estimación puntual.

19