Documente Academic
Documente Profesional
Documente Cultură
2.1. Introducción
El término de regresión fue usado por primera vez como concepto estadístico por Sir
Francis Galton, a finales del siglo XIX. El trabajo de Galton se centró en comparar la
estatura de los hijos en relación con la de sus padres. En el estudio demostró que los hijos
de padres o bien muy altos o bien muy bajos tienden a retroceder o “regresar” hacia la
estatura media de la población, así se originó el término regresión.
El primer paso para determinar si existe relación lineal entre dos variables consiste en
elaborar y examinar el diagrama de dispersión de los datos, que es una gráfica en la que se
traza cada uno de los puntos que representan un par de valores observados para la variable
dependiente (Y) y la variable independiente (X)
Ejemplo 2.1. Una industria ha tenido grandes fluctuaciones respecto a sus niveles de
producción durante los últimos años. Dado que los procesos de la misma son bastante
complejos, es difícil determinar cuales han sido los factores con mayor influencia sobre la
productividad de la firma. El departamento de maquinaria y soporte técnico ha estudiado
varias relaciones y piensa que el número de máquinas utilizadas (promedio) es una variable
bastante significativa. Se seleccionó una muestra de 7 meses y los resultados se muestran a
continuación:
40
Y
30
20
10 20 30 40
Se puede observar que existe una relación aproximadamente lineal entre ambas variables,
por lo cual es posible trazar o ajustar una línea recta para representar la relación
(directamente proporcional) entre el número de máquinas promedio utilizadas y la
producción expresada en miles de artículos de la industria determinada.
Y / Xi B0 B1 X i (2.1)
i Yi Y / Xi (2.2)
o i Yi ( 0 1 Xi)
Simple Poblacional:
Yi 0 1 Xi i (2.3)
La introducción del error aleatorio ( i ) en el modelo se justifica por las siguientes razones:
a) Es una variable sustitutiva de todas las variables omitidas que pueden afectar a la
variable dependiente, pero que por una u otra causa no fueron incluidas en el modelo.
b) A pesar que se incluyan en el modelo todas las variables que influyen sobre la variable
dependiente, siempre existe un componente aleatorio intrínseco que no puede ser explicado
con la inclusión de más variables independientes.
c) También existen errores de observación o medida, bien sea por algún defecto, debido a
los instrumentos de medición utilizados, a la transcripción o agregación de los datos o a la
percepción del analista.
2
2. Y ~ N ( 0 1 Xi; )
a cero.
Este supuesto expresa que para un X i dado, las diferencias entre las Yi y las Y i son a
Cov( i , j ) 0
Este supuesto significa que el error de un punto de la población no puede ser relacionado
sistemáticamente con el error de cualquier punto de la población.
7. La variable aleatoria i tiene una varianza finita que es constante para todos los valores
de X i , ello implica:
2
Var ( i / X i )
Este supuesto indica que los residuos poseen una varianza constante, es decir son
homocedásticos (igual dispersión).
Recuerde que siempre se utilizan los datos muestrales para realizar estimaciones de las
Yi 0 1 X i (2.4)
Yi Yi i (2.5)
o Yi 0 1 Xi i
Este método consiste en obtener los valores de 0 y 1 de modo que los valores
resultantes de Y i sean los más cercanos posibles a los valores observados Yi , es decir, se
determinan los valores 0 y 1 que minimizan la suma de los cuadrados de los residuos
2
( i ) para hallar la recta que mejor se ajusta a los datos, dicho método se define de la
manera siguiente:
Al (i) diferenciar parcialmente respecto a los parámetros, (ii) realizar algunas operaciones
algebraicas para obtener las ecuaciones llamadas ecuaciones normales y (iii) resolver el
n X i Yi Xi Yi
1 (2.6)
n X i2 ( X i )2
n n
Yi Xi
i 1 i 1
0 1 (2.7)
n n
_ _
0 Y 1X
Para proceder a calcular las fórmulas 2.6 y 2.7 hay un número determinado de sumas que se
deben calcular.
Xi Yi XiYi XiXi
25 34 850 625
16 14 224 256
42 48 2.016 1.764
34 32 1.088 1.156
10 26 260 100
21 29 609 441
19 20 380 361
Suma 167 203 5.427 4.703
Media 23,8571 29
_ _
0 Y 1 X
29 0,8134(23,8571) 9,6185
Por lo tanto, el modelo estimado para los datos de la tabla 2.1 es:
Yi 9,6185 0,8124X i
Una vez que se ha obtenido la recta de regresión muestral, se pueden calcular los valores
estimados y los residuos para los puntos muestrales.
Nótese que la sumatoria de los valores residuales es prácticamente igual al origen (0). Por
otra parte, se observa que los errores aleatorios pueden ser positivos o negativos. Un
residuo positivo como i 4,0715 indica que Y 1 subestima el valor de Y 1 . Por otra parte,
poblacionales 0 y 1 .
Aunque se ha visto que las estimaciones MCO dan como resultado una recta (modelo) que
se ajusta a los datos con el mínimo de variación, la recta de regresión no es un indicador
perfecto de la predicción a menos que todos los puntos se encuentren sobre la recta
propiamente dicha. Por ello, se necesitan obtener medidas que indiquen la confiabilidad del
modelo estimado, por esta razón, se utilizan las medidas de bondad de ajuste ya que miden
la bondad con que la recta se ajusta a las observaciones.
Como punto de partida para el apartado, se tiene que la desviación total para los valores de
la variable dependiente puede ser desagregada de la siguiente manera:
_ _
(Yi Y) (Yi Y ) (Y i Y ) (2.8)
Desviación = Desviación + Desviación
total no explicada explicada
Si se elevan al cuadrado cada una de las desviaciones anteriores y se suman todos los
valores correspondientes a las n-ésimas observaciones, se obtienen las siguientes medidas
de variación, es decir:
_ _
(Yi Y )2 (Yi Y )2 (Y i Y ) 2 (2.9)
Suma de Cuadrados = Suma de Cuadrados + Suma de Cuadrados
Total (SCT) del Error (SCE) de la Regresión (SCR)
_ _ 2
2 2
SCT (Yi Y) Yi nY (2.10)
Una vez que se ha descompuesto la variación total en estos dos componentes, se pueden
obtener las medidas de bondad de ajuste.
(Yi Y i )2 SCE
Se CME (2.13)
n 2 n 2
Cuanto más grande sea S e mayor será la dispersión de los puntos muestrales alrededor de
perfecto ya que todos los puntos observados caen en la línea de regresión, aunque esto en la
práctica suele suceder con muy poca frecuencia. Siendo S e una medida de ajuste absoluta,
ésta se utiliza fundamentalmente con fines comparativos (al seleccionar 2 o más modelos
que utilizan las mismas variables)
2
El componente i (Yi Y i ) 2 se obtiene elevando cada uno de los valores de la tabla
(Yi Y i )2 235,5580
Se 6,86378
n 2 7 2
Este error estándar de estimación igual a 6,86378 representa una medida de la variación
alrededor de la línea de regresión ajustada.
SCR
R2 (2.14)
SCT
Propiedades:
. SCR SCT 0 R2 1.
. Un R 2 1 indica que existe una relación lineal perfecta entre las variables dependiente e
independiente, lo cual significa que la variación existente de Y está explicada totalmente
por X. Así, el valor del coeficiente de determinación será igual a uno cuando SCE=0 y
SCR = SCT.
2 _ 2
2
SCR = 1 ( X i nX ) (0,8124) 2 (4.703 7(23,8571) 2 0,65999(718,8715)
= 474,4480
_2
SCT = Yi 2 n Y = 6.597-7(29)2 = 710
El resultado indica que el 66,82% de la variación muestral total para el número de artículos
producidos mensualmente (Y), se encuentra explicado en términos de la cantidad de
máquinas utilizadas (X). Ello implica que según la medida, el 33,18% de la variabilidad de
la dependiente no ha sido explicada en términos del modelo estimado.
Aún cuando hay casos en que la relación entre ambas variables en estudio de una población
es poca o nula, es posible obtener valores muestrales que hagan que parezca que las
variables respuesta y explicativa están relacionadas linealmente, debido a que los factores
aleatorios en el muestreo han dado lugar a una relación del tipo lineal cuando no existe este
tipo de relación. Es por ello, que resulta de gran interés determinar si en efecto, la variable
independiente X es adecuada para predecir los valores de la variable dependiente Y.
Para este contraste se parte de la hipótesis nula de que no existe relación lineal entre X e Y,
por lo cual, de no rechazarse la misma es un claro indicio de que el modelo estimado no es
estadísticamente significativo en términos de predicción de la variable dependiente como
función lineal de la independiente. La formulación de las hipótesis alternativa depende del
conocimiento previo que se tenga de 1 :
H1 : 1 >0 (se tiene información a priori, en el sentido de que no puede ser negativo 1 )
H1 : 1 <0 (se tiene información a priori, en el sentido que no puede ser positivo 1 )
H1 : 1 0 (hay ciertas dudas sobre los posibles valores de 1 )
contraste es el siguiente:
Se
con S = .
1 _ 2
2
X i nX
H0 : 1 0 (no existe una relación lineal directa entre la producción de artículos y las
máquinas utilizadas)
H1 : 1 >0 (existe una relación lineal directa entre la producción de artículos y las
máquinas utilizadas)
2. Debe fijarse el nivel de significación, en este caso si se realiza el contraste con un nivel
de confianza del 95%, ello implica un nivel de significación 0,05 .
1
t
S
1
tn 2; t 5;0,05 2,015
5. Por otra parte, se halla el valor del estadístico de prueba o contraste (t calculado)
6,86367
S 0,2560
1 718,8715
0,8124
t 3,1724
0,2560
6. Decisión e interpretación: Como se cumple que t c > t t (3,1724 > 2,015) se rechaza la
hipótesis nula H 0 . Con un nivel de significación del 5% (o confianza del 95%) se puede
concluir que los datos presentan evidencias suficientes de que existe una relación lineal
directa entre las variables producción mensual de artículos y maquinaria utilizada en los
procesos industriales.
1 t S (2.16)
n 2; 1
2
estadísticos suficientes de que existe una relación lineal directa ente las variables. Así,
nótese que es de esperarse que ambos métodos de inferencia conduzcan al mismo resultado
en cuanto al no rechazo o rechazo de la H 0 .
0
t (2.17)
S
0
Por otra parte, el intervalo de confianza puede ser hallado de la siguiente manera:
0 t S (2.18)
n 2; 0
2
Se X i2
con S = .
0 _ 2
n( X i2 nX )
Frecuentemente, este análisis se utiliza para medir el grado de asociación o relación lineal
entre las variables X e Y. Las suposiciones sobre la población en las que se basa el análisis
de correlación lineal simple son:
2. Las variables X e Y son aleatorias, puesto que ninguno de sus valores son
predeterminados.
3. Para cada una de las variables, las varianzas condicionales para los diferentes valores de
2 2 2
la otra variable son iguales ( Y / Xi X / Yi ).
4. Para cada variable, las distribuciones condicionales, dados los diferentes valores de la
otra variable son todas ellas distribuciones normales, es decir, se supone una distribución
normal bivariada.
Cov( X , Y )
(2.19)
X Y
Para la expresión dada se tiene que: (i) 1 implica una correlación lineal positiva
perfecta entre las variables, (ii) Un valor 1 implica un patrón de correlación lineal
negativo perfecto entre X e Y y (iii) Si 0 simplemente las variables explicativa y
respuesta son estadísticamente independientes y por ende, no existe relación lineal entre
ellas.
. 1 1
. Los valores de cercanos a cero indican una débil correlación lineal entre X e Y.
. Los valores de cercanos a +1 indican una fuerte correlación lineal positiva entre X e Y.
. Los valores de cercanos a -1 indican una fuerte correlación lineal negativa entre X e Y.
Cov( X , Y ) n X iYi Xi Yi
r (2.20)
S X SY n X i2 Xi
2
n Yi 2 Yi
2
Vale la pena destacar que para que r sea un estimador insesgado de , la distribución
conjunta de X e Y debe ser normal. Retomando el ejemplo anterior:
Por el resultado obtenido, se puede concluir que existe una relación lineal positiva fuerte
entre las variables artículos producidos mensualmente y máquinas utilizadas en los
procesos industriales.