Tema 2

Tema 2: Regresión y Correlación
2.1. Introducción
El objetivo principal de algunas investigaciones estadísticas consiste en establecer

relaciones entre dos o más variables. Para estudiar las relaciones existentes entre ellas se
utilizan dos técnicas: el análisis de regresión y el análisis de correlación.
El análisis de regresión se utiliza para fines predicción o descripción. Su objetivo

primordial es desarrollar una ecuación de predicción, es decir una fórmula matemática que
se pueda usar para predecir los valores de una variable dependiente o de respuesta, basada
en los valores de otra u otras variables independientes o explicativas. Por ejemplo, sería de
interés predecir la cantidad de artículos producidos para una industria durante un período
determinado, en términos de la capacidad utilizada de la misma. En este ejemplo, la
cantidad de artículos producidos representa a la variable dependiente y la capacidad
utilizada la independiente (expresada como el número de máquinas empleadas en el
proceso, por ejemplo).
El término de regresión fue usado por primera vez como concepto estadístico por Sir
Francis Galton, a finales del siglo XIX. El trabajo de Galton se centró en comparar la
estatura de los hijos en relación con la de sus padres. En el estudio demostró que los hijos
de padres o bien muy altos o bien muy bajos tienden a retroceder o “regresar” hacia la
estatura media de la población, así se originó el término regresión.
El análisis de regresión puede incluir una o más variables independientes. Si se estima el

valor de la variable dependiente con base en una variable independiente, el análisis se
denomina simple, mientras que si se estima el valor de la variable dependiente con base en
dos o más variables independientes, el análisis de regresión se denomina múltiple. La
naturaleza de la relación existente entre las variables puede adoptar muchas formas que van
desde funciones matemáticas bastante sencillas hasta otras demasiado complicadas, en este
orden de ideas, la relación más sencilla consiste en una relación lineal entre la variable
dependiente y la(s) variable(s) independiente(s) lo que da origen a estudiar el Modelo de
Regresión Lineal Clásico.
Pedro Harmath Regresión y Correlación 1

Estadística II
El análisis de correlación, por otra parte, se utiliza para medir la fuerza de la relación entre
las variables. Su objetivo no es usar una o más variables para predecir otra, sino medir la
fuerza de la asociación entre las variables de interés, así, en el caso de dos variables se
realiza el Análisis de Correlación Lineal Simple.
2.2. El Diagrama de Dispersión
El primer paso para determinar si existe relación lineal entre dos variables consiste en
elaborar y examinar el diagrama de dispersión de los datos, que es una gráfica en la que se
traza cada uno de los puntos que representan un par de valores observados para la variable
dependiente (Y) y la variable independiente (X)
Ejemplo 2.1. Una industria ha tenido grandes fluctuaciones respecto a sus niveles de
producción durante los últimos años. Dado que los procesos de la misma son bastante
complejos, es difícil determinar cuales han sido los factores con mayor influencia sobre la
productividad de la firma. El departamento de maquinaria y soporte técnico ha estudiado
varias relaciones y piensa que el número de máquinas utilizadas (promedio) es una variable
bastante significativa. Se seleccionó una muestra de 7 meses y los resultados se muestran a
continuación:
Tabla 2.1. Máquinas Utilizadas y Producción de Artículos

durante 7 meses elegidos al azar
Máquinas utilizadas (promedio) Producción de artículos (en miles)

Xi Yi
25 34
16 14
42 48
34 32
10 26
21 29
19 20
Para elaborar el diagrama de dispersión se debe en primer lugar, determinar la variable

dependiente y la independiente para posteriormente, en un sistema de coordenadas
cartesianas, colocar en el eje horizontal (X) los valores de la variable independiente

Estadística II
(máquinas) y en el eje vertical (Y) los de la dependiente (producción), localizando un punto
por cada par ( X i , Yi ) .
Gráfica 2.1. Diagrama de Dispersión
40


Y
30 
20 
10 20 30 40
Se puede observar que existe una relación aproximadamente lineal entre ambas variables,
por lo cual es posible trazar o ajustar una línea recta para representar la relación
(directamente proporcional) entre el número de máquinas promedio utilizadas y la
producción expresada en miles de artículos de la industria determinada.
2.3. Modelo de Regresión Simple Poblacional
Se emplea en aquellas situaciones donde es de interés, estudiar la relación existente entre

dos variables, admitiendo que la relación poblacional lineal entre la variable independiente
(X) y la media de la variable dependiente (Y) puede ser expresada por una línea recta, de
esta manera:
Y / Xi B0 B1 X i (2.1)
donde 0 es la ordenada en el origen, por lo que representa el valor medio de Y cuando X
es igual a cero, mientras que 1 es la pendiente de la recta de regresión poblacional,

representa el cambio medio en Y (aumento o disminución) por un incremento unitario
particular en X. Nótese que un valor observado Yi para el valor dado X i por lo general no

Estadística II
es igual al valor medio Y / Xi . Esta diferencia entre el valor observado (Yi ) y Y / Xi suele
llamarse error o perturbación aleatoria, así:
i Yi Y / Xi (2.2)
o i Yi ( 0 1 Xi)
Despejando Yi en la expresión 2.2 se obtiene la ecuación del Modelo de Regresión Lineal
Simple Poblacional:
Yi 0 1 Xi i (2.3)
La introducción del error aleatorio ( i ) en el modelo se justifica por las siguientes razones:
a) Es una variable sustitutiva de todas las variables omitidas que pueden afectar a la
variable dependiente, pero que por una u otra causa no fueron incluidas en el modelo.
b) A pesar que se incluyan en el modelo todas las variables que influyen sobre la variable
dependiente, siempre existe un componente aleatorio intrínseco que no puede ser explicado
con la inclusión de más variables independientes.
c) También existen errores de observación o medida, bien sea por algún defecto, debido a
los instrumentos de medición utilizados, a la transcripción o agregación de los datos o a la
percepción del analista.
2.4. Supuestos del Modelo de Regresión Lineal Simple
1. X es una variable fija en el muestreo, porque sus niveles de observación son

seleccionados de antemano por el investigador.
2
2. Y ~ N ( 0 1 Xi; )
3. La variable aleatoria es estadísticamente independiente de los valores de la variable

independiente X . Cuando X es una variable fija, tiene que ser independiente de la variable

Estadística II
aleatoria i debido a que a covarianza entre una variable aleatoria y una constante es igual
a cero.
4. La variable aleatoria tiene una distribución normal. Como el término representa un

conjunto de factores extraños (errores en la especificación del modelo, errores de
observación o medida, etc.) y estos factores no están relacionados entre sí, entonces
mediante el teorema central del límite se garantiza que su efecto conjunto tiene una
distribución normal.
5. El valor esperado de la variable aleatoria i para cualquier X i es igual al origen, es

decir,
E( i / Xi) 0
Este supuesto expresa que para un X i dado, las diferencias entre las Yi y las Y i son a
veces positivas y a veces negativas, pero su valor esperado es igual a cero.
6. Cualquier par de errores i y j son estadísticamente independientes entre sí; es decir,
su covarianza es igual a cero.
Cov( i , j ) 0
Este supuesto significa que el error de un punto de la población no puede ser relacionado
sistemáticamente con el error de cualquier punto de la población.
7. La variable aleatoria i tiene una varianza finita que es constante para todos los valores
de X i , ello implica:
2
Var ( i / X i )
Este supuesto indica que los residuos poseen una varianza constante, es decir son
homocedásticos (igual dispersión).

Estadística II
2.5. Modelo de Regresión Simple Muestral
Recuerde que siempre se utilizan los datos muestrales para realizar estimaciones de las
características poblacionales. Siendo 0 y 1 estimadores puntuales de 0 y 1 . Con los
valores estimados y con un valor dado X i , se predice un valor de Yi , designado por Y i , el
cual representa el estimador de Y / Xi , así:
Yi 0 1 X i (2.4)
Siendo la recta de regresión muestral, con i Yi Y i . Despejando Yi en la última
expresión, se obtiene la ecuación del Modelo de Regresión Lineal Simple Muestral:
Yi Yi i (2.5)
o Yi 0 1 Xi i
Es de suma importancia destacar que se necesita recurrir a un procedimiento para lograr

estimaciones apropiadas que representen adecuadamente la relación entre ambas variables;
en este sentido, el procedimiento para hallar las mismas se denomina método de mínimos
cuadrados.
2.6. Estimaciones de los Parámetros por el Método de Mínimos Cuadrados Ordinarios

(MCO)
Este método consiste en obtener los valores de 0 y 1 de modo que los valores
resultantes de Y i sean los más cercanos posibles a los valores observados Yi , es decir, se
determinan los valores 0 y 1 que minimizan la suma de los cuadrados de los residuos
2
( i ) para hallar la recta que mejor se ajusta a los datos, dicho método se define de la
manera siguiente:

Estadística II
n n n 2
Minimizar ei2 Min (Yi Yi ) 2 Min Yi ( 0 1 Xi )

i 1 i 1 i 1
Al (i) diferenciar parcialmente respecto a los parámetros, (ii) realizar algunas operaciones
algebraicas para obtener las ecuaciones llamadas ecuaciones normales y (iii) resolver el
sistema de ecuaciones, se tiene que la estimación de mínimos cuadrados de 1 es:
n X i Yi Xi Yi
1 (2.6)
n X i2 ( X i )2
La estimación de mínimos cuadrados de 0 es:
n n
Yi Xi
i 1 i 1
0 1 (2.7)
n n
_ _
0 Y 1X
Para proceder a calcular las fórmulas 2.6 y 2.7 hay un número determinado de sumas que se
deben calcular.
Tabla 2.2. Cálculos necesarios para obtener la Recta Mínimo Cuadrática
Xi Yi XiYi XiXi
25 34 850 625
16 14 224 256
42 48 2.016 1.764
34 32 1.088 1.156
10 26 260 100
21 29 609 441
19 20 380 361
Suma 167 203 5.427 4.703
Media 23,8571 29

Estadística II
Una vez que se han obtenido las sumas, se procede a determinar el valor de 1 de la
manera siguiente:
n X i Yi Xi Yi
1
n X i2 ( X i )2
7(5.427) (167)(203) 37.989 33.901 4.088

0,8124
7(4.703) (167) 2 32.921 27.889 5.032
Usando el resultado obtenido para 1 se procede a obtener 0 :
_ _
0 Y 1 X
29 0,8134(23,8571) 9,6185
Por lo tanto, el modelo estimado para los datos de la tabla 2.1 es:
Yi 9,6185 0,8124X i
Los valores estimados se interpretan de la siguiente manera:
0 = 9,6185(1.000) = 9.618,5 la producción promedio mensual es de 9.618,5 artículos

cuando no se utilizan las máquinas para realizar los diferentes trabajos.
1 = 0,8124(1000) = 812,4 por cada máquina adicional utilizada se espera un

incremento promedio de 812,4 artículos producidos.
Una vez que se ha obtenido la recta de regresión muestral, se pueden calcular los valores
estimados y los residuos para los puntos muestrales.

Estadística II
Tabla 2.3. Valores Observados, Valores Estimados y Residuos
Correspondientes al Modelo Estimado
Xi Yi Y i 9 , 6185 0 ,8124 X i i (Yi Yi)

25 34 29,9285 4,0715*
16 14 22,6169 -8,6169
42 48 43,7393 4,2607
34 32 37,2401 -5,2401
10 26 17,7425 8,2575
21 29 26,6789 2,3211
19 20 25,0541 -5,0541**
Suma 167 203 202,9943 -0,0003
Nótese que la sumatoria de los valores residuales es prácticamente igual al origen (0). Por
otra parte, se observa que los errores aleatorios pueden ser positivos o negativos. Un
residuo positivo como i 4,0715 indica que Y 1 subestima el valor de Y 1 . Por otra parte,
un residuo negativo como i 5,0541 indica que Y 7 sobreestima el valor de Y 7 .
La recta de regresión muestral obtenida sirve para determinados propósitos:
1) Los valores de 0 y 1 constituyen estimaciones puntuales de los parámetros
poblacionales 0 y 1 .
2) Al conocer la recta de regresión muestral, y sustituir los valores de X i en dicha recta se
obtienen los valores estimados Y i
3) Mediante la recta de regresión se puede predecir los valores medios de la variable

dependiente. Supóngase que se quiere predecir la productividad promedio cuando se
utilizan 15 máquinas en los procesos respectivos. Al sustituir X i 15 en el modelo:
Yi 9,6185 0,8124(15) 21,8045 1000 21.804,5

Estadística II
Este resultado indica que la producción mensual promedio es de 21.804,5 artículos cuando
se utilizan 15 máquinas para los diversos trabajos.
2. 7. Medidas de la Bondad de Ajuste
Aunque se ha visto que las estimaciones MCO dan como resultado una recta (modelo) que
se ajusta a los datos con el mínimo de variación, la recta de regresión no es un indicador
perfecto de la predicción a menos que todos los puntos se encuentren sobre la recta
propiamente dicha. Por ello, se necesitan obtener medidas que indiquen la confiabilidad del
modelo estimado, por esta razón, se utilizan las medidas de bondad de ajuste ya que miden
la bondad con que la recta se ajusta a las observaciones.
Como punto de partida para el apartado, se tiene que la desviación total para los valores de
la variable dependiente puede ser desagregada de la siguiente manera:
_ _
(Yi Y) (Yi Y ) (Y i Y ) (2.8)
Desviación = Desviación + Desviación
total no explicada explicada
Si se elevan al cuadrado cada una de las desviaciones anteriores y se suman todos los
valores correspondientes a las n-ésimas observaciones, se obtienen las siguientes medidas
de variación, es decir:
Variación total = Variación no explicada + Variación explicada
_ _
(Yi Y )2 (Yi Y )2 (Y i Y ) 2 (2.9)
Suma de Cuadrados = Suma de Cuadrados + Suma de Cuadrados
Total (SCT) del Error (SCE) de la Regresión (SCR)
SCT = SCE + SCR
Las fórmulas para obtener las Sumas de Cuadrados son:
_ _ 2
2 2
SCT (Yi Y) Yi nY (2.10)

Estadística II
_ 2 _ 2
2 2
SCR = (Y i Y) 1 ( X i n X ) (2.11)
SCE (Yi Y i )2 SCT - SCR (2.12)
Una vez que se ha descompuesto la variación total en estos dos componentes, se pueden
obtener las medidas de bondad de ajuste.
2.7.1. Error Estándar de Estimación (Se)
El error estándar de estimación mide la variabilidad o dispersión de los valores observados

alrededor de la línea de regresión y se halla a partir de la siguiente expresión:
(Yi Y i )2 SCE
Se CME (2.13)
n 2 n 2
Cuanto más grande sea S e mayor será la dispersión de los puntos muestrales alrededor de
la línea de regresión. En el caso extremo S e 0 se dice que la ecuación es un estimador
perfecto ya que todos los puntos observados caen en la línea de regresión, aunque esto en la
práctica suele suceder con muy poca frecuencia. Siendo S e una medida de ajuste absoluta,
ésta se utiliza fundamentalmente con fines comparativos (al seleccionar 2 o más modelos
que utilizan las mismas variables)
2
El componente i (Yi Y i ) 2 se obtiene elevando cada uno de los valores de la tabla
2.3 al cuadrado y aplicando la respectiva sumatoria. Al sustituir se tiene que:
(Yi Y i )2 235,5580
Se 6,86378
n 2 7 2
Este error estándar de estimación igual a 6,86378 representa una medida de la variación
alrededor de la línea de regresión ajustada.

Estadística II
2.7.2. Coeficiente de Determinación (R2)
Mide la proporción o el porcentaje de la variación relativa de la variable dependiente

explicada por la variable independiente:
SCR
R2 (2.14)
SCT
Propiedades:
. Como el coeficiente de determinación es un cociente de dos sumas al cuadrado entonces

es una medida no negativa.
. SCR SCT 0 R2 1.
. Un R 2 0 indica que no existe relación lineal entre las variables dependiente e

independiente, lo cual significa que ninguna parte de la variación de Y está explicada por X.
Así, el valor del coeficiente de determinación será igual a cero cuando SCR=0 y
SCE = SCT.
. Un R 2 1 indica que existe una relación lineal perfecta entre las variables dependiente e
independiente, lo cual significa que la variación existente de Y está explicada totalmente
por X. Así, el valor del coeficiente de determinación será igual a uno cuando SCE=0 y
SCR = SCT.
Para el ejemplo tratado a lo largo del tema se tiene que:
2 _ 2
2
SCR = 1 ( X i nX ) (0,8124) 2 (4.703 7(23,8571) 2 0,65999(718,8715)
= 474,4480
_2
SCT = Yi 2 n Y = 6.597-7(29)2 = 710

Estadística II
SCR 474,4480
R2 = 0,6682 100 66,82%
SCT 710
El resultado indica que el 66,82% de la variación muestral total para el número de artículos
producidos mensualmente (Y), se encuentra explicado en términos de la cantidad de
máquinas utilizadas (X). Ello implica que según la medida, el 33,18% de la variabilidad de
la dependiente no ha sido explicada en términos del modelo estimado.
2.8. Inferencia Estadística con respecto a los parámetros ß0 y ß1
Aún cuando hay casos en que la relación entre ambas variables en estudio de una población
es poca o nula, es posible obtener valores muestrales que hagan que parezca que las
variables respuesta y explicativa están relacionadas linealmente, debido a que los factores
aleatorios en el muestreo han dado lugar a una relación del tipo lineal cuando no existe este
tipo de relación. Es por ello, que resulta de gran interés determinar si en efecto, la variable
independiente X es adecuada para predecir los valores de la variable dependiente Y.
2.8.1. Contraste de Hipótesis para ß1
Para este contraste se parte de la hipótesis nula de que no existe relación lineal entre X e Y,
por lo cual, de no rechazarse la misma es un claro indicio de que el modelo estimado no es
estadísticamente significativo en términos de predicción de la variable dependiente como
función lineal de la independiente. La formulación de las hipótesis alternativa depende del
conocimiento previo que se tenga de 1 :
H1 : 1 >0 (se tiene información a priori, en el sentido de que no puede ser negativo 1 )
H1 : 1 <0 (se tiene información a priori, en el sentido que no puede ser positivo 1 )
H1 : 1 0 (hay ciertas dudas sobre los posibles valores de 1 )
Para probar la hipótesis H 0 : 1 0 se usa la distribución t de Student. El estadístico de
contraste es el siguiente:

Estadística II
1
t ~t(n-2 g.l.) (2.15)
S
1
Se
con S = .
1 _ 2
2
X i nX
1. Para el ejemplo, en primer lugar, se formulan las hipótesis de la siguiente manera:
H0 : 1 0 (no existe una relación lineal directa entre la producción de artículos y las
máquinas utilizadas)
H1 : 1 >0 (existe una relación lineal directa entre la producción de artículos y las
máquinas utilizadas)
2. Debe fijarse el nivel de significación, en este caso si se realiza el contraste con un nivel
de confianza del 95%, ello implica un nivel de significación 0,05 .
3. Se establece el estadístico de prueba apropiado para la realización del test:
1
t
S
1
4. Se halla el valor crítico (t tabulado):
tn 2; t 5;0,05 2,015
5. Por otra parte, se halla el valor del estadístico de prueba o contraste (t calculado)
6,86367
S 0,2560
1 718,8715

Estadística II
Por lo tanto:
0,8124
t 3,1724
0,2560
6. Decisión e interpretación: Como se cumple que t c > t t (3,1724 > 2,015) se rechaza la
hipótesis nula H 0 . Con un nivel de significación del 5% (o confianza del 95%) se puede
concluir que los datos presentan evidencias suficientes de que existe una relación lineal
directa entre las variables producción mensual de artículos y maquinaria utilizada en los
procesos industriales.
2.8.2. Intervalo de Confianza para ß1
Un método equivalente a la prueba de hipótesis que se utiliza para probar la existencia de

una relación lineal entre dos variables es obtener un intervalo de confianza para 1 y
determinar si el valor hipotético ( 1 0 ) está incluido en el intervalo. Los límites del
intervalo de confianza para 1 se obtienen de la siguiente manera:
1 t S (2.16)
n 2; 1
2
De esta manera, si el intervalo incluye al valor cero no se rechaza H 0 : 1 0 y las
variables no están relacionadas linealmente; por otra parte si el intervalo no incluye al

origen se rechaza la hipótesis nula.
Para el ejemplo 2.1, al sustituir 1 0,8124; t n 2; / 2 t 5;0,025 2,571 y S 0,2560 en la

1
expresión 2.16 se tiene:
1 t S = 0,8124 2,571(0,2560) 0,8124 0,6582

n 2; 1
2
0,1542 < 1 < 1,4706

Estadística II
Por lo que se puede concluir que con un nivel de confianza del 95% (significancia del 5%)
el valor del parámetro se encuentre entre 154,2 y 1470,6 artículos mensuales producidos en
promedio. Como el intervalo hallado no contiene a cero, se rechaza la hipótesis nula
H0 : 1 0 al igual que en el contrasta de hipótesis, por lo que nuevamente, hay indicios
estadísticos suficientes de que existe una relación lineal directa ente las variables. Así,
nótese que es de esperarse que ambos métodos de inferencia conduzcan al mismo resultado
en cuanto al no rechazo o rechazo de la H 0 .
2.8.3. Prueba de Hipótesis e Intervalo de Confianza para ß0
Usando un procedimiento similar al anterior, se puede realizar pruebas de hipótesis o
estimación por intervalo referentes al parámetro poblacional 0 . En este caso el estadístico

apropiado sería:
0
t (2.17)
S
0
que tiene una distribución t con n-2 grados de libertad.
Por otra parte, el intervalo de confianza puede ser hallado de la siguiente manera:
0 t S (2.18)
n 2; 0
2
Se X i2
con S = .
0 _ 2
n( X i2 nX )
2.9. Análisis de Correlación Lineal Simple
Frecuentemente, este análisis se utiliza para medir el grado de asociación o relación lineal
entre las variables X e Y. Las suposiciones sobre la población en las que se basa el análisis
de correlación lineal simple son:

Estadística II
1. La relación entre ambas variables es lineal.
2. Las variables X e Y son aleatorias, puesto que ninguno de sus valores son
predeterminados.
3. Para cada una de las variables, las varianzas condicionales para los diferentes valores de
2 2 2
la otra variable son iguales ( Y / Xi X / Yi ).
4. Para cada variable, las distribuciones condicionales, dados los diferentes valores de la
otra variable son todas ellas distribuciones normales, es decir, se supone una distribución
normal bivariada.
En base a los supuestos el coeficiente poblacional se obtiene de la forma:
Cov( X , Y )
(2.19)
X Y
Para la expresión dada se tiene que: (i) 1 implica una correlación lineal positiva
perfecta entre las variables, (ii) Un valor 1 implica un patrón de correlación lineal
negativo perfecto entre X e Y y (iii) Si 0 simplemente las variables explicativa y
respuesta son estadísticamente independientes y por ende, no existe relación lineal entre
ellas.
De las observaciones anteriores se deduce que:
. 1 1
. Los valores de cercanos a cero indican una débil correlación lineal entre X e Y.
. Los valores de cercanos a +1 indican una fuerte correlación lineal positiva entre X e Y.
. Los valores de cercanos a -1 indican una fuerte correlación lineal negativa entre X e Y.

Estadística II
2.9.1. Coeficiente de Correlación Muestral
Como en todos los problemas de estimación, para determinar el parámetro poblacional

se usarán los datos muestrales. En este caso, el estadístico muestral recibe el nombre de
coeficiente de correlación muestral y es hallado a partir de la siguiente expresión:
Cov( X , Y ) n X iYi Xi Yi
r (2.20)
S X SY n X i2 Xi
2
n Yi 2 Yi
2
Vale la pena destacar que para que r sea un estimador insesgado de , la distribución
conjunta de X e Y debe ser normal. Retomando el ejemplo anterior:
Cov( X , Y ) n X iYi Xi Yi 4.088

r 0,8175
S X SY n X i2 Xi
2
n Yi 2 Yi
2
5.032 4.970
Por el resultado obtenido, se puede concluir que existe una relación lineal positiva fuerte
entre las variables artículos producidos mensualmente y máquinas utilizadas en los
procesos industriales.

Estadística II

Tema 2

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tema 2

Încărcat de

Drepturi de autor:

Formate disponibile

Tema 2: Regresión y Correlación

El objetivo principal de algunas investigaciones estadísticas consiste en establecer

El análisis de regresión se utiliza para fines predicción o descripción. Su objetivo

El análisis de regresión puede incluir una o más variables independientes. Si se estima el

Pedro Harmath Regresión y Correlación 1

2.2. El Diagrama de Dispersión

Tabla 2.1. Máquinas Utilizadas y Producción de Artículos

Máquinas utilizadas (promedio) Producción de artículos (en miles)

Para elaborar el diagrama de dispersión se debe en primer lugar, determinar la variable

Pedro Harmath Regresión y Correlación 2

Gráfica 2.1. Diagrama de Dispersión

2.3. Modelo de Regresión Simple Poblacional

Se emplea en aquellas situaciones donde es de interés, estudiar la relación existente entre

donde 0 es la ordenada en el origen, por lo que representa el valor medio de Y cuando X

es igual a cero, mientras que 1 es la pendiente de la recta de regresión poblacional,

Pedro Harmath Regresión y Correlación 3

llamarse error o perturbación aleatoria, así:

Despejando Yi en la expresión 2.2 se obtiene la ecuación del Modelo de Regresión Lineal

2.4. Supuestos del Modelo de Regresión Lineal Simple

1. X es una variable fija en el muestreo, porque sus niveles de observación son

3. La variable aleatoria es estadísticamente independiente de los valores de la variable

Pedro Harmath Regresión y Correlación 4

4. La variable aleatoria tiene una distribución normal. Como el término representa un

5. El valor esperado de la variable aleatoria i para cualquier X i es igual al origen, es

veces positivas y a veces negativas, pero su valor esperado es igual a cero.

6. Cualquier par de errores i y j son estadísticamente independientes entre sí; es decir,

su covarianza es igual a cero.

Pedro Harmath Regresión y Correlación 5

características poblacionales. Siendo 0 y 1 estimadores puntuales de 0 y 1 . Con los

valores estimados y con un valor dado X i , se predice un valor de Yi , designado por Y i , el

cual representa el estimador de Y / Xi , así:

Siendo la recta de regresión muestral, con i Yi Y i . Despejando Yi en la última

expresión, se obtiene la ecuación del Modelo de Regresión Lineal Simple Muestral:

Es de suma importancia destacar que se necesita recurrir a un procedimiento para lograr

2.6. Estimaciones de los Parámetros por el Método de Mínimos Cuadrados Ordinarios

Pedro Harmath Regresión y Correlación 6

Minimizar ei2 Min (Yi Yi ) 2 Min Yi ( 0 1 Xi )

sistema de ecuaciones, se tiene que la estimación de mínimos cuadrados de 1 es:

La estimación de mínimos cuadrados de 0 es:

Tabla 2.2. Cálculos necesarios para obtener la Recta Mínimo Cuadrática

Pedro Harmath Regresión y Correlación 7

7(5.427) (167)(203) 37.989 33.901 4.088

Usando el resultado obtenido para 1 se procede a obtener 0 :

Los valores estimados se interpretan de la siguiente manera:

0 = 9,6185(1.000) = 9.618,5 la producción promedio mensual es de 9.618,5 artículos

1 = 0,8124(1000) = 812,4 por cada máquina adicional utilizada se espera un

Pedro Harmath Regresión y Correlación 8

Xi Yi Y i 9 , 6185 0 ,8124 X i i (Yi Yi)

un residuo negativo como i 5,0541 indica que Y 7 sobreestima el valor de Y 7 .

La recta de regresión muestral obtenida sirve para determinados propósitos:

1) Los valores de 0 y 1 constituyen estimaciones puntuales de los parámetros

2) Al conocer la recta de regresión muestral, y sustituir los valores de X i en dicha recta se

obtienen los valores estimados Y i

3) Mediante la recta de regresión se puede predecir los valores medios de la variable

Yi 9,6185 0,8124(15) 21,8045 1000 21.804,5

Pedro Harmath Regresión y Correlación 9

2. 7. Medidas de la Bondad de Ajuste

Variación total = Variación no explicada + Variación explicada

SCT = SCE + SCR

Las fórmulas para obtener las Sumas de Cuadrados son:

Pedro Harmath Regresión y Correlación 10

SCE (Yi Y i )2 SCT - SCR (2.12)

2.7.1. Error Estándar de Estimación (Se)