Documente Academic
Documente Profesional
Documente Cultură
Y = a + bX
X
ESTIMACION DE PARAMETROS
Y = 0 + 1X +
Donde es un error aleatorio con media cero y varianza 2.
Al utilizar el modelo anterior para representar cada observacin de Y, stas quedarn de la siguiente
manera:
Y1 = 0 + 1X1 + 1
Y2 = 0 + 1X2 + 2
Y3 = 0 + 1X3 + 3
.
.
.
.
.
.
.
.
.
.
.
.
Y = 0 + 1X
Y = 0 + 1X +
Yn = 0 + 1Xn + n
X
En general, Yi = 0 + 1Xi + i para i = 1, 2, 3, ..., n
0 Y 1 X
n
i 1
X iYi
X Y
i 1
i 1
Xi
n
X i2 i 1
n
i 1
Sxx X i X
i 1
Xi
n
X i2 i 1
n
i 1
i 1
Sxy Yi X i X X i Yi
i 1
X Y
i 1
i 1
Sxy
Sxx
Por lo tanto, el modelo de regresin lineal simple ajustado queda de la siguiente forma:
Y 0 1 X
donde 0 y 1 son los estimadores de los valores verdaderos de la ordenada en el origen y la
pendiente, respectivamente.
H 0 : 0 0,0
H a : 0 0,0
2
t0
0 0,0
1 X 2
CME
n Sxx
donde:
MSE es la media de los cuadrados del error o bien, el estimador de la varianza del modelo:
2 CME
SCE
n2
en este caso SCE es la suma de los cuadrados del error y n 2 son los grados de libertad del error.
n
Yi
n
2
SCT Syy Yi i 1
n
i 1
SCR 1 Sxy
PARA LA PENDIENTE
Algo semejante realizaremos para la pendiente. Partimos de la hiptesis nula afirmando que la pendiente
es igual a un valor determinado (siempre que dicho valor sea diferente de cero), contra la alternativa
apropiada, por ejemplo que sea diferente a dicho valor:
H 0 : 1 1,0
H a : 1 1,0
el estadstico de prueba en este caso es:
t0
1 1,0
CME
Sxx
Este estadstico tambin sigue una distribucin t-student con v = n 2 grados de libertad.
Del mismo modo, la expresin
CME
representa la desviacin estndar para 1.
Sxx
Si el valor absoluto del estadstico de prueba es mayor que el valor de tablas, t/2, n 2, entonces se rechaza
la hiptesis nula y se acepta la alternativa: la pendiente es diferente al valor representado por 1,0.
Como:
Suma de
cuadrados
Grados de
libertad
Regresin
SCR
Error
SC
n-2
Total
SCT
n-1
Media de
cuadrados
SCR
1
SCE
CME
n2
CMR
Estadstico de
prueba
F0
CMR
CME
0 t
,n 2
1 X 2
1 X 2
CME
0 0 t ,n 2 CME
2
n Sxx
n Sxx
1 t
,n2
CME
CME
1 1 t ,n2
2
Sxx
Sxx
En este caso la conclusin si depende del resultado obtenido, veamos los casos posibles:
Puede que el intervalo resulte en a 1 b ; la conclusin apropiada ser que por cada incremento en
X, Y, disminuir, en promedio, por lo menos b y a lo mucho a veces.
Otro resultado posible para el intervalo sera a 1 b ; la conclusin ser, en este caso, que por cada
incremento en X, Y se incrementar, en promedio, por lo menos a y a lo mucho b veces.
Si el resultado del intervalo es a 1 b , en este caso, solamente concluiremos que no se puede
afirmar que X tenga efecto sobre Y.
El intervalo de confianza de (1 -100% para el valor esperado de Y cuando X = X0, esta dado por la
ecuacin:
Y0 t
,n 2
1 X X
CME 0
Sxx
n
Y0 t
,n2
1 X X
CME 0
Sxx
n
El intervalo de confianza de (1 - ) 100% para una observacin futura de Y cuando X = X0, est dado por
la expresin:
Y0 t
,n 2
1 X X
CME 1 0
Sxx
n
Y0 t
,n2
1 X X
CME 1 0
Sxx
n
Y0 t
,n 2
1 1 X X
CME 0
Sxx
k n
Y0 t
,n 2
1 1 X X
0
CME
k
n
Sxx
ei Yi Yi
Graficamos estos residuos ya sea contra los valores de X, contra los valores estimados de Y, contra los
valores observados de Y o contra la variable tiempo, si es que se tiene.
Basta comparar, esta grfica con los siguientes patrones para llegar a una conclusin acerca de la
adecuacin del modelo:
ei
ei
Yi
Yi
ei
ei
Y
La variacin es irregular.
El modelo no es adecuado
COEFICIENTE DE DETERMINACION
El coeficiente de determinacin nos permite evaluar qu tanta variacin de los valores de Y se explica
mediante el modelo de regresin lineal simple.
Este coeficiente de determinacin se representa por el smbolo R2; toma valores entre 0 y 1. A medida que
se acerca a 1 el modelo s es adecuado puesto que explica la mayor cantidad de variacin presente en los
datos.
En tanto R2 se acerque a cero, el modelo deja de ser adecuado puesto que la cantidad de variacin de los
datos que se explica mediante el modelo es pobre.
El coeficiente de determinacin se expresa como un porcentaje y se calcula mediante:
R2
SCR
100%
SCT
CORRELACION
El coeficiente de correlacin se representa mediante el smbolo (rho). Se define mediante:
xy
x y
2
donde xy es la covarianza entre X y Y.
x
y
Aqu vemos que el coeficiente de correlacin est relacionado con 1 sin que esto represente que se trate
de conceptos iguales.
1 > 0
>0
1 < 0
<0
1 = 0
=0
X
Los estimadores de los parmetros del modelo de regresin son los mismos calculados en temas
anteriores:
0 Y 1 X
1
Sxy
Sxx
Sxy
Sxx Syy 12
2
S XY
r
Sxx Syy
2
r2
Como
Sxy Sxy
Sxx Syy
Sxy
1 :
Sxx
r2
y
1 Sxy
Syy
1 Sxy SSR :
entonces:
r2
SSR
R2
Syy
Concluimos que el coeficiente de correlacin es igual a la raz cuadrada del coeficiente de determinacin
SSR
R2
Syy
Vemos tambin que el coeficiente de correlacin est relacionado con el coeficiente de determinacin,
aunque son conceptos totalmente diferentes.
EJERCICIO
La resistencia del papel utilizado en la manufactura de cajas de cartn ( Y ) se relaciona con el porcentaje
de la concentracin de madera dura en la pulpa original ( X ). En condiciones controladas, una planta
piloto manufactura 16 muestras, cada una de diferentes lotes de pulpa, y se mide la resistencia a la
tensin. Los datos son los siguientes.
I.
II.
III.
IV.
V.
VI.
1.0
101.4
1.5
117.4
1.5
117.1
1.5
106.2
2.0
131.9
2.0
146.9
2.2
146.8
2.4
133.9
2.5
111.3
2.5
123.0
2.8
125.1
2.8
145.2
3.0
134.3
3.0
144.5
3.2
143.7
3.3
146.9
n=
X =
2
X =
Y =
2
Y =
XY =
16
37.2
93.66
2075.6
272908.02
4937.97
Para encontrar las respuestas a cada uno de los incisos del ejercicio anterior, necesitamos primero
calcular las sumatorias de las variables X y Y:
Con los valores anteriores, calcularemos las expresiones Sxx, Sxy que nos permitirn determinar los
estimadores de los parmetros del modelo solicitado en el inciso 1 del ejercicio.
Sxy XY
X Y
n
37.2 2075.6
Sxy 4937.97
16
Sxy 112.2
Sxx X
n
2
37.2
Sxx 93.66
16
Sxx 7.17
Sxy
Sxx
112.2
1
7.17
1 15.6485
0 Y 1 X
0 129.725 15.64852.325
0 93.3422
El primer inciso nos pide ajustar un modelo de regresin lineal simple a los datos:
Y 93.3422 15.6485 X
De aqu concluimos lo siguiente:
Por cada incremento en la concentracin de madera dura en la pulpa original, la resistencia del
papel se incrementar 15.6485 veces en promedio.
10
Enseguida calcularemos los valores de Syy, SSR y SSE que nos permitirn realizar la prueba de
significancia del modelo.
Syy Y
2075.6
Syy 272908.02
16
Syy 3650.81
SSR 1 Sxy
SSR 15.6485112.2
SSR 1755.7617
H 0 1 0
H a 1 0
F0
F0
SSR1
SSE n 2
1755.76171
1895.048314
1755.7617
135.3605
F0 12.9710
F0
El valor de las tablas de la distribucin F con un nivel de significancia del 5 % con 1 y 14 grados de libertad
en el numerador y el denominador, respectivamente, es 4.6
Al comparar el estadstico de prueba con dicho valor vemos que 12.9710 es mayor que 4.6. esto no lleva a
rechazar la hiptesis nula y por consiguiente a aceptar la alternativa:
La resistencia del papel s est relacionada significativamente con la concentracin de madera dura
en la pulpa original.
En la segunda parte del inciso 2 se pide probar tambin la falta de ajuste del modelo. Para esto
acomodaremos los valores de X, que estn repetidos en los datos, con sus respectivos valores de Y de la
siguiente forma:
X
1.5
Y
117.4
117.1
106.2
113.5666
=
81.4466
11
2.0
2.5
2.8
3.0
131.9
111.3
125.1
134.3
146.9
123.0
145.2
144.5
139.4
117.15
135.15
139.4
112.5
68.445
202.005
52.02
SSpe = 516.4166
SS lof
F02
F02
SS pe
m2
nm
1378.6317
516.4166
F02 2.0022
El valor de las tablas de la distribucin F con un nivel de significancia del 5 % y con 8 y 6 grados de
libertad en el numerador y el denominador, respectivamente, es 4.15
Comparando el estadstico de prueba con el valor encontrado en las tablas de la distribucin F, vemos que
dicho estadstico es menor que 4.15, por lo tanto no podemos rechazar la hiptesis nula:
No se puede afirmar que el modelo lineal no se ajuste a los datos, por lo que podemos decir que
dicho modelo s es adecuado para representar la relacin entre las variables del ejercicio.
En el inciso 3 se pide calcular un intervalo de confianza del 90% para la pendiente de la lnea de
regresin. Para esto necesitamos buscar en las tablas de la distribucin t-student el valor de t0.5,14. Este
valor en la tablas es 1.761, por lo que el intervalo de confianza quedar de la siguiente manera:
1 t
15.6485 1.761
,n 2
MSE
MSE
1 1 t ,n 2
2
Sxx
Sxx
135.3605
135.3605
1 15.6485 1.761
7.17
7.17
7.9970 1 23.2999
aqu concluiremos:
12
Se puede afirmar con un 90% de certeza que por cada incremento en la concentracin de madera
dura en la pulpa original del papel, la resistencia del mismo se incrementar por lo menos 7.9970 y
a lo mucho 23.2999 veces en promedio.
0 t
,n 2
1 X 2
1 X 2
MSE
t
MSE
0
0
,n 2
2
n Sxx
n Sxx
1 2.3252
1 2.3252
93.3422 2.624 135.3605
93
.
3422
2
.
624
135
.
3605
0
16
7
.
17
7.17
16
65.7575 0 120.9268
La conclusin ser:
Se puede afirmar con un 98% de certeza que la lnea de regresin cortar el eje Y en por lo menos
65.7575 y a lo mucho 120.9268.
Para el inciso 5 en el que se pide un intervalo de confianza del 95% para la lnea de regresin verdadera
en
X = 2.5, buscaremos el valor de t0.025,14 en las tablas de la distribucin t-student. Este valor es 2.145.
Tambin necesitamos determinar el valor estimado de Y cuando X es igual a 2.5; para esto introducimos
dicho valor en el modelo de regresin lineal calculado en el primer inciso:
Y0 93.3422 15.6485 X 0
Y0 93.3422 15.64852.5
Y0 132.4634
El intervalo de confianza para la respuesta media de Y queda determinado de la siguiente manera:
Y0 t
,n 2
1 X 0 X 2
1 X 0 X 2
MSE
Y Y0 t ,n 2 MSE
2
Sxx
Sxx
n
n
1 2.5 2.3252
1 2.5 2.3252
132.4634 2.145 135.3605
132
.
4634
2
.
145
135
.
3605
Y
16
7
.
17
7.17
16
126.0150 Y 138.9123
en este caso concluiremos:
13
Existe un 95% de certeza al afirmar que cuando la concentracin de madera dura en la pulpa
original del papel sea de 2.5%, su resistencia esperada ser por lo menos 126.0150 y a lo mucho
138.9123.
Por ltimo, el inciso 6 se pide determinar el porcentaje de la variabilidad en la resistencia del papel que se
explica mediante el modelo de regresin lineal simple. Esto es, calcular el coeficiente de determinacin:
SSR
Syy
1755.7617
R2
3650.81
2
R 0.4809
R2
Y 93.3422 15.6485 X
como el valor de R2 es bajo, podemos concluir que el modelo no es adecuado para representar la relacin
entre los valores de X y Y.
Podemos verificar la mayora de los resultados obtenidos anteriormente en la siguiente hoja de clculo
diseada en Excel. Esta hoja arroja automticamente los valores requeridos para resolver un problema de
regresin lineal simple.
14