Sunteți pe pagina 1din 14

REGRESION LINEAL SIMPLE

Y = a + bX

X
ESTIMACION DE PARAMETROS
Y = 0 + 1X +
Donde es un error aleatorio con media cero y varianza 2.
Al utilizar el modelo anterior para representar cada observacin de Y, stas quedarn de la siguiente
manera:

Y1 = 0 + 1X1 + 1

Y2 = 0 + 1X2 + 2
Y3 = 0 + 1X3 + 3
.
.
.

.
.
.

.
.
.

.
.
.

Y = 0 + 1X
Y = 0 + 1X +

Yn = 0 + 1Xn + n
X
En general, Yi = 0 + 1Xi + i para i = 1, 2, 3, ..., n

METODO DE MINIMOS CUADRADOS

0 Y 1 X
n

i 1

X iYi

X Y
i 1

i 1

Xi
n
X i2 i 1

n
i 1

Si definimos las siguientes expresiones:


Sxx, como la suma corregida de los cuadrados de X:

Sxx X i X

i 1

Xi
n
X i2 i 1
n
i 1

y Sxy, como la suma corregida de los productos cruzados de X y de Y:


n

i 1

Sxy Yi X i X X i Yi
i 1

X Y
i 1

i 1

entonces 1 se puede expresar tambin como:

Sxy
Sxx

Por lo tanto, el modelo de regresin lineal simple ajustado queda de la siguiente forma:

Y 0 1 X
donde 0 y 1 son los estimadores de los valores verdaderos de la ordenada en el origen y la
pendiente, respectivamente.

INFERENCIA EN LA REGRESION LINEAL SIMPLE


PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL SIMPLE
PARA LA ORDENADA EN EL ORIGEN
Deseamos probar la hiptesis de que 0 es igual a un valor determinado contra la alternativa apropiada,
digamos por ejemplo, diferente a dicho valor; esto es:

H 0 : 0 0,0
H a : 0 0,0
2

El estadstico de prueba apropiado ser:

t0

0 0,0
1 X 2
CME

n Sxx

donde:
MSE es la media de los cuadrados del error o bien, el estimador de la varianza del modelo:

2 CME

SCE
n2

en este caso SCE es la suma de los cuadrados del error y n 2 son los grados de libertad del error.

SCE Syy SCR


Syy es la suma corregida de los cuadrados de Y o la suma total de cuadrados (SCT):

n
Yi
n
2
SCT Syy Yi i 1
n
i 1

y SCR es la suma de cuadrados de la regresin:

SCR 1 Sxy
PARA LA PENDIENTE
Algo semejante realizaremos para la pendiente. Partimos de la hiptesis nula afirmando que la pendiente
es igual a un valor determinado (siempre que dicho valor sea diferente de cero), contra la alternativa
apropiada, por ejemplo que sea diferente a dicho valor:

H 0 : 1 1,0
H a : 1 1,0
el estadstico de prueba en este caso es:

t0

1 1,0
CME
Sxx

Este estadstico tambin sigue una distribucin t-student con v = n 2 grados de libertad.
Del mismo modo, la expresin

CME
representa la desviacin estndar para 1.
Sxx

Si el valor absoluto del estadstico de prueba es mayor que el valor de tablas, t/2, n 2, entonces se rechaza
la hiptesis nula y se acepta la alternativa: la pendiente es diferente al valor representado por 1,0.
Como:

SCT SCR SCE


Hacemos uso de la tabla de anlisis de varianza (ANOVA) para determinar el estadstico de prueba.
Dicha tabla se compone de lo siguiente:
Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Regresin

SCR

Error

SC

n-2

Total

SCT

n-1

Media de
cuadrados

SCR
1
SCE
CME
n2
CMR

Estadstico de
prueba

F0

CMR
CME

Este estadstico de prueba sigue una distribucin F (Fisher)con v1 = 1 y v2 = n 2 grados de libertad en el


numerador y en el denominador, respectivamente.
En este caso si el estadstico de prueba es superior que el valor de tablas (de la distribucin F), Fn 2, se
rechaza la hiptesis nula y por consiguiente se acepta la alternativa, concluyendo que la variable
independiente (X) si tiene efecto significativo sobre la variable dependiente (Y).

INTERVALOS DE CONFIANZA EN LA REGRESION LINEAL SIMPLE.


Para la ordenada en el origen, el intervalo de confianza de (1 - ) 100%, para este parmetro est dado
por la siguiente ecuacin.

0 t

,n 2

1 X 2
1 X 2

CME
0 0 t ,n 2 CME

2
n Sxx
n Sxx

Igualmente, tambin podemos calcular un intervalo de confianza de (1 - ) 100%, para la pendiente


verdadera del modelo mediante la siguiente expresin.

1 t

,n2

CME
CME
1 1 t ,n2
2
Sxx
Sxx

En este caso la conclusin si depende del resultado obtenido, veamos los casos posibles:
Puede que el intervalo resulte en a 1 b ; la conclusin apropiada ser que por cada incremento en
X, Y, disminuir, en promedio, por lo menos b y a lo mucho a veces.
Otro resultado posible para el intervalo sera a 1 b ; la conclusin ser, en este caso, que por cada
incremento en X, Y se incrementar, en promedio, por lo menos a y a lo mucho b veces.
Si el resultado del intervalo es a 1 b , en este caso, solamente concluiremos que no se puede
afirmar que X tenga efecto sobre Y.

INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA Y PARA UNA PREDICCION


FUTURA

El intervalo de confianza de (1 -100% para el valor esperado de Y cuando X = X0, esta dado por la
ecuacin:

Y0 t

,n 2

1 X X
CME 0
Sxx
n

Y0 t

,n2

1 X X
CME 0
Sxx
n

El intervalo de confianza de (1 - ) 100% para una observacin futura de Y cuando X = X0, est dado por
la expresin:

Y0 t

,n 2

1 X X
CME 1 0
Sxx
n

Y0 t

,n2

1 X X
CME 1 0
Sxx
n

Si deseamos determinar un intervalo de confianza de (1 - ) 100% para k observaciones futuras haremos:

Y0 t

,n 2

1 1 X X
CME 0
Sxx
k n

Y0 t

,n 2

1 1 X X
0
CME
k
n
Sxx

MEDIDAS DE ADECUACION DEL MODELO


El siguiente paso ahora es determinar si el modelo calculado nos sirve para representar la relacin entre
las variables.
Para esto, el modelo tiene que pasar una serie de pruebas medidas de adecuacin. Dichas medidas son:
El anlisis de los residuos
El coeficiente de determinacin y
La prueba de falta de ajuste.

ANALISIS DE LOS RESIDUOS


Este procedimiento se emplea para determinar o analizar el comportamiento de la variacin de los
residuos o los errores.
Mediante el modelo de regresin lineal simple, calculado a partir de n observaciones en X y Y, podemos
predecir valores estimados de Y para valores determinados de X.
La diferencia entre los valores observados de Y y los valores estimados de esta variable resulta en los
errores o residuos:

ei Yi Yi
Graficamos estos residuos ya sea contra los valores de X, contra los valores estimados de Y, contra los
valores observados de Y o contra la variable tiempo, si es que se tiene.
Basta comparar, esta grfica con los siguientes patrones para llegar a una conclusin acerca de la
adecuacin del modelo:

ei

ei

Yi

Yi

En este caso, la variacin de los


residuos es constante.
El modelo lineal s es adecuado

La variacin crece a medida que la


variable Yi o el tiempo crece.
El modelo no es adecuado.

ei

ei

Y
La variacin es irregular.
El modelo no es adecuado

La variacin de los residuos no es lineal.


El modelo lineal no es adecuado para expresar
la
i
relacin entre X y Y.
Se puede ajustar dicha relacin como un modelo
cuadrtico, slo basta agregar una variable de
orden superior.
Y = 0 + 1X + 2X2

COEFICIENTE DE DETERMINACION
El coeficiente de determinacin nos permite evaluar qu tanta variacin de los valores de Y se explica
mediante el modelo de regresin lineal simple.
Este coeficiente de determinacin se representa por el smbolo R2; toma valores entre 0 y 1. A medida que
se acerca a 1 el modelo s es adecuado puesto que explica la mayor cantidad de variacin presente en los
datos.
En tanto R2 se acerque a cero, el modelo deja de ser adecuado puesto que la cantidad de variacin de los
datos que se explica mediante el modelo es pobre.
El coeficiente de determinacin se expresa como un porcentaje y se calcula mediante:

R2

SCR
100%
SCT

CORRELACION
El coeficiente de correlacin se representa mediante el smbolo (rho). Se define mediante:

xy
x y

2
donde xy es la covarianza entre X y Y.

El coeficiente de correlacin tambin se puede definir mediante

x
y

Aqu vemos que el coeficiente de correlacin est relacionado con 1 sin que esto represente que se trate
de conceptos iguales.

1 > 0
>0

1 < 0
<0

1 = 0
=0
X

Los estimadores de los parmetros del modelo de regresin son los mismos calculados en temas
anteriores:

0 Y 1 X
1

Sxy
Sxx

En tanto que el estimador del coeficiente de correlacin se puede calcular mediante:

Sxy

Sxx Syy 12

Ahora bien, si elevamos al cuadrado ambos lados de la igualdad:

2
S XY
r
Sxx Syy
2

r2

Como

Sxy Sxy
Sxx Syy

Sxy
1 :
Sxx

r2
y

1 Sxy
Syy

1 Sxy SSR :

entonces:

r2

SSR
R2
Syy

Concluimos que el coeficiente de correlacin es igual a la raz cuadrada del coeficiente de determinacin

SSR
R2
Syy

Vemos tambin que el coeficiente de correlacin est relacionado con el coeficiente de determinacin,
aunque son conceptos totalmente diferentes.

EJERCICIO
La resistencia del papel utilizado en la manufactura de cajas de cartn ( Y ) se relaciona con el porcentaje
de la concentracin de madera dura en la pulpa original ( X ). En condiciones controladas, una planta
piloto manufactura 16 muestras, cada una de diferentes lotes de pulpa, y se mide la resistencia a la
tensin. Los datos son los siguientes.

I.
II.
III.
IV.
V.
VI.

1.0

101.4

1.5

117.4

1.5

117.1

1.5

106.2

2.0

131.9

2.0

146.9

2.2

146.8

2.4

133.9

2.5

111.3

2.5

123.0

2.8

125.1

2.8

145.2

3.0

134.3

3.0

144.5

3.2

143.7

3.3

146.9

n=
X =
2
X =
Y =
2
Y =
XY =

16
37.2
93.66
2075.6
272908.02
4937.97

Ajuste un modelo de regresin lineal simple a los datos.


Pruebe la significancia y la falta de ajuste de la regresin. Utilice = 5 %
Construya un intervalo de confianza del 90 % en la pendiente.
Construya un intervalo de confianza del 98 % en la interseccin.
Construya un intervalo de confianza del 95 % sobre la lnea de regresin real en X = 2.5
Qu porcentaje de la variabilidad en la resistencia del papel se explica a partir de la
concentracin de madera dura en la pulpa original?

Para encontrar las respuestas a cada uno de los incisos del ejercicio anterior, necesitamos primero
calcular las sumatorias de las variables X y Y:

Con los valores anteriores, calcularemos las expresiones Sxx, Sxy que nos permitirn determinar los
estimadores de los parmetros del modelo solicitado en el inciso 1 del ejercicio.

Sxy XY

X Y

n
37.2 2075.6
Sxy 4937.97
16
Sxy 112.2

Sxx X

n
2

37.2
Sxx 93.66
16
Sxx 7.17

Calculamos enseguida 1 a partir de las expresiones anteriores:

Sxy
Sxx
112.2
1
7.17
1 15.6485

y el valor de 0 lo calcularemos mediante:

0 Y 1 X
0 129.725 15.64852.325
0 93.3422

El primer inciso nos pide ajustar un modelo de regresin lineal simple a los datos:

Y 93.3422 15.6485 X
De aqu concluimos lo siguiente:

La lnea de regresin cortar el eje Y en y = 93.3422.

Por cada incremento en la concentracin de madera dura en la pulpa original, la resistencia del
papel se incrementar 15.6485 veces en promedio.

10

Enseguida calcularemos los valores de Syy, SSR y SSE que nos permitirn realizar la prueba de
significancia del modelo.

Syy Y

2075.6
Syy 272908.02

16

Syy 3650.81
SSR 1 Sxy

SSR 15.6485112.2
SSR 1755.7617

SSE Syy SSR


SSE 3650.81 1755.7617
SSE 1895.0483
Para la significancia del modelo planteamos las siguientes hiptesis:

H 0 1 0
H a 1 0

F0

F0

SSR1

SSE n 2
1755.76171

1895.048314

1755.7617
135.3605
F0 12.9710
F0

El valor de las tablas de la distribucin F con un nivel de significancia del 5 % con 1 y 14 grados de libertad
en el numerador y el denominador, respectivamente, es 4.6
Al comparar el estadstico de prueba con dicho valor vemos que 12.9710 es mayor que 4.6. esto no lleva a
rechazar la hiptesis nula y por consiguiente a aceptar la alternativa:
La resistencia del papel s est relacionada significativamente con la concentracin de madera dura
en la pulpa original.
En la segunda parte del inciso 2 se pide probar tambin la falta de ajuste del modelo. Para esto
acomodaremos los valores de X, que estn repetidos en los datos, con sus respectivos valores de Y de la
siguiente forma:
X
1.5

Y
117.4

117.1

106.2

113.5666

(117.4 113.5666 )2+(117.1 13.5666)2+


(106.2 113.5666)2 =

=
81.4466

11

2.0
2.5
2.8
3.0

131.9
111.3
125.1
134.3

146.9
123.0
145.2
144.5

139.4
117.15
135.15
139.4

(131.9 139.4 )2+(146.9 139.4)2=


(111.3 117.15 )2+(123.0 117.5)2=
(125.1 135.15 )2+(145.2 135.15)2=
(134.3 139.4 )2+(144.3 139.4)2=

112.5
68.445
202.005
52.02

SSpe = 516.4166

La suma de los cuadrados del error es 1895.0483.


La suma de los cuadrados debida al error puro es 516.4166
Y la suma de los cuadrados debida a la falta de ajuste es 1895.0483 516.4166 = 1378.6317
En este caso tenemos n = 16 parejas de valores de X y de Y, y m = 10 valores distintos de X.
Planteamos las hiptesis:

H 0 : el modelo lineal se ajusta a los datos


H a : el modelo lineal no se ajusta a los datos
el estadstico de prueba es:

SS lof
F02

F02

SS pe

m2

nm
1378.6317
516.4166

F02 2.0022
El valor de las tablas de la distribucin F con un nivel de significancia del 5 % y con 8 y 6 grados de
libertad en el numerador y el denominador, respectivamente, es 4.15
Comparando el estadstico de prueba con el valor encontrado en las tablas de la distribucin F, vemos que
dicho estadstico es menor que 4.15, por lo tanto no podemos rechazar la hiptesis nula:
No se puede afirmar que el modelo lineal no se ajuste a los datos, por lo que podemos decir que
dicho modelo s es adecuado para representar la relacin entre las variables del ejercicio.

En el inciso 3 se pide calcular un intervalo de confianza del 90% para la pendiente de la lnea de
regresin. Para esto necesitamos buscar en las tablas de la distribucin t-student el valor de t0.5,14. Este
valor en la tablas es 1.761, por lo que el intervalo de confianza quedar de la siguiente manera:

1 t

15.6485 1.761

,n 2

MSE
MSE
1 1 t ,n 2
2
Sxx
Sxx

135.3605
135.3605
1 15.6485 1.761
7.17
7.17
7.9970 1 23.2999

aqu concluiremos:

12

Se puede afirmar con un 90% de certeza que por cada incremento en la concentracin de madera
dura en la pulpa original del papel, la resistencia del mismo se incrementar por lo menos 7.9970 y
a lo mucho 23.2999 veces en promedio.

En el inciso 4 se pide un intervalo de confianza del 98 % para la interseccin de la recta. Buscaremos en


este caso el valor de t0.01,14 tambin en las tablas de la distribucin t-student. Dicho valor es 2.624, el cual
utilizaremos para calcular el intervalo solicitado:

0 t

,n 2

1 X 2
1 X 2

MSE

t
MSE

0
0
,n 2
2
n Sxx
n Sxx

1 2.3252
1 2.3252
93.3422 2.624 135.3605

93
.
3422

2
.
624
135
.
3605

0
16
7
.
17
7.17

16
65.7575 0 120.9268
La conclusin ser:
Se puede afirmar con un 98% de certeza que la lnea de regresin cortar el eje Y en por lo menos
65.7575 y a lo mucho 120.9268.

Para el inciso 5 en el que se pide un intervalo de confianza del 95% para la lnea de regresin verdadera
en
X = 2.5, buscaremos el valor de t0.025,14 en las tablas de la distribucin t-student. Este valor es 2.145.
Tambin necesitamos determinar el valor estimado de Y cuando X es igual a 2.5; para esto introducimos
dicho valor en el modelo de regresin lineal calculado en el primer inciso:

Y0 93.3422 15.6485 X 0
Y0 93.3422 15.64852.5
Y0 132.4634
El intervalo de confianza para la respuesta media de Y queda determinado de la siguiente manera:

Y0 t

,n 2

1 X 0 X 2
1 X 0 X 2
MSE
Y Y0 t ,n 2 MSE

2
Sxx
Sxx
n
n

1 2.5 2.3252
1 2.5 2.3252
132.4634 2.145 135.3605

132
.
4634

2
.
145
135
.
3605

Y
16
7
.
17
7.17

16

126.0150 Y 138.9123
en este caso concluiremos:

13

Existe un 95% de certeza al afirmar que cuando la concentracin de madera dura en la pulpa
original del papel sea de 2.5%, su resistencia esperada ser por lo menos 126.0150 y a lo mucho
138.9123.

Por ltimo, el inciso 6 se pide determinar el porcentaje de la variabilidad en la resistencia del papel que se
explica mediante el modelo de regresin lineal simple. Esto es, calcular el coeficiente de determinacin:

SSR
Syy
1755.7617
R2
3650.81
2
R 0.4809
R2

esto nos indica que:


El 48.09% de la variabilidad de la resistencia del papel se explica mediante el modelo de regresin
lineal simple:

Y 93.3422 15.6485 X
como el valor de R2 es bajo, podemos concluir que el modelo no es adecuado para representar la relacin
entre los valores de X y Y.

Podemos verificar la mayora de los resultados obtenidos anteriormente en la siguiente hoja de clculo
diseada en Excel. Esta hoja arroja automticamente los valores requeridos para resolver un problema de
regresin lineal simple.

14

S-ar putea să vă placă și