Documente Academic
Documente Profesional
Documente Cultură
1 REGRESIN
LINEAL SIMPLE
OBJETIVO EDUCACIONAL
1.1 Introduccin
El trmino regresin fue usado por primera vez como concepto estadstico en 1877 por Sir
Francis Galton; quien efectu un estudio que demostr que las estaturas de los hijos de padres
altos tendan a retroceder, o a regresar, hacia la estatura promedio de la poblacin. Regresin
fue el nombre que le dio al proceso general de predecir una variable a partir de otra.
1
__________________________________________________________________________________ Estadstica II
Diagrama de Dispersin.
En el anlisis de regresin que implica una variable dependiente y una variable independiente,
los valores individuales se representan en una grfica bidimensional conocida como diagrama de
dispersin. En la siguiente grfica se muestran los tipos de relacin ms comunes que pueden
observarse en los diagramas de dispersin.
La naturaleza de la relacin entre dos variables puede tomar muchas formas, desde las sencillas
hasta las funciones matemticas extremadamente complicadas. La relacin ms sencilla consiste
en una lnea o relacin lineal, de la forma
yi = 0 + 1 xi + i
ecuacin poblacional y el error aleatorio i, es el error del modelo, debe necesariamente tener una
media de cero. Si ciertas suposiciones son vlidas (Normalidad, Homocedasticidad,
Independencia del Error y Linealidad), entonces la interseccin con el eje Y de la muestra (b0 ) y
la pendiente de la ecuacin muestral (b1) pueden utilizarse como estimaciones de los respectivos
parmetros de la ecuacin poblacional. Por consiguiente, la ecuacin de regresin de la muestra
que representa al modelo de regresin lineal ser:
y i = b0 + b1 x i
El anlisis de regresin lineal simple tiene que ver con la bsqueda de la lnea recta que mejor se
ajuste a los datos. El mejor ajuste significa que deseamos encontrar la lnea recta para la cual las
diferencias entre los valores reales (yi) y los valores que seran estimados a partir de la lnea
ajustada de regresin ( y i ) sean lo ms pequeas posible. Debido a que tales diferencias sern
n n n
i =1
e i2 =
i =1
( y i y i ) 2 = [y
i=1
i ( b0 + b1 x i )]
2
Esta tcnica matemtica utilizada para determinar los valores de b0 y b1 que mejor se ajusten a los
datos observados se conoce como mtodo de mnimos cuadrados. Cualesquiera valores
diferentes de b0 y b1 que sean diferentes a los determinados por el mtodo de mnimos
cuadrados tendran como resultado una suma mayor del cuadrado de las diferencias entre el valor
real y el valor estimado.
n n n
Al derivar parcialmente la expresin i =1
e i2 =
i =1
( y i y i ) 2 = [y
i=1
i ( b0 + b1 x i )] ,
2
primero con respecto a b0 y despus con respecto a b1, e igualar a cero, obtenemos las siguientes
dos ecuaciones conocidas como normales:
n n
I. nb0 + b1
i =1
xi = yi
i=1
n n n
II . b0
i=1
x i + b1
i=1
x i2 =
i=1
xi yi
n n n n n
n xi yi
x i
yi
i = 1 i = 1 yi b xi
i=1 S xy i=1 i=1
b1 = 2
= b0 = = y b1 x
n n S xx n
n x i2
xi
i =1
i=1
donde:
2 2
n n n n
S xx = xi2 xi / n
i=1
S yy = yi2
yi / n
i=1
i=1 i=1
n n n
S xy = x i yi x i yi / n
i = 1 i = 1
i=1
n S x x
2
E ( b1 ) = 1 y V ( b1 ) =
Sxx
SCE S yy b1 S x y
Una estimacin insesgada de 2 es: 2 = s 2 = =
n2 n2
n n
i=1
x i2 x
i=1
2
i
s s
b1 t / 2,n 2 < 1 < b1 + t / 2,n 2
S xx S xx
b1 1 ,0 b1 1 ,0
2) El estadstico de prueba es: t0 = =
Sb s2 / Sx x
SCR / 1 CMR
2) El estadstico de prueba es: f 0 = =
SCE /( n 2 ) CME
1 ( x0 x ) 1 ( x0 x )
2 2
y 0 t / 2,n 2 s + < E ( y 0 ) < y 0 + t / 2,n 2 s +
n S xx n S xx
Intervalo de Confianza para y0 Un intervalo de confianza del ( 1 )100% para una sola
respuesta y0 es:
1 ( x0 x ) 1 ( x0 x )
2 2
y 0 t / 2,n 2 s 1+ + < y 0 < y 0 + t / 2,n 2 s 1+ +
n S xx n S xx
3. Independencia del error, requiere que el error (la diferencia entre un valor
observado y un valor estimado) es independiente de cada valor de X.
es el valor estimado correspondiente a partir del modelo de regresin. A menudo es til graficar
los residuos: 1) en secuencia de tiempo (si se conoce), 2) contra y i , y 3) contra la variable
independiente x. Estas grficas suelen verse como una de los cuatro patrones generales de la
figura 1.2 El patrn a) representa la situacin normal, en tanto que los patrones b), c) y d)
representan anomalas. Si los residuos aparecen como en b), entonces la varianza de las
observaciones puede incrementarse con el tiempo o con la magnitud de las y i o x i . Si una
grfica de los residuos contra el tiempo tiene la apariencia de b), entonces la varianza de las
observaciones se incrementa con el tiempo. Las grficas contra y i y y i que se observan como
c) indican tambin desigualdad de varianza. Las grficas de residuos que se observan como d)
indican insuficiencia del modelo; esto es, trminos de mayor orden que deben ser aadidos al
modelo.
La suma de cuadrados del error consiste en dos partes: la cantidad debida a la variacin entre los
valores de y dentro de los valores dados de x y el componente que normalmente reciben el
nombre de contribucin por falta de ajuste. La primera refleja la mera variacin aleatoria o el
error experimental puro, mientras que el segundo componente es una medicin de la variacin
sistemtica debida a los trminos de orden superior. Para calcular la suma de cuadrados del
error puro debemos tener observaciones repetidas en y para al menos un nivel de x.
Suponga que tenemos n observaciones en total tales que
y 11 , y 1 2 , K , y 1 n1 observaciones repetidas en x1
y 2 1 , y 2 2 , K , y 2 n2 observaciones repetidas en x2
M M
y k 1 , y k 2 , K , y k nk observaciones repetidas en xk
k ni k ni ki Ti2
SCE puro = ( y
i =1 j=1
ij yi ) =
2
i = 1j = 1
y i2 j -
i=1 ni
2 Reste la suma de cuadrados del error puro de la suma de cuadrados del error, por medio
de lo cual se obtiene la suma de cuadrados debida a la falta de ajuste. Los grados de
libertad para falta de ajuste se obtienen tambin restando: (n 2) (n k) = k 2.
Una prueba para la bondad de ajuste del modelo lineal de regresin es la siguiente:
2
S xy SCR
r 2
= =
Sx xSy y Sy y
Exponencial: y = e x y * = ln y y * contra x
1 1
Recproca: y = + x* = y contra x *
x x
x 1 1
Funcin Hiperblica: y = y* = ; x* = y * contra x *
+ x y x
1.7 Correlacin
La intensidad de una relacin entre dos variables de una poblacin por lo general se mide
mediante el coeficiente de correlacin poblacional . Es costumbre referirse a la estimacin r
como el coeficiente de correlacin producto-momento de Pearson, o simplemente coeficiente
de correlacin muestral; cuyos valores van desde 1, correspondiente una correlacin perfecta
negativa, hasta +1, correspondiente a una correlacin perfecta positiva, de asociacin lineal entre
dos variables X y Y. Se estima con el coeficiente de correlacin muestral r, donde:
S xx S xy
= r = b =
S yy S x x S yy
Ejemplo 1.1 Las cantidades de un compuesto qumico y, en gramos, que se disuelven en 100
gramos de agua a varias temperaturas, x, en C, se registran como sigue:
x C y ( gr ) xy
x2 y2
0 8
0 6
0 8
15 12
15 10
15 14
30 25
30 21
30 24
45 31
45 33
45 28
60 44
60 39
60 42
75 48
75 51
75 44
i ) Trazar una grfica de probabilidad normal de los residuales para verificar el supuesto de
normalidad.
j ) Trazar e interpretar una grfica de los residuales versus valores predichos para verificar el
supuesto de homocedasticidad.
k ) Trazar e interpretar una grfica de los residuales versus orden de obtencin de los datos para
verificar el supuesto de independencia.
50
40
Cantidad
30
20
10
0
0 15 30 45 60 75 90
Temperatura
Se observa en el diagrama una posible relacin lineal directa.
2
n n
S xx = xi2 xi / n = 37125 (675 )2 / 18 = 11812.5
i =1
i=1
n n n
S xy = xi yi xi yi / n = 25005 (675 )(488 ) / 18 = 6705
i = 1 i = 1
i=1
2
n n
S yy = yi / n = 17142 (488 )2 / 18 = 3911.777778
yi2
i=1
i=1
6705 488 675
b1 = = 0.567619 y b0 = ( 0.567619 ) = 5.8254
11812.5 18 18
Entonces la ecuacin de regresin es:
y = 5.8254 + 0.567619 x
b1 = 0.567619, significa que la cantidad disuelta aumenta en 0.567619 gramos por cada grado
centgrado que aumente la temperatura.
b1 0 0.567619 0
t0 = = = 23.9803
s2 / Sx x 6.6183
11812.5
v) Decisin: como t 0 = 23.9803 > 2.12 , se rechaza H0
Anlisis de la Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 3805.89 1 3805.89 575.06 0.0000
Residuo 105.892 16 6.61825
-----------------------------------------------------------------------------
Total (Corr.) 3911.78 17
vi) Conclusin: la regresin es significativa, tal como se obtuvo en la prueba t, existe una
Esto significa que el 97.29% de la variacin en la cantidad del compuesto qumico que se
disuelve en 100 gramos de agua se explica por la variacin en la temperatura.
h ) Encuentre un intervalo de confianza del 95% para la respuesta media y un intervalo de
prediccin del 95% para una respuesta individual para Y cuando x0 = 35
1 ( 35 37.5 ) 2 1 ( 35 37.5 ) 2
25.6921 2.12( 2.5726 ) + < E ( y ) < 25.6921 + 2.12( 2.5726 ) +
18 11812.5 18 11812.5
1 ( 35 37.5 ) 2 1 ( 35 37.5 ) 2
25.6921 2.12( 2.5726 ) 1+ + < y 0 < 25.6921 + 2.12( 2.5726 ) 1+ +
18 11812.5 18 11812.5
porcentaje
de normalidad. 95
80
En la grfica se observa que los puntos 50
20
siguen la lnea recta, por lo que podemos 5
1
suponer que los residuales se distribuyen
0.1
en forma normal. -4.4 -2.4 -0.4 1.6 3.6 5.6
Residuales
2.9
residuales versus valores predichos para
1.9
verificar el supuesto de homocedas-
0.9
ticidad.
-0.1
No se observa ningn patrn en la grfica
-1.1
en forma de embudo, por lo que se
-2.1
satisface el supuesto de homocedasticidad. 0 10 20 30 40 50
Y_Cant predicho
k ) Trazar e interpretar una grfica de los residuales versus orden de obtencin de los datos para
verificar el supuesto de independencia.
Grfico de Residuos
Residuo estudentizado
2.9
No se observa ningn patrn anormal en la 1.9
grfica, por lo que se satisface el supuesto 0.9
de independencia. -0.1
-1.1
-2.1
0 3 6 9 12 15 18
nmero de fila
EJERCICIOS DE LA UNIDAD I
1. Las calificaciones de un grupo de estudiantes en su reporte de medio ao (x) y en los
exmenes finales (y) fueron los siguientes: (x0 = 85)
x 77 50 71 71 81 94 96 96 96 99 67 67 81 50
y 82 66 78 44 55 85 99 95 97 99 70 68 70 60
2. Se llev a cabo un estudio acerca de la cantidad de azcar refinada obtenida (y), mediante un
cierto proceso a varias temperaturas (x), diferentes. Los datos se codificaron y registraron en
la siguiente tabla. (x0 = 1.75)
x 1.0 1.1 1.2 1.2 1.2 1.3 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
y 8.1 7.8 8.5 8.8 8.2 9.6 9.9 9.5 8.9 8.6 10.2 9.3 9.2 10.5
x 26.8 25.4 28.9 23.6 27.7 23.9 24.7 28.1 26.9 27.4 22.6 25.6
y 26.5 27.3 24.2 27.1 23.6 25.9 26.3 22.5 21.7 21.4 25.8 24.9
4. Las cantidades de slidos eliminados (y), en gramos, de un material particular cuando se le
expone a periodos de secado de diferentes duraciones (x), en horas, se registraron como
sigue: (x0 = 6.0)
x 4.4 4.4 4.5 4.5 4.8 4.8 5.5 5.5 5.7 5.7 5.9 5.9
y 13.1 14.2 9.0 11.5 10.4 11.5 13.8 14.8 12.7 15.1 9.9 12.7
x 50 35 35 40 55 65 35 60 90 35
y 53 41 61 56 68 36 11 70 79 59
x 90 80 60 60 60 40 55 50 65 50
y 54 91 48 71 71 47 53 68 57 79