1 - RegresiÃ N Lineal Simple 1 PDF

UNIDAD
1 REGRESIN
LINEAL SIMPLE
OBJETIVO EDUCACIONAL
Al trmino de esta unidad el alumno ser capaz de:
Interpretar el proceso metodolgico para la construccin de un modelo de

regresin lineal simple, as como manipular un conjunto de datos, ya sea
con una calculadora de escritorio o un programa de computadora
diseado especialmente para ello o a travs de un paquete estadstico con
el fin de obtener los parmetros del modelo.
1.1 Introduccin
El trmino regresin fue usado por primera vez como concepto estadstico en 1877 por Sir
Francis Galton; quien efectu un estudio que demostr que las estaturas de los hijos de padres
altos tendan a retroceder, o a regresar, hacia la estatura promedio de la poblacin. Regresin
fue el nombre que le dio al proceso general de predecir una variable a partir de otra.
1
__________________________________________________________________________________ Estadstica II
El objetivo en el anlisis de regresin lineal es el desarrollo de un modelo estadstico que pueda

ser utilizado para predecir los valores de una variable de respuesta o dependiente basados en
los valores de al menos una variable independiente o explicatoria. En esta unidad enfocaremos
nuestra atencin en un modelo de regresin lineal simple que utiliza una sola variable numrica
independiente X para predecir la variable numrica dependiente Y. En la unidad 2
desarrollaremos un modelo de regresin mltiple que utiliza varias variables explicatorias (X1,
X2, . . . . , Xk) para predecir una variable numrica dependiente Y.
Diagrama de Dispersin.
En el anlisis de regresin que implica una variable dependiente y una variable independiente,
los valores individuales se representan en una grfica bidimensional conocida como diagrama de
dispersin. En la siguiente grfica se muestran los tipos de relacin ms comunes que pueden
observarse en los diagramas de dispersin.
Grafica 1.1. Tipos de relacin
2 Jos Armando Rodrguez Romo

_____________________________________________________________ Regresin Lineal Simple y Correlacin
Modelo de regresin lineal simple.
La naturaleza de la relacin entre dos variables puede tomar muchas formas, desde las sencillas
hasta las funciones matemticas extremadamente complicadas. La relacin ms sencilla consiste
en una lnea o relacin lineal, de la forma
yi = 0 + 1 xi + i
donde: 0 es la interseccin con el eje Y para la ecuacin poblacional; 1 es la pendiente de la
ecuacin poblacional y el error aleatorio i, es el error del modelo, debe necesariamente tener una
media de cero. Si ciertas suposiciones son vlidas (Normalidad, Homocedasticidad,
Independencia del Error y Linealidad), entonces la interseccin con el eje Y de la muestra (b0 ) y
la pendiente de la ecuacin muestral (b1) pueden utilizarse como estimaciones de los respectivos
parmetros de la ecuacin poblacional. Por consiguiente, la ecuacin de regresin de la muestra
que representa al modelo de regresin lineal ser:
y i = b0 + b1 x i
1.2 Estimacin de Parmetros.
El anlisis de regresin lineal simple tiene que ver con la bsqueda de la lnea recta que mejor se
ajuste a los datos. El mejor ajuste significa que deseamos encontrar la lnea recta para la cual las
diferencias entre los valores reales (yi) y los valores que seran estimados a partir de la lnea
ajustada de regresin ( y i ) sean lo ms pequeas posible. Debido a que tales diferencias sern
positivas y negativas para las diferentes observaciones, se minimiza matemticamente la

expresin
n n n

i =1
e i2 =
i =1
( y i y i ) 2 = [y
i=1
i ( b0 + b1 x i )]
2
Esta tcnica matemtica utilizada para determinar los valores de b0 y b1 que mejor se ajusten a los
datos observados se conoce como mtodo de mnimos cuadrados. Cualesquiera valores
diferentes de b0 y b1 que sean diferentes a los determinados por el mtodo de mnimos
cuadrados tendran como resultado una suma mayor del cuadrado de las diferencias entre el valor
real y el valor estimado.
Jos Armando Rodrguez Romo 3

__________________________________________________________________________________ Estadstica II
n n n
Al derivar parcialmente la expresin i =1
e i2 =
i =1
( y i y i ) 2 = [y
i=1
i ( b0 + b1 x i )] ,
2
primero con respecto a b0 y despus con respecto a b1, e igualar a cero, obtenemos las siguientes
dos ecuaciones conocidas como normales:
n n
I. nb0 + b1
i =1
xi = yi
i=1
n n n
II . b0
i=1
x i + b1
i=1
x i2 =
i=1
xi yi
Las estimaciones de mnimos cuadrados b0 y b1 de los respectivos coeficientes de regresin

0 y 1 . Dada la muestra {(xi, yi), i= 1, 2, . . . , n}, se calculan por medio de las siguientes
frmulas que resultan de resolver de manera simultanea para b0 y b1:
n n n n n
n xi yi
x i
yi
i = 1 i = 1 yi b xi
i=1 S xy i=1 i=1
b1 = 2
= b0 = = y b1 x
n n S xx n
n x i2
xi
i =1
i=1
donde:
2 2
n n n n
S xx = xi2 xi / n
i=1
S yy = yi2
yi / n
i=1
i=1 i=1
n n n
S xy = x i yi x i yi / n
i = 1 i = 1
i=1
Propiedades de los Estimadores.
Puede demostrarse que

1 x2
E ( b0 ) = 0 y V ( b0 ) = +
2
n S x x
2
E ( b1 ) = 1 y V ( b1 ) =
Sxx

En consecuencia b0 es un estimador insesgado de la ordenada al origen 0 y b1 es un

estimador insesgado de la pendiente verdadera 1 .
SCE S yy b1 S x y
Una estimacin insesgada de 2 es: 2 = s 2 = =
n2 n2
Estimacin por Intervalos de Confianza para los Parmetros
Intervalo de Confianza para 0 . Un intervalo de confianza del ( 1 )100% para el

parmetro 0 en la lnea de regresin y i = 0 + 1 x i + i es:
n n

i=1
x i2 x
i=1
2
i
b0 t / 2,n 2 s < 0 < b0 + t / 2,n 2 s

nS xx nS xx
Intervalo de Confianza para 1 . Un intervalo de confianza del ( 1 )100% para el parmetro

1 , en la lnea de regresin y i = 0 + 1 x i + i es:
s s
b1 t / 2,n 2 < 1 < b1 + t / 2,n 2
S xx S xx
1.3 Pruebas de Hiptesis en la Regresin Lineal Simple
1) Las hiptesis son
H0 : 1 = 0 (la variacin de Y resulta de fluctuaciones aleatorias que son

independientes de los valores de X)
H1 : 1 0 (existe una cantidad significativa en la variacin de Y que se explica por la
variacin de X)
b1 1 ,0 b1 1 ,0
2) El estadstico de prueba es: t0 = =
Sb s2 / Sx x
3) La regla de decisin para un nivel de significancia y v = n 2 grados de libertad es
Rechazar H0 si t 0 > t 1 / 2 , n 2 Pvalor
4) Evaluar el estadstico de prueba:

__________________________________________________________________________________ Estadstica II
5) Decisin: se rechaza o no se rechaza H0
6) Conclusin: el rechazo de H 0 : 1 = 0 , implica que existe una cantidad significativa en
la variacin de Y que se explica por la variacin de X
Para probar la significancia de la regresin se puede utilizar el anlisis de varianza
1) Las hiptesis son
H0 : 1 = 0 (La variacin de Y resulta de fluctuaciones aleatorias que son
independientes de los valores de X)

H1 : 1 0 (Existe una cantidad significativa en la variacin de Y que se explica por la
variacin de X)
SCR / 1 CMR
2) El estadstico de prueba es: f 0 = =
SCE /( n 2 ) CME
3) La regla de decisin para un nivel de significancia , v 1 = 1 y v 2 = n 2 es
Rechazar H0 si f 0 > f vv21, 1 Pvalor
Anlisis de varianza para probar la hiptesis nula H 0 : 1 = 0
Fuente de Suma de Grados de Cuadrados fo

Variacin Cuadrados Libertad Medios
CMR
Regresin SCR = b1 S x y 1 CMR
s2
SCE
Error SCE = S y y b1 S x y n2 s2 =
n2
Total SCT = S y y
6) Conclusin: el rechazo de H 0 : 1 = 0 implica que existe una cantidad significativa en
la variacin de Y que se explica por la variacin de X

1.4 Prediccin de Nuevas Observaciones
Intervalo de Confianza para Y | x 0 Un intervalo de confianza del ( 1 )100% para la
respuesta media Y | x0 es:
1 ( x0 x ) 1 ( x0 x )
2 2
y 0 t / 2,n 2 s + < E ( y 0 ) < y 0 + t / 2,n 2 s +
n S xx n S xx
Intervalo de Confianza para y0 Un intervalo de confianza del ( 1 )100% para una sola
respuesta y0 es:
1 ( x0 x ) 1 ( x0 x )
2 2
y 0 t / 2,n 2 s 1+ + < y 0 < y 0 + t / 2,n 2 s 1+ +
n S xx n S xx
1.5 Mediciones de la Adecuacin del Modelo de Regresin
Al evaluar la adecuacin de un modelo de regresin a un conjunto de datos lo que se quiere, es

verificar que se cumplen las suposiciones necesarias para poder hacer un anlisis de regresin,
que son:
1. Normalidad, requiere que los valores de Y estn distribuidos normalmente en cada

valor de X.
2. Homocesdasticidad, requiere que la variacin alrededor de la lnea de regresin sea

constante para todos los valores de X.
3. Independencia del error, requiere que el error (la diferencia entre un valor
observado y un valor estimado) es independiente de cada valor de X.
4. Linealidad, establece que la relacin entre las variables es lineal.
1.5.1 Anlisis Residual
Se definen los residuos como e i = y i y i , i = 1, 2, . . . , n, donde y i es una observacin y y i
es el valor estimado correspondiente a partir del modelo de regresin. A menudo es til graficar
los residuos: 1) en secuencia de tiempo (si se conoce), 2) contra y i , y 3) contra la variable
independiente x. Estas grficas suelen verse como una de los cuatro patrones generales de la

__________________________________________________________________________________ Estadstica II
figura 1.2 El patrn a) representa la situacin normal, en tanto que los patrones b), c) y d)
representan anomalas. Si los residuos aparecen como en b), entonces la varianza de las
observaciones puede incrementarse con el tiempo o con la magnitud de las y i o x i . Si una
grfica de los residuos contra el tiempo tiene la apariencia de b), entonces la varianza de las
observaciones se incrementa con el tiempo. Las grficas contra y i y y i que se observan como
c) indican tambin desigualdad de varianza. Las grficas de residuos que se observan como d)
indican insuficiencia del modelo; esto es, trminos de mayor orden que deben ser aadidos al
modelo.
Figura 1.2 Patrones para las grficas de los residuos

1.5.2 Prueba de Falta de Ajuste
La suma de cuadrados del error consiste en dos partes: la cantidad debida a la variacin entre los
valores de y dentro de los valores dados de x y el componente que normalmente reciben el
nombre de contribucin por falta de ajuste. La primera refleja la mera variacin aleatoria o el
error experimental puro, mientras que el segundo componente es una medicin de la variacin
sistemtica debida a los trminos de orden superior. Para calcular la suma de cuadrados del
error puro debemos tener observaciones repetidas en y para al menos un nivel de x.
Suponga que tenemos n observaciones en total tales que
y 11 , y 1 2 , K , y 1 n1 observaciones repetidas en x1
y 2 1 , y 2 2 , K , y 2 n2 observaciones repetidas en x2
M M
y k 1 , y k 2 , K , y k nk observaciones repetidas en xk
Donde k es el numero de valores diferentes de x. Un procedimiento computacional para separar

la suma de cuadrados del error en los dos componentes que representan el error puro y la falta de
ajuste es el siguiente:
1 Calcule la suma de cuadrados del error puro:
k ni k ni ki Ti2
SCE puro = ( y
i =1 j=1
ij yi ) =
2

i = 1j = 1
y i2 j -
i=1 ni
2 Reste la suma de cuadrados del error puro de la suma de cuadrados del error, por medio
de lo cual se obtiene la suma de cuadrados debida a la falta de ajuste. Los grados de
libertad para falta de ajuste se obtienen tambin restando: (n 2) (n k) = k 2.
Una prueba para la bondad de ajuste del modelo lineal de regresin es la siguiente:
1) Las hiptesis son
H 0 : El modelo lineal se ajusta adecuadamente a los datos
H 1 : El modelo lineal no se ajusta a los datos
SCE SCE puro

2) El estadstico de prueba es: f 0 =
s2(k 2 )

__________________________________________________________________________________ Estadstica II
3) La regla de decisin para un nivel de significancia , v 1 = k 2 y v 2 = n k es
Rechazar H0 si f 0 > f vv21, 1 Pvalor
Anlisis de varianza para probar la linealidad de la regresin

Grados
Fuente de Suma de Cuadrados fo
de
Variacin Cuadrados Medios
Libertad
CMR
Regresin SCR = b1 S x y 1 CMR
s2
SCE
Error SCE = S y y b1 S x y n2 s2 =
n2
Falta SCE SCE puro SCE SCE puro
de SCE SCE puro k2 k2
Ajuste s2 ( k 2 )
k ni ki Ti2

Error SCE puro
SCE puro = y i2 j - nk s2 =
Puro i = 1j = 1 i=1 ni nk
Total SCT = S y y n1
Donde k = valores distintos de x, x1 , x 2 ,K , xk , de tal forma que la muestra contenga n1
valores observados de la variable aleatoria y1 correspondiente a x1, n2 valores observados de y2

correspondientes a x2, y as , sucesivamente, nk valores observados de yk correspondientes a
k ni
xk, ( n = ni , Ti = y ij )
i =1 j=1

6) Conclusin: si H 0 no se rechaza, entonces no hay razn aparente para dudar que el
modelo lineal es adecuado.
1.5.3 Coeficiente de Determinacin
El coeficiente de determinacin muestral, r 2 expresa la proporcin de la variacin total de

los valores de la variable Y que se pueden contabilizar o explicar por una relacin lineal con
los valores de la variable aleatoria X.
2
S xy SCR
r 2
= =
Sx xSy y Sy y

1.6 Transformaciones Lineales
En ocasiones encontramos que el modelo de regresin lineal yi = 0 + 1 xi + i es
inapropiado porque la funcin de regresin verdadera no es lineal; la necesidad de realizar una

transformacin es bastante simple de diagnosticar en el caso de la regresin lineal simple debido
que las grficas de dos dimensiones dan una imagen real de cmo entra cada variable en el
modelo. En ciertas situaciones una funcin no lineal puede expresarse como una lnea recta
utilizando una transformacin apropiada. Tales modelos lineales se llaman lineales
intrnsecamente. (Ver tabla 1.1)
Tabla 1.1 Algunas transformaciones tiles

Forma de regresin
Forma funcional que relaciona y con x Transformacin
lineal simple
Exponencial: y = e x y * = ln y y * contra x
Potencia: y = x y * = log y ; x * = log x y * contra x *
1 1
Recproca: y = + x* = y contra x *
x x
x 1 1
Funcin Hiperblica: y = y* = ; x* = y * contra x *
+ x y x
1.7 Correlacin
La intensidad de una relacin entre dos variables de una poblacin por lo general se mide
mediante el coeficiente de correlacin poblacional . Es costumbre referirse a la estimacin r
como el coeficiente de correlacin producto-momento de Pearson, o simplemente coeficiente
de correlacin muestral; cuyos valores van desde 1, correspondiente una correlacin perfecta
negativa, hasta +1, correspondiente a una correlacin perfecta positiva, de asociacin lineal entre
dos variables X y Y. Se estima con el coeficiente de correlacin muestral r, donde:
S xx S xy
= r = b =
S yy S x x S yy

__________________________________________________________________________________ Estadstica II
Ejemplo 1.1 Las cantidades de un compuesto qumico y, en gramos, que se disuelven en 100
gramos de agua a varias temperaturas, x, en C, se registran como sigue:
x C y ( gr ) xy
x2 y2
0 8
0 6
0 8
15 12
15 10
15 14
30 25
30 21
30 24
45 31
45 33
45 28
60 44
60 39
60 42
75 48
75 51
75 44
a) Elaborar el diagrama de dispersin
b) Obtener la ecuacin de regresin
c) Interprete los valores de los coeficientes de regresin estimados b0 y b1
d) Pruebe la hiptesis: H0 : 1 = 0 contra la alternativa H1 : 1 0 e interprete la
decisin resultante, empleando el estadstico t
e) Utilice el anlisis de varianza para probar la significancia de la regresin
f) Utilice el anlisis de varianza para probar la linealidad de la regresin (prueba de falta de

ajuste)
g) Obtenga e interprete el coeficiente de determinacin muestral r 2
h ) Encuentre un intervalo de confianza del 95% para la respuesta media y un intervalo de

prediccin del 95% para una respuesta individual para Y cuando x0 = 35
i ) Trazar una grfica de probabilidad normal de los residuales para verificar el supuesto de
normalidad.

j ) Trazar e interpretar una grfica de los residuales versus valores predichos para verificar el
supuesto de homocedasticidad.
k ) Trazar e interpretar una grfica de los residuales versus orden de obtencin de los datos para
verificar el supuesto de independencia.
Solucin. En seguida se presenta la solucin de este problema

a) Elaborar el diagrama de dispersin
Diagrama de Dispersin para Cantidad vs Temperatura

60
50
40
Cantidad
30
20
10
0
0 15 30 45 60 75 90
Temperatura
Se observa en el diagrama una posible relacin lineal directa.
b) Obtener la ecuacin de regresin

x C y ( gr ) xy x2 y2
0 8 0 0 64
0 6 0 0 36
0 8 0 0 64
15 12 180 225 144
15 10 150 225 100
15 14 210 225 196
30 25 750 900 625
30 21 630 900 441
30 24 720 900 576
45 31 1395 2025 961
45 33 1485 2025 1089
45 28 1260 2025 784
60 44 2640 3600 1936
60 39 2340 3600 1521
60 42 2520 3600 1764
75 48 3600 5625 2304
75 51 3825 5625 2601
75 44 3300 5625 1936
675 488 25005 37125 17142

__________________________________________________________________________________ Estadstica II
2
n n
S xx = xi2 xi / n = 37125 (675 )2 / 18 = 11812.5
i =1
i=1
n n n
S xy = xi yi xi yi / n = 25005 (675 )(488 ) / 18 = 6705
i = 1 i = 1
i=1
2
n n
S yy = yi / n = 17142 (488 )2 / 18 = 3911.777778
yi2
i=1
i=1
6705 488 675
b1 = = 0.567619 y b0 = ( 0.567619 ) = 5.8254
11812.5 18 18
Entonces la ecuacin de regresin es:
y = 5.8254 + 0.567619 x
c) Interprete los valores de los coeficientes de regresin estimados b0 y b1
b0 = 5.8254 representa el valor de la cantidad disuelta cuando la temperatura es 0 C
b1 = 0.567619, significa que la cantidad disuelta aumenta en 0.567619 gramos por cada grado
centgrado que aumente la temperatura.
d) Pruebe la hiptesis: H 0 : 1 = 0 contra la alternativa H 1 : 1 0 e interprete la
decisin resultante, empleando el estadstico t

i) Las hiptesis son
H 0 : 1 = 0 (la variacin de la cantidad disuelta resulta de fluctuaciones aleatorias que

son independientes de los valores de la temperatura)
H1 : 1 0 (existe una cantidad significativa en la variacin de la cantidad disuelta que
se explica por la variacin de la temperatura)
b1 0 b1 0
ii) El estadstico de prueba es: t0 = =
Sb s2 / Sx x
iii) La regla de decisin para un nivel de significancia = 0.05 y v = n 2 = 16 grados

de libertad es
Rechazar H0 si t 0 > 2.12 Pvalor 0.05
iv) Evaluar el estadstico de prueba:
S yy b1 S x y 3911.777778 0.567619( 6705 )

2 = s 2 = = = 6.6183
n 2 16

b1 0 0.567619 0
t0 = = = 23.9803
s2 / Sx x 6.6183
11812.5
v) Decisin: como t 0 = 23.9803 > 2.12 , se rechaza H0
vi) Conclusin: el rechazo de H 0 : 1 = 0 , implica que existe una cantidad significativa

en la variacin de la cantidad disuelta que se explica por la variacin de la temperatura
e) Utilice el anlisis de varianza para probar la significancia de la regresin
i) Las hiptesis son
H 0 : 1 = 0 (la variacin de la cantidad disuelta resulta de fluctuaciones aleatorias que

son independientes de los valores de la temperatura)
H1 : 1 0 (existe una cantidad significativa en la variacin de la cantidad disuelta que
se explica por la variacin de la temperatura)
SCR / 1 CMR
ii) El estadstico de prueba es: f0 = =
SCE /( n 2 ) CME
iii) La regla de decisin para un nivel de significancia = 0.05 y v = n 2 = 16 grados

de libertad es
Rechazar H0 si f 0 > 4.49 Pvalor 0.05
iv) Evaluar el estadstico de prueba:
Anlisis de la Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 3805.89 1 3805.89 575.06 0.0000
Residuo 105.892 16 6.61825
-----------------------------------------------------------------------------
Total (Corr.) 3911.78 17
v) Decisin: como F = 575.06 > 4.49 Pvalor=0.0000 < 0.05 se rechaza H0
vi) Conclusin: la regresin es significativa, tal como se obtuvo en la prueba t, existe una
cantidad significativa en la variacin de la cantidad disuelta que se explica por la

variacin de la temperatura)
f) Utilice el anlisis de varianza para probar la linealidad de la regresin (prueba de falta de

ajuste)

__________________________________________________________________________________ Estadstica II
i. Las hiptesis son
H 0 : El modelo lineal se ajusta adecuadamente a los datos
H 1 : El modelo lineal no se ajusta a los datos

SCE SCE puro
ii. El estadstico de prueba es: f 0 =
s2(k 2 )
iii. La regla de decisin para un nivel de significancia , v 1 = k 2 y v2 = n k
es
Rechazar H0 si f 0 > 3.26 Pvalor 0.05
iv. Evaluar el estadstico de prueba:
Anlisis de Varianza con Falta de ajuste
--------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
--------------------------------------------------------------------------------
Modelo 3805.89 1 3805.89 575.06 0.0000
Residuo 105.892 16 6.61825
--------------------------------------------------------------------------------
Falta de ajuste 36.5587 4 9.13968 1.58 0.2420
Error puro 69.3333 12 5.77778
--------------------------------------------------------------------------------
Total (Corr.) 3911.78 17
v. Decisin: el valor de f = 1.58 es menor que 3.26, NO se Rechaza H0

vi. Conclusin: por lo que el modelo lineal es adecuado
g) Obtenga e interprete el coeficiente de determinacin muestral r 2
2
S xy ( 6705 ) 2
r 2
= = = 0.9729 = 97.29%
Sx xSy y ( 11812.5 )( 3911.777778 )
Esto significa que el 97.29% de la variacin en la cantidad del compuesto qumico que se
disuelve en 100 gramos de agua se explica por la variacin en la temperatura.
h ) Encuentre un intervalo de confianza del 95% para la respuesta media y un intervalo de
prediccin del 95% para una respuesta individual para Y cuando x0 = 35
y 0 = 5.8254 + 0.567619 x 0 = 5.8254 + 0.567619( 35 ) = 25.6921
Intervalo de Confianza del 95% para la respuesta media, E ( y ) es:
1 ( 35 37.5 ) 2 1 ( 35 37.5 ) 2
25.6921 2.12( 2.5726 ) + < E ( y ) < 25.6921 + 2.12( 2.5726 ) +
18 11812.5 18 11812.5
24.4005 < E(y) < 26.9837

Intervalo de Confianza del 95% para una sola respuesta y0 es:
1 ( 35 37.5 ) 2 1 ( 35 37.5 ) 2
25.6921 2.12( 2.5726 ) 1+ + < y 0 < 25.6921 + 2.12( 2.5726 ) 1+ +
18 11812.5 18 11812.5
20.1193 < y0 < 31.2649
i ) Trazar una grfica de probabilidad normal Grfico de Probabilidad Normal

99.9
de los residuales para verificar el supuesto 99
porcentaje
de normalidad. 95
80
En la grfica se observa que los puntos 50
20
siguen la lnea recta, por lo que podemos 5
1
suponer que los residuales se distribuyen
0.1
en forma normal. -4.4 -2.4 -0.4 1.6 3.6 5.6
Residuales
j ) Trazar e interpretar una grfica de los Grfico de Residuos

Residuo estudentizado
2.9
residuales versus valores predichos para
1.9
verificar el supuesto de homocedas-
0.9
ticidad.
-0.1
No se observa ningn patrn en la grfica
-1.1
en forma de embudo, por lo que se
-2.1
satisface el supuesto de homocedasticidad. 0 10 20 30 40 50
Y_Cant predicho
k ) Trazar e interpretar una grfica de los residuales versus orden de obtencin de los datos para
verificar el supuesto de independencia.
Grfico de Residuos
Residuo estudentizado
2.9
No se observa ningn patrn anormal en la 1.9
grfica, por lo que se satisface el supuesto 0.9
de independencia. -0.1
-1.1
-2.1
0 3 6 9 12 15 18
nmero de fila

__________________________________________________________________________________ Estadstica II
EJERCICIOS DE LA UNIDAD I
1. Las calificaciones de un grupo de estudiantes en su reporte de medio ao (x) y en los
exmenes finales (y) fueron los siguientes: (x0 = 85)
x 77 50 71 71 81 94 96 96 96 99 67 67 81 50
y 82 66 78 44 55 85 99 95 97 99 70 68 70 60
2. Se llev a cabo un estudio acerca de la cantidad de azcar refinada obtenida (y), mediante un
cierto proceso a varias temperaturas (x), diferentes. Los datos se codificaron y registraron en
la siguiente tabla. (x0 = 1.75)
x 1.0 1.1 1.2 1.2 1.2 1.3 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
y 8.1 7.8 8.5 8.8 8.2 9.6 9.9 9.5 8.9 8.6 10.2 9.3 9.2 10.5
3. En tipo de espcimen metlico de prueba, la resistencia normal (x) est funcionalmente

relacionada con la resistencia de corte (y). El siguiente es un conjunto de datos
experimentales codificados para las dos variables: (x0 = 24.5)
x 26.8 25.4 28.9 23.6 27.7 23.9 24.7 28.1 26.9 27.4 22.6 25.6
y 26.5 27.3 24.2 27.1 23.6 25.9 26.3 22.5 21.7 21.4 25.8 24.9
4. Las cantidades de slidos eliminados (y), en gramos, de un material particular cuando se le
expone a periodos de secado de diferentes duraciones (x), en horas, se registraron como
sigue: (x0 = 6.0)
x 4.4 4.4 4.5 4.5 4.8 4.8 5.5 5.5 5.7 5.7 5.9 5.9
y 13.1 14.2 9.0 11.5 10.4 11.5 13.8 14.8 12.7 15.1 9.9 12.7
x 6.3 6.3 6.9 6.9 7.5 7.5 7.8 7.8

y 13.8 16.5 16.4 15.7 17.6 16.9 18.3 17.2
5. Se aplica una prueba de ubicacin de matemticas a todos los alumnos de primer grado que
estn ingresando a una institucin de educacin superior. No se admiten a los que obtienen
una calificacin inferior a 35 en el examen de matemticas y se les coloca en un curso de
regularizacin. Las calificaciones del examen de ubicacin y del examen final de 20
estudiantes fueron las siguientes: (x0 = 60)
x 50 35 35 40 55 65 35 60 90 35
y 53 41 61 56 68 36 11 70 79 59
x 90 80 60 60 60 40 55 50 65 50
y 54 91 48 71 71 47 53 68 57 79

1 - RegresiÃ N Lineal Simple 1 PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

1 - RegresiÃ N Lineal Simple 1 PDF

Încărcat de

Drepturi de autor:

Formate disponibile

UNIDAD

Al trmino de esta unidad el alumno ser capaz de:

Interpretar el proceso metodolgico para la construccin de un modelo de

El objetivo en el anlisis de regresin lineal es el desarrollo de un modelo estadstico que pueda

Grafica 1.1. Tipos de relacin

2 Jos Armando Rodrguez Romo

Modelo de regresin lineal simple.

donde: 0 es la interseccin con el eje Y para la ecuacin poblacional; 1 es la pendiente de la

1.2 Estimacin de Parmetros.

positivas y negativas para las diferentes observaciones, se minimiza matemticamente la

Jos Armando Rodrguez Romo 3

Las estimaciones de mnimos cuadrados b0 y b1 de los respectivos coeficientes de regresin

Propiedades de los Estimadores.

Puede demostrarse que

4 Jos Armando Rodrguez Romo

En consecuencia b0 es un estimador insesgado de la ordenada al origen 0 y b1 es un

Estimacin por Intervalos de Confianza para los Parmetros

Intervalo de Confianza para 0 . Un intervalo de confianza del ( 1 )100% para el

b0 t / 2,n 2 s < 0 < b0 + t / 2,n 2 s

Intervalo de Confianza para 1 . Un intervalo de confianza del ( 1 )100% para el parmetro

1.3 Pruebas de Hiptesis en la Regresin Lineal Simple

1) Las hiptesis son

H0 : 1 = 0 (la variacin de Y resulta de fluctuaciones aleatorias que son

3) La regla de decisin para un nivel de significancia y v = n 2 grados de libertad es

Rechazar H0 si t 0 > t 1 / 2 , n 2 Pvalor

4) Evaluar el estadstico de prueba:

Jos Armando Rodrguez Romo 5

5) Decisin: se rechaza o no se rechaza H0

6) Conclusin: el rechazo de H 0 : 1 = 0 , implica que existe una cantidad significativa en

la variacin de Y que se explica por la variacin de X

Para probar la significancia de la regresin se puede utilizar el anlisis de varianza

1) Las hiptesis son

H0 : 1 = 0 (La variacin de Y resulta de fluctuaciones aleatorias que son

independientes de los valores de X)

3) La regla de decisin para un nivel de significancia , v 1 = 1 y v 2 = n 2 es

Rechazar H0 si f 0 > f vv21, 1 Pvalor

4) Evaluar el estadstico de prueba:

Anlisis de varianza para probar la hiptesis nula H 0 : 1 = 0

Fuente de Suma de Grados de Cuadrados fo

5) Decisin: se rechaza o no se rechaza H0

6) Conclusin: el rechazo de H 0 : 1 = 0 implica que existe una cantidad significativa en

la variacin de Y que se explica por la variacin de X

6 Jos Armando Rodrguez Romo

1.4 Prediccin de Nuevas Observaciones

Intervalo de Confianza para Y | x 0 Un intervalo de confianza del ( 1 )100% para la

respuesta media Y | x0 es:

1.5 Mediciones de la Adecuacin del Modelo de Regresin

Al evaluar la adecuacin de un modelo de regresin a un conjunto de datos lo que se quiere, es

1. Normalidad, requiere que los valores de Y estn distribuidos normalmente en cada

2. Homocesdasticidad, requiere que la variacin alrededor de la lnea de regresin sea

4. Linealidad, establece que la relacin entre las variables es lineal.

1.5.1 Anlisis Residual

Se definen los residuos como e i = y i y i , i = 1, 2, . . . , n, donde y i es una observacin y y i

Jos Armando Rodrguez Romo 7

Figura 1.2 Patrones para las grficas de los residuos

8 Jos Armando Rodrguez Romo

1.5.2 Prueba de Falta de Ajuste

Donde k es el numero de valores diferentes de x. Un procedimiento computacional para separar

1 Calcule la suma de cuadrados del error puro:

1) Las hiptesis son

H 0 : El modelo lineal se ajusta adecuadamente a los datos

H 1 : El modelo lineal no se ajusta a los datos

SCE SCE puro