Sunteți pe pagina 1din 18

UNIDAD

1 REGRESIN
LINEAL SIMPLE

OBJETIVO EDUCACIONAL

Al trmino de esta unidad el alumno ser capaz de:

Interpretar el proceso metodolgico para la construccin de un modelo de


regresin lineal simple, as como manipular un conjunto de datos, ya sea
con una calculadora de escritorio o un programa de computadora
diseado especialmente para ello o a travs de un paquete estadstico con
el fin de obtener los parmetros del modelo.

1.1 Introduccin

El trmino regresin fue usado por primera vez como concepto estadstico en 1877 por Sir
Francis Galton; quien efectu un estudio que demostr que las estaturas de los hijos de padres
altos tendan a retroceder, o a regresar, hacia la estatura promedio de la poblacin. Regresin
fue el nombre que le dio al proceso general de predecir una variable a partir de otra.

1
__________________________________________________________________________________ Estadstica II

El objetivo en el anlisis de regresin lineal es el desarrollo de un modelo estadstico que pueda


ser utilizado para predecir los valores de una variable de respuesta o dependiente basados en
los valores de al menos una variable independiente o explicatoria. En esta unidad enfocaremos
nuestra atencin en un modelo de regresin lineal simple que utiliza una sola variable numrica
independiente X para predecir la variable numrica dependiente Y. En la unidad 2
desarrollaremos un modelo de regresin mltiple que utiliza varias variables explicatorias (X1,
X2, . . . . , Xk) para predecir una variable numrica dependiente Y.

Diagrama de Dispersin.

En el anlisis de regresin que implica una variable dependiente y una variable independiente,
los valores individuales se representan en una grfica bidimensional conocida como diagrama de
dispersin. En la siguiente grfica se muestran los tipos de relacin ms comunes que pueden
observarse en los diagramas de dispersin.

Grafica 1.1. Tipos de relacin

2 Jos Armando Rodrguez Romo


_____________________________________________________________ Regresin Lineal Simple y Correlacin

Modelo de regresin lineal simple.

La naturaleza de la relacin entre dos variables puede tomar muchas formas, desde las sencillas
hasta las funciones matemticas extremadamente complicadas. La relacin ms sencilla consiste
en una lnea o relacin lineal, de la forma

yi = 0 + 1 xi + i

donde: 0 es la interseccin con el eje Y para la ecuacin poblacional; 1 es la pendiente de la

ecuacin poblacional y el error aleatorio i, es el error del modelo, debe necesariamente tener una
media de cero. Si ciertas suposiciones son vlidas (Normalidad, Homocedasticidad,
Independencia del Error y Linealidad), entonces la interseccin con el eje Y de la muestra (b0 ) y
la pendiente de la ecuacin muestral (b1) pueden utilizarse como estimaciones de los respectivos
parmetros de la ecuacin poblacional. Por consiguiente, la ecuacin de regresin de la muestra
que representa al modelo de regresin lineal ser:

y i = b0 + b1 x i

1.2 Estimacin de Parmetros.

El anlisis de regresin lineal simple tiene que ver con la bsqueda de la lnea recta que mejor se
ajuste a los datos. El mejor ajuste significa que deseamos encontrar la lnea recta para la cual las
diferencias entre los valores reales (yi) y los valores que seran estimados a partir de la lnea
ajustada de regresin ( y i ) sean lo ms pequeas posible. Debido a que tales diferencias sern

positivas y negativas para las diferentes observaciones, se minimiza matemticamente la


expresin

n n n


i =1
e i2 =
i =1
( y i y i ) 2 = [y
i=1
i ( b0 + b1 x i )]
2

Esta tcnica matemtica utilizada para determinar los valores de b0 y b1 que mejor se ajusten a los
datos observados se conoce como mtodo de mnimos cuadrados. Cualesquiera valores
diferentes de b0 y b1 que sean diferentes a los determinados por el mtodo de mnimos
cuadrados tendran como resultado una suma mayor del cuadrado de las diferencias entre el valor
real y el valor estimado.

Jos Armando Rodrguez Romo 3


__________________________________________________________________________________ Estadstica II

n n n
Al derivar parcialmente la expresin i =1
e i2 =
i =1
( y i y i ) 2 = [y
i=1
i ( b0 + b1 x i )] ,
2

primero con respecto a b0 y despus con respecto a b1, e igualar a cero, obtenemos las siguientes
dos ecuaciones conocidas como normales:

n n
I. nb0 + b1
i =1
xi = yi
i=1
n n n
II . b0
i=1
x i + b1
i=1
x i2 =
i=1
xi yi

Las estimaciones de mnimos cuadrados b0 y b1 de los respectivos coeficientes de regresin


0 y 1 . Dada la muestra {(xi, yi), i= 1, 2, . . . , n}, se calculan por medio de las siguientes
frmulas que resultan de resolver de manera simultanea para b0 y b1:

n n n n n
n xi yi
x i
yi
i = 1 i = 1 yi b xi
i=1 S xy i=1 i=1
b1 = 2
= b0 = = y b1 x
n n S xx n
n x i2
xi
i =1
i=1

donde:

2 2
n n n n
S xx = xi2 xi / n
i=1
S yy = yi2
yi / n
i=1
i=1 i=1

n n n
S xy = x i yi x i yi / n
i = 1 i = 1
i=1

Propiedades de los Estimadores.

Puede demostrarse que


1 x2
E ( b0 ) = 0 y V ( b0 ) = +
2

n S x x

2
E ( b1 ) = 1 y V ( b1 ) =
Sxx

4 Jos Armando Rodrguez Romo


_____________________________________________________________ Regresin Lineal Simple y Correlacin

En consecuencia b0 es un estimador insesgado de la ordenada al origen 0 y b1 es un


estimador insesgado de la pendiente verdadera 1 .

SCE S yy b1 S x y
Una estimacin insesgada de 2 es: 2 = s 2 = =
n2 n2

Estimacin por Intervalos de Confianza para los Parmetros

Intervalo de Confianza para 0 . Un intervalo de confianza del ( 1 )100% para el


parmetro 0 en la lnea de regresin y i = 0 + 1 x i + i es:

n n


i=1
x i2 x
i=1
2
i

b0 t / 2,n 2 s < 0 < b0 + t / 2,n 2 s


nS xx nS xx

Intervalo de Confianza para 1 . Un intervalo de confianza del ( 1 )100% para el parmetro


1 , en la lnea de regresin y i = 0 + 1 x i + i es:

s s
b1 t / 2,n 2 < 1 < b1 + t / 2,n 2
S xx S xx

1.3 Pruebas de Hiptesis en la Regresin Lineal Simple

1) Las hiptesis son

H0 : 1 = 0 (la variacin de Y resulta de fluctuaciones aleatorias que son


independientes de los valores de X)
H1 : 1 0 (existe una cantidad significativa en la variacin de Y que se explica por la
variacin de X)

b1 1 ,0 b1 1 ,0
2) El estadstico de prueba es: t0 = =
Sb s2 / Sx x

3) La regla de decisin para un nivel de significancia y v = n 2 grados de libertad es

Rechazar H0 si t 0 > t 1 / 2 , n 2 Pvalor

4) Evaluar el estadstico de prueba:

Jos Armando Rodrguez Romo 5


__________________________________________________________________________________ Estadstica II

5) Decisin: se rechaza o no se rechaza H0

6) Conclusin: el rechazo de H 0 : 1 = 0 , implica que existe una cantidad significativa en

la variacin de Y que se explica por la variacin de X

Para probar la significancia de la regresin se puede utilizar el anlisis de varianza

1) Las hiptesis son

H0 : 1 = 0 (La variacin de Y resulta de fluctuaciones aleatorias que son

independientes de los valores de X)


H1 : 1 0 (Existe una cantidad significativa en la variacin de Y que se explica por la
variacin de X)

SCR / 1 CMR
2) El estadstico de prueba es: f 0 = =
SCE /( n 2 ) CME

3) La regla de decisin para un nivel de significancia , v 1 = 1 y v 2 = n 2 es

Rechazar H0 si f 0 > f vv21, 1 Pvalor

4) Evaluar el estadstico de prueba:

Anlisis de varianza para probar la hiptesis nula H 0 : 1 = 0

Fuente de Suma de Grados de Cuadrados fo


Variacin Cuadrados Libertad Medios
CMR
Regresin SCR = b1 S x y 1 CMR
s2
SCE
Error SCE = S y y b1 S x y n2 s2 =
n2
Total SCT = S y y

5) Decisin: se rechaza o no se rechaza H0

6) Conclusin: el rechazo de H 0 : 1 = 0 implica que existe una cantidad significativa en

la variacin de Y que se explica por la variacin de X

6 Jos Armando Rodrguez Romo


_____________________________________________________________ Regresin Lineal Simple y Correlacin

1.4 Prediccin de Nuevas Observaciones

Intervalo de Confianza para Y | x 0 Un intervalo de confianza del ( 1 )100% para la

respuesta media Y | x0 es:

1 ( x0 x ) 1 ( x0 x )
2 2
y 0 t / 2,n 2 s + < E ( y 0 ) < y 0 + t / 2,n 2 s +
n S xx n S xx

Intervalo de Confianza para y0 Un intervalo de confianza del ( 1 )100% para una sola

respuesta y0 es:

1 ( x0 x ) 1 ( x0 x )
2 2
y 0 t / 2,n 2 s 1+ + < y 0 < y 0 + t / 2,n 2 s 1+ +
n S xx n S xx

1.5 Mediciones de la Adecuacin del Modelo de Regresin

Al evaluar la adecuacin de un modelo de regresin a un conjunto de datos lo que se quiere, es


verificar que se cumplen las suposiciones necesarias para poder hacer un anlisis de regresin,
que son:

1. Normalidad, requiere que los valores de Y estn distribuidos normalmente en cada


valor de X.

2. Homocesdasticidad, requiere que la variacin alrededor de la lnea de regresin sea


constante para todos los valores de X.

3. Independencia del error, requiere que el error (la diferencia entre un valor
observado y un valor estimado) es independiente de cada valor de X.

4. Linealidad, establece que la relacin entre las variables es lineal.

1.5.1 Anlisis Residual

Se definen los residuos como e i = y i y i , i = 1, 2, . . . , n, donde y i es una observacin y y i

es el valor estimado correspondiente a partir del modelo de regresin. A menudo es til graficar
los residuos: 1) en secuencia de tiempo (si se conoce), 2) contra y i , y 3) contra la variable

independiente x. Estas grficas suelen verse como una de los cuatro patrones generales de la

Jos Armando Rodrguez Romo 7


__________________________________________________________________________________ Estadstica II

figura 1.2 El patrn a) representa la situacin normal, en tanto que los patrones b), c) y d)
representan anomalas. Si los residuos aparecen como en b), entonces la varianza de las
observaciones puede incrementarse con el tiempo o con la magnitud de las y i o x i . Si una

grfica de los residuos contra el tiempo tiene la apariencia de b), entonces la varianza de las
observaciones se incrementa con el tiempo. Las grficas contra y i y y i que se observan como

c) indican tambin desigualdad de varianza. Las grficas de residuos que se observan como d)
indican insuficiencia del modelo; esto es, trminos de mayor orden que deben ser aadidos al
modelo.

Figura 1.2 Patrones para las grficas de los residuos

8 Jos Armando Rodrguez Romo


_____________________________________________________________ Regresin Lineal Simple y Correlacin

1.5.2 Prueba de Falta de Ajuste

La suma de cuadrados del error consiste en dos partes: la cantidad debida a la variacin entre los
valores de y dentro de los valores dados de x y el componente que normalmente reciben el
nombre de contribucin por falta de ajuste. La primera refleja la mera variacin aleatoria o el
error experimental puro, mientras que el segundo componente es una medicin de la variacin
sistemtica debida a los trminos de orden superior. Para calcular la suma de cuadrados del
error puro debemos tener observaciones repetidas en y para al menos un nivel de x.
Suponga que tenemos n observaciones en total tales que

y 11 , y 1 2 , K , y 1 n1 observaciones repetidas en x1

y 2 1 , y 2 2 , K , y 2 n2 observaciones repetidas en x2

M M
y k 1 , y k 2 , K , y k nk observaciones repetidas en xk

Donde k es el numero de valores diferentes de x. Un procedimiento computacional para separar


la suma de cuadrados del error en los dos componentes que representan el error puro y la falta de
ajuste es el siguiente:

1 Calcule la suma de cuadrados del error puro:

k ni k ni ki Ti2
SCE puro = ( y
i =1 j=1
ij yi ) =
2

i = 1j = 1
y i2 j -
i=1 ni

2 Reste la suma de cuadrados del error puro de la suma de cuadrados del error, por medio
de lo cual se obtiene la suma de cuadrados debida a la falta de ajuste. Los grados de
libertad para falta de ajuste se obtienen tambin restando: (n 2) (n k) = k 2.

Una prueba para la bondad de ajuste del modelo lineal de regresin es la siguiente:

1) Las hiptesis son

H 0 : El modelo lineal se ajusta adecuadamente a los datos

H 1 : El modelo lineal no se ajusta a los datos

SCE SCE puro


2) El estadstico de prueba es: f 0 =
s2(k 2 )

Jos Armando Rodrguez Romo 9


__________________________________________________________________________________ Estadstica II

3) La regla de decisin para un nivel de significancia , v 1 = k 2 y v 2 = n k es

Rechazar H0 si f 0 > f vv21, 1 Pvalor

4) Evaluar el estadstico de prueba:

Anlisis de varianza para probar la linealidad de la regresin


Grados
Fuente de Suma de Cuadrados fo
de
Variacin Cuadrados Medios
Libertad
CMR
Regresin SCR = b1 S x y 1 CMR
s2
SCE
Error SCE = S y y b1 S x y n2 s2 =
n2
Falta SCE SCE puro SCE SCE puro
de SCE SCE puro k2 k2
Ajuste s2 ( k 2 )
k ni ki Ti2

Error SCE puro
SCE puro = y i2 j - nk s2 =
Puro i = 1j = 1 i=1 ni nk
Total SCT = S y y n1

Donde k = valores distintos de x, x1 , x 2 ,K , xk , de tal forma que la muestra contenga n1

valores observados de la variable aleatoria y1 correspondiente a x1, n2 valores observados de y2


correspondientes a x2, y as , sucesivamente, nk valores observados de yk correspondientes a
k ni
xk, ( n = ni , Ti = y ij )
i =1 j=1

5) Decisin: se rechaza o no se rechaza H0


6) Conclusin: si H 0 no se rechaza, entonces no hay razn aparente para dudar que el

modelo lineal es adecuado.

1.5.3 Coeficiente de Determinacin

El coeficiente de determinacin muestral, r 2 expresa la proporcin de la variacin total de


los valores de la variable Y que se pueden contabilizar o explicar por una relacin lineal con
los valores de la variable aleatoria X.

2
S xy SCR
r 2
= =
Sx xSy y Sy y

10 Jos Armando Rodrguez Romo


_____________________________________________________________ Regresin Lineal Simple y Correlacin

1.6 Transformaciones Lineales

En ocasiones encontramos que el modelo de regresin lineal yi = 0 + 1 xi + i es

inapropiado porque la funcin de regresin verdadera no es lineal; la necesidad de realizar una


transformacin es bastante simple de diagnosticar en el caso de la regresin lineal simple debido
que las grficas de dos dimensiones dan una imagen real de cmo entra cada variable en el
modelo. En ciertas situaciones una funcin no lineal puede expresarse como una lnea recta
utilizando una transformacin apropiada. Tales modelos lineales se llaman lineales
intrnsecamente. (Ver tabla 1.1)

Tabla 1.1 Algunas transformaciones tiles


Forma de regresin
Forma funcional que relaciona y con x Transformacin
lineal simple

Exponencial: y = e x y * = ln y y * contra x

Potencia: y = x y * = log y ; x * = log x y * contra x *

1 1
Recproca: y = + x* = y contra x *
x x
x 1 1
Funcin Hiperblica: y = y* = ; x* = y * contra x *
+ x y x

1.7 Correlacin

La intensidad de una relacin entre dos variables de una poblacin por lo general se mide
mediante el coeficiente de correlacin poblacional . Es costumbre referirse a la estimacin r
como el coeficiente de correlacin producto-momento de Pearson, o simplemente coeficiente
de correlacin muestral; cuyos valores van desde 1, correspondiente una correlacin perfecta
negativa, hasta +1, correspondiente a una correlacin perfecta positiva, de asociacin lineal entre
dos variables X y Y. Se estima con el coeficiente de correlacin muestral r, donde:

S xx S xy
= r = b =
S yy S x x S yy

Jos Armando Rodrguez Romo 11


__________________________________________________________________________________ Estadstica II

Ejemplo 1.1 Las cantidades de un compuesto qumico y, en gramos, que se disuelven en 100
gramos de agua a varias temperaturas, x, en C, se registran como sigue:

x C y ( gr ) xy
x2 y2
0 8
0 6
0 8
15 12
15 10
15 14
30 25
30 21
30 24
45 31
45 33
45 28
60 44
60 39
60 42
75 48
75 51
75 44

a) Elaborar el diagrama de dispersin

b) Obtener la ecuacin de regresin

c) Interprete los valores de los coeficientes de regresin estimados b0 y b1

d) Pruebe la hiptesis: H0 : 1 = 0 contra la alternativa H1 : 1 0 e interprete la

decisin resultante, empleando el estadstico t

e) Utilice el anlisis de varianza para probar la significancia de la regresin

f) Utilice el anlisis de varianza para probar la linealidad de la regresin (prueba de falta de


ajuste)

g) Obtenga e interprete el coeficiente de determinacin muestral r 2

h ) Encuentre un intervalo de confianza del 95% para la respuesta media y un intervalo de


prediccin del 95% para una respuesta individual para Y cuando x0 = 35

i ) Trazar una grfica de probabilidad normal de los residuales para verificar el supuesto de
normalidad.

12 Jos Armando Rodrguez Romo


_____________________________________________________________ Regresin Lineal Simple y Correlacin

j ) Trazar e interpretar una grfica de los residuales versus valores predichos para verificar el
supuesto de homocedasticidad.

k ) Trazar e interpretar una grfica de los residuales versus orden de obtencin de los datos para
verificar el supuesto de independencia.

Solucin. En seguida se presenta la solucin de este problema


a) Elaborar el diagrama de dispersin

Diagrama de Dispersin para Cantidad vs Temperatura


60

50

40
Cantidad

30

20

10

0
0 15 30 45 60 75 90
Temperatura
Se observa en el diagrama una posible relacin lineal directa.

b) Obtener la ecuacin de regresin


x C y ( gr ) xy x2 y2
0 8 0 0 64
0 6 0 0 36
0 8 0 0 64
15 12 180 225 144
15 10 150 225 100
15 14 210 225 196
30 25 750 900 625
30 21 630 900 441
30 24 720 900 576
45 31 1395 2025 961
45 33 1485 2025 1089
45 28 1260 2025 784
60 44 2640 3600 1936
60 39 2340 3600 1521
60 42 2520 3600 1764
75 48 3600 5625 2304
75 51 3825 5625 2601
75 44 3300 5625 1936
675 488 25005 37125 17142

Jos Armando Rodrguez Romo 13


__________________________________________________________________________________ Estadstica II

2
n n
S xx = xi2 xi / n = 37125 (675 )2 / 18 = 11812.5
i =1
i=1
n n n
S xy = xi yi xi yi / n = 25005 (675 )(488 ) / 18 = 6705
i = 1 i = 1
i=1
2
n n
S yy = yi / n = 17142 (488 )2 / 18 = 3911.777778
yi2
i=1
i=1
6705 488 675
b1 = = 0.567619 y b0 = ( 0.567619 ) = 5.8254
11812.5 18 18
Entonces la ecuacin de regresin es:
y = 5.8254 + 0.567619 x

c) Interprete los valores de los coeficientes de regresin estimados b0 y b1

b0 = 5.8254 representa el valor de la cantidad disuelta cuando la temperatura es 0 C

b1 = 0.567619, significa que la cantidad disuelta aumenta en 0.567619 gramos por cada grado
centgrado que aumente la temperatura.

d) Pruebe la hiptesis: H 0 : 1 = 0 contra la alternativa H 1 : 1 0 e interprete la

decisin resultante, empleando el estadstico t


i) Las hiptesis son

H 0 : 1 = 0 (la variacin de la cantidad disuelta resulta de fluctuaciones aleatorias que


son independientes de los valores de la temperatura)
H1 : 1 0 (existe una cantidad significativa en la variacin de la cantidad disuelta que
se explica por la variacin de la temperatura)
b1 0 b1 0
ii) El estadstico de prueba es: t0 = =
Sb s2 / Sx x

iii) La regla de decisin para un nivel de significancia = 0.05 y v = n 2 = 16 grados


de libertad es
Rechazar H0 si t 0 > 2.12 Pvalor 0.05

iv) Evaluar el estadstico de prueba:

S yy b1 S x y 3911.777778 0.567619( 6705 )


2 = s 2 = = = 6.6183
n 2 16

14 Jos Armando Rodrguez Romo


_____________________________________________________________ Regresin Lineal Simple y Correlacin

b1 0 0.567619 0
t0 = = = 23.9803
s2 / Sx x 6.6183
11812.5
v) Decisin: como t 0 = 23.9803 > 2.12 , se rechaza H0

vi) Conclusin: el rechazo de H 0 : 1 = 0 , implica que existe una cantidad significativa


en la variacin de la cantidad disuelta que se explica por la variacin de la temperatura

e) Utilice el anlisis de varianza para probar la significancia de la regresin

i) Las hiptesis son

H 0 : 1 = 0 (la variacin de la cantidad disuelta resulta de fluctuaciones aleatorias que


son independientes de los valores de la temperatura)
H1 : 1 0 (existe una cantidad significativa en la variacin de la cantidad disuelta que
se explica por la variacin de la temperatura)
SCR / 1 CMR
ii) El estadstico de prueba es: f0 = =
SCE /( n 2 ) CME

iii) La regla de decisin para un nivel de significancia = 0.05 y v = n 2 = 16 grados


de libertad es

Rechazar H0 si f 0 > 4.49 Pvalor 0.05

iv) Evaluar el estadstico de prueba:

Anlisis de la Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 3805.89 1 3805.89 575.06 0.0000
Residuo 105.892 16 6.61825
-----------------------------------------------------------------------------
Total (Corr.) 3911.78 17

v) Decisin: como F = 575.06 > 4.49 Pvalor=0.0000 < 0.05 se rechaza H0

vi) Conclusin: la regresin es significativa, tal como se obtuvo en la prueba t, existe una

cantidad significativa en la variacin de la cantidad disuelta que se explica por la


variacin de la temperatura)

f) Utilice el anlisis de varianza para probar la linealidad de la regresin (prueba de falta de


ajuste)

Jos Armando Rodrguez Romo 15


__________________________________________________________________________________ Estadstica II

i. Las hiptesis son

H 0 : El modelo lineal se ajusta adecuadamente a los datos

H 1 : El modelo lineal no se ajusta a los datos


SCE SCE puro
ii. El estadstico de prueba es: f 0 =
s2(k 2 )
iii. La regla de decisin para un nivel de significancia , v 1 = k 2 y v2 = n k
es
Rechazar H0 si f 0 > 3.26 Pvalor 0.05
iv. Evaluar el estadstico de prueba:
Anlisis de Varianza con Falta de ajuste
--------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
--------------------------------------------------------------------------------
Modelo 3805.89 1 3805.89 575.06 0.0000
Residuo 105.892 16 6.61825
--------------------------------------------------------------------------------
Falta de ajuste 36.5587 4 9.13968 1.58 0.2420
Error puro 69.3333 12 5.77778
--------------------------------------------------------------------------------
Total (Corr.) 3911.78 17

v. Decisin: el valor de f = 1.58 es menor que 3.26, NO se Rechaza H0


vi. Conclusin: por lo que el modelo lineal es adecuado
g) Obtenga e interprete el coeficiente de determinacin muestral r 2
2
S xy ( 6705 ) 2
r 2
= = = 0.9729 = 97.29%
Sx xSy y ( 11812.5 )( 3911.777778 )

Esto significa que el 97.29% de la variacin en la cantidad del compuesto qumico que se
disuelve en 100 gramos de agua se explica por la variacin en la temperatura.
h ) Encuentre un intervalo de confianza del 95% para la respuesta media y un intervalo de
prediccin del 95% para una respuesta individual para Y cuando x0 = 35

y 0 = 5.8254 + 0.567619 x 0 = 5.8254 + 0.567619( 35 ) = 25.6921

Intervalo de Confianza del 95% para la respuesta media, E ( y ) es:

1 ( 35 37.5 ) 2 1 ( 35 37.5 ) 2
25.6921 2.12( 2.5726 ) + < E ( y ) < 25.6921 + 2.12( 2.5726 ) +
18 11812.5 18 11812.5

24.4005 < E(y) < 26.9837

16 Jos Armando Rodrguez Romo


_____________________________________________________________ Regresin Lineal Simple y Correlacin

Intervalo de Confianza del 95% para una sola respuesta y0 es:

1 ( 35 37.5 ) 2 1 ( 35 37.5 ) 2
25.6921 2.12( 2.5726 ) 1+ + < y 0 < 25.6921 + 2.12( 2.5726 ) 1+ +
18 11812.5 18 11812.5

20.1193 < y0 < 31.2649

i ) Trazar una grfica de probabilidad normal Grfico de Probabilidad Normal


99.9
de los residuales para verificar el supuesto 99

porcentaje
de normalidad. 95
80
En la grfica se observa que los puntos 50
20
siguen la lnea recta, por lo que podemos 5
1
suponer que los residuales se distribuyen
0.1
en forma normal. -4.4 -2.4 -0.4 1.6 3.6 5.6

Residuales

j ) Trazar e interpretar una grfica de los Grfico de Residuos


Residuo estudentizado

2.9
residuales versus valores predichos para
1.9
verificar el supuesto de homocedas-
0.9
ticidad.
-0.1
No se observa ningn patrn en la grfica
-1.1
en forma de embudo, por lo que se
-2.1
satisface el supuesto de homocedasticidad. 0 10 20 30 40 50

Y_Cant predicho

k ) Trazar e interpretar una grfica de los residuales versus orden de obtencin de los datos para
verificar el supuesto de independencia.
Grfico de Residuos
Residuo estudentizado

2.9
No se observa ningn patrn anormal en la 1.9
grfica, por lo que se satisface el supuesto 0.9
de independencia. -0.1

-1.1

-2.1
0 3 6 9 12 15 18

nmero de fila

Jos Armando Rodrguez Romo 17


__________________________________________________________________________________ Estadstica II

EJERCICIOS DE LA UNIDAD I
1. Las calificaciones de un grupo de estudiantes en su reporte de medio ao (x) y en los
exmenes finales (y) fueron los siguientes: (x0 = 85)

x 77 50 71 71 81 94 96 96 96 99 67 67 81 50
y 82 66 78 44 55 85 99 95 97 99 70 68 70 60
2. Se llev a cabo un estudio acerca de la cantidad de azcar refinada obtenida (y), mediante un
cierto proceso a varias temperaturas (x), diferentes. Los datos se codificaron y registraron en
la siguiente tabla. (x0 = 1.75)

x 1.0 1.1 1.2 1.2 1.2 1.3 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
y 8.1 7.8 8.5 8.8 8.2 9.6 9.9 9.5 8.9 8.6 10.2 9.3 9.2 10.5

3. En tipo de espcimen metlico de prueba, la resistencia normal (x) est funcionalmente


relacionada con la resistencia de corte (y). El siguiente es un conjunto de datos
experimentales codificados para las dos variables: (x0 = 24.5)

x 26.8 25.4 28.9 23.6 27.7 23.9 24.7 28.1 26.9 27.4 22.6 25.6
y 26.5 27.3 24.2 27.1 23.6 25.9 26.3 22.5 21.7 21.4 25.8 24.9
4. Las cantidades de slidos eliminados (y), en gramos, de un material particular cuando se le
expone a periodos de secado de diferentes duraciones (x), en horas, se registraron como
sigue: (x0 = 6.0)

x 4.4 4.4 4.5 4.5 4.8 4.8 5.5 5.5 5.7 5.7 5.9 5.9
y 13.1 14.2 9.0 11.5 10.4 11.5 13.8 14.8 12.7 15.1 9.9 12.7

x 6.3 6.3 6.9 6.9 7.5 7.5 7.8 7.8


y 13.8 16.5 16.4 15.7 17.6 16.9 18.3 17.2
5. Se aplica una prueba de ubicacin de matemticas a todos los alumnos de primer grado que
estn ingresando a una institucin de educacin superior. No se admiten a los que obtienen
una calificacin inferior a 35 en el examen de matemticas y se les coloca en un curso de
regularizacin. Las calificaciones del examen de ubicacin y del examen final de 20
estudiantes fueron las siguientes: (x0 = 60)

x 50 35 35 40 55 65 35 60 90 35
y 53 41 61 56 68 36 11 70 79 59

x 90 80 60 60 60 40 55 50 65 50
y 54 91 48 71 71 47 53 68 57 79

18 Jos Armando Rodrguez Romo

S-ar putea să vă placă și