Sunteți pe pagina 1din 16

http://dm.udc.es/asignaturas/estadistica2/indice_prac.

html

Problema 4.3.

Los datos de la tabla adjunta muestran el tiempo de impresin de trabajos que se han imprimido en impresoras de la marca PR. Se est interesado en estudiar la relacin existente entre la variable de inters tiempo de impresin de un trabajo y la variable explicativa nmero de pginas del trabajo. Hacer el estudio en base a los datos obtenidos en el muestreo y que son los de la tabla adjunta.

Solucin Problema 4.3.

Se calculan los estadsticos bsicos de las variables X e Y,

Que permiten calcular las estimaciones de los parmetros de la recta de regresin

Ahora, se pueden calcular las predicciones

La suma de cuadrados de los residuos es

Que permite calcular la varianza residual

Las varianzas de los parmetros son

De donde se deducen los siguientes intervalos de confianza (al 90%) y contrastes de hiptesis:
Intervalo de confianza para
73 2
2

<

<

73

< < 94'0592 85'325 < 2 < 147'735 Intervalo de confianza para 1 t73 - 1'6664
1

54'3245

< <

< t73 < 1'6664

8'108 0'7142 = Intervalo de confianza para 0 t73 - 1'6664 < < < t73 < 1'6664

13'515 4'378 =
1

Contraste de hiptesis para


1

=
0

= 18'917 ~ t n-2

p - valor = 0'0000 Contraste de hiptesis para


0

Se rechaza H 0

= 5'144 ~ t n-2

p - valor = 0'0000

Se rechaza H 0

El coeficiente de correlacin es

En el siguiente grfico se representa la nube de puntos y la recta ajustada

Nube de observaciones y recta ajustada. El grfico de residuos frente a las predicciones se observa en el siguiente grfico,

Grfico de residuos Se calcula la tabla ANOVA del modelo y se obtiene


scR = scG = scE =
i=1 i=1 i=1 75 75 75

ei2 = 8025'61
2

= 75 . sy2 = 47.368'95 = V T - V NE = 39.343'34

que permite construir la siguiente tabla

A partir de esta tabla se puede realizar el contraste de regresin

Se rechaza la hiptesis nula y se asume que el modelo ajustado es significativo.

En este problema para cada valor de x se dispone de varias observaciones de Y, se puede hacer el contraste de linealidad

Para ello se descompone la scR en dos trminos:


scR1 = scR2 = scR =
i=1 i=1 i=1 75 75 75
2

= 2.765'84
2

= 5.259'77
2

ei2 =

75 i=1

= 8.025'61

Que permite construir la siguiente tabla ANOVA ms completa

Se rechaza la hiptesis nula y se deduce que el modelo lineal no es el que mejor se ajusta a la nube de observaciones.
Predicciones.

Calcular intervalos de confianza al 90% para el tiempo medio de impresin de los trabajos que tienen 6 y 12 hojas respectivamente. Calcular, tambin, intervalos de prediccin al 90% para el tiempo de impresin de un trabajo que tiene 6 hojas. Calcular el intervalo de prediccin para el tiempo de impresin de un trabajo de 12 hojas. Sea xt = 6, su valor de influencia (leverage) es
ht

= 0'013857

nt

= 72'1651 (es el nmero de observaciones equivalente).

La varianza del estimador de la media condicionada mt = E


V ar = = 1'5235 = 1'2343.

es

El estimador de la media condicionada es

De ambos resultados se obtiene que el intervalo de confianza al 90% es


mt mt 62'163 t 73
.

1'2343 .

62'163 2'0568 = La prediccin para xt = 6 es

Con varianza
V ar

= + 109'94 = 111'4635 = 10'5576.


.

Por tanto, el intervalo de prediccin al 90% es


yt yt 62'163 t 73 62'163 17'593 = 10'5576 .

Anlogamente, se realizan los clculos para xq = 12, su valor de influencia es


hq == 0'08523 nq = = 11'7323 (es el nmero de observaciones equivalente).

Por tanto, la varianza del estimador de la media condicionada mq = E es


V ar = = 9'3707 = 3'0612.

El estimador es

y el intervalo de confianza al 90% se obtiene como


mq mq 110'811 t 73
.

3'0612 .

110'811 5'1011 = La prediccin para xq = 12 es

V ar

= 109'94 = 10'923.
.

= 119'31

y el intervalo de prediccin al 90% es


yq yq 110'811 t 73 110'811 18'202 = 10'923 .

En resumen, al comparar las longitudes de los intervalos calculados se obtiene

Problema 5. 4. Una desea estimar los gastos en alimentacin de una familia en base a la informacin que proporcionan las variables regresoras X1 =ingresos mensuales y X2 =nmero de miembros de la familia. Para ello se

recoge una muestra aleatoria simple de 15 familias cuyos resultados son los de la tabla adjunta (El gasto e ingreso est dado en cientos de miles de pesetas)
Gasto 0 43
'

Ingreso 21
'

Tamao 3 4 5 4 4 3 6 5

Gasto 1 29
'

Ingreso 89
'

Tamao 3 2 4 3 2 3 4

0'31 0'32 0 46
'

1'1 0'9 16
'

0'35 0'35 0 78
'

2'4 1'2 47
'

1'25 0'44 0'52 0'29 Solucin Problema 5.4.

6'2 2'3 1'8 1'0

0'43 0'47 0'38

3'5 2'9 1'4

Los datos en forma matricial:

Con estos datos se obtiene

Por tanto

De donde

El modelo de regresin lineal que se obtiene es:

A partir de esta ecuacin se obtienen las predicciones y los residuos asociados a las observaciones muestrales. Para la primera observacin se obtiene

Razonando as en todos los puntos muestrales se obtiene

Calculo de scR

Tambin se puede calcular la scR de la siguiente forma


t

Y-

XtY =

yi2 .

yi .

yix1i -

yix2i =

8'070 - 0'149 32'063 - 0'077 28'960 Se calculan los intervalos de confianza de los parmetros del modelo al 90%,

= 5'7733 -

Para la varianza,

2 12

5'2253

< ' 0 0034 <

< 21'0298 < 0'0138

La varianza de los estimadores del modelo es

de donde se deduce que


V ar V ar V ar t12 = 0'00816 = 0'000099 = 0'00040
0

= 0'0903 = 0'0099 = 0'0201


.

Intervalo de confianza para


.
'

0 0903 <-0'160 - 0 < t12 - 0'321 < 0 < 0'001


1 '

0'0903

Intervalo de confianza para


t12
.
'

(ingreso)
.

0 0099 < 0 149 - 1 < t12 0'1314 < 1 < 0'1666

0'0099

Contrate H0
la t)

= 0, la variable ingreso no influye (contraste individual de

Intervalo de confianza para


t12
.

(tamao)
.

0'0201 < 0'077 - 2 < t12 0'0412 < 2 < 0'1128

0'0201

Contrate H0
la t)

= 0, la variable tamao no influye (contraste individual de

Tabla Anova,

de donde

Tabla ANOVA

Fuentes de Variacin scE (por el modelo) scR (Residual) scG (Global)

Suma de Cuadrados 1'3595 0'0721 1'4316

Grados de libertad 2 12 14

Varianzas
2 e 2

= 0'6797 = 0'0060 = 0'1023

Con estos datos se obtiene el siguiente contraste conjunto de la F

El contraste conjunto de la F indica claramente la influencia del modelo en la variable respuesta. Por tanto, de los contrastes individuales y del conjunto se deduce la influencia de cada una de las dos variables regresoras y la influencia conjunta del modelo. Ahora se calcula el contraste individual de la F respecto a la variable x2=tamao, contraste que es equivalente al contraste individual de la t. Para ello, se obtiene la regresin de la variable gasto respecto a la variable ingreso, la tabla ANOVA de este modelo es
Tabla ANOVA Fuentes de Variacin scE (ingreso) scR (Residual) scG (Global) Suma de Cuadrados 1'2716 0'1600 1'4316 Grados de libertad 1 13 14
R 2 y 2

Varianzas
2 e

= 1'2716 = 0'0123 = 0'1022

La variabilidad incremental debida a la variable dimetro es

este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir la variable tamao. Para contrastar la influencia o no de esta variable se utiliza el estadstico

que da el mismo p-valor que en el contraste individual de la t (hay pequeas diferencias por los resondeos). Clculo de los coeficientes de correlacin: El coeficiente de determinacin,

El coeficiente de correlacin mltiple

El coeficiente de determinacin corregido por el nmero de grados de libertad.

El coeficiente de correlacin simple entre las variables gasto e ingreso,

Este coeficiente es una medida de la relacin lineal existente entre las variables gasto e ingreso. Tambin se puede calcular a partir del coeficiente de determinacin de la siguiente regresin

La tabla ANOVA del modelo es


Tabla ANOVA Fuentes de Variacin scE (ingreso) scR (Residual) scG (Global) Suma de Cuadrados 1'2716 0'1600 1'4316 Grados de libertad 1 13 14
R 2 y 2

Varianzas
2 e

= 1'2716 = 0'0123 = 0'1022

Anlogamente, el coeficiente de correlacin simple entre las variables gasto y tamao es,

Coeficiente de correlacin parcial entre las variables gasto e ingreso.


r2 = = 0'9496 r = 0'974. =

Otra forma ms compleja de calcular este coeficiente es la siguiente: se obtienen las siguientes regresiones y se guardan los residuos, Gasto = 0'6713 - 0'0363 tamao + e gasto.tamao. Ingreso = 5'5923 - 07615 tamao + e ingreso.tamao. Ahora el coeficiente de correlacin parcial entre las variables gasto e ingreso se obtiene como el coeficiente de correlacin simple entre las variables egasto.tamao y eingreso.tamao
r = = 0'9740, =

este coeficiente mide la relacin entre las variables gasto e ingreso libres de la influencia de la variable tamao. Anlogamente se obtiene que

Estimacin de la media condicionada.

Estimar el gasto medio en alimentacin de una familia con unos ingresos de x1 = 3'0 y un tamao de x2 = 4. Esto es . Aplicando el modelo de regresin

Se calcula el valor de influencia asociado al dato

hh

t h

-1

= nh = = 13'073

= 0'07649

La varianza del estimador es Y un intervalo de confianza para mh al 90% es

Prediccin de una observacin.

La familia Prez que tiene unos ingresos de x1 = 3'0 y un tamao de x2 = 4. Esto es qu gasto en alimentacin tendr?. Aplicando el modelo de regresin estimado

La varianza de la prediccin es
V ar =
R 2

= 0'0060 = 0'0803

= 0'0065

Y un intervalo de prdiccin al 90% es Algunos grficos de inters que ayudan a resolver el problema son los siguientes:
Grficos parciales de las componentes

Grficos de residuos,