Sunteți pe pagina 1din 66

LABORATORIO 1

PROBLEMA DE DISTRIBUCION Z
(Muestras grandes)
Un noticiero informo que el precio promedio de la gasolina es de 2.5 por galn, una
muestra aleatoria de 35 gasolineras de una determinada rea revelo que el precio
promedio es de 2.52 por galn con una desviacin estndar de 0.05 por galn se podr
concluir que el precio de la gasolinera es mas alto en esta rea con un nivel de
significancia de 0.05?. Determine tambin el valor de p, interprtelo.
Datos:
n=35 (Tamao de la muestra)
=2.5

x =2.52

=0.05
=0.05
Paso 1 : plantear la hipotesis nula y la hipotesis alternativa
H0: 2.5
H1: >2.5
Paso 2: nivel de significancia =0.05
Paso3: estadistico de prueba z (para muestras grandes)

x
s
=
n

2.522.5
0.05
=
35

= 2.37

Paso 4 : formular la regla de rechazo


De la tabla z para una prueba de extremo superior con nivel de significancia de 0.05
el valor de z es 1.64
Rechazar H0 si z > 1.64
No Rechazar H0 si z < 1.64

0.5-0.05=0.45 del area


=0.05
1.64 2.37

Paso 5 : Interpretacion
Se rechaza la hipotesis nula, es decir con un nivel de significancia de 0.05 se puede
decir que el precio de la gasolina es mayor a 2.5 en esta area.
Hallando el valor de p
El rea para un Z=2.37 es 0.4911 segn tabla

0.4911
p= 0.5-0.4911=0.0089
2.37

Interpretacion
Sabemos que : si p<
H0 se rechaza
si p>
H0 no se rechaza
Como el valor de p=0.0089 es menor que el nivel de significancia =0.05
Se rechaza la hipotesis nula, es decir con un nivel de significancia de 0.05 se puede
decir que el precio de la gasolina es mayor a 2.5 en esta area.
DESARROLLO DEL PROBLEMA CON MINITAB
Como el estadistico de prueba es el z(para muestras grandes)
Seguimos los pasos en el Minitab
Estadisticas - Estadistica basica- 1z (z de 1 muestra) - Datos resumidos - Ingresar datos

Click en opciones (ingresar nivel de confianza y hipotesis alterna)

Click en aceptar y aceptar


Z de una muestra
Prueba de mu = 2.5 vs. > 2.5
La desviacin estndar supuesta = 0.05

N
35

Media
2.52000

Error
Estndar de
la media
0.00845

95% Lmite
inferior
2.50610

Z
2.37

P
0.009

Interpretacion
Sabemos que : si p<
H0 se rechaza
si p>
H0 no se rechaza
Como el valor de p=0.009 comparando con el nivel de significancia =0.05
0.009<0.05
Entonces se rechaza la hipotesis nula, es decir con un nivel de significancia de 0.05 se
puede decir que el precio de la gasolina es mayor a 2.5 en esta area.

PROBLEMA DE DISTRIBUCION T
(Muestras pequeas)
Una muestra de cuatro carretes de cintas metlicas de litio de determinados ancho y
espesor ha sido tomada de una gran poblacin de tales carretes. Si las longitudes de las
cintas son 30.1, 30.1, 30.0 y 30.2 pies es esto suficiente evidencia al 5% de nivel de
significancia de que la verdadera longitud media de las cintas es superior a 30.0 pies?
Datos:
n=4 (Tamao de la muestra)
Longitudes de las cintas metlicas:
30.1

30.1

30.0

30.2

Paso 1 : plantear la hipotesis nula y la hipotesis alternativa


H0: 30
H1: >30
Paso 2: nivel de significancia =0.05
Paso3: estadistico de prueba t (para muestras pequeas)
x

Hallando la desviacion estandar

La media

x =

s =

2
x

30.1+30.1+30.0+ 30.2
4

x
s
=
n

= 0.082

= 30.1

30.130.0
0.082
=
4

= 2.44

Paso 4 : formular la regla de rechazo


De la tabla t de student, para una prueba de extremo superior con nivel de
significancia de 0.05 y grado de libertad igual 3 el valor de t es 2.353
Rechazar H0 si t > 2.353

No Rechazar H0 si t <2.353

=0.05
2.353 2.44

Paso 5 : Interpretacin
Se rechaza la hipotesis nula, es decir no se acepta la idea de que la media, de las
longitudes de las cintas sea menor que 30, entonces los datos establecidos si son
suficiente evidencia.
DESARROLLO DEL PROBLEMA CON MINITAB
Como el estadistico de prueba es el t(para muestras pequeas)
Seguimos los pasos en el Minitab
Estadisticas - Estadistica basica- 1t (t de 1 muestra) - Datos resumidos - Ingresar datos

Click en opciones (ingresar nivel de confianza y hipotesis alterna)

Click en aceptar y aceptar


T de una muestra
Prueba de mu = 30 vs. > 30

N
4

Media
30.1000

Desv.Est.
0.0820

Error
Estndar
de la
media
0.0410

95% Lmite
inferior
30.0035

T
2.44

P
0.046

Interpretacin
Sabemos que : si p<
H0 se rechaza
si p>
H0 no se rechaza
Como el valor de p=0.046 comparando con el nivel de significancia =0.05
Entonces se rechaza la hipotesis nula, es decir no se acepta la idea de que la media, de
las longitudes de las cintas sea menor que 30, entonces los datos establecidos si son
suficiente evidencia.

LABORATORIO 2

PROBLEMA DE ANOVA
(En dos sentidos)
Se llev a cabo un experimento para determinar si el rendimiento de un proceso qumico
puede aumentarse cambiando la temperatura de la reaccin y cambiando la cantidad de
un catalizador. Los resultados aparecen a continuacin.

CATALIZAD
OR
TEMPERATU
RA
A
B
C

1
53
57
52

2
59
65
62

3
58
62
54

4
50
60
52

Las 12 posiciones de la tabla corresponden a rendimiento en 3 condiciones de


temperatura distinta y 4 catalizadores. A un nivel de significancia 0.05 pruebe la
hiptesis de que el rendimiento se ve afectado al variar el catalizador.
SOLUCIN:

Paso 1 : plantear la hipotesis nula y la hipotesis alternativa


H0: 1= 2= 3= 4
H1: al menos una es diferente
Paso 2: nivel de significancia =0.05
Paso3: ANOVA 2 DIRECCIONES

Calculando:
SST=132
SSB=96
TSS=252
SSE=TSS-SST-SSB
SSE=252-132-96
SSE=24
Ahora debemos hallar los valores criticos de la distribucion F(para un nivel de
significancia de 5%)
TRATAMIENTOS (Catalizador) glN=3
F>4.76

glD=6

rechazar H0 si ,

4.76

BLOQUES (Temperatura) glN=2


F>5.14

glD=6

rechazar H0 si ,

5.14

DESARROLLO DEL PROBLEMA CON MINITAB


Seguimos los pasos en el Minitab
Estadisticas Anova- - dos factores - Ingresar datos (apilando)

ANOVA de dos factores: DATOS vs. CATALIZADOR, TEMPERATURA


Fuente
CATALIZADOR
TEMPERATURA
Error
Total

GL
3
2
6
11

SC
132
96
24
252

CM
44
48
4

F
11.00
12.00

P
0.007
0.008

S = 2

R-cuad. = 90.48%

CATALIZADOR
1
2
3
4

TEMPERATURA
1
2
3

R-cuad.(ajustado) = 82.54%

Media
54
62
58
54

ICs de 95% individuales para la media


basados en Desv.Est. agrupada
----+---------+---------+---------+----(-------*-------)
(-------*-------)
(-------*-------)
(-------*-------)
----+---------+---------+---------+----52.5
56.0
59.5
63.0

Media
55
61
55

ICs de 95% individuales para la media


basados en Desv.Est. agrupada
-----+---------+---------+---------+---(-------*-------)
(-------*-------)
(-------*-------)
-----+---------+---------+---------+---54.0
57.0
60.0
63.0

Interpretacin
Comparando los valores del cuadro se concluye que si se rechaza la hipotesis nula, es
decir el rendimiento si se ve afectado al variar el catalizador y tambien al variar la
temperatura.
En los tratamientos los mas discrepantes son catalizador 1 y catalizador 2 asi como
catalizador 4 con catalizador 2.
En los bloques los mas discrepantes son temperatura 1 y temperatura 2 asi como
temperatura 3 con temperatura 2.

ANOVA
(En un sentido)
Para indagar si la media del tiempo que se necesita para mezclar un lote de materiales es
igual en mquinas de tres marcas, la compaa Qumica Suiza obtuvo los tiempos en
minutos necesarios para la mezcla, los cuales aparecen en la siguiente tabla.
1
20
26
24
22
Con estos datos investigue si las

Marca
2
28
26
31
27
medias poblacionales

3
20
19
23
22
de los tiempos para mezclar un
lote de material son distintas al usar mquinas de tres marcas .Use = 0.05
SOLUCIN:

Paso 1 : plantear la hipotesis nula y la hipotesis alternativa

H0: 1= 2= 3
H1: al menos una es diferente
Paso 2: nivel de significancia =0.05
Paso3: ANOVA 1 direccin
Calculando:
SST=104
SSE=44
TSS=148
MST=52

MSE=4.89

F=MST/MSE=52/4.89=10.64

Ahora debemos hallar los valores criticos de la distribucion F(para un nivel de


significancia de 5%)
TRATAMIENTO glN=2

glD=9

rechazar H0 si , F>4.26

4.26

DESARROLLO DEL PROBLEMA CON MINITAB


Seguimos los pasos en el Minitab
Estadisticas Anova- Anova un solo factor (desapilado)-

ANOVA unidireccional: 1, 2, 3
Fuente
Factor
Error
Total

GL
2
9
11

S = 2.211

Nivel
1
2
3

N
4
4
4

SC
104.00
44.00
148.00

CM
52.00
4.89

F
10.64

R-cuad. = 70.27%

Media
23.000
28.000
21.000

Desv.Est.
2.582
2.160
1.826

Desv.Est. agrupada = 2.211

P
0.004

R-cuad.(ajustado) = 63.66%
ICs de 95% individuales para la media
basados en Desv.Est. agrupada
-------+---------+---------+---------+-(------*------)
(------*------)
(------*------)
-------+---------+---------+---------+-21.0
24.5
28.0
31.5

Interpretacin
Como F=10.63>4.26 se rechaza la hiptesis nula de que las medias
del tiempo necesario para mezclar un lote de material son iguales
para cada fabricante.
Los mas discrepantes son nivel 2 y nivel 3 .

ANOVA
(En un sentido)
1.- Un fabricante de cereales tiene que elegir entre tres colores para las cajas de
cereales: rojo, amarillo y azul. Para averiguar si el color influye en las ventas, se eligen
16 tiendas de tamao parecido. Se envan cajas rojas a 6 de estas tiendas, cajas amarillas
a 5 y cajas azules a las 5 restantes. Dentro de unos das, se comprueba el nmero de
cajas vendidas en cada tienda. La tabla adjunta muestra los resultados (en decenas de
cajas) obtenidos.
Rojo
43
52
59
76
61
81

Amarillo
52
37
38
64
74

Azul
61
29
38
53
79

a) Calcule la suma de los cuadrados dentro de los grupos, entre los grupos y total.

b) Complete la tabla del anlisis de la varianza y contraste la hiptesis nula de que


las medias poblacionales de los niveles de ventas de las cajas de los tres colores
son iguales.
Use = 0.05
SOLUCIN:

Paso 1 : plantear la hipotesis nula y la hipotesis alternativa


H0: 1= 2= 3
H1: al menos una es diferente
Paso 2: nivel de significancia =0.05
Paso3: ANOVA 1 direccion
Calculando:
SST=340.9375
SSE=3608
SST=3948.9375

MST =170.46875

MSE=277.5385

F=MST/MSE=170.469/277.539=0.61
Ahora debemos hallar los valores criticos de la distribucion F(para un nivel de
significancia de 5%).
TRATAMIENTO
glN=2

glD=13

rechazar H0 si , F>3.81

3.81

DESARROLLO DEL PROBLEMA CON MINITAB


Seguimos los pasos en el Minitab
Estadisticas Anova- - Anova un solo factor (desapilado) - Ingresar datos en diferentes
columnas

ANOVA unidireccional: rojo, amarillo, azul


Fuente
Factor
Error
Total

GL
2
13
15

SC
341
3608
3949

S = 16.66

Nivel
rojo
amarillo
azul

CM
170
278

F
0.61

R-cuad. = 8.63%

P
0.556

N
6
5
5

Media
62.00
53.00
52.00

Desv.Est.
14.34
16.16
19.60

Desv.Est. agrupada = 16.66

R-cuad.(ajustado) = 0.00%
ICs de 95% individuales para la media
basados en Desv.Est. agrupada
+---------+---------+---------+--------(------------*-----------)
(------------*-------------)
(------------*-------------)
+---------+---------+---------+--------36
48
60
72

Interpretacin
Comparando los valores del cuadro se concluye que no se rechaza la hipotesis nula, es
decir las medias poblacionales de los niveles de ventas de las cajas de los tres colores
son iguales.
En los tratamientos los ms discrepantes son rojo y azul.

LABORATORIO 3
REGRESIN SIMPLE
Problema 1
La empresa Bardi Trucking Co., Localizada en Cleveland, Ohio hace
entregas en la regin de los grandes lagos, el Sureste y el Noreste.
Jim Bardi, el presidente, estudia la relacin entre la distancia que
debe viajar un embarque y el tiempo (en das) que necesita para
llegar a su destino. Para investigar el seor Bardi selecciono una
muestra aleatoria de 20 envos realizados el ltimo mes. El recorrido
del embarque es la variable independiente y el tiempo necesario para
la entrega (tiempo de embarque) la variable dependiente. A
continuacin se presenta los resultados.
embarqu
e
1

distancia de embarque(millas)
656

tiempo de
embarque(dias)
5

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

853
646
783
610
841
785
639
762
762
862
679
835
607
665
647
685
720
652
828

14
6
11
8
10
9
9
10
9
7
5
13
3
8
7
10
8
6
10

Para determinar los valores de b0 y b1 en la ecuacin de regresin


lineal simple. Para el embarque i, la ecuacin de regresin simple
estimada es
Yi b0 b1 X1i

Donde:
Yi

: Valor estimado del tiempo de embarque (en das) del embarque i.


b0

: Interseccin de la recta de regresin con el eje y


b1

: Pendiente de la recta de regresin

X 1i

: distancia de embarque (en millas) del embarque i.

Con el mtodo de mnimos cuadrados se usan los datos mustrales


para obtener los valores de b0 y b1 que minimicen la suma de los
cuadrados de las desviaciones (diferencias) entre los valores
yi
observados de la variable dependiente
y los valores estimados
de la variable dependiente. El criterio que se emplea en el mtodo de
mnimos cuadrados es el de la expresin.
CRITERIO DE MINIMOS CUADRADOS
y i

Donde:
yi

: Valor observado de la variable dependiente en la observacin i.

Yi

: Valor estimado de la variable independiente en la observacin i.

PENDIENTE E INTERSECCIN CON EL EJE y


REGRESION ESTIMADA
b1 =

DE LA ECUACIN DE

( x i x ) ( yi y )
( xi x ) 2

b0 = y b 1 x
Donde:
x i : valor de la variable independiente en la observacin i
y i : valor de la variable dependiente en la observacin i
x : media de la variable independiente
y : media de la variable dependiente

n: numero total de observaciones

x =

y =

( xi )
n

( yi )
n

14517
=
=725.85
20

168
20 =8.4

ECUACION DE REGRESION ESTIMADA OBTENIDA POR EL


METODO DE MINIMOS CUADRADOS

EMBARQ
UE

xi

yi

656

853

14

646

783

11

610

841

10

785

639

-x
x i

69.85
127.1
5
79.85

y i y

-3.4

237.49

5.6

712.04

-2.4

191.64

2.6

148.59

-0.4

46.34

1.6

184.24

0.6

35.49

59.15
86.85

0.6

-52.11

762

10

36.15

1.6

57.84

10

762

0.6

21.69

11

862

-1.4

-190.61

12

679

-3.4

159.29

13

835

13

4.6

502.09

14

607

-5.4

641.79

15

665

-0.4

24.34

16

647

-1.4

110.39

17
18
19

685
720
652

10
8
6

36.15
136.1
5
46.85
109.1
5
118.8
5
60.85
78.85
40.85
-5.85
-

1.6
-0.4
-2.4

-65.36
2.34
177.24

57.15
115.8
5
115.1
5

4879.02
25
16167.1
225
6376.02
25
3266.12
25
13421.2
225
13259.5
225
3498.72
25
7542.92
25
1306.82
25
1306.82
25
18536.8
225
2194.92
25
11913.7
225
14125.3
225
3702.72
25
6217.32
25
1668.72
25
34.2225
5453.82

20
totales

b1 =

828

10

14517

168

xi

yi

73.85
102.1
5

1.6

163.44
3108.2

25
10434.6
225
145306.
55

x
( x i x )( y i y )
2
( ix )

( x i x ) ( yi y )
( xi x ) 2

3108.2
145306.55

0.0214

La interseccin con el eje y (b0) se calcula como sigue:


b0 = y b 1 x
= 8.4 - 0.0214 (725.85)
= -7.13319

Yi 7.13 0.0214 x

Por lo tanto

la ecuacin de regresin estimada es:

Con MINITAB
Pasos:
Estadsticas-Regresin- Regresin - Completar cuadro - Clic en Aceptar

Anlisis de regresin: tiempo de embarq vs. distancia de emb


La ecuacin de regresin es
tiempo de embarque(dias) = - 7.13 + 0.0214 distancia de embarque(millas)
Predictor
Constante
distancia de embarque(millas)
S = 2.00435

R-cuad. = 47.9%

Coef
-7.126
0.021391

SE Coef
3.843
0.005258

R-cuad.(ajustado) = 45.0%

Anlisis de varianza
Fuente
Regresin
Error residual
Total

GL
1
18
19

SC
66.486
72.314
138.800

T
-1.85
4.07

CM
66.486
4.017

F
16.55

P
0.001

P
0.080
0.001

Observaciones poco comunes


Obs
11

distancia de
embarque(millas)
862

tiempo de
embarque(dias)
7.000

Ajuste
11.312

EE de
ajuste
0.845

Residuo
-4.312

Residuo
estndar
-2.37R

R denota una observacin con un residuo estandarizado grande.

GRAFICA DE LA ECUACION DE REGRESION ESTIMADA

Con el MINITAB seguir los pasos siguientes:


Grafica - Grafica de dispersin - Elegir con regresin y aceptar

Completar y clic en aceptar

GRAFICA DE LINEA AJUSTADA


Pasos: Estadstica-Regresin-Grafica de lnea ajustada-Completar y
Aceptar

INTERPRETACIN
Ecuacin graficada sobre el diagrama de dispersin. La pendiente de
la ecuacin de regresin estimada (b1=0.0214) es positiva, lo que
implica que a medida que aumenta la distancia de embarque
aumenta el tiempo de embarque.
Si se considera que la ecuacin de regresin estimada obtenida por el
mtodo de mnimos cuadrados describe adecuadamente la relacin
entre X y Y, parecer razonable usar esta ecuacin de regresin
estimada para estimar el valor de Y para un valor dado de por
ejemplo, si se quisieran predecir el tiempo de embarque de un
embarque ubicado a una distancia de 700 millas.
Yi 7.13 0.0214(700) 7.85

De manera que el tiempo de embarque pronosticado para un


embarque seria 7.85 das.
Con MINITAB
Pasos:

Estadstica-Regresin-Regresin-Opciones-Poner

700

(en

intervalos de prediccin para nuevas observaciones)- Nivel de


confianza 95- Clic en aceptar

Valores pronosticados para nuevas observaciones


Nueva obs
1

Ajuste
7.847

EE de
ajuste
0.468

IC de 95%
(6.863, 8.831)

IP de 95%
(3.523, 12.171)

Valores de predictores para nuevas observaciones


Nueva obs
1

distancia de
embarque(millas)
700

INTERVALO
DE
PREDICCION

INTERVALO
DE
CONFIANZA

Problema 2
Una empresa constructora de equipos mdicos dentales ha construido
en los ltimos 8 aos la cantidad de equipos que se indican a
continuacin:
Aos(X)
#Equipo
s(Y)

1
12

2
11

3
19

4
17

5
19

6
18

7
20

8
23

Solucin con el Minitab :


1. Escribiendo los datos de la variable independiente (Aos) y
dependiente (Equipos).

Estadsticas-Regresin- Regresin - Completar cuadro - Clic en Aceptar

Anlisis de regresin: EQUIPOS vs. AOS


La ecuacin de regresin es
EQUIPOS = 10.9 + 1.44 AOS
Predictor
Constante
AOS
S = 2.11054

Coef
10.893
1.4405

SE Coef
1.645
0.3257

T
6.62
4.42

R-cuad. = 76.5%

P
0.001
0.004
R-cuad.(ajustado) = 72.6%

Anlisis de varianza
Fuente
Regresin
Error residual
Total

GL
1
6
7

SC
87.149
26.726
113.875

CM
87.149
4.454

F
19.56

P
0.004

GRAFICA DE LA ECUACION DE REGRESION ESTIMADA

Con el MINITAB seguir los pasos siguientes:


Grafica - Grafica de dispersin - Elegir con regresin y aceptar

Completar y clic en aceptar

GRAFICA DE LINEA AJUSTADA


Pasos: Estadstica-Regresin-Grafica de lnea ajustada-Completar y
Aceptar

INTERPRETACIN
Ecuacin graficada sobre el diagrama de dispersin. La pendiente de
la ecuacin de regresin estimada (b 1=1.44) es positiva, lo que
implica que a medida que aumenta los aos aumenta el nmero de
equipos.
Si se considera que la ecuacin de regresin estimada obtenida por el
mtodo de mnimos cuadrados describe adecuadamente la relacin
entre X y Y, parecer razonable usar esta ecuacin de regresin
estimada para estimar el valor de Y para un valor dado de por
ejemplo:
Si se quisieran predecir cuantos equipos planeara la constructora
para los aos 9 y 10.
Ao 9
Con MINITAB
Pasos:

Estadstica-Regresin-Regresin-Opciones-Poner

(en

intervalos de prediccin para nuevas observaciones)- Nivel de


confianza 95- Clic en aceptar

Valores pronosticados para nuevas observaciones


Nueva obs
1

Ajuste
23.857

EE de
ajuste
1.645

IC de 95%
(19.833, 27.881)

IP de 95%
(17.310, 30.404)

Valores de predictores para nuevas observaciones


Nueva obs
1

AOS
9.00

Yi 10.9 1.44(9) 23.86


De manera que el nmero de equipos pronosticados para el ao 9
seria 24 unidades.
Ao 10
Con MINITAB
Pasos:

Estadstica-Regresin-Regresin-Opciones-Poner

10

(en

intervalos de prediccin para nuevas observaciones)- Nivel de


confianza 95- Clic en aceptar

Valores pronosticados para nuevas observaciones


Nueva obs
95%
1
32.313)X

Ajuste

EE de
ajuste

25.298

1.940

IC de 95%
(20.550, 30.046)

IP de
(18.282,

X denota un punto que es un valor atpico en los


predictores.
Valores de predictores para nuevas observaciones
Nueva obs
1

AOS
10.0

Yi 10.9 1.44(10) 25.3


De manera que el nmero de equipos pronosticados para el ao 10
seria 25 unidades.

LABORATORIO 4
REGRESION MULTIPLE
Problema 1
Se hizo un estudio sobre el consumo de helado (kg per cpita por
semana) durante la primavera y el verano, el precio/kg del helado
(dlares) el ingreso familiar de los consumidores (dlares) y la
temperatura (grados Fahrenheit).

i
1
2
3
4
5
6
7
8
9
1
0

Consumo
semanal de
helado(kg)

Ingreso familiar de
Precio/kg del
los
helado(dlare consumidores(dlare Temperatura
s)
s)
(F)

0.387
0.375
0.394
0.428
0.407
0.345
0.328
0.289
0.269

1.33
1.37
1.32
1.3
1.32
1.37
1.38
1.39
1.41

359
358
360
370
366
357
357
352
343

63
61
65
69
68
55
47
42
32

0.258

1.42

343

23

Para este caso tenemos 3 variables explicatorias. Al igual que en el


caso de la regresin lineal simple, cuando se analizan los datos de la
muestra, los coeficientes de regresin de la muestra (b 0, b1, b2 y b3),
se utilizan como estimaciones de los parmetros verdaderos (0, 1, 2
y 3). Por consiguiente, la ecuacin de regresin para el modelo de
regresin lineal mltiple con tres variables explicatorias sera:

Yi b0 b1 X 1i b2 X 2i b3 X 3i
Los valores de los cuatro coeficientes de regresin de la muestra
pueden obtenerse Utilizando el mtodo de mnimos cuadrados, en
este caso lo hallamos con el MINITAB.
Pasos:
Estadsticas-Regresin- Regresin - Completar cuadro - Clic en Aceptar

Anlisis

de

regresin: consumo vs. precio, ingreso, temperatura


La ecuacin de regresin es
consumo = 0.530 - 0.461 precio + 0.00094 ingreso + 0.00209 temperatura
Predictor
Constante
precio
ingreso
temperatura

Coef
0.5296
-0.4609
0.000942
0.0020923

S = 0.0108459

SE Coef
0.7168
0.2726
0.001357
0.0007708

R-cuad. = 97.8%

T
0.74
-1.69
0.69
2.71

P
0.488
0.142
0.514
0.035

R-cuad.(ajustado) = 96.7%

Anlisis de varianza
Fuente
Regresin
Error residual
Total
Fuente
precio
ingreso
temperatura

GL
1
1
1

GL
3
6
9

SC
0.031772
0.000706
0.032478

CM
0.010591
0.000118

F
90.03

P
0.000

SC Sec.
0.030092
0.000814
0.000867

Observamos que los valores calculados de los coeficientes de


regresin para el problema que se est tratando son:
b0 =0.530
0.0020923

b1 = -0.4609

b2= 0.000942

b3 =

Por lo tanto, la ecuacin de regresin mltiple puede expresarse


como:

Yi 0.530 0.4609 X 1i 0.000942 X 2i 0.0020923 X 3i


En la que:

Yi

Cantidad promedio predicha de helado que se consume durante


la primavera y el verano para la observacin i.
X1i = Precio/kg del helado (dlares) para la observacin i.
X2i = Ingreso familiar de los consumidores (dlares) para la
observacin i.
X3i = temperatura (F) durante la primavera y el verano para la
observacin i.

La interpretacin de los coeficientes de regresin es parecida a la que


se hace en el modelo de regresin lineal simple. La interseccin con
Y, b0 calculada como 0.530, es una estimacin del nmero esperado
de kg de helado que se consumira en primavera y verano cuando el
precio promedio fuera de 0 dlares, para una familia que no tiene
ingresos (es decir, con 0 dlares) y la temperatura fuera de 0. La
pendiente de Precio/kg del helado (dlares) diaria promedio respecto
al consumo de helados, b1 (calculada como -0.4609) puede
interpretarse como el correspondiente a una familia con un nmero
dado de dlares, se estima que el consumo esperado de helado
disminuya en 0.461 kg por semana por cada dlar de aumento en el
precio por kg promedio (en 1 dlar). Adems, la pendiente del ingreso
familiar respecto al consumo de helado, b2 (calculada como 0.00094)
puede interpretarse como la correspondiente a una semana con un
precio por kg de helado promedio diario, se estima que el consumo
esperado de helado aumente en 0.00094 kg por cada dlar adicional
en el ingreso familiar.

PREDICCIN DE LA VARIABLE DEPENDIENTE Y


VALORES DADOS DE LAS VARIABLES EXPLICATIVAS

PARA

Utilizaremos el modelo de regresin mltiple para predecir el


consumo semanal de helados.
Suponga que deseamos predecir el nmero de kg d helado
consumidos, que posee 40 en la parte ms alta de la casa, durante

un mes en el cual la temperatura atmosfrica diaria promedio fue de


30F. Utilizando nuestra ecuacin de regresin mltiple:

Yi 0.530 0.4609 X 1i 0.000942 X 2i 0.0020923 X 3i

con X1i = 1.35 , X2i =350, X3i=50

tenemos

Yi 0.530 0.4609(1.29) 0.000942(400) 0.0020923(25)


y, por consiguiente,

Yi 0.36417

Con el MINITAB
PASOS
Estadstica-Regresin-Regresin-Opciones-Poner 1.29

400

25 (en

intervalos de prediccin para nuevas observaciones)- Nivel de


confianza 95- Clic en aceptar
Valores pronosticados para nuevas observaciones
Nueva obs
1

Ajuste
0.36417

EE de
ajuste
0.07187

IC de 95%
(0.18831, 0.54003)

IP de 95%
(0.18632, 0.54202)XX

XX denota un punto que es un valor atpico extremo en los predictores.


Valores de predictores para nuevas observaciones
Nueva obs
1

precio
1.29

ingreso
400

temperatura
25.0

En consecuencia estimaramos que un promedio de 0.36417 kg de


helados se consumiran cuando el precio/kg es 1.29 dlares, el

ingreso es de 400 dlares y la temperatura es de 25 grados


Fahrenheit.
MEDICION DE LA ASOCIACION EN EL MODELO DE REGRESION
MULTIPLE
En la regresin mltiple, puesto que al menos se tienen tres variables
explicatorias, el coeficiente de determinacin mltiple representa la
porcin de la variacin en Y que se puede explicar mediante el
conjunto de variables explicatorias elegidas. En nuestro ejemplo, que
contiene tres variables independientes, el coeficiente de
(rY2.123 )

determinacin mltiple

est dado por:


rY2.123

SSR
SST

En la que
n

SSR b0

Yi b1

i 1

SST

X 1i Y b2

i 1

i 1

X 2i Yi b3

3i Yi

nY 2

i 1

nY 2

i 1

En el problema del consumo de helado ya hemos calculado


SSR = 0.031772,
SST = 0.032478
As pues, como se muestra en el resultado obtenido con el paquete
MINITAB se tiene:
rY2.123

SSR 0.031772

0.97826
SST 0.032478

Este coeficiente de determinacin mltiple, calculado como 0.97826,


puede interpretarse diciendo que, de la muestra, 97.8% de la
variacin en el consumo de helado puede ser explicada por la
variacin en el precio, por la variacin en el ingreso familiar y por la
variacin en la temperatura.
Sin embargo, cuando tratamos con modelos de regresin mltiple,
algunos investigadores sugieren que se calcule un coeficiente r2
ajustado que refleje tanto el nmero de variables explicatorias del
modelo como el tamao de la muestra. Esto se hace especialmente
necesario cuando estamos comparando dos o ms modelos de
regresin que predicen la misma variable dependiente, pero que
poseen diferente nmero de variables explicativas o de prediccin.

Por lo tanto, en la regresin mltiple, podemos representar el


coeficiente r2 ajustado como:

n 1

2
raju
1 (1 rY2.1.2.3... P )
n P 1

En donde P es el nmero de variables explicativas que hay en la


ecuacin de regresin.
As pues, para nuestros datos correspondientes al petrleo para
rY2.1.2.3 0.97826, n 10, P 3

calefaccin, como

(10 1)
9

2
raju
1 (1 0.97826)
1 (1 0.97826) 0.967
(
10

1
)
6

En consecuencia, 96.7% de la variacin en el consumo de helado


puede ser explicada por nuestro modelo de regresin mltiple:
ajustado para el nmero de variables de prediccin y el tamao de
muestra.

Con el propsito de hacer un estudio ms profundo de la relacin


entre las variables, a menudo resulta de utilidad examinar la
correlacin entre cada pareja de variables incluidas en el modelo.
Esta matriz de correlacin, que indica el coeficiente de correlacin
entre cada pareja de variables.

Con el MINITAB seguir los pasos siguientes:


Grafica - Grafica de matriz - Elegir matriz de graficas con suavizador

Interpretacin
En la tabla podemos observar:
La correlacin entre el consumo y el precio, indica una
correlacin negativa entre las variables.
La correlacin entre el consumo y el ingreso, indica una
correlacin positiva entre las variables.
La correlacin entre el consumo y la temperatura, indica una
correlacin positiva entre las variables.
La correlacin entre el precio y el ingreso, indica una correlacin
negativa entre las variables.
La correlacin entre el precio y la temperatura, indica una
correlacin negativa entre las variables.
La correlacin entre el ingreso y la temperatura, indica una
correlacin positiva entre las variables.
Finalmente, podemos observar que los coeficientes de
correlacin situados en la diagonal principal de la matriz tienen
valor de 1.0, puesto que habr una correlacin perfecta entre la
variable y ella misma.

ANALISIS RESIDUAL
Con el Minitab

Pasos: Estadsticas-Regresin-Regresin-Almacenamiento-Residuos
Estandarizados

Pasos:
Estadsticas-Regresin-Regresin-Almacenamiento-Ajustes
(Valor esperado)

ANALISIS DE INFLUENCIA

(Diagnostico de los datos a eliminar)

Pasos: Estadsticas-Regresin-Regresin-Almacenamiento-En medidas


de diagnstico elegir Residuos t eliminados Hi (apalancamiento) y
Distancia de Cook.

Los residuos de la t de student eliminados (t*)


Hallando t (0.10, n-p-2)=t (0.10, 10-3-2)=t (0.10, 5)

Segn tabla t (0.10, 5)=2.015

Sabemos
Si |t*|> 2.015

dato influye mucho-sacar ese dato

X2 y X8 son puntos de influencia y pueden ser retirados y volveremos


a correr la regresin y se verificara si es correcto.
Los elementos de la matriz sombrero(Hi)
2( p+1 )
La regla de decisin Si Hi>
n

Como Hi>0.8

No se encontr punto de influencia.

La estadstica de distancia de Cook


Si Di>F0.50,(4)(6)
entonces el punto se considera influyente
GRAFICA RESIDUOS VS ESPERADOS

GRAFICA RESIDUOS VS PRECIO

GRAFICA RESIDUOS VS INGRESO

GRAFICA RESIDUOS VS TEMPERATURA

Llegamos a la conclusin de que el modelo de regresin lineal


mltiple es apropiado para predecir el nmero esperado de kg de
helado que se consumira en primavera y verano.

LABORATORIO 5
Problema Resuelto CHI-CUADRADA
1.-Un investigador escogi una muestra aleatoria de 192 familias con 4 hijos y encontr
la siguiente distribucin de frecuencias del nmero de hijos varones.
l quiere probar la hiptesis de que los nacimientos de varones y mujeres son
igualmente probables. Esto es, quiere probar que la distribucin de estos datos se
aproximan a una distribucin binomial.
N de
varones
N de
familias

18

42

64

40

28

a) A que conclusin llega usando el nivel de significancia al ?


b) Calcular el valor de P Cul es su conclusin?
Solucin:
Ho : P=0.5
H1 : P0.5

= 0.05
El valor crtico de la prueba de Chi-cuadrada es:
Grados de libertad: k-1= 4-1=3

X2=9.488
Regla de rechazo: rechazar H0 si X2 > 9.488
N de
varones
N de
familias
reas
fe

18

42

64

40

28

0.0625
12

0.250
48

0.375
72

0.250
48

0.0625
12

fo fe 2

0.75

0.89

1.33

21.3

fe

Entonces mediante la formula calculamos el valor de X2:


X2

fo fe 2
fe

X 2 27.27

Por tanto se rechaza la H0, es decir los nacimientos de varones y mujeres no son
igualmente probables.
UTILIZANDO MINITAB
1.-

Ingresamos los datos y hallamos las frecuencias esperadas (Fe)

2.- Hallamos el valor de CHI CUADRADA, para esto usamos la calculadora de


MINITAB :
Ingresamos a Calc / Calculator :
-Almacenar resultado en variable : Chi cuadrada
-Funcion: SUM
-Expresion : SUM(((Fo-Fe)**2)/Fe)

3.-En el rea de trabajo de MINITAB saldr lo siguiente

4.- Hallamos

la probabilidad acumulativa para este valor de Chi Square :


*Ingresamos a Calc / distribucion de probabilidad / Chi-cuadrada :
-Selecciono probabilidad acumulada
-grado de libertad: 3
-columna de entrada : chi cuadrada

5.- En el rea de trabajo saldr as

6.- Calculamos el valor de p mediante la calculadora de MINITAB

7.- En el rea de trabajo saldr as el valor de p

Si valor p< se rechaza la Ho


Como el valor de p = 0.00001 es menor que = 0.05 se rechaza la Ho.Concluimos que
los nacimientos de varones y mujeres no son igualmente probables.

Prueba de independencia (Tabla de contingencia)

Un cientfico social tomo una muestra de 140 personas y las clasifica de acuerdo con su
nivel de ingresos y si jugaron o no en la lotera estatal el mes pasado. La informacin de
la muestra aparece a continuacin. Es posible concluir que jugar a la lotera se relaciona
con el nivel de ingresos?. Utilice el nivel de significancia 0.05.

jugaron
no jugaron
total

Ingreso
Bajo
Medio
46
28
14
12
60
40

Alto
21
19
40

Solucin:
TEORICAMENTE
H0: jugar la lotera no se relaciona con el nivel de ingresos
H1: jugar la lotera se relaciona con el nivel de ingresos
Nivel de significancia = 0.05
Grados de libertad: (R-1)(C-1)=(2-1)(3-1)=1x2=2
El valor crtico de la prueba de Chi-cuadrada es: X2=5.99147

X2=5.99147
Regla de rechazo: rechazar H0 si X2 > 5.99147
Aplicamos:
Fe=

(total rengln)(Total columna)


gran total

Entonces mediante la formula calculamos el valor de X2:

Total
95
45
140

X2

f o fe 2
fe

X 2 6.5442

Por tanto se rechaza la H 0, es decir que jugar la lotera depende o se relaciona con el
nivel de ingresos.
Solucin Mediante el Paquete Estadstico
1. Introducimos los datos como se muestra

2. Ingresamos a men estadsticas-tablas-prueba Chi Cuadrada (tabla de dos factores en


hoja de trabajo).Luego ingresamos los valores en la ventana emergente luego
presionamos OK.

3. Nos salen los siguientes valores


Prueba Chi-cuadrada: bajo, medio, alto
Los conteos esperados se imprimen debajo de los conteos observados
Las contribuciones Chi-cuadradas se imprimen debajo de los conteos esperados
bajo
46
40.71
0.686

medio
28
27.14
0.027

alto
21
27.14
1.390

Total
95

14
19.29
1.449

12
12.86
0.057

19
12.86
2.935

45

Total

60

40

40

140

Chi-cuadrada = 6.544, GL = 2, Valor P = 0.038

INTERPRETACION:
Como nuestro valor 6.544>5.99147 se rechaza Ho y adems el valor de P=0.038 es
menor
en comparacin con el nivel de significancia que es 0.05.

PRUEBA DEL SIGNO MUESTRA GRANDE

En una encuesta se hicieron varias preguntas a 1253 adultos acerca del estado de la
economia y del futuro de sus hijos.Una pregunta fue: Espera usted que sus hijos tengan
un mejor futuro peor o igual?.Los porcentajes de respuesta fueron 34% mejor, 29%
peor, 33% igual y 4% no estuvieron seguros.Aplique la prueba del signo y un nivel de
significancia igual a 0.05 para determinar si son mas los adultos que creen que sus hijos
tendran un mejor futuro que aquellos que piensan que tendran peor futuro.cual es su
conclusion?.
Solucin con el Minitab
1.Vamos a estadisticas-estadistica basica-1 proporcin

2.En datos resumidos completamos el numero de eventos y el numero de ensayos.

3. En opciones completamos con el nivel de significancia la hiptesis alterna y


activamos el check donde dice utilice la prueba y el intervalo basado en la distribucin
normal y click en aceptar

4. Obtenemos

Prueba e IC para una proporcin


Prueba de p = 0.5 vs. p > 0.5

Muestra
1

X
426

N
789

95% Lmite
inferior
0.510738

Muestra p
0.539924

Valor Z
2.24

Valor P
0.012

Uso de la aproximacin normal.

Interpretacin
Comparando el valor de P con el nivel de significancia, notamos que el valor de P
es menor que el nivel de significancia, esto indica que la Ho se rechaza por lo tanto
se concluye que son mas los adultos que creen que sus hijos tendrn un mejor
futuro que los adultos que piensan que tendrn un peor futuro.

Prueba de rango con signo de Wilcoxon

(Muestra pareada)
Se compara dos formulas diferentes de cera en pasta para ver si se conservan bien
despus de varias lavada en un centro de lavado automatizado de automviles. En cada
uno de los 10 vehculos de la prueba, las formulas A y B se aplica a lados opuestos de la
capota, y se lanza una moneda para determinar el lado que recibe la formula A, la lista
siguiente contiene el numero de lavadas hasta que el agua escurra libremente por la
superficie. En el nivel de significancia = 0.05. Podemos concluir que las formulas de
la cera tienen la misma eficacia. Con la tabla estadstica adecuada. Cual es la
afirmacin mas precisa que puede hacerse respecto al valor de P para la prueba.

Vehiculos
1
2
3
4
5
6
7
8
9
10

Lavadoras que resisten la formula de


la cera
A
B
12
11
14
19
15
17
14
18
14
11
11
16
14
17
10
13
8
13
15
12

Solucin:
Tericamente
Ho: las poblaciones son idnticas.
H1: las poblaciones no son idnticas
= 0.05
gl=10-1=9
UT=0
Tenemos n=10
Al hacer la diferencia-tomar valor absoluto de la diferencia-darle un rango-sumar esos
rangos nos da un T=35
As al aplicar la formula obtenemos
T =

n(n+1)(2 n+1)
10(10+1)(20+1)
=
=19.62
6
6

Z=

T U T 350
=
=1.78
T
19.62

0.025
0.025

-1.96

1.78

1.96

Hallando el valor de P

0.4625

0.0375

1.78
P=2(0.5-0.4625)=0.075

Comparando con el nivel de significancia = 0.05


No se rechaza la Ho esto indica que las formulas de la cera tienen la misma eficacia
Solucin con el MINITAB
1.Ingreso de los datos

2. Calculo de la diferencia con la calculadora

3. Vamos a Estadsticas-No paramtricos-Wilcoxon de 1 muestra

4. Elegimos diferencia y click en aceptar repetimos lo mismo pero esta vez con A y B.

5. Obtenemos
Prueba de clasificacin con signos de Wilcoxon: diferencia
Prueba de la mediana = 0.000000 vs. la mediana no = 0.000000

diferencia

N
10

Nmero
de
prueba
10

Estadstica
de Wilcoxon
10.0

P
0.083

Mediana
estimada
-2.000

Prueba de clasificacin con signos de Wilcoxon: A, B


Prueba de la mediana = 0.000000 vs. la mediana no = 0.000000

A
B

N
10
10

Nmero
de
prueba
10
10

Estadstica
de Wilcoxon
55.0
55.0

P
0.006
0.006

Mediana
estimada
13.00
14.50

Interpretacin con el valor de P


Como P=0.083> = 0.05, no se rechaza la Ho podemos decir que las poblaciones son
iguales por lo tanto concluimos que las formulas de la cera tienen la misma eficacia.

Problema Resuelto Prueba de Kruskal-Wallis


1.-La ciudad de Arequipa tiene 4 locales de comida rpida. Las cantidades de
hamburguesas vendidas en los establecimientos en 10 semanas elegidas al azar se
presenta a continuacin al nivel de 5% de significacin Existe diferencia en el numero
promedio vendido entre los cuatro restaurantes?
R1
70
75
72
71
80
85
79
83

R2
80
85
99
120
125
126
114
118
130

R3
65
70
69
73
90
100
110

R4
130
110
120
130
140
150
170
145
155
168

Solucin:
Ho : no existe diferencia en el numero promedio vendido entre los 4 restaurantes(son
idnticas)
H1 : si existe diferencia en el numero promedio vendido entre los 4 restaurantes
= 0.05
El valor crtico de la prueba de Kruskal-Wallis es:
Grados de libertad: k-1= 4-1=3

X2=7.815

Regla de rechazo: rechazar H0 si X2 > 7.815


Calculo de H=24.08
Por tanto se rechaza la H0, se acepta la hiptesis alternativa
Es decir existe diferencia entre el promedio vendido de hamburguesas entre los 4
restaurantes.

Utilizando Minitab
1. Ingresar los datos con su respectivo factor

2. Elegimos Estadsticas-No paramtricos-Kruskal Wallis

Prueba de Kruskal-Wallis: cantidad vs. local


Prueba de Kruskal-Wallis en cantidad
local
1
2
3
4
General
H = 24.08
H = 24.11

N
8
9
7
10
34

Mediana
77.00
118.00
73.00
142.50

GL = 3
GL = 3

Clasificacin
del promedio
8.4
19.9
9.1
28.4
17.5

P = 0.000
P = 0.000

Z
-2.94
0.86
-2.49
4.12

(ajustados para los vnculos)

-INTERPRETACION CON EL VALOR DE P Y EL NIVEL DE SIGNIFICANCIA


= 0.05
Como vemos que p<
Entonces la Ho se rechaza, eso quiere decir que si existe diferencia en el nmero
promedio de hamburguesas vendidas entre los 4 restaurantes.

CORRELACION DE RANGO

Se tiene el siguiente conjunto de clasificaciones para una muestra de 10 elementos.


Elemento
1
2
3
4
5
6
7
8
9
10

Xi
10
6
7
3
4
2
8
5
1
9

Yi
8
4
10
2
5
7
6
3
1
9

Calcule el coeficiente de correlacion de rango de Spearman para estos datos y de su


conclusion. = 0.05

Solucion con el Minitab


1.ingreso de los datos

2. Elegimos Estadsticas- Estadstica bsica-correlacin

3. Elegimos variables X y Y

4. Obtenemos
Correlaciones: X, Y
Correlacin de Pearson de X y Y = 0.685
Valor P = 0.029

Interpretacin
Vemos que ese coeficiente es 0.685 positivo. El coeficiente de correlacin de rango de
Spearman puede valer desde -1 hasta 1 este valor indica una correlacin positiva entre X
y Y.

S-ar putea să vă placă și