Documente Academic
Documente Profesional
Documente Cultură
22
Strength
21
20
19
18
17
15 18 21
MetalType
1
¿Cómo se interpreta la siguiente carta multivari?
8 AM 9 AM 10 AM 11 AM 12
AM
.
0.2510
”
0.2500
”
0.2490
”
Izquierda
Máximo
Derecha
Mínimo
Un análisis rápido revela que la mayor variación es temporal con un cambio mayor entre las 10 AM
y las 11 AM.
A las 10 AM se para el equipo para el almuerzo y se arranca a las 11 AM, con lecturas similares a las
de las 8 AM. Conforme pasa el tiempo las lecturas tienden a decrecer más y más, hasta que se
invierten a las 10 A.M. en forma drástica.
En términos generales estan oscilando los valores alrededor de los límites(0.2510-0.2490)
La variación entre piezas mantiene la tendencia general.
Se tomaron cuatro lecturas en cada flecha, dos a cada lado. Estas muestran una disminución gradual
desde el lado izquierdo al lado derecho de las flechas, además de excentricidad en cada lado de la
flecha.
La variación cíclica, de una flecha a la siguiente, se muestra mediante las líneas que concentran las
cuatro lecturas de cada flecha.
2
• Diagrama sistemático
3
indeseable.
Publicidad X Pasajeros Y
10 15 a) Ecuación
12 17 b) r
8 13 c) r cuadrada
4
17 23 d) ¿Existe reg?
10 16 e) Intervalo de
15 21 confianza para
10 14 X = 14
14 20 f) Intervalo de
19 24 predicción
10 17 para X = 14
11 16 g) Gráfica de
13 18 regresión
16 23 h) Analizar
10 15 los residuos
12 16
The regression equation is
Pasajeros Y = 4.39 + 1.08 Publicidad X
Analysis of Variance
Source DF SS MS F P
Regression 1 161.04 161.04 195.86 0.000
Residual Error 13 10.69 0.82
Total 14 171.73
Predicted Values for New Observations
New
Obs Fit SE Fit 95% CI 95% PI
1 19.525 0.262 (18.958, 20.092) (17.485, 21.564)
New
Obs Publicidad X
1 14.0
5
Residual Plots for Pasajeros Y
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99 2
90
1
Residual
Percent
50
0
10
-1
1
-2 -1 0 1 2 15 20 25
Residual Fitted Value
3 1
Frequency
Residual
2 0
1
-1
0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Residual Observation Order
24
22
20
Pasajeros Y
18
16
14
12
8 10 12 14 16 18 20
Publicidad X
Ejercicio: ¿Existe relación entre los niveles de Consumo (Y) y el ingreso de consumindores (X)?
Si existe
a) Establecer la ecuación de regresión
Y=Consumo = 1.78 + 0.558 X=Ingreso
X=Ingreso Y=Consumo
24.3 16.2
12.5 8.5
31.2 15
28 17
35.1 24.2
6
10.5 11.2
23.2 15
10 7.1
8.5 3.5
15.9 11.5
14.7 10.7
15 9.2
20
Y=Consumo
15
10
10 15 20 25 30 35
X=Ingreso
90 2
Residual
Percent
50 0
-2
10
-4
1
-5.0 -2.5 0.0 2.5 5.0 5 10 15 20
Residual Fitted Value
2
3
Frequency
Residual
0
2
-2
1
-4
0
-4 -2 0 2 4 1 2 3 4 5 6 7 8 9 10 11 12
Residual Observation Order
Analysis of Variance
7
Source DF SS MS F P
Regression 1 275.59 275.59 54.41 0.000
Residual Error 10 50.65 5.07
Total 11 326.24
New
Obs X=Ingreso
1 27000
Ejercicio: Interpretar los resultados de la regresión lineal siguiente:
Regression Analysis: Calif Y versus Tiempo X
The regression equation is
Calif Y = 31.21 + 0.6955 Tiempo X
S = 4.47182 R-Sq = 77.0% R-Sq(adj) = 74.2%
Analysis of Variance
Source DF SS MS F P
Regression 1 536.923 536.923 26.85 0.001
Error 8 159.977 19.997 a) ¿Existe la regresión?
Total 9 696.900 Si, la regresión tiene sentido
80 S
R-Sq
4.47182
77.0%
c) ¿Qué significan los
R-Sq(adj) 74.2%
intervalos CI y PI?
70
Uno para observaciones individuales y otr
Calif Y
promedio.
60
El intervalo de predicción promedio es má
refiere a la estimación de una media en lu
50
individual.
40
c) ¿Cuál es el valor del
30 40 50 60 70
coeficiente de correlación?
Tiempo X 8.7749
d) ¿Qué significa la R2?
Es decir el 77% de la variación de la c
explicada por el tiempo.
¿Qué modelo de regresión ajustaría a los datos en la siguiente figura y porqué?
S 6.00002
EnergyConsumption
30 R-Sq 79.3%
R-Sq(adj) 73.4%
20
10
-10
-20
10 15 20 25 30
MachineSetting 8
Fitted Line Plot
EnergyConsumption = 1.25 + 0.3218 MachineSetting
50 Regression
Un modelo cuádratico, en la primera grafica observamos
95% CI una curvatura en los datos y en la segunda la adecu
40 95% PI
regresión líneal, en el coeficiente de determinación
S
, es
12.1825
muy bajo 2.2%
30 R-Sq 2.3%
EnergyConsumption
R-Sq(adj) 0.0%
Ejercicio:
20 Con los datos siguientes hacer un análisis de regresión simple
ALTURA
10 68 64 62 65 66
PESO0 132 108 102 115 128
-10
a) Diagrama
-20 de dispersión
b) Coeficiente
-30 de correlación
c) Recta 10 gráfica15 20 25 30
MachineSetting
d) Ecuación de regresión
e) si Altura es 63 cual es el peso estimado
f) Coeficiente de determinación =1.224
g) Prueba de significancia para el parámetro Beta1
h) Intervalo de confianza para un 90% en Beta 1
i) Prueba de la significancia de la regresión
j) Intervalo de confianza para la media de Yest en altura = 65
k) Intervalo de predicción para los valores individuales de Yest en altura = 65
l) Determinación de residuales (3 valores)
n) Gráfica de distribución normal de los residuales
Analysis of Variance
Source DF SS MS F P
Regression 1 9.8 9.8 0.05 0.845
Residual Error 3 646.2 215.4
Total 4 656.0
9
Predicted Values for New Observations
New
Obs Fit SE Fit 95% CI 95% PI
1 117.00 6.56 (96.11, 137.89) (65.83, 168.17)
90 10
Residual
Percent
50
0
10
-10
1
-30 -15 0 15 30 115 116 117 118 119
Residual Fitted Value
Residual
0.50 0
0.25
-10
0.00
-15 -10 -5 0 5 10 15 1 2 3 4 5
Residual Observation Order
datos normales
Scatterplot of peso vs altura
135
130
125
120
peso
115
110
105
100
62 63 64 65 66 67 68
altura
New
Obs Fit SE Fit 95% CI 95% PI
1 115.60 9.28 (86.06, 145.14) (60.34, 170.86)
New
Obs altura
1 63.0
altura=X peso=Y X2 XY
64 132 4096 8448
10
68 108 4624 7344
62 102 3844 6324
65 115 4225 7475
66 128 4356 8448
325 585 21145 38039 SUMA
65 117 4229 7607.8 PROM
SXX= 20
Ejercicio: Un experimento para determinar el efecto del tiempo en horas (X) a una cierta
temperatura a un cambio en la viscocidad del aceite (Y) da los resultados siguientes:
X Y a) Encontrar un polinomio de segundo orden que ajuste a
0.25 -4.42 a los datos
0.5 -1.39 b) Probar la significancia de la regresión para alfa = 0.05
0.75 -1.55
1 -1.89 c) Encontrar el coeficiente de determinación
1.25 -2.43 R-Sq = 98.1% para el cuadratico
1.5 -3.15 d) Calcular los residuos y evaluar la adecuación del
1.75 -4.05 modelo
2 -5.15 Es adecuado
2.25 -6.43
2.5 -7.89
Antes de la transformación
Residual Plots for Y
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99
1
90
0
Residual
Percent
50 -1
-2
10
-3
1
-4 -2 0 2 4 -6 -5 -4 -3 -2
Residual Fitted Value
3 0
Frequency
Residual
2 -1
-2
1
-3
0
-3 -2 -1 0 1 1 2 3 4 5 6 7 8 9 10
Residual Observation Order
11
Box-Cox Plot of X
Lower C L Upper C L
1.2 Lambda
(using 95.0% confidence)
Estimate 0.86518
1.0
Lower CL 0.12009
Upper CL 1.91622
0.6
0.4
Limit
0.2
-2 -1 0 1 2 3 4 5
Lambda
Analysis of Variance
Source DF SS MS F P
Regression 2 41.8958 20.9479 177.85 0.000
Error 7 0.8245 0.1178
Total 9 42.7202
-2 S 0.343196
R-Sq 98.1%
-3 R-Sq(adj) 97.5%
-4
Y
-5
-6
-7
-8
-9
3 4 5 6 7 8 9 0 5 0
0. 0. 0. 0. 0. 0. 0. 1. 1. 2.
X
90 0.25
Residual
Percent
50 0.00
-0.25
10
-0.50
1
-0.8 -0.4 0.0 0.4 0.8 -8 -6 -4 -2
Residual Fitted Value
0.25
Frequency
2
Residual
0.00
1 -0.25
-0.50
0
-0.6 -0.4 -0.2 0.0 0.2 0.4 1 2 3 4 5 6 7 8 9 10
Residual Observation Order
12
mayor adecuación al polinomio de tercer orden
Analysis of Variance
Source DF SS MS F P
Regression 3 42.2535 14.0845 181.05 0.000
Error 6 0.4668 0.0778
Total 9 42.7202
Source DF SS F P
Linear 1 12.5860 3.34 0.105
Quadratic 1 29.3098 248.84 0.000
Cubic 1 0.3577 4.60 0.076
-2 S 0.278913
R-Sq 98.9%
-3 R-Sq(adj) 98.4%
-4
Y
-5
-6
-7
-8
-9
3 4 5 6 7 8 9 0 5 0
0. 0. 0. 0. 0. 0. 0. 1. 1. 2.
X
90
0.2
Residual
Percent
50
0.0
10
-0.2
1
-0.50 -0.25 0.00 0.25 0.50 -8 -6 -4 -2
Residual Fitted Value
0.2
Frequency
2
Residual
0.0
1
-0.2
0
-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 1 2 3 4 5 6 7 8 9 10
Residual Observation Order
¿Por qué se debe utilizar el coeficiente de correlación ajustado en lugar del normal?
El ajustado penaliza el agregar variables que no son importantes en el modelo
13
Ejercicio: Hacer un análisis de regresión múltiple con los datos siguientes
13 18 2.33
16 23 2.98
10 15 1.94
12 16 2.17
90
1
Residual
Percent
50
0
10
-1
1
-2 -1 0 1 2 15.0 17.5 20.0 22.5 25.0
Residual Fitted Value
3.6 1
Frequency
Residual
2.4
0
1.2
-1
0.0
-1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Residual Observation Order
Coeficientes significativos
14
Residual Error 12 8.102 0.675
Total 14 171.733
24
22
20
Pasajeros Y
18
16
14
12
2.0 2.5 3.0 3.5 4.0
PIB (%) X2
24
22
20
Pasajeros Y
18
16
14
12
8 10 12 14 16 18 20
Publicidad X1
Y3 X5 X6 X7 X8 a) Encontrar un modelo de
9 5.8 18.6 28.6 86.5 regresión múltiple para los datos
9.3 5.2 18.8 30.6 84.5 Regression > Regression > Normal Plot of Res.
9.3 5.6 19 32.4 88.8 b) Predecir la fuerza de sujeción
9.5 6 20.8 32.6 85.7 Y3 cuando X5 = 6, X6 = 20
9.8 5.2 19.9 32.2 93.6 X7 = 30, X8 = 90
10 5.8 18 31.8 86 Considerar un intervalo de
15
10.3 6.4 20.6 32.6 87.1 confianza y de predicción del 95%
10.5 6 20.2 33.4 93.6 Regression > Regression > Options > Pred. Intervals for
10.8 6.2 20.2 31.8 86 new observations / X6 X6 X7 X8 / 95%
11 6.2 19.2 32.4 87.1 c) Identificar por medio de las
11.3 6.2 17 31.4 93.1 correlaciones entre las X's
11.5 5.6 19.8 33.2 83.4 cuales presentan colinealidad
11.8 6 18.8 35.4 94.5 y por tanto como se debe adecuar
12.3 5.8 19.8 34 83.4 la ecuación de regresión múltiple
12.5 5.6 18.8 34.2 85.2 Basic statistics > Correlation (display P values)
En cada comparación aparece R2 y su P value (sign..05)
Residual
Percent
50
-0.5
10
-1.0
1
-1 0 1 9 10 11 12
Residual Fitted Value
4.5
Frequency
0.0
Residual
3.0
-0.5
1.5
-1.0
0.0
-1.25 -1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Residual Observation Order
No significativo constante,X5,x8
16
1 6.00 20.0 30.0 90.0
X7 0.122 0.271
0.664 0.328
Por Ejemplo: Si la media de la muestra es 100 y la desviación estándar es 10, el intervalo de confianza al 95%
la media para una distribución normal es:
c a2 c a
, n -1 1- , n -1
2 2 17
p (1 - p)
p = p �Z a
2 n
3
¿Cómo se calcula el valor del tamaño de muestra con un error máximo y un nivel de confianza?
5 Z 2a / 2s 2
n=
E2
6 Z 2 ( p )(1 - p )
n = a /2
(Dp ) 2
Ejercicio. Una muestra de 50 bultos de productos pesa en promedio Xmedia = 652.58 Kgs., con S = 217.43
Kgs.
Determinar el intervalo de confianza al NC del 95% y al 99% donde se encuentra la media del proceso
(poblacional).
Alfa = 1 – NC
Test of mu = 652.58 vs not = 652.58
The assumed standard deviation = 217.43
Ejercicio. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de ratones de
laboratorio es
de 0.93 a 1.73 onzas. ¿Cuál es el valor de Z?. =1.282
Ejercicio. 100 latas de 16 onzas de salsa de tomate tienen una media de Xmedia = 15.2 onzas y una S =
0.96 onzas.
¿A un nivel de confianza del 95%, las latas parecen estar llenas con 6 onzas?.
Test of mu = 6 vs not = 6
The assumed standard deviation = 0.96
N Mean SE Mean 95% CI Z P
100 15.2000 0.0960 (15.0118, 15.3882) 95.83 0.000
Ejercicio. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con S = 3.63. Se rechaza
la
solución si el peso promedio del lote no excede las 18 onzas. ¿Cuál es la decisión a un 90% de nivel de
confianza?
Test of mu = 18 vs < 18
The assumed standard deviation = 3.63
18
90%
Upper
N Mean SE Mean Bound Z P
16 16.6000 0.9075 17.7630 -1.54 0.061
One-Sample T
Test of mu = 18 vs < 18
90%
Upper
N Mean StDev SE Mean Bound T P
16 16.6000 3.6300 0.9075 17.8166 -1.54 0.072
Ejercicio.. 20 cajas de producto pesaron 102 grs.Con S = 8.5 grs¿Cuál es el intervalo donde se encuentra
la media del lote para un 90% de nivel de confianza?. Grados de libertad = gl = 20 - 1 = 19
Test of mu = 102 vs not = 102
Ejercicio. Una muestra de 25 productos tienen un peso promedio de 23.87 grs. Con una S = 9.56. ¿Cuál
es la estimación del intervalo de confianza para un nivel de confianza del 98% del peso de productos del
lote completo?
One-Sample T
Test of mu = 23.87 vs not = 23.87
2. Con los datos del problema anterior, determinar el Intevalo de confianza para un 95% de nivel de con
One-Sample T
Test of mu = 23.87 vs not = 23.87
Ejemplo: Los pesos de 25 paquetes enviados a través de UPS tuvieron una media de 3.7 lib
y una desviación estándar de 1.2 libras. Hallar el intervalo de confianza del 95% para
estimar el peso promedio de todos los paquetes. Los pesos de los paquetes se distribuyen normalmente
19
¿Cómo se determina el intervalo de confianza para una proporción?
Formula 4
Ejemplo: En una encuesta a 673 tiendas, 521 reportaron problemas de robo por los empleados
¿Se puede concluir con un 99% de nivel de confianza que el 78% se encuentra en el intervalo de confianza?
Exact
Sample X N Sample p 99% CI P-Value
1 521 673 0.774146 (0.730004, 0.814331) 0.745
si se encuentra en el intervalo de confianza
Pruebas de hipótesis para una y dos poblaciones
Zalfa/2 0 Zalfa/2
Zalfa
0
Pruebas de Hipótesis cola izquierda:
Ho: a ³ b
Ha: a < b
Zona de rechazo
20
Zalfa 0
21
Ejercicio: Las ganancias promedio por acción en 2001 fueron de 3 dolares, muestra de 10
empresas mostraron las siguientes ganancias para 2002:
1.92 2.16 3.63 3.16 4.02 3.14 2.20 2.34
3.05 2.38
a) Para un alfa de 0.05 probar la afirmación de que estas ganancias difieren de los 3 dolares del 2001
Test of mu = 3 vs not = 3
Variable N Mean StDev SE Mean 95% CI T P
ganancias 10 2.80000 0.70056 0.22154 (2.29885, 3.30115) -0.90 0.390
no se rechaza la igualdad de las ganancias en 3
Ejercicio: Antes de publicar un libro, BANTAM, hace una prueba a un nivel alfa = 2% de que el precio
promedio es de $35.¿Se sustenta la afirmación si en una muestra de n = 50 tiendas, se observa
X = 32.97, S = 12.87.
Test of mu = 35 vs not = 35
The assumed standard deviation = 12.87
Ejercicio: Se planea en un restaurante eliminar del menú el pollo frito. Se afirma que las ventas habían
descendido por debajo de la media histórica de $4,500. ¿parece una decisión adecuada si en una
muestra de n = 144 observaciones se observa con alfa=2%
Ejercicio: Se publica que el costo de alojamiento es menor a $3,500. ¿se confirma esta cifra a un nivel
22
del 5%, si en una muestra n=60 X = $3,200, S = $950.
Test of mu = 3500 vs < 3500
The assumed standard deviation = 950
95%
Upper
N Mean SE Mean Bound Z P
60 3200.00 122.64 3401.73 -2.45 0.007
comp P es menor que alfa se rechaza Ho, se acepta que el costo del alojamiento es menor
Ejercicio: Un distribuidor piensa que el promedio de sus ventas son de $12,000 al mes. Selecciona 10 meses
y encuentra a un alfa del 5% ¿Qué se puede concluir?
X = $11,277, S = 3,772
Test of mu = 12000 vs not = 12000
Ejercicio: La vida útil de un foco es de 5,000 horas. Un nuevo diseño se piensa incremente esta vida. Se
Prueban n=25 focos con fusión a Concluir para un nivel alfa del 5%
X = 5,117 , S = 1,886.
Test of mu = 5000 vs > 5000
95%
Lower
N Mean StDev SE Mean Bound T P
25 5117.00 1886.00 377.20 4471.66 0.31 0.380
no se rechaza Ho , la vida util de los focos es <= a 5000hrs.
Ejercicio: DHL afirma que entrega paquetes en menos de 2.5 días que es la media histórica. Se
hacen n=17 observaciones y se encuentra que X = 2.2, S = 0.9 días. Probar con alfa = 0.01.
Test of mu = 2.5 vs < 2.5
99%
Upper
N Mean StDev SE Mean Bound T P
17 2.20000 0.90000 0.21828 2.76393 -1.37 0.094
P es mayor que alfa no se rechaza Ho, las entregas son igual o mayores a 2.5 días
Ejercicio: Probar la afirmación de que la varianza es menor a 15, si se toma una muestra de 8 partes y se
obtiene una desviación estándar de 8 para un 95% de nivel de confianza.
Datos n=8 S=8, X2 calc=2.986
Ho: varianza>=15
Ha: varianza<15
X´2 de tablas=2.17
No se rechaza Ho, la varianza no es menor a 15
¿Cómo se realiza una prueba de hipótesis para prueba de parámetros de dos poblaciones?
Con los estadísticos
X1 - X 2 d
X1 - X 2 tc = tc =
Zc = s 2
s 3 sd
s12 s23
p p
n
n1 n2
n1 n2
23
p1 - p2
Zc =
p1 (1 - p1 ) p2 (1 - p2 )
n1 n2
¿por qué es necesario hacer una prueba de igualdad de varianzas antes de la prueba t?
los cálculos son realizados de manera diferente, es necesario hacer la previa determinación.
Ejercicio: Probar a un nivel de significancia del 5% si las varianzas o variabilidad de dos diferentes
métodos de producción son iguales o no. 15 CDs producidos con el primer método reportan una desv.
Estándar
S = 5.4 minutos y 17 reproductores con el segundo método reportan una S = 4.8 minutos.
Fcal =1.2656
Fexcel= 2.97859515
No se rechaza Ho las variables son iguales
Ejercicio: Un laboratorio de materiales está analizando el efecto del añejamiento de un producto, quieren
saber si hay mejora en la consistencia de resistencia después de un año (asumir un 95% de nivel de
confianza).
Los resultados obtenidos son: Al inicio Un año después
Número de pruebas 9 7
Desv. Estándar PSI 900 300
Fcal= 9
Fexcel= 5.59964519
No se rechaza Ho, las varianzas son iguales.
c a2 c a
, n -1 1- , n -1
2 24
2
p (1 - p)
p = p �Z a
2 n
3a
4a
SE
Sample N Mean StDev Mean
1 60 587 145 19
2 50 512 125 18
25
Two-Sample T-Test and CI
Sample N Mean StDev SE Mean
1 64 65.2 21.2 2.7
2 81 58.6 25.3 2.8
Ejercicio: Repetir el problema anterior asumiendo que las varianzas son iguales.
Two-Sample T-Test and CI asumiendo igualdad de varianzas
Sample N Mean StDev SE Mean
1 10 36.0 12.0 3.8
2 8 49.0 18.0 6.4
Ejercicio: Probar si un nuevo programa da mejores resultados en las horas promedio de terminación de
un proyecto para un nivel de confianza del 95%:
Programa
actual nuevo a) Probar la hipótesis de igualdad de varianzas (Ho:s12=s22)
26
300 276
280 222 b) Probar la hipótesis ( t) de si la media del nuevo programa
344 310 es menor que la del actual (Ha: Miu nuevo < Miu actual)
385 338
372 200
360 302
288 317
321 260
376 320
290 312
301 334
283 265
¿Cómo se realiza una prueba de hipótesis para muestras pareadas, cuando usar Z y cuando usar
t?
con formula A
A t=
d
; Pares.de.medias; d . para.cada. par
i
Sd / n
B (n - 1) S 2
X2 = ; DF = (n - 1); prueba.una.v ar ianza
s2
C (O - E ) 2
X2 =� ; DF = (r - 1)(c - 1); bondad .ajuste
E
27
Ejercicio: Muestras pareadas de tamaño n = 81 dan una media de las diferencias de 36.5 y una desviación
estándar de las diferencias de 29.1. Probar la igualdad de las medias a un alfa de 0.01.
d=36.5 n=81
Sd=29.1 alfa=0.01
Paired T-Test and CI
N Mean StDev SE Mean
Difference 81 36.5000 29.1000 3.2333
Ejercicio: Muestras pareadas de tamaño n = 25 dan una media de las diferencias de 45.2 y una
desviación estándar de las diferencias de 21.6. Probar la igualdad de las medias a un alfa del 5%.
p1 - p2
Zc = p1 (1 - p1 ) p2 (1 - p2 )
p1 (1 - p1 ) p2 (1 - p2 ) s p1- p 2 =
n1 n2
n1 n2
Intervalo de Confianza: ( p1 - p2 ) Za / 2 s p1- p 2
29. Muestras de tamaño n1 = 120 y n2 = 150 produjeron proporciones de p1= 0.69 y p2 = 0.73.
Pruebe la igualdad de las proporciones de las poblaciones a un nivel del 5%.
28
2 25 300 0.083333
Ejercicio: Dos muestras de tamaño n1 = n2 = 500 se utilizan para probar la hipótesis de que .
Las proporciones muestrales son p1 = 14% y p2 = 11%. A un nivel del 10%. ¿Cuál es la conclusión?.
Ho : p 1 £ p 2
Test and CI for Two Proportions
Sample X N Sample p
1 70 500 0.140000
2 55 500 0.110000
Ejercicio: Dos muestras de tamaño n1 = 200 y n2 = 250 se utilizan para probar la hipótesis de que .
Las proporciones muestrales son p1 = 22% y p2 = 26%. A un nivel del 1%. ¿Cuál es la conclusión?.
Ho : p 1 ³ p 2
Test and CI for Two Proportions
Sample X N Sample p
1 44 200 0.220000
2 65 250 0.260000
Tablas de contingencia
¿Qué es una tabla de contingencia?
Es un arreglo de dos vias de renglones y columnas que contiene frecuencias originales que pueden ser analizadas o de
dos variables independientes que pueden tener un significado de asociación.
se utiliza
1. Para probar si una serie de datos observada, concuerda con el modelo (serie esperada) de la información.
2. Para probar las diferencias entre las proporciones de varios grupos (tabla de contingencia).
Donde Ho: No hay diferencia
Ha: Hay diferencia
29
Ejemplos:
Ejemplo: Probar la hipótesis si no hay diferencia significativa entre los 3 inspectores con los datos siguientes:
Inspectores
Resultados 1 2 3
Radios detectados 27 25 22
Radios no detectados 3 5 8
Inspectores totales
Resultados 1 2 3
Radios det 27 25 22 74
Rad No det 3 5 8 16
totales 30 30 30 90 grantotal
Frecuencias
esperadas
24.66667 24.66667 24.66667
5.333333 5.333333 5.333333
Aplicando el
estadístico
0.220721 0.004505 0.288288 0.513514
1.020833 0.020833 1.333333 2.375
SUMA 2.888514 X^2
Alfa/2=0.01
X^2= X^2(0.01,2)= 9.210351
Como X^2cal< X^2excel, no rechazo Hoy decimos que no hay diferencia de resultados
Con minitab
2 3 5 8 16
5.33 5.33 5.33
1.021 0.021 1.333
Total 30 30 30 90
Ejemplo: Probar si los resultados en el trato de una enfermedad depende del hospital
Ho: el trato no depende del hospital
Ha: el trato dependen del hospital
Hospital
Resultados A B D E
Sin cambio 15 6 8 44
Ligera mejo- 20 11 39 30
Mejora sign 18 19 38 9
donde
30
Hospital
A B D E TOTALES
15 6 8 44 73
20 11 39 30 100
18 19 38 9 84
TOTALES 53 36 85 83 257
Frecuencias esperadas
2 20 11 39 30 100
20.62 14.01 33.07 32.30
0.019 0.646 1.062 0.163
3 18 19 38 9 84
17.32 11.77 27.78 27.13
0.026 4.447 3.758 12.114
Total 53 36 85 83 257
Análisis de varianza
H 0 = m1 = m 2 = m 3 = .... = m k
H 1 : Al menos dos medias poblacionales son diferentes.
¿Qué condiciones se deben cumplir para que sea válido este análisis?
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes son:
31
1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es, s 12 = s 22 .
Como el ANOVA de un criterio es una generalización de la prueba de t para dos muestras, los supuestos para el ANOVA
son:
1. Todas las poblaciones k son normales.
2. s 12 = s 22 = s 32 = ..... = s k2 = s 2
de manera general.
Todas las poblaciones son normales
Todas las poblaciones tiene la misma varianza
Los errores son independientes con distribución normal de media cero
La varianza se mantiene constante para todos los niveles del factor
i =1
( Xij - X )
j =1
r
SCE =
c
(X ij - X j )2
SCT = i =1 j =1
r
SCTR = rj ( X j - X ) 2
j =1
Grados de libertad:
Gl. Totales = n – 1
Gl. Tratamientos = c -1
Gl. Error = n – c
32
Si P es menor a alfa o Fc es mayor a Ft se rechaza Ho indicando que los efectos de los diferentes niveles del factor tien
la respuesta.
¿En caso de rechazo de la hipótesis nula, cómo se identifican las medias que no son iguales?
Si las medias son diferentes se puede aplicar la prueba de Tukey o DMS
70 80
Percent
60 70
Percent
50 60
40 50
40
30
30
20
20
10
10
5
5
1 1
70 75 80 85 90 95 75.0 77.5 80.0 82.5 85.0 87.5
Programa 1 Programa 2
60
50
40
30
20
10
1
75 80 85 90 95
Programa 3
33
Residual Plots for Programa 1, Programa 2, Programa 3
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99
5
90
Residual
Percent
0
50
10 -5
1
-10 -5 0 5 10 80 82 84
Residual Fitted Value
3
Frequency
0
-8 -6 -4 -2 0 2 4 6
Residual
Source DF SS MS F P
Factor 2 65.7 32.9 1.94 0.189
Error 11 186.0 16.9
Total 13 251.7
Como P es mayor a 0.05,se rechaza Ho Los programas 1,2 y3 no tienen efecto en la respuesta
S = 4.112 R-Sq = 26.11% R-Sq(adj) = 12.67%
34
5 -1 -3 80 81 85
-8 3 -5 80 81 85
3 0 0 80 81 85
0 -3 5 80 81 85
* 1 3 80 81 85
Ejercicio: La resistencia a la tensión observada en función del peso porcentual del algodón en
una fibra sintética es:
Probar a un 5% de significancia si los porcentajes de algodón tienen el mismo efecto o cual es mejor
Peso porcentual del algodón
15% 20% 25% 30% 35%
7 12 14 19 7
7 17 18 25 10
15 12 18 22 11
11 18 19 19 15
9 18 19 23 11
95
90
80
70
Percent
60
50
40
30
20
10
1
-7.5 -5.0 -2.5 0.0 2.5 5.0
Residual
35
sus efectos, solo notamos que entre el 20 y 25% se pueden traslapar mostrando diferencias.
Pooled StDev = 2.839
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Ejercicio: ¿Parecería que hay diferencia en los salarios que ganan los nuevos graduados en diferentes campos?
Probar esta hipótesis al 5%
36
22.9 19.8 24.2 21.7
25.2 17.2 23.1 20.2
23.7 18.3 22.7 22.7
24.2 17.2 22.8 21.8
95
90
80
70
Percent
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
Residual
Source DF SS MS F P
Factor 3 87.42 29.14 20.69 0.000
Error 24 33.81 1.41
Total 27 121.23
Como P<alfa los efectos son significativos
--+---------+---------+---------+-------
Mercadotec, (-----*-----)
Sist. Inform. (-----*-----)
Matematicas (-----*-----)
37
--+---------+---------+---------+-------
-6.0 -3.0 0.0 3.0
Mercadotec, subtracted from:
Lower Center Upper --+---------+---------+---------+-------
Sist. Inform. 2.036 3.786 5.535 (-----
*----)
Matematicas 0.936 2.686 4.435 (-----*-----)
--+---------+---------+---------
+-------
-6.0 -3.0 0.0 3.0
Sist. Inform. subtracted from:
Lower Center Upper --+---------+---------+---------+-------
Matematicas -2.849 -1.100 0.649 (----*-----)
--+---------+---------+---------+-------
-6.0 -3.0 0.0 3.0
el cero no pertenece a la mayoria de las categoría de los graduados (solo para las diferencias finanzas
y sist. De información, y sist. De información y matematicas), existen diferencias en las categorías de
salarios.
95
90
80
70
Percent
60
50
40
30
20
10
1
-15 -10 -5 0 5 10
Residual
38
MUESTRA 2 6 85.00 5.97 (----*----)
MUESTRA 3 5 79.00 6.60 (-----*-----)
-------+---------+---------+---------+--
80 90 100 110
Preguntas
a) ¿Es adecuado el modelo?
La grafica muestra que el modelo es valido
Los efectos tienen sentido
b) ¿Son iguales las medias?
Solo se pueden traslapar las muestras dos y tres por lo que estas muestras no representan
diferencias significativas en sus efectos
c) ¿Cuál media es mayor?
La muestra uno.
¿Qué término se agrega a la tabla ANOVA normal cuando se usan dos vías?
La SCT y SCTr (renlgones) se determina de la misma forma que para la ANOVA de
una dirección o factor
En forma adicional se determina la suma de cuadrados del factor de bloqueo
(columnas) de forma similar a la de los renglones
La SCE = SCT – SCTr - SCBl
Experiencia
en años de los Máquinas
operadores Maq 1 Maq 2 Maq 3
1 27 21 25
2 31 33 35
3 42 39 39
4 38 41 37
5 45 46 45
60
50
40
30
de los operadores
20
10
1
-4 -3 -2 -1 0 1 2 3 4 5 39
Residual
que las diferencias entre los operadores son
significativas.
• Desarrollar una Prueba de normalidad (para verificar realmente lo anormal. Para la prueba de B
valor de p debe ser < 0.05)
• Desarrollar una Prueba de Corridas (para verificar que no existen sucesos no aleatorios que pu
haber distorsionado la información)
• Revisar la información para detectar errores (tipográficos, etc.). Investiguar los valores atípicos.
• Una muestra pequeña (n < 30) proveniente de un universo normal, se mostrará algunas veces co
anormal.
40
• Si la información es todavía anormal, entonces usar las herramientas no paramétricas.
Price index values for 29 homes in a suburban area in the Northeast were determined. Real estate records
indicate the population median for similar homes the previous year was 115. This test will determine if there is
sufficiente evidence for judging if the median price index for the homes
Sign Test for Median: PriceIndex a) ¿qué podemos concluir con estos resultados?
P=0.2291>0.05 no se rechaza Ho, No se puede pr
la mediana real y la mediana hipotética son diferen
Sign test of median = 115.0 versus > 115.0
¿Para que sirve y cómo se utiliza la prueba de ANOVA de una vía de Kruskal Wallis?
Prueba Kruskal-Wallis: Prueba si más de dos medianas de muestras son iguales. Asume que todas
las distribuciones tienen la misma forma.
ANOVA de un factor: Prueba si más de dos promedios de las muestras son iguales.
Measurements in growth were made on samples that were each given one of three
treatments
you decide to select the Kruskal-Wallis procedure to test H0: h1 = h2 = h3, versus H1: not
all h's
are equal, where the h's are the population medians
41
12.9 11.9 17 12.8 14.7 12 15 17
Treatment 1 1 3 1 1 3 2 2
2 1 3 2 3 2 3 3
Overall 16 8.5
H = 8.63 DF = 2 P = 0.013
H = 8.64 DF = 2 P = 0.013 (adjusted for ties)
Samples were drawn from two populations and diastolic blood pressure was measured.
You will want to determine if there is evidence of a difference in the population locations without assuming
a parametric model for the distributions. Therefore, you choose to test the equality of population medians
using the Mann-Whitney test with a = 0.05 rather than using a two-sample t-test, which tests the equality of populatio
means
DBP1 90 72 61 66 81 69 59 70
DBP2 62 85 78 66 80 91 69 77 84
¿Para que sirve y cómo se utiliza la prueba Suma de Rangos de Wilconox - Mann
Whitney?
Prueba Wilcoxon: Prueba si la mediana de la muestra es igual a
un valor conocido o a un valor hipotético.( es similar a Mann Whitney
no requiere una distribución normal)
Prueba Mann-Whitney : Prueba si dos medianas de muestras son iguales
Prueba Mann-Whitney : Comprueba el rango de dos muestras, por la diferencia entre
dos medianas del universo
42
Achievement test scores in science were recorded for 9 students. This test enables you to judge if there is sufficient
evidence for the population median being different than 77 using a = 0.05.
Achievement 77 88 85 74 75 62 80 70 83
a) ¿Qué se puede
Results for: Cartoon.MTW concluir de la prueba?
Como P value <0.05 se rechaza Ho, asumo q
Mood Median Test: Otis versus ED medianas pifien entre si
Como la mediana (107) solo es contenida en
muestra 1, puedo concluir que hay diferencia
Mood median test for Otis 0y2
Chi-Square = 49.08 DF = 2 P = 0.000
Individual 95.0% CIs
ED N<= N> Median Q3-Q1 ----+---------+---------+---------+--
0 47 9 97.5 17.3 (-----*-----)
1 29 24 106.0 21.5 (------*------)
2 15 55 116.5 16.3 (----*----)
----+---------+---------+---------+--
96.0 104.0 112.0 120.0
Overall median = 107.0
43
Confirmación de las variables definidas por el proceso por medio de un
análisis de varianza, estudios multivari
Pruebas de validadción con pruebas de hipótesis e intervalos de confianza
44