Respuestas A La Gu A en La Fase de An Lisis

RESPUESTAS A LA GUÍA EN LA FASE DE ANÁLISIS
LÓPEZ CUEVAS HILDA
VII. Metodología de mejora Seis Sigma y herramientas de la Fase de Análisis

¿Cuáles son los objetivos de la fase de Análisis?
Evalua y reduce las variables con análisis gráficos y el contráste de hipótesis para identificar los
pocos factores vitales para el proceso de mejora.
• Análisis exploratorio de datos Carta Multivari

¿Para que sirve y como se construye una carta Multivari?
La carta multivari permite analizar la variación dentro de la pieza, de pieza a pieza o de tiempo en tiempo
Permite investigar la estabilidad de un proceso consiste de líneas verticales u otro esquema en función
del tiempo. La longitud de la línea o del esquema representa el rango de valores
encontrados en cada conjunto de muestras
¿A que se refiere la variación Posicional, Cíclica y Temporal en las cartas multivari?

 Sirven para identificar el patrón principal de variación de entre tres patrones principales:
 Temporal: Variación de hora a hora; turno a turno; día a día; semana a semana; etc.
 Cíclico: Variación entre unidades de un mismo proceso; variación entre grupos de unidades;
variación de lote a lote.
 Posicional:
4 Variaciones dentro de una misma unidad (ejemplo: porosidad en un molde de metal)
o a través de una sola unidad con múltiples partes (circuito impreso).
4 Variaciones por la localización dentro de un proceso que produce múltiples unidades
al mismo tiempo. Por ejemplo las diferentes cavidades de un molde
4 Variaciones de máquina a máquina; operador a operador; ó planta a planta
¿En que partes se puede dividir la variación posicional?

 Posicional:
4 Variaciones dentro de una misma unidad (ejemplo: porosidad en un
molde de metal) o a través de una sola unidad con múltiples partes
(circuito impreso).
4 Variaciones por la localización dentro de un proceso que produce
múltiples unidades al mismo tiempo. Por ejemplo las diferentes
cavidades de un molde
Variaciones de máquina a máquina; operador a operador; ó planta a planta
¿Cómo se interpreta la Carta Multivari siguiente?

Existe una relación entre el sinter time y el tipo de metal, el tipo
de metal influye en el strenghtn, el metal 18 alcanza un
promedio máximo en strength aprox 21.5
Multi-Vari Chart for Strength by SinterTime - MetalType

24 SinterTime
0.5
1.0
23 2.0
22
Strength
21
20
19
18
17
15 18 21
MetalType
1
¿Cómo se interpreta la siguiente carta multivari?
8 AM 9 AM 10 AM 11 AM 12
AM
.
0.2510
”
0.2500
”
0.2490
”
Izquierda
Máximo
Derecha
Mínimo
 Un análisis rápido revela que la mayor variación es temporal con un cambio mayor entre las 10 AM
y las 11 AM.
 A las 10 AM se para el equipo para el almuerzo y se arranca a las 11 AM, con lecturas similares a las
de las 8 AM. Conforme pasa el tiempo las lecturas tienden a decrecer más y más, hasta que se
invierten a las 10 A.M. en forma drástica.

En términos generales estan oscilando los valores alrededor de los límites(0.2510-0.2490)
La variación entre piezas mantiene la tendencia general.
 Se tomaron cuatro lecturas en cada flecha, dos a cada lado. Estas muestran una disminución gradual
desde el lado izquierdo al lado derecho de las flechas, además de excentricidad en cada lado de la
flecha.
 La variación cíclica, de una flecha a la siguiente, se muestra mediante las líneas que concentran las
cuatro lecturas de cada flecha.
2
• Diagrama sistemático
¿Cómo se construye el diagrama sistemático representando el mapa de variabilidad

total?
Variación total observada

• Lluvia de ideas y diagrama de causa
Diámetro =0.150efecto y diagrama de relaciones
+- 0.02
¿Cómo se identifican las causas potenciales de un problema el diagrama de causa efecto?
En las ramificaciones detalladas para cada una de las Ms
¿Cómo se identifican las causasVariación

potenciales de un problema el diagrama de relaciones?
Por la gran incidencia de flechas en Variación de
de cada nodo existente del diagrama.
sist. medición
proceso
¿Cuál es el proceso para comprobar las causas raíz de un problema?
 El equipo discute la lista de causas de alta prioridad y decide cuáles son las más
Pieza a (5 a 7).
importantes Dentro de Máquina a Turno a Tiempo a
Lote a lote
pieza la
 El equipo se cuestiona lo siguiente: pieza máquina turno tiempo
 ¿Es una causa? (¿no una solución?)
 ¿Podemos hacer algo respecto a la causa?
 ¿Estamos seguros que ésta cambiará el efecto?
 ¿Estamos deProgramaacuerdo? Máquina Accesorios
Operadores
 Antes de invertir tiempo y dinero en la implementación de una mejora para
“contrarrestar” una causa, asegurarse que la causa sea real.
 Estar completamente convencido que la causa es la verdadera culpable del efecto
indeseable.
 Para cada causa probable , el equipo deberá:
 Llevar a cabo una tormenta de ideas para verificar la causa.
 Seleccionar la manera que:
 represente la causa de forma efectiva, y
 sea fácil y rápida de aplicar.
¿Cuándo se dice que Si es causa raíz y cuando no es causa raíz?

 Estar completamente convencido que la causa es la verdadera culpable del efecto
3
indeseable.
• Análisis de regresión lineal, cuadrática y múltiple

¿Para que sirve el análisis de regresión lineal?
Establece si existe una relación entre las variables y responde a la pregunta,
”¿Qué tan evidente es esta relación?"
Describe con más detalle la relación entre las variables.
Construye modelos de predicción a partir de información
experimental u otra fuente disponible.
Regresión lineal simple
Regresión lineal múltiple
Regresión no lineal cuadrática o cúbica
¿Por qué se le denomina método de mínimos cuadrados?

La línea de regresión se calcula por el método de mínimos cuadrados.
Un residuo es la diferencia entre un punto de referencia en particular (xi, yi) y el
modelo de predicción ( y = a + bx ). El modelo se define de tal manera que la suma
de los cuadrados de los residuales es un mínimo. La suma residual de los
cuadrados es llamada con frecuencia la suma de los cuadrados de los errores
(SSE) acerca de la línea de regresión
¿cómo se prueba la significancia de la regresión?

• El valor “p” para la regresión se usa para ver si el modelo completo de
regresión es significativo.
Ho: El modelo no es significativo en la predicción de la respuesta.
Ha: El modelo es significativo en la predicción de la respuesta.
¿cómo se estima la varianza de la variable dependiente?

SSE= sumatoria de (Yi-Y1)^2
¿cómo se determina el coeficiente de correlación y que significa?

• La correlación puede usarse para información de atributos, variables
normales y variables no normales.
• La correlación puede usarse con un “predictor” o más para una respuesta
dada.
• La correlación es una prueba fácil y rápida para eliminar factores que no
influyen en la predicción, para una respuesta dada.
Donde r= Sxy/ raiz de (Sx2Sy 2)
¿Cómo se intepreta el coeficiente de determinación?

Es la proporción de la variación explicada (representada) por el modelo de la
regresión.
Ejercicio: Hacer un análisis de regresión simple completo
completo con los datos siguientes:
Publicidad X Pasajeros Y
10 15 a) Ecuación
12 17 b) r
8 13 c) r cuadrada
4
17 23 d) ¿Existe reg?
10 16 e) Intervalo de
15 21 confianza para
10 14 X = 14
14 20 f) Intervalo de
19 24 predicción
10 17 para X = 14
11 16 g) Gráfica de
13 18 regresión
16 23 h) Analizar
10 15 los residuos
12 16
The regression equation is
Pasajeros Y = 4.39 + 1.08 Publicidad X
Predictor Coef SE Coef T P

Constant 4.3863 0.9913 4.42 0.001
Publicidad X 1.08132 0.07726 13.99 0.000
S = 0.906780 R-Sq = 93.8% R-Sq(adj) = 93.3%
Analysis of Variance
Source DF SS MS F P
Regression 1 161.04 161.04 195.86 0.000
Residual Error 13 10.69 0.82
Total 14 171.73
Predicted Values for New Observations
New
Obs Fit SE Fit 95% CI 95% PI
1 19.525 0.262 (18.958, 20.092) (17.485, 21.564)
Values of Predictors for New Observations
New
Obs Publicidad X
1 14.0
5
Residual Plots for Pasajeros Y
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99 2
90
1
Residual
Percent
50
0
10
-1
1
-2 -1 0 1 2 15 20 25
Residual Fitted Value
Histogram of the Residuals Residuals Versus the Order of the Data

2
4
3 1
Frequency
Residual
2 0
1
-1
0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Residual Observation Order
residuos normales, regresión lineal con correlación positiva

Scatterplot of Pasajeros Y vs Publicidad X
24
22
20
Pasajeros Y
18
16
14
12
8 10 12 14 16 18 20
Publicidad X
Ejercicio: ¿Existe relación entre los niveles de Consumo (Y) y el ingreso de consumindores (X)?
Si existe
a) Establecer la ecuación de regresión
Y=Consumo = 1.78 + 0.558 X=Ingreso
b) Hacer la gráfica de la regresión

c) ¿Qué consumo se pronostica para alguien
que gane
$27,000?
Datos:
X=Ingreso Y=Consumo
24.3 16.2
12.5 8.5
31.2 15
28 17
35.1 24.2
6
10.5 11.2
23.2 15
10 7.1
8.5 3.5
15.9 11.5
14.7 10.7
15 9.2
Scatterplot of Y=Consumo vs X=Ingreso

25
20
Y=Consumo
15
10
10 15 20 25 30 35
X=Ingreso
correlación positiva y residuos normalizados
Residual Plots for Y=Consumo

99 4
90 2
Residual
Percent
50 0
-2
10
-4
1
-5.0 -2.5 0.0 2.5 5.0 5 10 15 20
Histogram of t he Residuals Residuals Versus the Order of the Data

4 4
2
3
Frequency
Residual
0
2
-2
1
-4
0
-4 -2 0 2 4 1 2 3 4 5 6 7 8 9 10 11 12
Regression Analysis: Y=Consumo versus X=Ingreso

Y=Consumo = 1.78 + 0.558 X=Ingreso

Constant 1.778 1.583 1.12 0.288
X=Ingreso 0.55817 0.07567 7.38 0.000
S = 2.25061 R-Sq = 84.5% R-Sq(adj) = 82.9%
7
Source DF SS MS F P
Regression 1 275.59 275.59 54.41 0.000
Total 11 326.24

New
1 15072.406 2041.702 (10523.210, 19621.602) (10523.208, 19621.604)XX
XX denotes a point that is an extreme outlier in the predictors.
New
Obs X=Ingreso
1 27000
Ejercicio: Interpretar los resultados de la regresión lineal siguiente:
Regression Analysis: Calif Y versus Tiempo X
Calif Y = 31.21 + 0.6955 Tiempo X
S = 4.47182 R-Sq = 77.0% R-Sq(adj) = 74.2%
Source DF SS MS F P
Regression 1 536.923 536.923 26.85 0.001
Error 8 159.977 19.997 a) ¿Existe la regresión?
Total 9 696.900 Si, la regresión tiene sentido
Fitted Line Plot

b) ¿Cómo se predice Y para una cierta x?
Calif Y = 31.21 + 0.6955 Tiempo X Se pueden usar dos intervalos de confianz
90 Regression observaciones individuales y otro para pre
95% CI
95% PI
80 S
R-Sq
4.47182
77.0%
c) ¿Qué significan los
R-Sq(adj) 74.2%
intervalos CI y PI?
70
Uno para observaciones individuales y otr
Calif Y
promedio.
60
El intervalo de predicción promedio es má
refiere a la estimación de una media en lu
50
individual.
40
c) ¿Cuál es el valor del
30 40 50 60 70
coeficiente de correlación?
Tiempo X 8.7749
d) ¿Qué significa la R2?
Es decir el 77% de la variación de la c
explicada por el tiempo.
¿Qué modelo de regresión ajustaría a los datos en la siguiente figura y porqué?
Fitted Line Plot

EnergyConsumption = 128.8 - 13.11 MachineSetting
+ 0.3289 MachineSetting**2
50 Regression
95% C I
40 95% PI
S 6.00002
EnergyConsumption
30 R-Sq 79.3%
R-Sq(adj) 73.4%
20
10
-10
-20
10 15 20 25 30
MachineSetting 8
Fitted Line Plot
EnergyConsumption = 1.25 + 0.3218 MachineSetting
50 Regression
Un modelo cuádratico, en la primera grafica observamos
95% CI una curvatura en los datos y en la segunda la adecu
40 95% PI
regresión líneal, en el coeficiente de determinación
S
, es
12.1825
muy bajo 2.2%
30 R-Sq 2.3%
EnergyConsumption
R-Sq(adj) 0.0%
Ejercicio:
20 Con los datos siguientes hacer un análisis de regresión simple
ALTURA
10 68 64 62 65 66
PESO0 132 108 102 115 128
-10
a) Diagrama
-20 de dispersión
b) Coeficiente
-30 de correlación
c) Recta 10 gráfica15 20 25 30
MachineSetting
d) Ecuación de regresión
e) si Altura es 63 cual es el peso estimado
f) Coeficiente de determinación =1.224
g) Prueba de significancia para el parámetro Beta1
h) Intervalo de confianza para un 90% en Beta 1
i) Prueba de la significancia de la regresión
j) Intervalo de confianza para la media de Yest en altura = 65
k) Intervalo de predicción para los valores individuales de Yest en altura = 65
l) Determinación de residuales (3 valores)
n) Gráfica de distribución normal de los residuales
Regression Analysis: peso versus altura

peso = 72 + 0.70 altura
Constant 71.5 213.4 0.34 0.760
altura 0.700 3.282 0.21 0.845
S = 14.6765 R-Sq = 1.5% R-Sq(adj) = 0.0%
Source DF SS MS F P
Regression 1 9.8 9.8 0.05 0.845
Total 4 656.0
9
New
1 117.00 6.56 (96.11, 137.89) (65.83, 168.17)

New
Obs altura
1 65.0
Residual Plots for peso

99
90 10
Residual
Percent
50
0
10
-10
1
-30 -15 0 15 30 115 116 117 118 119

1.00
10
0.75
Frequency
Residual
0.50 0
0.25
-10
0.00
-15 -10 -5 0 5 10 15 1 2 3 4 5
datos normales
Scatterplot of peso vs altura
135
130
125
120
peso
115
110
105
100
62 63 64 65 66 67 68
altura
sin relacion las variables

RESI5
15.7
-11.1
-12.9
-2.0
10.3
New
1 115.60 9.28 (86.06, 145.14) (60.34, 170.86)
New
Obs altura
1 63.0
altura=X peso=Y X2 XY
64 132 4096 8448
10
68 108 4624 7344
62 102 3844 6324
65 115 4225 7475
66 128 4356 8448
325 585 21145 38039 SUMA
65 117 4229 7607.8 PROM
SXX= 20
Prueba t para la pendiente B1
Donde t=0.7/raiz de 215.4/20= 0.213

Con alfa=0.05
Donde t alfa/2,n-2= 3.182
Con alfa = .1
El valor de t= 2.35
Se concluye que no vale la pena hacer la regresión, el modelo no es significativo.
Ejercicio: Un experimento para determinar el efecto del tiempo en horas (X) a una cierta
temperatura a un cambio en la viscocidad del aceite (Y) da los resultados siguientes:
X Y a) Encontrar un polinomio de segundo orden que ajuste a
0.25 -4.42 a los datos
0.5 -1.39 b) Probar la significancia de la regresión para alfa = 0.05
0.75 -1.55
1 -1.89 c) Encontrar el coeficiente de determinación
1.25 -2.43 R-Sq = 98.1% para el cuadratico
1.5 -3.15 d) Calcular los residuos y evaluar la adecuación del
1.75 -4.05 modelo
2 -5.15 Es adecuado
2.25 -6.43
2.5 -7.89
¿Qué es la regresión múltiple?

Consiste en generar modelos con más
de una variable dependiente Xs.
Antes de la transformación
Residual Plots for Y
99
1
90
0
Residual
Percent
50 -1
-2
10
-3
1
-4 -2 0 2 4 -6 -5 -4 -3 -2

4 1
3 0
Frequency
Residual
2 -1
-2
1
-3
0
-3 -2 -1 0 1 1 2 3 4 5 6 7 8 9 10
11
Box-Cox Plot of X
Lower C L Upper C L
1.2 Lambda
(using 95.0% confidence)
Estimate 0.86518
1.0
Lower CL 0.12009
Upper CL 1.91622
Best Value 1.00000

0.8
StDev
0.6
0.4
Limit
0.2
-2 -1 0 1 2 3 4 5
Lambda
Polynomial Regression Analysis: Y versus X

CUADRATICO
Y = - 1.694 - 6.691 logten(X) - 18.92 logten(X)**2
S = 0.343196 R-Sq = 98.1% R-Sq(adj) = 97.5%
Source DF SS MS F P
Regression 2 41.8958 20.9479 177.85 0.000
Error 7 0.8245 0.1178
Total 9 42.7202
Sequential Analysis of Variance

Source DF SS F P
Linear 1 12.5860 3.34 0.105
Quadratic 1 29.3098 248.84 0.000
Fitted Line Plot

Y = - 1.694 - 6.691 logten(X)
- 18.92 logten(X)**2
0 Regression
95% CI
-1 95% PI
-2 S 0.343196
R-Sq 98.1%
-3 R-Sq(adj) 97.5%
-4
Y
-5
-6
-7
-8
-9
3 4 5 6 7 8 9 0 5 0
0. 0. 0. 0. 0. 0. 0. 1. 1. 2.
X

Normal Probabilit y Plot of the Residuals Residuals Versus the Fit ted Values
99 0.50
90 0.25
Residual
Percent
50 0.00
-0.25
10
-0.50
1
-0.8 -0.4 0.0 0.4 0.8 -8 -6 -4 -2
Histogram of the Residuals Residuals Versus the Order of the Dat a

0.50
3
0.25
Frequency
2
Residual
0.00
1 -0.25
-0.50
0
-0.6 -0.4 -0.2 0.0 0.2 0.4 1 2 3 4 5 6 7 8 9 10
12
mayor adecuación al polinomio de tercer orden
Polynomial Regression Analysis: Y versus X

CUBICA
Y = - 1.629 - 5.226 logten(X) - 21.27 logten(X)**2 - 8.452 logten(X)**3
S = 0.278913 R-Sq = 98.9% R-Sq(adj) = 98.4%
Source DF SS MS F P
Regression 3 42.2535 14.0845 181.05 0.000
Error 6 0.4668 0.0778
Total 9 42.7202
Sequential Analysis of Variance
Source DF SS F P
Linear 1 12.5860 3.34 0.105
Quadratic 1 29.3098 248.84 0.000
Cubic 1 0.3577 4.60 0.076
Fitted Line Plot

Y = - 1.629 - 5.226 logten(X)
- 21.27 logten(X)**2 - 8.452 logten(X)**3
0 Regression
95% CI
-1 95% PI
-2 S 0.278913
R-Sq 98.9%
-3 R-Sq(adj) 98.4%
-4
Y
-5
-6
-7
-8
-9
3 4 5 6 7 8 9 0 5 0
0. 0. 0. 0. 0. 0. 0. 1. 1. 2.
X

Normal Probability Plot of t he Residuals Residuals Versus t he Fitted Values
99 0.4
90
0.2
Residual
Percent
50
0.0
10
-0.2
1
-0.50 -0.25 0.00 0.25 0.50 -8 -6 -4 -2

0.4
3
0.2
Frequency
2
Residual
0.0
1
-0.2
0
-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 1 2 3 4 5 6 7 8 9 10
¿Por qué se debe utilizar el coeficiente de correlación ajustado en lugar del normal?
El ajustado penaliza el agregar variables que no son importantes en el modelo
¿Qué es multicolinealidad y cual es su efecto en la regresión múltiple?

Significa que algunas variablesXs pueden estar correlacionadas entre si
13
Ejercicio: Hacer un análisis de regresión múltiple con los datos siguientes
Publicidad X1 Pasajeros Y PIB (%) X2 a) Ecuación de regresión

10 15 2.4 b) ¿cuáles variables son significativas?
12 17 2.72 c) Coeficiente de determinación ajustado y
8 13 2.08 su significado
17 23 3.68 d) Predecir el valor de los pasajeros con
10 16 2.56 una publicidad de 14 y un PIB de 2.0.
15 21 3.36 e) Analizar los residuos para validar
10 14 2.24 el modelo =el modelo es adecuado
14 20 3.2 f) Analizar las gráficas de Y vs X1 y
19 24 3.84 Y vs X2 y sacar conclusiones
10 17 2.72
11 16 2.07
13 18 2.33
16 23 2.98
10 15 1.94
12 16 2.17
Residual Plots for Pasajeros Y

99 2
90
1
Residual
Percent
50
0
10
-1
1
-2 -1 0 1 2 15.0 17.5 20.0 22.5 25.0

2
4.8
3.6 1
Frequency
Residual
2.4
0
1.2
-1
0.0
-1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Regression Analysis: Pasajeros Y versus Publicidad X1, PIB (%) X2

Pasajeros Y = 3.53 + 0.840 Publicidad X1 + 1.44 PIB (%) X2

Constant 3.5284 0.9994 3.53 0.004
Publicidad X1 0.8397 0.1419 5.92 0.000
PIB (%) X2 1.4410 0.7360 1.96 0.074
Coeficientes significativos
S = 0.821666 R-Sq = 95.3% R-Sq(adj) = 94.5%
PRESS = 14.0246 R-Sq(pred) = 91.83%

Source DF SS MS F P
Regression 2 163.632 81.816 121.18 0.000
14
Total 14 171.733

New
1 18.166 0.734 (16.567, 19.764) (15.765, 20.566)X
X denotes a point that is an outlier in the predictors.

PIB
New (%)
Obs Publicidad X1 X2
1 14.0 2.00
Scatterplot of Pasajeros Y vs PIB (%) X2
24
22
20
Pasajeros Y
18
16
14
12
2.0 2.5 3.0 3.5 4.0
PIB (%) X2
Scatterplot of Pasajeros Y vs Publicidad X1
24
22
20
Pasajeros Y
18
16
14
12
8 10 12 14 16 18 20
Publicidad X1
existe correlación de ambas variables con Y correlación fuerte de tipo positivo.
Ejercicio: La fuerza de sujeción de un alambre de conexión de semiconductor (Y3) está en función de la

altura del dado (X5), altura del poste (X6), altura del loop (X7) y longitud del alambre (X8),
los resultados de un experimento con varios valores de X5, X6, X7 y X8 se muestran a continuación:
Y3 X5 X6 X7 X8 a) Encontrar un modelo de
9 5.8 18.6 28.6 86.5 regresión múltiple para los datos
9.3 5.2 18.8 30.6 84.5 Regression > Regression > Normal Plot of Res.
9.3 5.6 19 32.4 88.8 b) Predecir la fuerza de sujeción
9.5 6 20.8 32.6 85.7 Y3 cuando X5 = 6, X6 = 20
9.8 5.2 19.9 32.2 93.6 X7 = 30, X8 = 90
10 5.8 18 31.8 86 Considerar un intervalo de
15
10.3 6.4 20.6 32.6 87.1 confianza y de predicción del 95%
10.5 6 20.2 33.4 93.6 Regression > Regression > Options > Pred. Intervals for
10.8 6.2 20.2 31.8 86 new observations / X6 X6 X7 X8 / 95%
11 6.2 19.2 32.4 87.1 c) Identificar por medio de las
11.3 6.2 17 31.4 93.1 correlaciones entre las X's
11.5 5.6 19.8 33.2 83.4 cuales presentan colinealidad
11.8 6 18.8 35.4 94.5 y por tanto como se debe adecuar
12.3 5.8 19.8 34 83.4 la ecuación de regresión múltiple
12.5 5.6 18.8 34.2 85.2 Basic statistics > Correlation (display P values)
En cada comparación aparece R2 y su P value (sign..05)
Residual Plots for Y3

99
0.5
90
0.0
Residual
Percent
50
-0.5
10
-1.0
1
-1 0 1 9 10 11 12

6.0
0.5
4.5
Frequency
0.0
Residual
3.0
-0.5
1.5
-1.0
0.0
-1.25 -1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Regression Analysis: Y3 versus X5, X6, X7, X8

Y3 = 3.22 + 0.658 X5 - 0.440 X6 + 0.605 X7 - 0.0866 X8

Constant 3.219 6.735 0.48 0.643
X5 0.6584 0.5435 1.21 0.254
X6 -0.4398 0.2005 -2.19 0.053
X7 0.6051 0.1277 4.74 0.001
X8 -0.08660 0.05208 -1.66 0.127
No significativo constante,X5,x8
S = 0.710446 R-Sq = 71.5% R-Sq(adj) = 60.1%
PRESS = 11.5425 R-Sq(pred) = 34.75%

Source DF SS MS F P
Regression 4 12.6420 3.1605 6.26 0.009
Total 14 17.6893

New
1 8.732 0.470 (7.686, 9.779) (6.835, 10.630)

New
Obs X5 X6 X7 X8
16
1 6.00 20.0 30.0 90.0
Correlations: X5, X6, X7, X8

X5 X6 X7
X6 0.109
0.698
X7 0.122 0.271
0.664 0.328
X8 0.125 -0.196 0.191

0.657 0.483 0.496
Cell Contents: Pearson correlation

P-Value
Existe correlación
PRESS = 11.5425 R-Sq(pred) = 34.75%

El modelo es bueno para predecir
Durbin-Watson statistic = 1.58521

Existe correlación positiva
• Estimación puntual y por intervalos para una y dos poblaciones
¿Qué es una estimación puntual de parámetros?

 Las medias o desviaciones estándar calculadas de una muestra se denominan ESTADÍSTICOS, podría
como un punto estimado de la media y desviación estándar real de población o de los PARAMETROS.
 ¿Qué pasa si no deseamos números sencillos como media basada en una muestra, qué otra cosa pod
como margen, algún tipo de error?
“Un Intervalo de Confianza”
 ¿Cómo obtenemos un intervalo de confianza?
Punto estimado + error estimado
 ¿De dónde viene el error estimado?
Desv. estándar X multiplicador de CI (nivel de confianza) deseado
Por Ejemplo: Si la media de la muestra es 100 y la desviación estándar es 10, el intervalo de confianza al 95%
la media para una distribución normal es:
100 + (10) X 1.96 => (80.4, 119.6) 1.96 = Z0.025

¿Qué es una estimación por intervalos de parámetros y que ventajas tiene?
Es donde estimamos a un parámetro (de manera general) de la población
Nos sirve para conocer que tan precisa es la estimación.
Es un rango donde puede estar el parámetro.
¿Qué es nivel de confianza, nivel de significancia y error estándar de estimación?

El error estándar es la desviación estándar del estadistico visto como variable aleatoria
El nivel de confianza es la probabilidad 1-alfa de encontrar el parámetro, el nivel de significancia es alfa corresp
Error tipo 1
¿Cómo se determina el intervalo de confianza para la media?
Con las formulas 1 y 2 s
m para.n�30 = X �Z a
1 2 n
s
m para.n<30 = X �ta
2 n
2
(n - 1) s2
(n - 1) s 2
�s � 2
2
c a2 c a
, n -1 1- , n -1
2 2 17
p (1 - p)
p = p �Z a
2 n
3
¿cuándo se utiliza el estadístico Z y cuando el estadístico t?

Z es para n>30 y t paran<30 donde n0 numero de muestras.
¿Cómo se determina el intervalo de confianza para las varianzas?

Con la formula 3
¿Cómo se calcula el valor del tamaño de muestra con un error máximo y un nivel de confianza?
5 Z 2a / 2s 2
n=
E2
6 Z 2 ( p )(1 - p )
n = a /2
(Dp ) 2
Ejercicio. Una muestra de 50 bultos de productos pesa en promedio Xmedia = 652.58 Kgs., con S = 217.43
Kgs.
Determinar el intervalo de confianza al NC del 95% y al 99% donde se encuentra la media del proceso
(poblacional).
Alfa = 1 – NC
Test of mu = 652.58 vs not = 652.58
The assumed standard deviation = 217.43
N Mean SE Mean 95% CI Z P

50 652.580 30.749 (592.313, 712.847) 0.00 1.000
Test of mu = 652.58 vs not = 652.58


50 652.580 30.749 (573.375, 731.785) 0.00 1.000
Ejercicio. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de ratones de
laboratorio es
de 0.93 a 1.73 onzas. ¿Cuál es el valor de Z?. =1.282
Ejercicio. 100 latas de 16 onzas de salsa de tomate tienen una media de Xmedia = 15.2 onzas y una S =
0.96 onzas.
¿A un nivel de confianza del 95%, las latas parecen estar llenas con 6 onzas?.
Test of mu = 6 vs not = 6
100 15.2000 0.0960 (15.0118, 15.3882) 95.83 0.000
Ejercicio. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con S = 3.63. Se rechaza
la
solución si el peso promedio del lote no excede las 18 onzas. ¿Cuál es la decisión a un 90% de nivel de
confianza?
Test of mu = 18 vs < 18
18
90%
Upper
N Mean SE Mean Bound Z P
16 16.6000 0.9075 17.7630 -1.54 0.061
One-Sample T
Test of mu = 18 vs < 18
90%
Upper
N Mean StDev SE Mean Bound T P
16 16.6000 3.6300 0.9075 17.8166 -1.54 0.072
Ejercicio.. 20 cajas de producto pesaron 102 grs.Con S = 8.5 grs¿Cuál es el intervalo donde se encuentra
la media del lote para un 90% de nivel de confianza?. Grados de libertad = gl = 20 - 1 = 19
N Mean StDev SE Mean 90% CI T P

20 102.000 8.500 1.901 (98.714, 105.286) 0.00 1.000
Ejercicio. Una muestra de 25 productos tienen un peso promedio de 23.87 grs. Con una S = 9.56. ¿Cuál
es la estimación del intervalo de confianza para un nivel de confianza del 98% del peso de productos del
lote completo?
One-Sample T
Test of mu = 23.87 vs not = 23.87

25 23.8700 9.5600 1.9120 (19.1050, 28.6350) 0.00 1.000
2. Con los datos del problema anterior, determinar el Intevalo de confianza para un 95% de nivel de con
One-Sample T
Test of mu = 23.87 vs not = 23.87

25 23.8700 9.5600 1.9120 (19.9238, 27.8162) 0.00 1.000
Ejemplo: Se toman los siguientes datos de calificaciones:

3 4 8 7 7 6 3 4
6 9 5 4 8 10
a) Determinar el intervalo de confianza para la media con un 95% de nivel de confianza
Variable N Mean StDev SE Mean 95% CI
datos 14 6.00000 2.25320 0.60219 (4.69904, 7.30096)
a) Determinar el intervalo de confianza para la varianza con un 95% de nivel de confianza

Con valores de X2= de Excel=
24.73558
5.008738
(237.2,48.03)
Ejemplo: Los pesos de 25 paquetes enviados a través de UPS tuvieron una media de 3.7 lib
y una desviación estándar de 1.2 libras. Hallar el intervalo de confianza del 95% para
estimar el peso promedio de todos los paquetes. Los pesos de los paquetes se distribuyen normalmente
Test of mu = 3.7 vs not = 3.7


25 3.70000 0.24000 (3.22961, 4.17039) 0.00 1.000
19
¿Cómo se determina el intervalo de confianza para una proporción?
Formula 4
Ejemplo: De 814 encuestados 562 contestaron en forma afirmativa

a) ¿Cuál es el intervalo de confianza para un 90% de nivel de confianza?
Exact
Sample X N Sample p 90% CI P-Value
1 562 814 0.690418 (0.662665, 0.717143) 0.000
Ejemplo: En una encuesta a 673 tiendas, 521 reportaron problemas de robo por los empleados
¿Se puede concluir con un 99% de nivel de confianza que el 78% se encuentra en el intervalo de confianza?
Exact
Sample X N Sample p 99% CI P-Value
1 521 673 0.774146 (0.730004, 0.814331) 0.745
si se encuentra en el intervalo de confianza
Pruebas de hipótesis para una y dos poblaciones
¿Qué es una prueba de hipótesis?

Es una afirmación a comprobar
¿Cómo se puede saber si se inicia con el planteamiento de Ho o de Ha?

Si la hipótesis planteada que contiene el signo de igualdad se denomina
Hipótesis nula Ho (=, >=, <=) y su complemento será la hipótesis alterna Ha
¿Cómo se sabe de cuantas colas o de que tipo de cola es la prueba?
Pruebas de Hipótesis de dos colas:
Ho: a = b
Ha: a ¹ b zonas de rechazo
Zalfa/2 0 Zalfa/2
Pruebas de Hipótesis de cola derecha:

Ho: a £ b
Ha: a > b zona de rechazo
Zalfa
0
Pruebas de Hipótesis cola izquierda:
Ho: a ³ b
Ha: a < b
Zona de rechazo
20
Zalfa 0
¿Cuáles son los pasos para realizar una prueba de hipótesis?

1. Definir el Problema - Problema Práctico
2. Señalar los Objetivos - Problema Estadístico
3. Determinar tipo de datos - Atributo o Variable
4. Si son datos Variables - Prueba de Normalidad
5. Establecer las Hipótesis
- Hipótesis Nula (Ho) - Siempre tiene el signo igual
- Hipótesis Alterna (Ha) – Tiene signos dif., > o <.
6. Seleccionar el nivel de Alfa (normalmente 0.05 o 5%)
7. Establecer el tamaño de la muestra, >= 10.
8.Desarrollar el Plan de Muestreo
9.Seleccionar Muestras y Obtener Datos
10. Decidir la prueba estadística apropiada y calcular el estadístico de prueba (Z, t, X2 or F) a partir
de los datos.
11. Obtener el estadístico correspondiente de tablas o Excel.
12.Determinar la probabilidad de que el estadístico de prueba calculado ocurre al azar.
13.Comparar el estadístico calculado con el de tablas y ver si cae en la región de rechazo o ver si la
probabilidad es
menor a alfa, rechaze Ho y acepte Ha. En caso contrario no rechaze Ho.
14.Con los resultados interprete una conclusión estadística para la solución práctica.
¿Cómo se determina el valor P del estadístico de prueba?

La probabilidad de P corresponde a Z o al estadístico de prueba de tablas o el calculado con Excel.
¿Cómo se selecciona el estadístico de prueba a usar (Z, t, Chi cuadrada, F)?

Depende del tipo de prueba a realizar, e incluso (caso de t) del tamaño de la muestra.
21
Ejercicio: Las ganancias promedio por acción en 2001 fueron de 3 dolares, muestra de 10
empresas mostraron las siguientes ganancias para 2002:
1.92 2.16 3.63 3.16 4.02 3.14 2.20 2.34
3.05 2.38
a) Para un alfa de 0.05 probar la afirmación de que estas ganancias difieren de los 3 dolares del 2001
Variable N Mean StDev SE Mean 95% CI T P
ganancias 10 2.80000 0.70056 0.22154 (2.29885, 3.30115) -0.90 0.390
no se rechaza la igualdad de las ganancias en 3
b) ¿Cuál es el valor p de la prueba?

Donde t=2.2622 de tablas con alfade 0.025,gl=9)
Ejercicio: Un trabajo supuestamente toma 15 minutos. El supervisorX = preocupado

está 4,477, S =porque
1,128
piensa que con trabajadores no entrenados, este tiempo es mayor. Al tomar una
muestra de 20 trabajadores se halla una media de 17.3 minutos y s=1.9 minutos
¿A un 1% de alfa, tiene razón el supervisor de que el tiiempo ha aumentado?.
Test of mu = 15 vs > 15
99%
Lower
20 17.3000 1.9000 0.4249 16.2211 5.41 0.000
t tablas= .01,19=2.539 se rechaza Ho , el tiempo ha aumentado.
Ejercicio: Antes de publicar un libro, BANTAM, hace una prueba a un nivel alfa = 2% de que el precio
promedio es de $35.¿Se sustenta la afirmación si en una muestra de n = 50 tiendas, se observa
X = 32.97, S = 12.87.

50 32.9700 1.8201 (28.7358, 37.2042) -1.12 0.265
no se rechaza Ho, se sustenta la afirmación del precio promedio.
Ejercicio: Se planea en un restaurante eliminar del menú el pollo frito. Se afirma que las ventas habían
descendido por debajo de la media histórica de $4,500. ¿parece una decisión adecuada si en una
muestra de n = 144 observaciones se observa con alfa=2%
Test of mu = 4500 vs < 4500

The assumed standard deviation = 1128
98%
Upper
144 4477.00 94.00 4670.05 -0.24 0.403
no se rechaza Ho , no han descendido las ventas
Ejercicio: Se publica que el costo de alojamiento es menor a $3,500. ¿se confirma esta cifra a un nivel
22
del 5%, si en una muestra n=60 X = $3,200, S = $950.
Test of mu = 3500 vs < 3500
The assumed standard deviation = 950
95%
Upper
60 3200.00 122.64 3401.73 -2.45 0.007
comp P es menor que alfa se rechaza Ho, se acepta que el costo del alojamiento es menor
Ejercicio: Un distribuidor piensa que el promedio de sus ventas son de $12,000 al mes. Selecciona 10 meses
y encuentra a un alfa del 5% ¿Qué se puede concluir?
X = $11,277, S = 3,772
Test of mu = 12000 vs not = 12000

10 11277.0 3772.0 1192.8 (8578.7, 13975.3) -0.61 0.559
como p es mayor que alfa/2 no se rechaza Ho el promedio de sus ventas es correcto
Ejercicio: La vida útil de un foco es de 5,000 horas. Un nuevo diseño se piensa incremente esta vida. Se
Prueban n=25 focos con fusión a Concluir para un nivel alfa del 5%
X = 5,117 , S = 1,886.
Test of mu = 5000 vs > 5000
95%
Lower
25 5117.00 1886.00 377.20 4471.66 0.31 0.380
no se rechaza Ho , la vida util de los focos es <= a 5000hrs.
Ejercicio: DHL afirma que entrega paquetes en menos de 2.5 días que es la media histórica. Se
hacen n=17 observaciones y se encuentra que X = 2.2, S = 0.9 días. Probar con alfa = 0.01.
Test of mu = 2.5 vs < 2.5
99%
Upper
17 2.20000 0.90000 0.21828 2.76393 -1.37 0.094
P es mayor que alfa no se rechaza Ho, las entregas son igual o mayores a 2.5 días
¿Cómo se realiza una prueba de hipótesis de varianzas?

Con el estadístico 2
s1
Fc =
s22
con las hipótesis (por ejm) Ho : s 12 = s 22
o con la X`2=(n-1)S´ 2/ sima¨2

Ha : s 12 ¹ s 22
Ejercicio: Probar la afirmación de que la varianza es menor a 15, si se toma una muestra de 8 partes y se
obtiene una desviación estándar de 8 para un 95% de nivel de confianza.
Datos n=8 S=8, X2 calc=2.986
Ho: varianza>=15
Ha: varianza<15
X´2 de tablas=2.17
No se rechaza Ho, la varianza no es menor a 15
¿Cómo se realiza una prueba de hipótesis para prueba de parámetros de dos poblaciones?
Con los estadísticos
X1 - X 2 d
X1 - X 2 tc = tc =
Zc = s 2
s 3 sd
s12 s23 
p p
n
 n1 n2
n1 n2
23
p1 - p2
Zc =
p1 (1 - p1 ) p2 (1 - p2 )

n1 n2
¿por qué es necesario hacer una prueba de igualdad de varianzas antes de la prueba t?
los cálculos son realizados de manera diferente, es necesario hacer la previa determinación.
¿Cómo se realiza una prueba de hipótesis para varianzas de dos poblaciones? Ho : s 12 = s 22

con el estadístico: s2
Fc = 1
2
s
2
Ejercicio: Se desea probar si las varianzas de dos poblaciones son iguales
a un nivel alfa del 5% con los datos siguientes:
n1 = n2 = 10 S12 = 237.16 S 22 = 148.84

Fc= 1.5933
Fexcel= F(0.025,9,9)=4.02599198
No se rechaza Ho las varianzas son iguales
Ejercicio: Probar a un nivel de significancia del 5% si las varianzas o variabilidad de dos diferentes
métodos de producción son iguales o no. 15 CDs producidos con el primer método reportan una desv.
Estándar
S = 5.4 minutos y 17 reproductores con el segundo método reportan una S = 4.8 minutos.
Fcal =1.2656
Fexcel= 2.97859515
No se rechaza Ho las variables son iguales
Ejercicio: Un laboratorio de materiales está analizando el efecto del añejamiento de un producto, quieren
saber si hay mejora en la consistencia de resistencia después de un año (asumir un 95% de nivel de
confianza).
Los resultados obtenidos son: Al inicio Un año después
Número de pruebas 9 7
Desv. Estándar PSI 900 300
Fcal= 9
Fexcel= 5.59964519
No se rechaza Ho, las varianzas son iguales.
Ejercicio: Dos muestras consistentes de 10 y 8 mediciones respectivamente tuvieron varianzas de 7.14 y

3.21
respectivamente. ¿Hay suficiente evidencia para afirmar que las varianzas no son iguales?. Usar un alfa de
0.10.
Fcal=2.2243
Fexcel= 3.67667496
No se rechaza Ho las varianzas son iguales
s
¿Cómo se hace una pruebamde .n �30 = X para
parahipótesis �Z a dos medias, cuando usar Z y cuando usar t?
formula 1 ay 2a 2 n
s
1a m para .n <30 = X �ta
2 n
2a
(n - 1) s 2
(n - 1) s 2
�s � 2
2
c a2 c a
, n -1 1- , n -1
2 24
2
p (1 - p)
p = p �Z a
2 n
3a
4a
Ejercicio: Se toman muestras de tamaño n1 = 50 y n2 = 60, revelan medias y desviaciones estándar

respectivamente. A un nivel del 2% pruebe la hipótesis de que las medias de ambas poblaciones son
iguales
X 1 = 512 S1 = 125 X 2 = 587 S 2 = 145 Ho : m1 = m 2 o m1 - m 2 = 0
comparando varianzas
Fcal= 1.3456
Fexcel= 1.9214
No se rechaza Ho, se asume que las varianzas son iguales.
Con minitab
98% Bonferroni confidence intervals for standard deviations
Sample N Lower StDev Upper

1 60 116.937 145 188.881
2 50 98.928 125 167.622
F-Test (normal distribution)

Test statistic = 1.35, p-value = 0.287
Two-Sample T-Test and CI
SE
Sample N Mean StDev Mean
1 60 587 145 19
2 50 512 125 18
Difference = mu (1) - mu (2)

Estimate for difference: 75.0000
98% CI for difference: (13.3739, 136.6261)
T-Test of difference = 0 (vs not =): T-Value = 2.87 P-Value = 0.005 DF = 108
Both use Pooled StDev = 136.2901
En el intervalo esta el cero, no se rechaza Ho, se acepta la igualdad de medias.

de que las medias de ambas poblaciones son iguales a un nivel del 5% pruebe la hipótesis de
que las medias de ambas poblaciones son iguales
X 1 = 65.2 S1 = 21.2 X 2 = 58.6 S 2 = 25.3
prueba de varianzas
Test for Equal Variances Ho : m1 = m 2 o m1 - m 2 = 0

1 81 21.4795 25.3 30.6911
2 64 17.6597 21.2 26.4220

No se rechaza Ho, las varianzas son iguales
25
Two-Sample T-Test and CI
Sample N Mean StDev SE Mean
1 64 65.2 21.2 2.7
2 81 58.6 25.3 2.8

95% CI for difference: (-1.19589, 14.39589)
T-Test of difference = 0 (vs not =): T-Value = 1.67 P-Value = 0.096 DF = 143
Según el IC y Pvalue, se asume que las medias son iguales.

respectivamente. A un nivel del 1% pruebe la hipótesis de que las medias de ambas poblaciones son
iguales
Se asume que las varianzas son iguales Ho : m1 = m 2 o m1 - m 2 = 0
1 X = 36 S = 12 X = 49 S = 18
1 2
99% Bonferroni confidence intervals for2 standard deviations

1 8 10.1441 18 53.4298
2 10 7.1343 12 29.8949

Según Pvalue se asume igualdad de varianzas
Two-Sample T-Test and CI asumiendo desigualdad de varianzas

1 10 36.0 12.0 3.8
2 8 49.0 18.0 6.4

Estimate for difference: -13.0000
T-Test of difference = 0 (vs not =): T-Value = -1.75 P-Value = 0.107 DF = 11
Se assume igualdad de medias.
Ejercicio: Repetir el problema anterior asumiendo que las varianzas son iguales.
Two-Sample T-Test and CI asumiendo igualdad de varianzas
1 10 36.0 12.0 3.8
2 8 49.0 18.0 6.4

T-Test of difference = 0 (vs not =): T-Value = -1.84 P-Value = 0.085 DF =
16
Según CI, Pvalue, se asume igualdad de medias
Ejercicio: Probar si un nuevo programa da mejores resultados en las horas promedio de terminación de
un proyecto para un nivel de confianza del 95%:
Programa
actual nuevo a) Probar la hipótesis de igualdad de varianzas (Ho:s12=s22)
26
300 276
280 222 b) Probar la hipótesis ( t) de si la media del nuevo programa
344 310 es menor que la del actual (Ha: Miu nuevo < Miu actual)
385 338
372 200
360 302
288 317
321 260
376 320
290 312
301 334
283 265
Test for Equal Variances: actual, nuevo

N Lower StDev Upper

actual 12 27.0456 39.9955 73.9320
nuevo 12 29.7522 43.9979 81.3306

Levene's Test (any continuous distribution)

Se asume igualdad de varianzas

Two-Sample T-Test and CI: nuevo, actual con igualdad de varianzas
Two-sample T for nuevo vs actual
SE
N Mean StDev Mean
nuevo 12 288.0 44.0 13
actual 12 325.0 40.0 12
Difference = mu (nuevo) - mu (actual)

95% upper bound for difference: -7.5260
T-Test of difference = 0 (vs <): T-Value = -2.16 P-Value = 0.021 DF = 22
Pvalue<0.05 se rechaza Ho se acepta que la media de nuvo es menor a la
Media de actual.
¿Cómo se realiza una prueba de hipótesis para muestras pareadas, cuando usar Z y cuando usar
t?
con formula A
A t=
d
; Pares.de.medias; d . para.cada. par
i
Sd / n
B (n - 1) S 2
X2 = ; DF = (n - 1); prueba.una.v ar ianza
s2
C (O - E ) 2
X2 =� ; DF = (r - 1)(c - 1); bondad .ajuste
E
Se usa el estadístico t para pruebas pareadas
27
Ejercicio: Muestras pareadas de tamaño n = 81 dan una media de las diferencias de 36.5 y una desviación
estándar de las diferencias de 29.1. Probar la igualdad de las medias a un alfa de 0.01.
d=36.5 n=81
Sd=29.1 alfa=0.01
Paired T-Test and CI
N Mean StDev SE Mean
Difference 81 36.5000 29.1000 3.2333
99% CI for mean difference: (27.9682, 45.0318)

T-Test of mean difference = 0 (vs not = 0): T-Value = 11.29 P-Value = 0.000
Pvalue<alfa/2 se rechaza Ho se acepta la desigualdad en las medias.
Ejercicio: Muestras pareadas de tamaño n = 25 dan una media de las diferencias de 45.2 y una
desviación estándar de las diferencias de 21.6. Probar la igualdad de las medias a un alfa del 5%.
Paired T-Test and CI

N Mean StDev SE Mean
Difference 25 45.2000 21.6000 4.3200
95% CI for mean difference: (36.2840, 54.1160)

T-Test of mean difference = 0 (vs not = 0): T-Value = 10.46 P-Value = 0.00
Se rechaza Ho, existe diferencia en las medias
¿Cómo se realiza una prueba de hipótesis para proporciones de dos poblaciones?

Estadístico Error standar
p1 - p2
Zc = p1 (1 - p1 ) p2 (1 - p2 )
p1 (1 - p1 ) p2 (1 - p2 ) s p1- p 2 = 
 n1 n2
n1 n2
Intervalo de Confianza: ( p1 - p2 )  Za / 2 s p1- p 2
29. Muestras de tamaño n1 = 120 y n2 = 150 produjeron proporciones de p1= 0.69 y p2 = 0.73.
Pruebe la igualdad de las proporciones de las poblaciones a un nivel del 5%.
Test and CI for Two Proportions Ho : p 1 = p 2

Sample X N Sample p
1 83 120 0.691667
2 110 150 0.733333
Difference = p (1) - p (2)

Test for difference = 0 (vs not = 0): Z = -0.75 P-Value = 0.453
No se rechaza Ho se acepta igualdad de proporciones
Ejercicio: Los errores de facturación de dos oficinas

regionales dieron los resultados siguientes: Oficina 2
Oficina 1 n2 = 300 Nivel de confianza = 95%
n1 = 250 errores = 25
errores = 30
a) Probar la afirmación de que las proporciones de errores en ambas oficinas son iguales
Test and CI for Two Proportions Ho : p 1 = p 2

Sample X N Sample p
1 30 250 0.120000
28
2 25 300 0.083333

Test for difference = 0 (vs not = 0): Z = 1.41 P-Value = 0.159
No se rechaza Ho se acepta la igualdad de las proporciones
Ejercicio: Dos muestras de tamaño n1 = n2 = 500 se utilizan para probar la hipótesis de que .
Las proporciones muestrales son p1 = 14% y p2 = 11%. A un nivel del 10%. ¿Cuál es la conclusión?.
Ho : p 1 £ p 2
Test and CI for Two Proportions
Sample X N Sample p
1 70 500 0.140000
2 55 500 0.110000

90% lower bound for difference: 0.00322201
Test for difference = 0 (vs > 0): Z = 1.44 P-Value = 0.076
Se rechaza Ho se acepta que la proporción 1 es mayor que la 2
Ejercicio: Dos muestras de tamaño n1 = 200 y n2 = 250 se utilizan para probar la hipótesis de que .
Las proporciones muestrales son p1 = 22% y p2 = 26%. A un nivel del 1%. ¿Cuál es la conclusión?.
Ho : p 1 ³ p 2
Test and CI for Two Proportions
Sample X N Sample p
1 44 200 0.220000
2 65 250 0.260000

99% upper bound for difference: 0.0538531
Test for difference = 0 (vs < 0): Z = -0.99 P-Value = 0.161
No se rechaza Ho se asume que la proporción 1 es mayor o igual que la proporción 2
Tablas de contingencia
¿Qué es una tabla de contingencia?
Es un arreglo de dos vias de renglones y columnas que contiene frecuencias originales que pueden ser analizadas o de
dos variables independientes que pueden tener un significado de asociación.
se utiliza
1. Para probar si una serie de datos observada, concuerda con el modelo (serie esperada) de la información.
2. Para probar las diferencias entre las proporciones de varios grupos (tabla de contingencia).
Donde Ho: No hay diferencia
Ha: Hay diferencia
¿Cómo se calculan las probabilidades para cada celda de la tabla de contingencia?

Con la formula C antes mencionada
¿Cómo se prueba la hipótesis de independencia en la tablas de contingencia?

Con el estadístico chi cuadrada y las hipótesis
Ho: No hay diferencia, Ha: Hay diferencia
siX2 =0 teóricamente la frecuencia observada esta en acuerdo.
29
Ejemplos:
Ejemplo: Probar la hipótesis si no hay diferencia significativa entre los 3 inspectores con los datos siguientes:
Inspectores
Resultados 1 2 3
Radios detectados 27 25 22
Radios no detectados 3 5 8
Inspectores totales
Resultados 1 2 3
Radios det 27 25 22 74
Rad No det 3 5 8 16
totales 30 30 30 90 grantotal
Frecuencias
esperadas
24.66667 24.66667 24.66667
5.333333 5.333333 5.333333
Aplicando el
estadístico
0.220721 0.004505 0.288288 0.513514
1.020833 0.020833 1.333333 2.375
SUMA 2.888514 X^2
Alfa/2=0.01
X^2= X^2(0.01,2)= 9.210351
Como X^2cal< X^2excel, no rechazo Hoy decimos que no hay diferencia de resultados
Con minitab
ins1 ins2 insp3 Total

1 27 25 22 74
24.67 24.67 24.67
0.221 0.005 0.288
2 3 5 8 16
5.33 5.33 5.33
1.021 0.021 1.333
Total 30 30 30 90
Chi-Sq = 2.889, DF = 2, P-Value = 0.236

Como Pvalue>alfa/2 no se rechaza Ho, y decimos que no hay diferencia en resultados
Ejemplo: Probar si los resultados en el trato de una enfermedad depende del hospital
Ho: el trato no depende del hospital
Ha: el trato dependen del hospital
Hospital
Resultados A B D E
Sin cambio 15 6 8 44
Ligera mejo- 20 11 39 30
Mejora sign 18 19 38 9
donde
30
Hospital
A B D E TOTALES
15 6 8 44 73
20 11 39 30 100
18 19 38 9 84
TOTALES 53 36 85 83 257
Frecuencias esperadas
15.05447 10.22568 24.14397 23.57588

20.62257 14.00778 33.07393 32.29572
17.32296 11.76654 27.7821 27.1284
Aplicando la formula del estadístico X^2
0.000197 1.746229 10.79473 17.69372 30.23488

0.018795 0.645838 4.52958 0.303964 1.889634
0.026461 4.446762 3.758012 12.11421 20.34544
suma
X`2= 52.46995
X^2= X^2(0.01,6) = 16.81187

Como X^2 cal > X^2 excel Ho se rechaza, el trato depende del hospital.
Con
A B D E Total
1 15 6 8 44 73
15.05 10.23 24.14 23.58
0.000 1.746 10.795 17.694
2 20 11 39 30 100
20.62 14.01 33.07 32.30
0.019 0.646 1.062 0.163
3 18 19 38 9 84
17.32 11.77 27.78 27.13
0.026 4.447 3.758 12.114
Total 53 36 85 83 257
Chi-Sq = 52.470, DF = 6, P-Value = 0.000

Se confirma con Pvalue<alfa/2 el trato depende delhospital
Análisis de varianza
¿Para que sirve el análisis de varianza (ANOVA)?

El análisis de la varianza de un criterio (ANOVA) es una metodología para analizar la variación entre muestras y la
interior de las mismas mediante la determinación de varianzas. Es llamado de un criterio porque analiza un variable ind
o Factor ej: Velocidad. Como tal, es un método estadístico útil para comparar dos o más medias poblacionales. El AN
criterio nos permite poner a prueba hipótesis tales como:
H 0 = m1 = m 2 = m 3 = .... = m k
H 1 : Al menos dos medias poblacionales son diferentes.
¿Qué condiciones se deben cumplir para que sea válido este análisis?
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes son:
31
1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es, s 12 = s 22 .
Como el ANOVA de un criterio es una generalización de la prueba de t para dos muestras, los supuestos para el ANOVA
son:
1. Todas las poblaciones k son normales.
2. s 12 = s 22 = s 32 = ..... = s k2  = s 2 
de manera general.
 Todas las poblaciones son normales
 Todas las poblaciones tiene la misma varianza
 Los errores son independientes con distribución normal de media cero
 La varianza se mantiene constante para todos los niveles del factor
¿A que se le llama factor y que son los niveles o tratamientos?

Es el efecto a investigar y sus niveles son los parámetros internos del mismo.
¿Cómo se determinan e interpretan los siguientes términos en el ANOVA?

- Suma de cuadrados total; Suma de cuadrados de los tratamientos; Suma de cuadrados del error
- Grados de libertad totales, de los tratamientos y del error
- Cuadrados medios totales, de los tratamientos y del error
- Estadístico de prueba F
r c 2
i =1
 ( Xij - X )
j =1
r
SCE = 
c
(X ij - X j )2
SCT = i =1 j =1
r
SCTR =  rj ( X j - X ) 2
j =1
. El estadístico tiene una distribución muestral resultando:

s b2
F=
s w2
El valor crítico para la prueba F es:
Fa ( k - 1, k ( n - 1))
Grados de libertad:
Gl. Totales = n – 1
Gl. Tratamientos = c -1
Gl. Error = n – c
Cuadrados medios (MS o CM):

CMT = SCT / Gl. SCT
CMTr = SCTr / Gl. SCTr
CME = SCE / Gl. SCE
Estadístico calculado Fc:

Fc = CMTr / CME
P value = distr.f (Fc, Gl. CMtr, Gl. CME)
F crítica de tables o Excel = distr.f.inv(alfa, Gl. CMT, Gl. CME)
¿qué criterio se sigue para tomar decisiones en relación a la igualdad de medias?
32
Si P es menor a alfa o Fc es mayor a Ft se rechaza Ho indicando que los efectos de los diferentes niveles del factor tien
la respuesta.
¿En caso de rechazo de la hipótesis nula, cómo se identifican las medias que no son iguales?
Si las medias son diferentes se puede aplicar la prueba de Tukey o DMS
Ejercicio: Se tienen 14 empleados seleccionados al azar que se someten a

3 diferentes cursos de entrenamiento: Programa 1, Programa 2 y Prog. 3.
Probar a un 5% de significancia si los programas tienen el mismo efecto o cual es mejor
Programa 1 Programa 2 Programa 3

85 80 82
72 84 80
83 81 85
80 78 90
** 82 88
Probability Plot of Programa 1

Normal Probability Plot of Programa 2
99 Normal
Mean 80
StDev 5.715 99
Mean 81
95 N 4 StDev 2.236
AD 0.296 95 N 5
90
P-Value 0.375 AD 0.139
90
80 P-Value 0.928
70 80
Percent
60 70
Percent
50 60
40 50
40
30
30
20
20
10
10
5
5
1 1
70 75 80 85 90 95 75.0 77.5 80.0 82.5 85.0 87.5
Programa 1 Programa 2
Probability Plot of Programa 3

Normal
99
Mean 85
StDev 4.123
95 N 5
AD 0.180
90
P-Value 0.826
80
70
Percent
60
50
40
30
20
10
1
75 80 85 90 95
Programa 3
analizando las graficas, las muestras vienen de poblaciones normales
33
Residual Plots for Programa 1, Programa 2, Programa 3
99
5
90
Residual
Percent
0
50
10 -5
1
-10 -5 0 5 10 80 82 84
Histogram of the Residuals

4
3
Frequency
0
-8 -6 -4 -2 0 2 4 6
Residual
se valida el modelo con la grafica de residuales
One-way ANOVA: Programa 1, Programa 2, Programa 3
Source DF SS MS F P
Factor 2 65.7 32.9 1.94 0.189
Error 11 186.0 16.9
Total 13 251.7
Como P es mayor a 0.05,se rechaza Ho Los programas 1,2 y3 no tienen efecto en la respuesta
S = 4.112 R-Sq = 26.11% R-Sq(adj) = 12.67%
Individual 95% CIs For Mean Based on

Pooled StDev
Level N Mean StDev ----+---------+---------+---------+-----
Programa 1 4 80.000 5.715 (------------*------------)
Programa 2 5 81.000 2.236 (----------*-----------)
Programa 3 5 85.000 4.123 (-----------*----------)
----+---------+---------+---------+-----
77.0 80.5 84.0 87.5
Pooled StDev = 4.112
Los intervalos se pueden translapar, por lo tanto sus efectos no son diferentes.
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 97.94%
Programa 1 subtracted from:
Lower Center Upper --------+---------+---------+---------+-

Programa 2 -6.451 1.000 8.451 (------------*-----------)
Programa 3 -2.451 5.000 12.451 (-----------*------------)
--------+---------+---------+---------+-
-6.0 0.0 6.0 12.0
Programa 2 subtracted from:
Lower Center Upper --------+---------+---------+---------+-

Programa 3 -3.025 4.000 11.025 (-----------*----------)
--------+---------+---------+---------+-
-6.0 0.0 6.0 12.0
Como el cero pertenece al intervalo de confianza de las diferencias entre programas, se concluye que no hay d
estos niveles.
Residuales y valore estimados para Y
RESI1 RESI2 RESI3 FITS1 FITS2 FITS3
34
5 -1 -3 80 81 85
-8 3 -5 80 81 85
3 0 0 80 81 85
0 -3 5 80 81 85
* 1 3 80 81 85
Ejercicio: La resistencia a la tensión observada en función del peso porcentual del algodón en
una fibra sintética es:
Probar a un 5% de significancia si los porcentajes de algodón tienen el mismo efecto o cual es mejor
Peso porcentual del algodón
15% 20% 25% 30% 35%
7 12 14 19 7
7 17 18 25 10
15 12 18 22 11
11 18 19 19 15
9 18 19 23 11
Normal Probability Plot of the Residuals

(responses are 15, 20, 25, 30, 35%)
99
95
90
80
70
Percent
60
50
40
30
20
10
1
-7.5 -5.0 -2.5 0.0 2.5 5.0
Residual
según grafica de residuos, el modelo es valido
One-way ANOVA: 15%, 20%, 25%, 30%, 35%

Source DF SS MS F P
Factor 4 475.76 118.94 14.76 0.000
Error 20 161.20 8.06
Total 24 636.96
Como P es < de 0.05 se rechaza Ho los porcentajes tienen efecto en la respuesta
S = 2.839 R-Sq = 74.69% R-Sq(adj) = 69.63%

Pooled StDev
Level N Mean StDev ------+---------+---------+---------+---
15% 5 9.800 3.347 (-----*----)
20% 5 15.400 3.130 (----*----)
25% 5 17.600 2.074 (----*----)
30% 5 21.600 2.608 (----*----)
35% 5 10.800 2.864 (-----*----)
------+---------+---------+---------+---
10.0 15.0 20.0 25.0
No se pueden traslapar los intervalos de confianza de los niveles del factor, por lo tanto no hay diferencias sign
35
sus efectos, solo notamos que entre el 20 y 25% se pueden traslapar mostrando diferencias.
15% subtracted from:
Lower Center Upper ------+---------+---------+---------+---

20% 0.229 5.600 10.971 (-----*----)
25% 2.429 7.800 13.171 (-----*----)
30% 6.429 11.800 17.171 (-----*----)
35% -4.371 1.000 6.371 (----*----)
------+---------+---------+---------+---
-10 0 10 20

25% -3.171 2.200 7.571 (----*-----)
30% 0.829 6.200 11.571 (----*-----)
35% -9.971 -4.600 0.771 (----*-----)
------+---------+---------+---------+---
-10 0 10 20

30% -1.371 4.000 9.371 (----*----)
35% -12.171 -6.800 -1.429 (----*-----)
------+---------+---------+---------+---
-10 0 10 20
Lower Center Upper

------+---------+---------+---------+---
35% -16.171 -10.800 -5.429
(----*-----)
------+---------+---------+---------+---
-10 0 10 20
se observa que el cero no pertenece a todos los intervalos de confianza de todas las diferencias y
en las que existe diferencia entre sus efectos en su respuesta. Pero:
Notar que algunas diferencias si contienen el cero como:
15-20 25-30
15-35 30-35
20-25
20-35
por lo que en ellas no hay diferencia.
los residuales
RESI4 RESI5 RESI6 RESI7 RESI8 FITS4 FITS5 FITS6 FITS7 FITS8
-2.8 -3.4 -3.6 -2.6 -3.8 9.8 15.4 17.6 21.6 10.8
-2.8 1.6 0.4 3.4 -0.8 9.8 15.4 17.6 21.6 10.8
5.2 -3.4 0.4 0.4 0.2 9.8 15.4 17.6 21.6 10.8
1.2 2.6 1.4 -2.6 4.2 9.8 15.4 17.6 21.6 10.8
-0.8 2.6 1.4 1.4 0.2 9.8 15.4 17.6 21.6 10.8
Ejercicio: ¿Parecería que hay diferencia en los salarios que ganan los nuevos graduados en diferentes campos?
Probar esta hipótesis al 5%
Finanzas Mercadotec, Sist. Inform. Matematicas

23.2 22.1 23.3 22.2
24.7 19.2 22.1 22.1
24.2 21.3 23.4 23.2
36
22.9 19.8 24.2 21.7
25.2 17.2 23.1 20.2
23.7 18.3 22.7 22.7
24.2 17.2 22.8 21.8

(responses are Finanzas, Mercadotec,, Sist. Inform., Matematicas)
99
95
90
80
70
Percent
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
Residual
se asume la normalidad de los datos

One-way ANOVA: Finanzas, Mercadotec,, Sist. Inform., Matematicas
Source DF SS MS F P
Factor 3 87.42 29.14 20.69 0.000
Error 24 33.81 1.41
Total 27 121.23
Como P<alfa los efectos son significativos
S = 1.187 R-Sq = 72.11% R-Sq(adj) = 68.63%

Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
Finanzas 7 24.014 0.811 (----*----)
Mercadotec, 7 19.300 1.911 (----*---)
Sist. Inform. 7 23.086 0.657 (---*----)
Matematicas 7 21.986 0.944 (----*----)
--------+---------+---------+---------+-
20.0 22.0 24.0 26.0
solo se traslapan 3 categorias de graduados, (quedando fuera las finanzas)por
tanto sus efectos no son diferentes

Finanzas subtracted from:
Lower Center Upper

Mercadotec, -6.464 -4.714 -2.965
Sist. Inform. -2.678 -0.929 0.821
Matematicas -3.778 -2.029 -0.279
--+---------+---------+---------+-------
Mercadotec, (-----*-----)
Sist. Inform. (-----*-----)
Matematicas (-----*-----)
37
--+---------+---------+---------+-------
-6.0 -3.0 0.0 3.0
Mercadotec, subtracted from:
Lower Center Upper --+---------+---------+---------+-------
Sist. Inform. 2.036 3.786 5.535 (-----
*----)
Matematicas 0.936 2.686 4.435 (-----*-----)
--+---------+---------+---------
+-------
-6.0 -3.0 0.0 3.0
Sist. Inform. subtracted from:
Lower Center Upper --+---------+---------+---------+-------
Matematicas -2.849 -1.100 0.649 (----*-----)
--+---------+---------+---------+-------
-6.0 -3.0 0.0 3.0
el cero no pertenece a la mayoria de las categoría de los graduados (solo para las diferencias finanzas
y sist. De información, y sist. De información y matematicas), existen diferencias en las categorías de
salarios.
Ejercicio: Interpretar los resultados del problema siguiente:

(responses are MUESTRA 1, MUESTRA 2, MUESTRA 3)
99
95
90
80
70
Percent
60
50
40
30
20
10
1
-15 -10 -5 0 5 10
Residual
Muestra 1 Muestra 2 Muestra3

93 77 88
98 87 75
107 84 73
102 95 84
85 75
82
One-way ANOVA: MUESTRA 1, MUESTRA 2, MUESTRA 3

Source DF SS MS F P
Factor 2 1020.0 510.0 13.36 0.001
Error 12 458.0 38.2
Total 14 1478.0
S = 6.178 R-Sq = 69.01% R-Sq(adj) = 63.85%

Pooled StDev
Level N Mean StDev -------+---------+---------+---------+--
MUESTRA 1 4 100.00 5.94 (------*------)
38
MUESTRA 2 6 85.00 5.97 (----*----)
MUESTRA 3 5 79.00 6.60 (-----*-----)
-------+---------+---------+---------+--
80 90 100 110
Preguntas
a) ¿Es adecuado el modelo?
La grafica muestra que el modelo es valido
Los efectos tienen sentido
b) ¿Son iguales las medias?
Solo se pueden traslapar las muestras dos y tres por lo que estas muestras no representan
diferencias significativas en sus efectos
c) ¿Cuál media es mayor?
La muestra uno.
¿Qué es el analisis de varianza de dos vias o direcciones?

Se trata de bloquear un factor externo que probablemente tenga un efecto en la respuesta,
pero que no hay interes en probar su influencia, sólo se bloque para eliminar la variabilidad
de este factor externo, evitando que contamine la prueba de igualdad entre los tratamientos.
¿Qué significa el término bloqueo del experimento?

Los tratamientos se asignan a las columnas y los bloques a los renglones. Un bloque indica
condiciones similares de los sujetos al experimentar con diferentes tratamientos.
¿Qué término se agrega a la tabla ANOVA normal cuando se usan dos vías?
 La SCT y SCTr (renlgones) se determina de la misma forma que para la ANOVA de
una dirección o factor
 En forma adicional se determina la suma de cuadrados del factor de bloqueo
(columnas) de forma similar a la de los renglones
 La SCE = SCT – SCTr - SCBl
Ejercicio: Interpretar los resultados de un experimento de un factor con dos direcciones:
Suponiendo que se quiere investigar si la producción de tres diferentes máquinas

es igual, tomando en cuenta la experiencia de los operadores a un nivel de significancia del 5%.
Experiencia
en años de los Máquinas
operadores Maq 1 Maq 2 Maq 3
1 27 21 25
2 31 33 35
3 42 39 39
4 38 41 37
5 45 46 45

(response is Respuesta)
99
a) ¿Es adecuado el modelo?

95
90 Si es adecuado
80
70
b) A un 95% de nivel de confianza que se
puede concluir en relación con la experiencia
Percent
60
50
40
30
de los operadores
20
10
1
-4 -3 -2 -1 0 1 2 3 4 5 39
Residual
que las diferencias entre los operadores son
significativas.
b) A un 95% de nivel de confianza que se

puede concluir en relación con la máquina
una vez que se toma en cuenta la
experiencia del operador
las maquinas no presentan diferencias significativas
entre si.
Two-way ANOVA: Respuesta versus Renglon, Columna

Source DF SS MS F P
Renglon 4 764.933 191.233 37.25 0.000
Columna 2 0.933 0.467 0.09 0.914
Error 8 41.067 5.133
Total 14 806.933
S = 2.266 R-Sq = 94.91% R-Sq(adj) = 91.09%
Individual 95% CIs For Mean Based

Individual 95% CIs For Mean Based on Pooled on
StDev Pooled StDev
Columna Mean ------+---------+---------+---------
Renglon Mean +---------+---------+---------+--------- +-
1 24.3333 (----*---) 1 36.6 (---------------*---------------)
2 33.0000 (---*---) 2 36.0 (---------------*---------------)
3 40.0000 (---*---) 3 36.2 (--------------*---------------)
4 38.6667 (---*----) ------+---------+---------+---------+---
5 45.3333 (----*---) 34.5 36.0 37.5 39.0
+---------+---------+---------+---------
21.0 28.0 35.0 42.0
existe diferencias significativas con el operario 1 y 5 No existe diferencia significativa entre maquinas
Pruebas de hipótesis no paramétricas
¿Cuándo es mejora aplicar una prueba de hipótesis no paramétrica?

Revise y asegúrese de que los datos no siguen una distribución normal.
• Desarrollar una Prueba de normalidad (para verificar realmente lo anormal. Para la prueba de B
valor de p debe ser < 0.05)
• Desarrollar una Prueba de Corridas (para verificar que no existen sucesos no aleatorios que pu
haber distorsionado la información)
• Revisar la información para detectar errores (tipográficos, etc.). Investiguar los valores atípicos.
• Una muestra pequeña (n < 30) proveniente de un universo normal, se mostrará algunas veces co
anormal.
Intentar transformar los datos. Las transformaciones comunes incluyen:

- Raíz cuadrada de todos los datos
- Logaritmo de todos los datos
- Cuadrado de todos los datos
40
• Si la información es todavía anormal, entonces usar las herramientas no paramétricas.
¿Qué desventajas tiene vs las pruebas paramétricas?

Implica que no se asuma una especifica distribución de la población.
¿Para que sirve y cómo se utiliza la prueba de Signos?

• Prueba de signos, de 1 muestra : Prueba la probabilidad de que la mediana de la muestra, sea
al valor hipotético. Es analoga con la
• Prueba t de una muestra
Ho : La mediana de la muestra es igual a la mediana de la hipótesis

Ha : Las medianas son diferentes
Ejemplo (usando los datos del ejemplo anterior):
Ho: Valor de la mediana = 115.0

Ha: Valor de la mediana diferente de 115.0
N DEBAJO IGUAL ENCIMA VALOR P MEDIANA

29 12 0 17 0.4576 144.0
Ya que p >0.05, no se puede rechazar la hipótesis nula.
No se puede probar que la mediana real y la mediana hipotética son diferentes.
Price index values for 29 homes in a suburban area in the Northeast were determined. Real estate records
indicate the population median for similar homes the previous year was 115. This test will determine if there is
sufficiente evidence for judging if the median price index for the homes
Sign Test for Median: PriceIndex a) ¿qué podemos concluir con estos resultados?
P=0.2291>0.05 no se rechaza Ho, No se puede pr
la mediana real y la mediana hipotética son diferen
Sign test of median = 115.0 versus > 115.0
N Below Equal Above P Median

PriceIndex 29 12 0 17 0.2291 144.0
¿Para que sirve y cómo se utiliza la prueba de Coeficientes de Concordancia de Kendall?

Determina el grado de asociación entre las bases de clasificación y los scores de rangos
¿Para que sirve y cómo utilizar la prueba de Coeficientes de Correlación de Rangos de Spearman?
Una medida de asociación de cuales (rs) requiren a la vez ser medidas de variables en una mínima esca
ordinal.
¿Para que sirve y cómo se utiliza la prueba de ANOVA de una vía de Kruskal Wallis?
Prueba Kruskal-Wallis: Prueba si más de dos medianas de muestras son iguales. Asume que todas
las distribuciones tienen la misma forma.
ANOVA de un factor: Prueba si más de dos promedios de las muestras son iguales.
Measurements in growth were made on samples that were each given one of three
treatments
you decide to select the Kruskal-Wallis procedure to test H0: h1 = h2 = h3, versus H1: not
all h's
are equal, where the h's are the population medians
Growth 15.1 13 16.2 14.9 13.2 13.8 13.1 13
41
12.9 11.9 17 12.8 14.7 12 15 17
Treatment 1 1 3 1 1 3 2 2
2 1 3 2 3 2 3 3
Kruskal-Wallis Test on Growth

Treatment N Median Ave Rank Z
a) ¿Qué se puede concluir
1 5 13.20 7.7 -0.45 de esta prueba?
Como P value es < que alfa, se recha Ho, las me
2 5 12.90 4.3 -2.38 difieren significativamente.
3 6 15.60 12.7 2.71
Overall 16 8.5
H = 8.63 DF = 2 P = 0.013
H = 8.64 DF = 2 P = 0.013 (adjusted for ties)
¿Para que sirve y como se utiliza la prueba de Mann Whitney?

Prueba Mann-Whitney : Prueba si dos medianas de muestras son iguales.
Samples were drawn from two populations and diastolic blood pressure was measured.
You will want to determine if there is evidence of a difference in the population locations without assuming
a parametric model for the distributions. Therefore, you choose to test the equality of population medians
using the Mann-Whitney test with a = 0.05 rather than using a two-sample t-test, which tests the equality of populatio
means
DBP1 90 72 61 66 81 69 59 70
DBP2 62 85 78 66 80 91 69 77 84
Mann-Whitney Test and CI: DBP1, DBP2

N Median
DBP1 8 69.50
DBP2 9 78.00
Point estimate for ETA1-ETA2 is -7.50
95.1 Percent CI for ETA1-ETA2 is (-18.00,4.00)
W = 60.0
Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.2685
The test is significant at 0.2679 (adjusted for ties)
a) ¿qué se puede concluir de la prueba?

Que la Ho no pudo ser rechazada se asume que los grupos
provienen de la misma población
¿Para que sirve y cómo se utiliza la prueba Suma de Rangos de Wilconox - Mann
Whitney?
Prueba Wilcoxon: Prueba si la mediana de la muestra es igual a
un valor conocido o a un valor hipotético.( es similar a Mann Whitney
no requiere una distribución normal)
Prueba Mann-Whitney : Prueba si dos medianas de muestras son iguales
Prueba Mann-Whitney : Comprueba el rango de dos muestras, por la diferencia entre
dos medianas del universo
42
Achievement test scores in science were recorded for 9 students. This test enables you to judge if there is sufficient
evidence for the population median being different than 77 using a = 0.05.
Achievement 77 88 85 74 75 62 80 70 83
Wilcoxon Signed Rank Test: Achievement

a) ¿Que se puede
Test of median = 77.00 versus median not = 77.00 concluir de la prueba?
Como Pvalue >alfa no se puede rechazar la
concluye que las medianas no presentas dife
N Significativas
for Wilcoxon Estimated
N Test Statistic P Median
Achievement 9 8 19.5 0.889 77.50
¿Para que sirve y cómo se utiliza la prueba de varianzas de Levene?

Pruebas de Varianzas
Homogeneidad de la varianza de Levine : Compara dos o más varianzas de muestras de la misma pobla
¿Para que sirve y cómo se utiliza la prueba de Coeficientes de Medianas de Mood?

• Prueba de la Mediana de Mood : Prueba para más de dos medianas del universo. Más robusta
valores atípicos o para los errores en la información.
a) ¿Qué se puede
Results for: Cartoon.MTW concluir de la prueba?
Como P value <0.05 se rechaza Ho, asumo q
Mood Median Test: Otis versus ED medianas pifien entre si
Como la mediana (107) solo es contenida en
muestra 1, puedo concluir que hay diferencia
Mood median test for Otis 0y2
Chi-Square = 49.08 DF = 2 P = 0.000
Individual 95.0% CIs
ED N<= N> Median Q3-Q1 ----+---------+---------+---------+--
0 47 9 97.5 17.3 (-----*-----)
1 29 24 106.0 21.5 (------*------)
2 15 55 116.5 16.3 (----*----)
----+---------+---------+---------+--
96.0 104.0 112.0 120.0
Overall median = 107.0
¿Qué pruebas utilizan el estadístico de prueba Chi cuadrada?

Kruskall-Wallis
Kendall Coefficient of concordance
Contingebcy coefficient
Mood’s median
McNemar
Cochran Q
Friedman
¿Qué salidas proporciona la fase de análisis?

Probar teorías de causa –raíz
43
Confirmación de las variables definidas por el proceso por medio de un
análisis de varianza, estudios multivari
Pruebas de validadción con pruebas de hipótesis e intervalos de confianza
44

Respuestas A La Gu A en La Fase de An Lisis

Încărcat de

Informații document

Descriere originală:

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Respuestas A La Gu A en La Fase de An Lisis

Încărcat de

Drepturi de autor:

Formate disponibile

RESPUESTAS A LA GUÍA EN LA FASE DE ANÁLISIS

LÓPEZ CUEVAS HILDA

VII. Metodología de mejora Seis Sigma y herramientas de la Fase de Análisis

• Análisis exploratorio de datos Carta Multivari

¿A que se refiere la variación Posicional, Cíclica y Temporal en las cartas multivari?

¿En que partes se puede dividir la variación posicional?

¿Cómo se interpreta la Carta Multivari siguiente?

Multi-Vari Chart for Strength by SinterTime - MetalType

¿Cómo se construye el diagrama sistemático representando el mapa de variabilidad

Variación total observada

¿Cómo se identifican las causasVariación

¿Cuándo se dice que Si es causa raíz y cuando no es causa raíz?

• Análisis de regresión lineal, cuadrática y múltiple

¿Por qué se le denomina método de mínimos cuadrados?

¿cómo se prueba la significancia de la regresión?

¿cómo se estima la varianza de la variable dependiente?

¿cómo se determina el coeficiente de correlación y que significa?

¿Cómo se intepreta el coeficiente de determinación?

Ejercicio: Hacer un análisis de regresión simple completo

completo con los datos siguientes:

Predictor Coef SE Coef T P

S = 0.906780 R-Sq = 93.8% R-Sq(adj) = 93.3%

Values of Predictors for New Observations

Histogram of the Residuals Residuals Versus the Order of the Data

residuos normales, regresión lineal con correlación positiva

b) Hacer la gráfica de la regresión

Scatterplot of Y=Consumo vs X=Ingreso

correlación positiva y residuos normalizados

Residual Plots for Y=Consumo

Histogram of t he Residuals Residuals Versus the Order of the Data

Regression Analysis: Y=Consumo versus X=Ingreso

Predictor Coef SE Coef T P

S = 2.25061 R-Sq = 84.5% R-Sq(adj) = 82.9%

Predicted Values for New Observations

XX denotes a point that is an extreme outlier in the predictors.

Values of Predictors for New Observations

Fitted Line Plot

Fitted Line Plot

Regression Analysis: peso versus altura

S = 14.6765 R-Sq = 1.5% R-Sq(adj) = 0.0%

Values of Predictors for New Observations

Residual Plots for peso

Histogram of the Residuals Residuals Versus the Order of the Data

sin relacion las variables

Values of Predictors for New Observations

Prueba t para la pendiente B1

Donde t=0.7/raiz de 215.4/20= 0.213

¿Qué es la regresión múltiple?

Histogram of the Residuals Residuals Versus the Order of the Data

Best Value 1.00000

Polynomial Regression Analysis: Y versus X

S = 0.343196 R-Sq = 98.1% R-Sq(adj) = 97.5%

Sequential Analysis of Variance

Fitted Line Plot

Residual Plots for Y

Histogram of the Residuals Residuals Versus the Order of the Dat a

Polynomial Regression Analysis: Y versus X

S = 0.278913 R-Sq = 98.9% R-Sq(adj) = 98.4%

Sequential Analysis of Variance

Fitted Line Plot

Residual Plots for Y

Histogram of the Residuals Residuals Versus the Order of the Data