ANALIZAR

Mdulo III: Analizar
Instructor: Antonio E. Cisneros Cisneros
1
Currculum
ANTONIO E. CISNEROS CISNEROS
Estudios.
--Maestra en Ciencias (Estadstica), Facultad de Ciencias de la UNAM.
-Certificado en la Metodologa Six Sigma, de la Universidad TecMilenio.
Experiencia docente y profesional
Asesor de diferentes proyectos, con herramientas Estadsticas.

Profesor de Profesional desde el 2003, con cursos tetramensuales de :
Probabilidad y Estadstica, Control Estadstico del Proceso, Estadstica
Administrativa, Cultura de la Calidad y Seis Sigma, de la Universidad TecMilenio,
Campus Cuautitln.
Instructor de diferentes Diplomados BB de la Metodologa Six Sigma, en los
Mdulos de Analizar y Mejorar, ITESM- Campus Cd. de Mxico, Sta. Fe, Edo. De
Mxico y Toluca;Medelln. Instructor Six Sigma del Mdulo Analizar y Mejorar en
:Merck, Gemalto, S. L. Rassini, American Express, PPG, BBVA Bancomer, Sony,
Champion, Pfyzer, CFE( 2 generaciones); entre otras empresas. 2
Algunas preguntas importantes
Cul es su nombre y profesin? En qu

rea trabajan? Qu hacen?.
Porqu aprender Seis Sigma?.
Cules son sus expectativas para este

mdulo?.
3
Recapitulando Seis Sigma.
Definir.
Medir.
Analizar.
Mejorar.
Controlar.
4
Fase de Anlisis.
Qu se hace en esta fase?
Se prueban hiptesis sobre las variables que
afectan la salida del proceso. De esta manera
se identifican las causas raz (Xs).
* La prueba de hiptesis se lleva acabo en el
estado actual del proceso, es decir, sin
modificarlo.
5
Fase de Anlisis.
Objetivos:
1. Conocer y aplicar las herramientas
estadsticas mas utilizadas en el anlisis de
procesos de servicio o de manufactura.
2. Analizar la informacin de un proceso,
utilizando el paquete de cmputo estadstico
Minitab e interpretar los resultados
obtenidos con el mismo.
6
Metodologa de trabajo:
Exposicin del instructor.
Participacin de los asistentes.
Anlisis de problemas con Minitab e

interpretacin de los resultados
obtenidos.
7
En Dios confo los
dems denme datos
8
Contenido temtico
1.Introduccin a las Pruebas de Hiptesis (10-36). Apndices (37-

46).
2. Pruebas de una Muestra para comparar medias (47-67).
3.Pruebas de Varianzas y Medias para Mltiple Muestras (68-108).
Apndices (109-115).
4. Prueba de Chi-cuadrada & de Proporciones (116-145).
5. Seleccin del Tamao de la Muestra (146-168).
6. Anlisis de Regresin (169-205). Apndices (206-218).
7. Regresin Logstica Binaria (219-239).
8.Ejercicios (240-248).
9
Introduccin a las
Pruebas de Hiptesis
10
Pruebas de Hiptesis
11
Entendiendo el
Fases de Seis Sigma: proceso
(descubriendo
relaciones)
Definir Medir Analizar

Preguntas
bsicas a Cul es el Cul es el Qu Xs son
contestar problema? proceso? crticas, Y=f(x)?
Por qu es Qu Cmo justificamos
un problema? variables la relacin?
Cules son mueven el Tenemos una base
los CTQs de proceso ms realista para la
tus clientes? (Y=f(x))? mejora?
Tenemos un Medimos las
Business variables? Mantengan
Case? Cul es la sintona
capacidad del para
proceso? mejora y
control....
Caracterizacin 12
del proceso
Objetivo
1. Entender el concepto y uso de Pruebas de Hiptesis en la

fase de anlisis.
2. Entender el significado de los errores a y b.
3. Definir un anlisis apropiado basado en los diferentes tipos de

datos.
13
Anlisis: Encuentra las Xs rojas que mueven el
proceso.
Regin Persona Cmo se si estas Xs son
importantes/relevantes
a los CTQs?
Da de la semana
Costo
Tipo de formato
Velocidad Tiempo de ciclo
Temperatura
Desempeo
Presin
Nmero de parte Apariencia
Recuerda, necesitamos Y=f(x) 14

Debemos decidir que variables son crticas al proceso, y mostrarlo
estadsticamente!!!
Todas las suposiciones, creencias, incluso ideas locas,

deben ser evaluadas y cuantificadas.
Hacemos esto mediante una gama de herramientas
sencillas pero muy poderosas que vamos a generalizar
como:
15
Pruebas de Hiptesis
Para contestar la pregunta tiene relacin la X con la Y? (p.e. el costo de
ventas vara de regin a regin?), tenemos 2 opciones (solo una prevalecer):
Ho: Hiptesis nula: Sin relacin, sin cambios, no

hay diferencia, No pasa nada
Ha: Hiptesis alternativa: Relacin, cambio,

diferencia real, Algo pas
Necesitamos datos para seleccionar cualquiera de ellas 16

Pruebas de Hiptesis
Siempre que tomemos una decisin, queremos que nuestra conclusin est lo
ms cercano a la realidad:
Nuestra decisin
Aceptar Ho Aceptar Ho Rechazar Ho
Error tipo I
En realidad debemos...
a
Rechazar Ho
Error Tipo II
17
Pruebas de Hiptesis
Errores de decisin:
a (alfa): Referencia principal para tomar conclusiones al realizar pruebas de

hiptesis. Se relaciona con que tan probable (factible) es afirmar que existe una
diferencia cuando en realidad no existe.
b (beta): Muy til para determinar que tan capaz es una prueba estadstica de
detectar una diferencia no aleatoria especial de un grupo de datos. Se relaciona
con que tan probable (factible) es negar una diferencia cuando en realidad
existe. El nmero (1-b) se conoce como la potencia de la prueba.
18
Pruebas de Hiptesis
Teora de decisin:
Si definimos un valor fijo de alfa, entonces la distribucin utilizada para el anlisis
tendr un valor de corte donde el rea (probabilidad) ms all de este punto es
igual a alfa, definiendo el rea de rechazo para Ho.
Corte
1-a
Regin de
aceptacin
de Ho Regin de rechazo para Ho
a
19
Pruebas de Hiptesis
Tres escenarios para Ha:
Za -Za
Regin de
rechazo de
Ho
Ha: m> 0 Ha: m < 0
Ha: m 0
Sin importar el escenario, si el
valor de la prueba es menor
-Za/2 Za/2 que a, rechazamos Ho.
Regin de Nota: La mayora de los software estadsticos

rechazo de hacen anlisis para dos colas, si no entonces
Ho habr que multiplicar el valor de p por 2.20
Pruebas de Hiptesis
Ho: Hiptesis nula: Sin relacin, sin cambios, no
hay diferencia, No pasa nada
i.e. Mayito es inocente.
Valor de p >= alfa, mucho riesgo de tomar una
decisin equivocada, no podemos afirmar que
algo pas.
Decisin
(puede usarse
diferentes Ha: Hiptesis alternativa: Relacin, cambio,
valores de diferencia real, Algo pas.Causas especiales.
alfa: 0.1, 0.05, i.e. Mayito es culpable
0.01...)
Valor de p < alfa, poco riesgo de error. Podemos
afirmar que algo realmente pas
El valor de p se relaciona con la probabilidad (que tanto riesgo) se tienen en
tomar una decisin equivocada. Sin importar la herramienta seleccionada, esta
regla siempre va a aplicar. La seleccin de la herramienta especfica
depender principalmente de los tipos de datos analizados. Ver la Matriz de
Herramientas Estadsticas. 21
Tipos de datos
Variables Atributos
Tienen una unidad fsica Es resultado de contar entidades
relacionada. discretas o caractersticas.
Los valores se miden en una Los valores se miden a travs de
escala continua. diferentes niveles (bajo-medio-alto;
pasa o no; entrega a tiempo o no;
cumple la especificacin; 1,2,3
rayones, etc.)
22
Tipo de datos
Por ejemplo:
Queremos analizar la influencia de una marca de auto en el consumo de combustible.
Y = Eficiencia de combustible (Km./l) Variable (continua)
X = Marca de auto Atributo (discreto)
X1 = Marca de auto
Una variable discreta X11 = Ford
con 3 niveles X12 = Toyota
X13 = VW
Cul ser una herramienta apropiada para utilizar?

23
Matriz de seleccin de herramientas
Factor (X)
VARIABLE ATRIBUTO
ANLISIS DE ANOVA, PRUEBA

Respuesta (Y) VARIABLE REGRESIN Y DE T,Z
CORRELACIN ALTERNATIVAS
NO
PARAMTRICAS
REGRESIN PRUEBA DE CHI
ATRIBUTO LOGSTICA CUADRADA,
PRUEBA DE
PROPORCIONES
24
Factor (X) Necesitamos
VARIABLE ATTRIBUTE consideraciones
REGRESSION ANOVA, T-TEST,
adicionales en
Response (Y) VARIABLE ANALYSIS N ON
PARAMETRIC
ALTERNATIVES
este cuadrante...
LOGISTIC CHI SQUARE
ATTRIBUTE REGRESSION TEST, TEST FOR
PROPORTIONS
Para seleccionar la herramienta ms apropiada de anlisis (comparar

medias), necesitamos determinar ciertas condiciones del grupo de datos.
Tales consideraciones tratan con la normalidad de los datos, y la
homogeneidad de las varianzas, etc.
25
Necesitamos
Factor (X) consideracione
VARI ABL E AT T RIB UTE
s adicionales
en este
Response (Y) V A R I AB L E
RE G R E S S IO N
AN A LY S IS
AN O V A, T-TES T,
NO N
P ARAM ET RI C
A L TE R N A T I V E S
cuadrante... Niveles dentro de la X
L O G IS T I C CH I SQ U A RE
AT T RIB UT E RE G R E S S IO N T E S T , TE S T FO R
P R O P O R TI O N S
1 Nivel 2 Niveles
Los datos son: Los datos en cada nivel son:
Normales No normales Normales No normales
Prueba t Prueba de Varianzas son: Varianzas son:

de una rangos de
muestra Wilcoxon
Prueba Z
de una Iguales Diferentes Iguales Diferentes
muestra Prueba t Mann-Whitney Mann-Whitney
Prueba t
con Prueba t con Prueba t con
con
varianzas varianzas varianzas no
varianzas
iguales iguales(si iguales(si
no iguales
ANOVA de n>25) n>25)
1 va ANOVA de 1
Nota: Solo si los datos son no pareados. va(si n>25)
26
Necesitamos
Factor (X) consideracione
VARI ABL E AT T RIB UTE
s adicionales
en este
Response (Y) V A R I AB L E
RE G R E S S IO N
AN A LY S IS
AN O V A, T-TES T,
NO N
P ARAM ET RI C
A L TE R N A T I V E S
cuadrante... Niveles para la X
L O G IS T I C CH I SQ U A RE
AT T RIB UT E RE G R E S S IO N T E S T , TE S T FO R
P R O P O R TI O N S
3 niveles
Los datos en cada nivel son:
Normales No normales
Varianzas son: Varianzas son:
Iguales Diferentes Iguales Diferentes

ANOVA de ANOVA de 1 Kruskall-Wallis
Kruskall-
1 va Wallis va(si n>25)
Nota: Solo si los datos son no pareados.

27
Herramientas para pruebas de hiptesis
Preguntas tpicas que pueden contestarse con pruebas de hiptesis:
Target
Comparar el promedio contra un valor fijo (p.e. el
tiempo de ciclo es menor a 10 das?)
Herramienta: Prueba t de una muestra
Promedio
Cambios/diferencias del promedio entre 2 muestras (p.e.

el tiempo de entrega depende del proveedor?, quin
entrega ms rpido DHL o Fedex? )
Herramienta: ANOVA o prueba t de dos muestras
28
Cliente OC con error OC sin error Buscar independencia entre variables (p.e. los errores
A 2 5
B 3 3 en los precios depende de los clientes?)
C 4 2 Herramienta: Prueba de Chi cuadrada
Buscar cambios en proporciones (p.e. El porcentaje de

antes despus
% defectuoso 0.25 0.2
defectuosos cambi despus de la mejora?)
Herramienta: Prueba de proporciones
29
Regression y = 3.2511x - 16.983

R2 = 0.9511
40
35
30
25 Encontrar relacin entre dos variables continuas (p.e. el
Y
20
15
10
tiempo de ciclo es influenciado por la velocidad?)
5
0
8 10 12 14 16 18
Herramienta: Regresin
X
Qu tipo de comparaciones/relaciones haces todos los das?
Qu herramienta utilizaras para hacerlo?
Por qu?
30
Ejemplo 1
Jaime quiere saber si el tiempo requerido para

completar una tarea, est relacionado con la
experiencia del empleado en aos.
H0:
HA:
Tipo de datos
Y:____________ ______________ La herramienta apropiada para

contestar esto es:
X:____________ ______________ _____________________________
Cul sera tu conclusin si p = 0.1917?

31
Ejemplo 2
La aspirina reduce el riesgo de un ataque al

corazn?
H0:
HA:
Tipo de datos

contestar esto es:
X:____________ ______________ _____________________________

32
Ejemplo 3
Hemos utilizado 3 diferentes proveedores de
mensajera internacional, ahora debemos seleccionar
solo uno. Parece alguno estar entregando ms
pronto en promedio?
H0:
HA:
Tipo de datos

contestar esto es:
X:____________ ______________ _____________________________

33
Ejemplo 4
Sandra dice que la porcin defectuosa disminuy de

0.35 a 0.3. La diferencia se debe a acciones
especficas o es debida a la casualidad?
H0:
HA:
Tipo de datos

contestar esto es:
X:____________ ______________ _____________________________

34
Actividad por equipos (30 minutos):
Para tu proyecto llena el siguiente plan de anlisis, excepto
la ltima columna.
Especificar la Hiptesis a Especificar Herramienta P-value y

variable X y Y probar Tipo de estadstica a Conclusiones
(Ho y Ha) datos para X utilizar obtenidas
yY
1.
2.
3.
35
35
Que nos queda
Recuerda:
1. Sin importar la herramienta, la regla de decisin siempre

depender del nivel de alfa (consideramos principalmente :
0.05).
2. Si el valor de p es menor a 0.05, concluimos que algo

especial ha ocurrido. Encontramos diferencia o relacin entre
variables.
3. La correcta herramienta de anlisis depende del tipo de datos

que estemos midiendo.
36
Apndices
37
Apndice A: Error Estndar de la
media e intervalos de confianza
Todas las pruebas estadsticas dependen de los resultados obtenidos
de una muestra de una poblacin. Si muestreramos en forma
continua, el promedio de las muestras variara de una muestra a otra.
La desviacin estndar de la media muestral se conoce como el error
estndar.
Error
estndar
X
(SE)
A mayor muestra, menor es el error estndar.
38
Dependiendo del tamao de la muestra, es el tamao del error alrededor
de la media muestral:
N 4 6 8 10 15 20 25 30 60
S 1.07558276 0.90823734 0.84086047 0.79306224 0.86141349 0.79974404 0.76238764 0.77836987 0.87002243
SE 0.53779138 0.37078634 0.29728907 0.2507883 0.22241601 0.1788282 0.15247753 0.14211025 0.11231941
Media -0.5284525 -0.49827167 -0.58815125 -0.463164 -0.10126267 -0.003829 -0.0318636 0.02844533 0.15424533
Error Std. vs tamao de la muestra
0.6
0.5
0.4
SE
0.3
0.2
0.1
0
0 10 20 30 40 50 60 70
N
39
El error estndar ayuda a definir los intervalos de confianza de un

parmetro especfico. El intervalo de confianza es un rango de valores
donde se espera que caiga un parmetro especfico de la muestra. Si
tomramos muestras durante un largo periodo de tiempo, el
promedio del lunes sera igual al del martes o al del mircoles? Cul
se acerca ms al promedio de la poblacin?
Promedio=5 Promedio=5.67 Promedio=5.33
Entonces, el promedio de la poblacin es...?

40
El intervalo de confianza depende del nivel de certeza (probabilidad)
requerida por el experimentador. Por esto los intervalos de confianza
se relacionan con una distribucin especfica para determinar sus
valores (como la Z o la distribucin t). El nivel de confianza se define
por alfa (a).
Media muestral (o Error estndar
proporcin, , etc.)
C.I . X ta SE
2
Intervalo de Nivel de
confianza para confianza
la media
(tambin puede
ser una
proporcin,
desviacin
estndar,
mediana, etc.) 41
Intervalo de confianza vs. tamao de muestra
0.5
0.4
0.3
0.2
Intervalos
0.1
0
-0.1 0 100 200 300 400 500 600
-0.2
-0.3
-0.4
-0.5
Tamao de muestra
Intervalos ms cerrados dan estimadores de la poblacin ms

exactos, debido a un menor error (SE). Intervalos de confianza
amplios pueden ser un indicador de alto riesgo Beta (b).
42
Corte
Aqu es evidente
rechazar Ho.
Aqu el valor
de p es
marginal,
usando el
intervalo de
confianza
podemos ver
si el error es
grande, por lo
tanto concluir
que hay
problemas con
el tamao de
la muestra.43
Pruebas de Hiptesis
Para contestar la pregunta Tiene relacin la X con la Y? , p.e. El uso del
democar est relacionado con la venta de un modelo de automvil?. Tenemos 2
opciones (solo una ser correcta):
Hiptesis nula (Ho): no existe relacin entre las

variables no existen diferencias.
Hiptesis alternativa (Ha): si existe relacin entre

las variables si existen diferencias.
Necesitamos datos para probar cualquiera de ellas

44
Resumen. Procedimiento de prueba de hiptesis:
1. Plantear las hiptesis
Ho: no existe relacin entre X y Y
Ha: Si existe relacin entre X y Y
2. Obtener datos.
Datos histricos o experimentales.
3. Aplicar herramienta estadstica (ver matriz de herramientas)
El tipo de herramienta a utilizar depender del tipo de datos
4. Decisin.
La decisin depender del valor de p-value proporcionado por Minitab
Si p-value < , se debe rechazar la Ho y por tanto si existe relacin
entre X y Y
Esta regla siempre es la misma, sin importar la herramienta utilizada.
**El valor de puede ser 0.05 0.01 45
Que nos queda
Recuerda:
1. Sin importar la herramienta, la regla de decisin siempre

depender del nivel de alfa (consideramos 0.05).
2. Si el valor de p es menor a 0.05, concluimos que algo
especial ha ocurrido. Encontramos diferencia o relacin entre
variables.
3. La correcta herramienta de anlisis depende del tipo de datos
que estemos midiendo.
46
Pruebas
de una Muestra para
comparacin de medias
47
Objetivo
1. Identifica problemas que incluyan 1 Y continua y una X

discreta con un solo nivel.
2. Entender las diferencias entre la prueba T de una

muestra y la prueba Z de una muestra.
3. Entender y aplicar pruebas T de una muestra a

problemas especficos.
4. Identificar alternativas no paramtricas para

comparacin de media de una muestra.
48
El escenario...
Un ingeniero de procesos afirma que cambios especficos al

Layout redujo el tiempo de ciclo a menos de 30 segundos. El
gerente no se impresiona y afirma que la reduccin se debe a
variacin aleatoria del proceso. Algunos das son mejores que
otros dijo. Tu decides, quin tiene la razn?
Ho:
Ha:
49
Factor (X)
VARIABLE ATRIBUTO

NO
PARAMTRICAS
PRUEBA DE
PROPORCIONES
Esta es nuestra rea de inters 50

En el problema del proceso, medimos el tiempo en un solo proceso
(sin cambios en turnos, no indican diferentes das, personas, etc.).
Por lo tanto es una X discreta con un solo nivel.
1 nivel
Datos son
Normales No Normales
Prueba T de una Prueba rangos

muestra de Wilcoxon
Prueba Z de una
muestra
51
Prueba Z
Al tratar con variables continuas existen dos principales preocupaciones

en el comportamiento de la distribucin: El centrado y la dispersin de
los datos. Es muy til contar con un modelo especfico para el anlisis.
Para una gran diversidad de procesos, su distribucin puede ser
explicada por la distribucin normal.

Valor
No te p(x > a) = 1 e-(1/2)[(x - m)/]2 dx Fijo
preocupes, 2
a
recuerda la Podemos afirmar
distribucin Z!!!
que existe diferencia
entre el promedio de
la poblacin y el valor
fijo?
Promedio
52
Prueba Z
Si es normal, siempre podemos estandarizar nuestros datos y buscar

probabilidades (valores de p) en las tablas Z.
Z=x-m Esta es
informacin de
la POBLACIN
Para usarla como una herramienta para contrastar hiptesis,

debemos de adaptarla para comparar los datos de la muestra
contra la media de la poblacin hipottica:
Z=X- m
s/n
53
Prueba Z
Media muestral
Z=X- m Valor de referencia
s/n
Error estndar de la media
(igual que con grficas de
control).
Con el valor de Z buscamos los valores

de p para determinar si la diferencia
entre las dos medias es significativa.
54
-5.6 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
-5.5 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
-5.4 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
Prueba Z
-5.3 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000
-5.2 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000
0.0
0.0
-5.1 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
-5.0 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
Para el ejemplo-4.9de tiempo
0.00000 de ciclo,
0.00000 0.00000el0.00000
ingeniero
0.00000(que result
0.00000 0.00000ser Black
0.00000 0.00000 0.0
Belt) obtuvo datos para probar
-4.8 0.00000 su suposicin.
0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
C. Time
-4.7 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
Ho:-4.5m =
37.3 -4.6 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
22.5 30 (la
0.00000 media
0.00000 del proceso
0.00000 es igual
0.00000 0.00000 a 30
0.00000 segundos)
0.00000 0.00000 0.00000 0.0
30.3
29.5 Ha:-4.4m < 30 (la
0.00001 media
0.00001 es menor
0.00000 0.00000 a 30 segundos)
0.00000 0.00000 0.00000 0.00000 0.00000 0.0
26.7 -4.3 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.0
30.5
26.3
-4.2 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.0
29.9
29 Z=X- m
-4.1 0.00002 0.00002 0.00002 0.00002 0.00002 0.00002 0.00002 0.00002 0.00001
= 28.3 - 30 = -3.37
-4.0 0.00003 0.00003 0.00003 0.00003 0.00003 0.00003 0.00002 0.00002 0.00002
0.0
0.0
25.2
27.6 -3.9 0.00005 0.000052.8/30
s/n 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.0
28.4 -3.8 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.0
23.6
-3.7 0.00011 0.00010 0.00010 0.00010 0.00009 0.00009 0.00008 0.00008 0.00008 0.0
-3.6 0.00016Buscando en la tabla0.00014
de Z: 0.00013 0.00013 0.00012 0.00012
27.8
25.5 0.00015 0.00015 0.00014 0.0
29
-3.5 0.00023 0.00022 0.00022 0.00021 0.00020 0.00019 0.00019 0.00018 0.00017 0.0
30.3
25.6
Z 0.00034
-3.4 0 0.01 0.00031
0.00032 0.02 0.00030
0.03 0.00029
0.04 0.00028
0.05 0.00027
0.06 0.00026
0.07 0.00025
0.08 0
0.0
28.8 -6.0 0.00048
-3.3 0.00000 0.00047
0.00000 0.00045
0.00000 0.00043
0.00000 0.00042
0.00000 0.00040
0.00000 0.00039
0.00000 0.00038
0.00000 0.00036
0.00000 0.0
29.6
25.8
-5.9 0.00069
-3.2 0.00000 0.00066
0.00000 0.00064
0.00000 0.00062
0.00000 0.00060
0.00000 0.00058
0.00000 0.00056
0.00000 0.00054
0.00000 0.00052
0.00000 0.0
29 -5.8 0.00097
-3.1 0.00000 0.00094
0.00000 0.00090
0.00000 0.00087
0.00000 0.00084
0.00000 0.00082
0.00000 0.00079
0.00000 0.00076
0.00000 0.00074
0.00000 0.0
29
25.6
Dado que el0.00000
-5.7 0.00000 valor 0.00000
de p es menor
0.00000 a 0.05,
0.00000 concluimos
0.00000 que0.00000
0.00000 0.00000 0.0
29.1 -5.6suficiente
hay 0.00000 0.00000 0.00000 0.00000
evidencia para 0.00000 0.00000
afirmar que la0.00000 0.00000en
reduccin 0.00000 0.0
27.2 -5.5 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
32
29.6
el tiempo
-5.4 de0.00000
0.00000 ciclo 0.00000
es real.0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
30.4 -5.3 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000
55 0.0
27.3 -5.2 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
Prueba t
La prueba anterior es vlida para tamaos de muestra grandes (>=30) y

si los datos estn normalmente distribuidos. Es muy comn que tamaos
de muestra grandes sean difciles de conseguir. Restricciones tales
como costo, tiempo, etc. pueden ser de consideracin al tomar
muestras. Cuando tenemos pequeas muestras que sabemos que
vienen de una distribucin normal, utilizamos un estadstico similar para
pequeas muestras: la distribucin t
Distribucin Z
t=X- m
s/n
- Bueno, Cul es la
Distribucin
diferencia? t
La distribucin t tiene mayor

dispersin debido a menores tamaos
de muestra 56
Prueba t
Grados de
libertad (GL)
ta,n-1
Regin de
aceptacin
(1-a)
Regin de rechazo (a)
Valor de
corte
Mismos conceptos, diferentes frmulas!!!!
Nota: Los GL son los que afectan la dispersin de la distribucin. A mayor
muestra, ms grados de libertad y ms cercanos son nuestros datos a la
distribucin de la poblacin.
57
Prueba t
Tambin hay tablas para la distribucin t:
Value for t
dof 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00
1 1.0000 0.9682 0.9365 0.9052 0.8743 0.8440 0.8145 0.7857 0.7578 0.7308 0.7048 0.6799 0.6560 0.6331 0.6112 0.5903 0.5704 0.5515 0.5335 0.5163 0.5000
2 1.0000 0.9647 0.9295 0.8945 0.8600 0.8259 0.7925 0.7598 0.7278 0.6968 0.6667 0.6375 0.6094 0.5824 0.5564 0.5315 0.5076 0.4848 0.4631 0.4424 0.4226
3 1.0000 0.9633 0.9267 0.8903 0.8543 0.8187 0.7838 0.7495 0.7159 0.6832 0.6514 0.6206 0.5908 0.5620 0.5343 0.5077 0.4822 0.4578 0.4345 0.4122 0.3910
4 1.0000 0.9625 0.9252 0.8880 0.8512 0.8149 0.7791 0.7440 0.7096 0.6760 0.6433 0.6116 0.5808 0.5511 0.5225 0.4950 0.4685 0.4432 0.4190 0.3959 0.3739
5 1.0000 0.9621 0.9242 0.8866 0.8494 0.8125 0.7762 0.7406 0.7057 0.6715 0.6383 0.6060 0.5747 0.5444 0.5151 0.4870 0.4600 0.4341 0.4094 0.3857 0.3632
6 1.0000 0.9617 0.9236 0.8857 0.8481 0.8109 0.7743 0.7383 0.7030 0.6685 0.6349 0.6022 0.5705 0.5398 0.5101 0.4816 0.4542 0.4279 0.4028 0.3788 0.3559
7 1.0000 0.9615 0.9231 0.8850 0.8472 0.8098 0.7729 0.7366 0.7011 0.6663 0.6324 0.5994 0.5674 0.5364 0.5065 0.4777 0.4500 0.4234 0.3980 0.3738 0.3506
8 1.0000 0.9613 0.9228 0.8845 0.8465 0.8089 0.7718 0.7354 0.6996 0.6647 0.6305 0.5973 0.5651 0.5339 0.5038 0.4747 0.4468 0.4200 0.3944 0.3699 0.3466
9 1.0000 0.9612 0.9225 0.8841 0.8459 0.8082 0.7710 0.7344 0.6985 0.6634 0.6291 0.5957 0.5633 0.5319 0.5016 0.4724 0.4443 0.4174 0.3916 0.3669 0.3434
10 1.0000 0.9611 0.9223 0.8837 0.8455 0.8076 0.7703 0.7336 0.6976 0.6623 0.6279 0.5944 0.5619 0.5303 0.4999 0.4705 0.4423 0.4152 0.3893 0.3645 0.3409
11 1.0000 0.9610 0.9221 0.8835 0.8451 0.8072 0.7698 0.7329 0.6968 0.6614 0.6269 0.5933 0.5607 0.5290 0.4985 0.4690 0.4406 0.4134 0.3874 0.3625 0.3388
12 1.0000 0.9609 0.9220 0.8833 0.8448 0.8068 0.7693 0.7324 0.6962 0.6607 0.6261 0.5924 0.5597 0.5279 0.4973 0.4677 0.4393 0.4120 0.3858 0.3609 0.3370
13 1.0000 0.9609 0.9219 0.8831 0.8446 0.8065 0.7689 0.7319 0.6957 0.6601 0.6254 0.5916 0.5588 0.5270 0.4963 0.4666 0.4381 0.4107 0.3845 0.3594 0.3356
14 1.0000 0.9608 0.9218 0.8829 0.8444 0.8062 0.7686 0.7315 0.6952 0.6596 0.6248 0.5910 0.5581 0.5262 0.4954 0.4657 0.4371 0.4096 0.3833 0.3582 0.3343
15 1.0000 0.9608 0.9217 0.8828 0.8442 0.8060 0.7683 0.7312 0.6948 0.6591 0.6243 0.5904 0.5575 0.5255 0.4946 0.4649 0.4362 0.4087 0.3823 0.3572 0.3332
16 1.0000 0.9607 0.9216 0.8826 0.8440 0.8058 0.7680 0.7309 0.6944 0.6587 0.6239 0.5899 0.5569 0.5249 0.4940 0.4641 0.4354 0.4079 0.3815 0.3562 0.3322
17 1.0000 0.9607 0.9215 0.8825 0.8439 0.8056 0.7678 0.7306 0.6941 0.6584 0.6235 0.5895 0.5564 0.5244 0.4934 0.4635 0.4347 0.4071 0.3807 0.3554 0.3313
18 1.0000 0.9607 0.9214 0.8824 0.8437 0.8054 0.7676 0.7304 0.6939 0.6581 0.6231 0.5891 0.5560 0.5239 0.4929 0.4629 0.4341 0.4065 0.3800 0.3547 0.3306
19 1.0000 0.9606 0.9214 0.8823 0.8436 0.8053 0.7674 0.7302 0.6936 0.6578 0.6228 0.5887 0.5556 0.5235 0.4924 0.4624 0.4336 0.4059 0.3794 0.3540 0.3299
20 1.0000 0.9606 0.9213 0.8823 0.8435 0.8051 0.7673 0.7300 0.6934 0.6575 0.6225 0.5884 0.5552 0.5231 0.4920 0.4620 0.4331 0.4054 0.3788 0.3535 0.3293
21 1.0000 0.9606 0.9213 0.8822 0.8434 0.8050 0.7671 0.7298 0.6932 0.6573 0.6223 0.5881 0.5549 0.5227 0.4916 0.4616 0.4327 0.4049 0.3783 0.3529 0.3287
22 1.0000 0.9606 0.9213 0.8821 0.8433 0.8049 0.7670 0.7297 0.6930 0.6571 0.6220 0.5879 0.5546 0.5224 0.4913 0.4612 0.4323 0.4045 0.3779 0.3524 0.3282
23 1.0000 0.9606 0.9212 0.8821 0.8432 0.8048 0.7669 0.7295 0.6928 0.6569 0.6218 0.5876 0.5544 0.5221 0.4909 0.4609 0.4319 0.4041 0.3774 0.3520 0.3277
24 1.0000 0.9605 0.9212 0.8820 0.8432 0.8047 0.7668 0.7294 0.6927 0.6567 0.6216 0.5874 0.5541 0.5219 0.4907 0.4605 0.4316 0.4037 0.3771 0.3516 0.3273
25 1.0000 0.9605 0.9211 0.8820 0.8431 0.8046 0.7667 0.7293 0.6926 0.6566 0.6214 0.5872 0.5539 0.5216 0.4904 0.4603 0.4312 0.4034 0.3767 0.3512 0.3269
26 1.0000 0.9605 0.9211 0.8819 0.8430 0.8046 0.7666 0.7292 0.6924 0.6564 0.6213 0.5870 0.5537 0.5214 0.4901 0.4600 0.4310 0.4031 0.3764 0.3509 0.3265
27 1.0000 0.9605 0.9211 0.8819 0.8430 0.8045 0.7665 0.7291 0.6923 0.6563 0.6211 0.5868 0.5535 0.5212 0.4899 0.4597 0.4307 0.4028 0.3761 0.3505 0.3262
28 1.0000 0.9605 0.9211 0.8818 0.8429 0.8044 0.7664 0.7290 0.6922 0.6562 0.6210 0.5867 0.5533 0.5210 0.4897 0.4595 0.4304 0.4025 0.3758 0.3502 0.3259
29 1.0000 0.9605 0.9210 0.8818 0.8429 0.8043 0.7663 0.7289 0.6921 0.6561 0.6208 0.5865 0.5532 0.5208 0.4895 0.4593 0.4302 0.4023 0.3755 0.3500 0.3256
Ahora debemos conocer los GL

58
8 0.0085 0.0079 0.0073 0.0068 0.0063 0.0059 0.0054 0.0050 0.0047 0.004
9 0.0075 0.0069 0.0064 0.0059 0.0054 0.0050 0.0046 0.0043 0.0039 0.003
Prueba t
10 0.0067 0.0061 0.0056 0.0052 0.0047 0.0044 0.0040 0.0037 0.0034 0.003
11 0.0060 0.0055 0.0051 0.0046 0.0042 0.0039 0.0035 0.0032 0.0030 0.002
12 0.0055 0.0050 0.0046 0.0042 0.0038 0.0035 0.0032 0.0029 0.0026 0.002
13 0.0051 0.0046 0.0042 0.0038 0.0035 0.0032 0.0029 0.0026 0.0024 0.002
Recordando14nuestro
0.0048ejemplo del tiempo
0.0043 0.0039 0.0035 de ciclo:
0.0032 0.0029 0.0026 0.0024 0.0022 0.002
15 0.0045 0.0041 0.0037 0.0033 0.0030 0.0027 0.0024 0.0022 0.0020 0.001
C. Time 16 0.0042 0.0038 0.0034 0.0031 0.0028 0.0025 0.0023 0.0020 0.0018 0.001
37.3
22.5
17 m0.0040
Ho: = 30 (la media
0.0036 del0.0029
0.0033 proceso es igual
0.0026 0.0024 a0.0021
30 segundos)
0.0019 0.0017 0.001
30.3
29.5 Ha: m < 30 (la media es menor a 30 segundos)
18 0.0038 0.0034 0.0031 0.0028 0.0025 0.0022 0.0020 0.0018 0.0016 0.001
26.7 19 0.0037 0.0033 0.0029 0.0026 0.0024 0.0021 0.0019 0.0017 0.0015 0.001
30.5
26.3 t = X - m
20 0.0035 0.0032
= 28.30.0028
- 30 =0.0025
-3.370.0022 0.0020 0.0018 0.0016 0.0014 0.001
21 0.0034 0.0030 0.0027 0.0024 0.0022 0.0019 0.0017 0.0015 0.0013 0.001

29.9
29
22 s/ n
0.0033 2.8/30
0.0029 0.0026 0.0023 0.0021 0.0018 0.0016 0.0014 0.0013 0.001
25.2
27.6 23 0.0032 0.0028 0.0025 0.0022 0.0020 0.0018 0.0016 0.0014 0.0012 0.001
28.4
23.6
24 0.0031
Dado que la0.0028 0.0024 0.0022
t es simtrica 0.0019 0.0017
buscamos 0.0015
el valor 0.0013 0.0012 0.001
cuando
27.8 25 0.0030 0.0027 0.0024 0.0021 0.0019 0.0016 0.0015 3.37 0.0013
est0.0011 0.001
entre estos
25.5 t=3.37 en la tabla de 1 cola:
26 0.0029 0.0026 0.0023 0.0020 0.0018 0.0016 0.0014 0.0012valores0.0011 0.001
29
30.3 27 0.0029 0.0025 0.0022 0.0020 0.0017 0.0015 0.0014 0.0012 0.0011 0.000
25.6
28.8 dof 3.00 0.0025
28 0.0028 3.05 0.0022
3.10 0.0019
3.15 0.0017
3.20 0.0015
3.25 0.0013
3.30 0.0012
3.35 0.0010
3.40 0.000
3.45
29.6 29
1 0.0027
0.1024 0.0024
0.1008 0.0021
0.0993 0.0019
0.0978 0.0017
0.0964 0.0015
0.0950 0.0013
0.0937 0.0011
0.0923 0.0010
0.0911 0.000
0.089
25.8
29 2 0.0477 0.0464 0.0451 0.0439 0.0427 0.0415 0.0404 0.0394 0.0383 0.037
29
3 0.0288 0.0277 0.0266 0.0256 0.0247 0.0237 0.0229 0.0220 0.0212 0.020
25.6
29.1
Dado
4
que el valor de p es menor a 0.05, llegamos a la misma
0.0200 0.0190 0.0181 0.0173 0.0165 0.0157 0.0150 0.0143 0.0136 0.013
27.2
32
conclusin
5 0.0150 de antes.
0.0142 0.0134 0.0127 0.0120 0.0113 0.0107 0.0102 0.0096 0.009
29.6 6 0.0120 0.0113 0.0106 0.0099 0.0093 0.0087 0.0082 0.0077 0.0072 0.006
30.4 59
27.3 7 0.0100 0.0093 0.0087 0.0081 0.0075 0.0070 0.0066 0.0061 0.0057 0.005
8 0.0085 0.0079 0.0073 0.0068 0.0063 0.0059 0.0054 0.0050 0.0047 0.004
Prueba Z de nuevo...
Usando Minitab: Stat>Basic Statistics>1-Sample Z
60
Indica la columna con
los datos, el valor de la
desviacin estndar
POBLACIONAL y el
valor de referencia:
Selecciona Options:
Selecciona la opcin ms adecuada

para la hiptesis alternativa:
61
One-Sample Z: Tiempo de ciclo
Test of mu = 30 vs mu < 30
The assumed sigma = 2.8
Variable N Mean StDev SE Mean

Tiempo de ci 30 28.280 2.790 0.511
Variable 95.0% Upper Bound Z P

Tiempo de ci 29.121 -3.36 0.000
Son los mismos resultados que obtuvimos antes
62
Prueba t de nuevo...
Usando Minitab: Stat>Basic Statistics>1-Sample t
63
Indica la columna con
los datos y el valor de
referencia:
Selecciona Options:
Selecciona la opcin ms adecuada

para la hiptesis alternativa:
64
One-Sample T: Tiempo de ciclo
Test of mu = 30 vs mu < 30
Variable N Mean StDev SE Mean

Tiempo de ci 30 28.280 2.790 0.509
Variable 95.0% Upper Bound T P

Tiempo de ci 29.145 -3.38 0.001
Son los mismos resultados que obtuvimos antes
65
Ejemplo
Alquitrn Un fabricante de cigarrillos desea probar que el

16.9
16.6 contenido promedio de alquitrn de una cierta marca
17.3
17.5 es menor a 17 mg. El fabricante muestre 25 cigarros.
17
17.2
Puede confirmar su afirmacin de que los cigarros
16.1
16.4
tienen menos de 17 mg de alquitrn?
17.3
15.9
17.7
18.3
15.6
Ho:
16.8
17.1
17.2
16.4 Ha:
18.1
17.4
16.7
16.9
16
16.5
17.8 Valor de p:_________
17
66
Que nos queda...
1. Las reglas de decisin se siguen aplicando.
2. Siempre debemos validar la normalidad y revisar los tamaos de

muestra antes de seleccionar una herramienta.
3. Si los datos son no normales, debemos entender por que no lo

son y arreglarlos. Si de momento no pueden ser arreglados,
debemos seleccionar una alternativa no paramtrica para contestar
nuestra hiptesis.
67
Pruebas de Varianzas y
Medias para mltiples
muestras
68
Objetivo
1. Identificar problemas que incluyan 1 Y continua y una

X discreta con mltiples niveles.
2. Entender y aplicar pruebas para comparar mltiples

varianzas.
3. Entender y aplicar pruebas t de dos muestras

considerando tanto varianzas iguales como diferentes.
4. Entender y aplicar ANOVA de una va a problemas

especficos.
69
Forma, centro & dispersin
Al comparar una muestra a un valor fijo, es nuestro principal

inters comparar el promedio de la muestra a ese valor para tomar
una decisin.
Cuando hablamos de comparar dos o ms poblaciones (o

muestras en este caso) necesitamos comparar otros parmetros
para identificar diferencias. Al igual que con una muestra,
necesitamos saber si tratamos con datos normales (forma),
comparar sus varianzas (dispersin) para la precisin y sus
medias (centro) para determinar que tan separadas estn entre s.
70
Factor (X)
VARIABLE ATRIBUTO

NO
PARAMTRICAS
PRUEBA DE
PROPORCIONES

Al comparar una Y continua y una X discreta con mltiples niveles,
tenemos las siguientes opciones:
3+ Niveles
2 niveles
Datos en los niveles son:
Normales


ANOVA de ANOVA de Kruskall-Wallis
Iguales Diferentes Iguales Diferentes Kruskall-
una va Wallis una va (si
Prueba t con Mann-Whitney Mann-Whitney
Prueba t n>25)
varianzas Prueba t con Prueba t con
con
iguales varianzas varianzas
varianzas
ANOVA de diferentes
iguales (si diferentes (si
una va n>25) n>25)
ANOVA de
una va (si
Nota:Solo si los datos no . n>25)
estn pareados
72
Suposicin de varianzas iguales
Al comparar dos o ms grupos, las pruebas estadsticas usadas para

comparar las medias, dependen de la suposicin de que las varianzas
son iguales (la dispersin es igual entre los grupos), esto es llamado
homogeneidad de varianzas. Pruebas tales como la t para 2 muestras
tienen anlisis alternativos cuando esto no se cumple.
12 = m1 m2
22 Podemos afirmar
diferencias entre el
proceso A y el
Homogeneidad de varianzas proceso B?
73
Adems de ayudar en la seleccin de la herramienta apropiada para

comparar medias, tambin nos ayuda a comparar dos o ms procesos
en trminos de su precisin (p.e. en que ajuste, A o B nuestro proceso
es ms estable?). Las hiptesis a analizar son:
Ho: 12 = 22 (Las varianzas se consideran iguales)
Ha: 12 22 (Varianzas no iguales)

Qu tan estables andamos
despus de n+1 tragos?
74
En muchas ocasiones no podemos asumir que las varianzas sean

iguales, as que necesitamos probar nuestros datos para tomar esta
decisin. Si los datos analizados son normales entonces podemos
usar la prueba de Bartlett (prueba F para varianzas), Si los datos no
son normales, usamos la prueba de Levene. Es ms recomendable.
Bartlett Levene
75
Prueba de homogeneidad de varianzas
Actualmente tenemos a 2 proveedores entregando el mismo nmero
de parte, los precios son similares entre los dos proveedores.
Deseamos seleccionar solo uno en trminos de su confiabilidad
(consistencia) en entregas y quien entrega ms pronto. Qu
proveedor debemos seleccionar?
Tomorrowsure Inurdrims
Para la consistencia vamos a revisar si
30 27.8
30.5 25.5 uno tiene menos variacin que el otro, o si
29.3 38 esta es la misma:
30.9 40.8
30.4 17.3
29.7 36.5 Ho: 12 = 22
30.9 30
31.3 31.4
31.2 35.3 Ha: 12 22
31.2
32.4
29.7
76
Para hacer la prueba en Minitab, requerimos los datos apilados (una

columna para la respuesta y otra para los niveles de la X)
77
Selecciona las
columnas que
deseas juntar.
Nombra las
columnas que van a
contener y=f(x)
78
Para hacer la prueba en Minitab:

Stat>ANOVA>Test for Equal Variances
79
Indica las
columnas que
contienen a la y,
as como a la x:
Selecciona O.K.
80
Test for Equal Variances for Tiempo

95% Confidence Intervals for Sigmas Factor Levels
Inurdrims
Tomorrowsure
0 5 10 15
Como p < 0.05

F-Test Lev ene's Test
Test Statistic: 69.501 Test Statistic: 15.772 concluimos que las
P-Value : 0.000 P-Value : 0.001 varianzas son diferentes.
Boxplots of Raw Data
Inurdrims
Tomorrowsure
20 30 40
Tiempo
Dependiendo si los datos son normales o no, seleccionamos el

resultado ms adecuado. La prueba de Levene es ms universal
que la de Barttlet.
81
Prueba t de dos muestras
Para la segunda parte de nuestro ejemplo (quien entrega ms

rpido), necesitamos comparar ambos promedios. De acuerdo a
nuestra matriz de seleccin de herramientas, tenemos que:
2 niveles

Prueba t
con
varianzas
ANOVA de iguales (si iguales (si
Discutiremos una va
diferentes
n>25) n>25)
esto despus! ANOVA de
una va (si
estn pareados 82
Prueba t de 2 muestras
La principal importancia de conocer la igualdad de las varianzas, es

para el clculo del estadstico t.
Para varianzas iguales: Los gl para el valor de corte son:
( x x ) ( m1 m 2 ) n1+n2-2, as que la t de referencia queda:

t 1 2
SE ( x1 x2 ) ta ,n1 n2 2
Donde:
1 1
SE ( x1 x2 ) S pool
n1 n2
y:
(n1 1) s12 (n2 1) s22
S pool
n1 n2 2 83
Para varianzas diferentes es un poco ms complicado:
Figrate la referencia!!!
( x1 x2 ) ( m1 m 2 )
t
SE ( x1 x2 )
s12 s22
Donde: SE ( x1 x2 )
n1 n2
2
s s
2 2
1 2
DoF 12 2 2
n n
Y los gl
son: s12 s22

n1 n2
n1 1 n2 1
84
Para nuestro ejemplo, debemos probar las siguientes hiptesis:
Ho: m1 = m2 (No hay diferencia entre las

medias).No hay relacin entre el proveedor y el
tiempo de entrega.
Ha: m1 m2 (Las medias son diferentes).Si hay
relacin entre el proveedor y el tiempo de entrega
Dado que sabemos que las
varianzas no son iguales, solo
cambiamos los datos en las
frmulas...
85
Prueba t para 2 muestras
( x1 x2 ) ( m1 m 2 ) (30.64 31.40) (0)

t
SE ( x1 x2 ) SE ( x1 x2 )
s12 s22 0.7584 52.71

SE ( x1 x2 ) 2.43
n1 n2 12 9
2
s 2
s 2
0.7584 52.71
2

1 2

DoF 12 2 2
n n 12 9
2 2
8.17 8
s1 s2
2 2
0.7584 52.71

n1 n2 12 9
n1 1 n2 1 11 8
86
( x1 x2 ) ( m1 m 2 ) (30.64 31.40) (0)

t 0.313
SE ( x1 x2 ) 2.43
Ahora buscamos en la tabla t:

0.31 est entre
estos valores!!!
Dado que el valor de p es mayor a 0.05, no podemos decir que hay

una diferencia entre los dos proveedores. Por lo tanto la nica
diferencia se debe a la consistencia, as que debemos seleccionar a
Tomorrowsure como nuestro proveedor.
87
Que bueno que tenemos Minitab:
Stat>Basic
Statistics>2-Sample
t...
88
Indica las columnas
con los datos y con
los niveles por
variable (tambin
puedes comparar los
dos niveles por
separado:
Indica si las varianzas son

iguales o diferentes:
En options seleccionas el tipo de

hiptesis alternativa que quieres
comparar:
89
2 sample t-Test
Two-Sample T-Test and CI: Tiempo, Compaa
Two-sample T for Tiempo
Compaa N Mean StDev SE Mean

Inurdrims 9 31.40 7.26 2.4
Tomorrowsu 12 30.625 0.871 0.25
Difference = mu (Inurdrims ) - mu (Tomorrowsu)

Estimate for difference: 0.78
95% CI for difference: (-4.84, 6.39)
T-Test of difference = 0 (vs not =): T-Value = 0.32 P-Value = 0.758 DF = 8
Que son los mismos resultados que habamos obtenido.
90
Ejemplo
Un gerente de finanzas est monitoreando el resultado de una iniciativa

de reduccin de costos. Ella desea saber si las diferencias son
significativas durante los primeros seis meses del ao. Ella quiere
comparar los resultados con los del ao pasado y as determinar si son
ahorros reales o variacin aleatoria. Ella busc apoyo del BB para
realizar el anlisis. Con los datos provistos, Hubo ahorros?
2000 2001
351.842 362.541 Ho: El promedio de costos es igual que el ao pasado
363.527 326.435 Ha: Los costos del ao pasado fueron mayores.
340.48 341.559
349.936 324.397
346.376 320.716
346.166 348.707
346.015
370.633 Ho: m1 = m2
Ha: m1 > m2
358.718
344.722
361.61
349.75
91
Ejemplo
2 levels
Data in each level is:
Normal
Variances are:
Non Normal
Variances are:
Primero debemos saber si las varianzas son iguales o no:
Equal Different Equal Different
t-Test with Mann-Whitney Mann-Whitney
t-Test with
equal t-Test with t-Test with
non-equal
variances equal equal
variances
1- way variances (in variances (in
ANOVA n>25) n>25)
1- way 1- way
ANOVA (if ANOVA (if
Note: Only if data is not paired. n>25) n>25)
92
Ejemplo
Test for Equal Variances for Costos
95% Confidence Intervals for Sigmas Factor Levels
2000
2001
10 20 30 40 50
F-Test Lev ene's Test

Test Statistic: 0.308 Test Statistic: 3.833
P-Value : 0.096 P-Value : 0.068
Boxplots of Raw Data
2000
2001
320 330 340 350 360 370

Costos
Si vemos la prueba de Levene (recuerdas por qu?), el valor de p es

mayor a 0.05, por lo que podemos considerar las varianzas son
iguales.
93
Ejemplo
Otra forma de analizar los datos

es comparando los niveles por
separado:
Ahora las varianzas son iguales:
Tambin seleccionamos el tipo de

alternativa que queremos
contestar:
94
Ejemplo
Two-Sample T-Test and CI: 2000, 2001
Two-sample T for 2000 vs 2001
N Mean StDev SE Mean

2000 12 352.48 9.10 2.6
2001 6 337.4 16.4 6.7
Difference = mu 2000 - mu 2001

Estimate for difference: 15.09
95% lower bound for difference: 4.72
T-Test of difference = 0 (vs >): T-Value = 2.54 P-Value = 0.011 DF = 16
Both use Pooled StDev = 11.9
Como el valor de p es menor a 0.05, concluimos que existe

diferencia significativa de un ao a otro.
95
Intenta este...
Ni-Cadmium Ni-metal
54.5 78.3 Un proveedor de bateras est probando una
67 79.8
41.7 81.3
nueva alternativa a su batera de Ni-Cd. La
64.5 69.4 nueva batera de Ni-metal se espera que dure
86.8 82.8 ms tiempo con la misma consistencia. 2
40.8 82.3
72.5 62.5 muestras de 25 bateras c/u fueron probadas.
76.9 77.5 Hay evidencia que de la batera de Ni-
81 85.3
83.3 85.3
Cadmium dura menos?
82 86.1
71.8 41.1
68.8 112.3 Ho:
71 103
67.8 95.4
56.7 91.1 Ha:
69.7 46.4
70.4 87.3
74.9 71.8
75.4 83.2
64.9 85
104.4 74.3
90.4 85.5
72.8 72.1
58.7 74.1
96
ANOVA
Una alternativa muy poderosa para la prueba t, es el Anlisis de
Varianza (ANOVA). Es tambin muy til para probar diferencias en
las medias cuando la X tienen mltiples niveles.
3+ Niveles
2 niveles
Normales


ANOVA de ANOVA de Kruskall-Wallis
Iguales Diferentes Iguales Diferentes Kruskall-
una va Wallis una va (si
Prueba t n>25)
con Kruskall
varianzas Wallis
ANOVA de diferentes
iguales (si diferentes (si
una va n>25) n>25)
ANOVA de
una va (si
estn pareados
97
ANOVA
Cuando tenemos un solo factor con mltiples niveles y observaciones

en cada nivel, decimos que tenemos un anlisis de una va. Con este
arreglo podemos calcular la media de las observaciones para cada
nivel. Tambin podemos comparar esas medias contra la media global
para ver los efectos de los niveles, y a su vez comparar la variacin
dentro de cada nivel y compararla contra la variacin generada al
cambiar de niveles (de aqu el nombre).
Tratamos de
ajustar este
modelo a
y m ai eij nuestros
datos...
Significa que cada punto es resultado del

valor promedio para la variacin del
cambio de nivel y algo de error.
98
ANOVA
Dentro
del
grupo
Entre grupos
Total
2
Entre
2
_ grupos 2
Dentro_ de _ grupos
El efecto de los cambios son determinados por cambios en la variacin

total. El ANOVA separa las diferentes fuentes de variacin para evaluar
los cambios en los promedios.
99
ANOVA
Para analizar los datos, usamos la tabla de ANOVA:
Suma de Cuadrado
Fuente de variacin GL cuadrados Medio F Valor p
k
SS EG CM EG
Entre grupos k-1 l ( xi xtotal ) 2 p( F Fa ,k 1,nk )
i 1 k 1 CM DG
SSTotal SS EG
SS DG
*
Dentro de grupos n-k
nk
l m
Total n-1 ( x
i 1 j 1
ij xtotal ) 2
De nuevo, necesitamos decidir en trminos del valor de p si la diferencia entre las

medias de grupos es significativa. Si el valor de p es menor que alfa, entonces es
significativa.
Ho: m1 = m2 = m3 =... Medias de los grupos son iguales. No hay relacin de las Xs
con la Y.
Ha: mi mj . .. Al menos un par es diferente. S hay relacin de las Xs con la
Y
*La variacin dentro de grupos tambin se le
conoce como el error o residual. 100
ANOVA
Suma de Cuadrado
Fuente de variacin GL cuadrados Medio F Valor p
k
SS EG MS EG
Entre grupos k-1 l ( xi xtotal ) 2 p( F Fa ,k 1,nk )
i 1 k 1 MS DG
SSTotal SS EG
SS DG
Dentro de grupos* n-k
nk
l m
Total n-1 ( x
i 1 j 1
ij xtotal ) 2
Un valor til es el de epsilon cuadrada (e2) que nos dice que tanta variacin
(del total) se explica por la variacin entre grupos. Si e2 del error es mayor
que la de entre grupos, entonces probablemente otra fuente de variacin
cambi durante nuestro anlisis.
SS EG 2 SS DG
e EG ; e DG
Es mejor si se 2
expresa como
porcentaje!
SSTotal SSTotal
101
ANOVA
Ni-Cadmium Ni-metal
54.5 78.3 Un proveedor de bateras est probando una
67 79.8 nueva alternativa a su batera de Ni-Cd. La
41.7 81.3
64.5 69.4
nueva batera de Ni-metal se espera que dure
86.8 82.8 ms tiempo con la misma consistencia. 2
40.8 82.3
72.5 62.5
muestras de 25 bateras c/u fueron probadas.
76.9 77.5 Hay evidencia que de la batera de Ni-
81 85.3 Cadmium dura menos?
83.3 85.3
82 86.1
71.8 41.1
68.8 112.3 Ho: mNi-Cadmium = mNi-metal
71 103
67.8
56.7
95.4
91.1
Ha: mNi-Cadmium mNi-metal
69.7 46.4
70.4 87.3 Promedio Ni-Cadmio = 70.748
74.9 71.8
75.4 83.2 Promedio Ni-metal = 79.728
64.9 85 Promedio total = 75.238
104.4 74.3
90.4 85.5
72.8 72.1
58.7 74.1
102
ANOVA
Suma de Cuad.Medio
Fuente de Variacin GL Cuadrados F Valor de p
Entre grupos 1 1008.005 1008.005 4.779 0.0337
Dentro de grupos 48 10123.633 210.909
Total 49 11131.638
SSEG = 25[(70.748-75.238)^2 + (79.728-75.238)^2] = 1008.005
SSTotal = (54.5-75.238)^2 + (67-75.238)^2 + ... + (74.1-75.238)^2 = 11131.638
SSDG = (11131.638 - 1008.005) = 10123.633
Dado que el valor de p es menor a 0.05, concluimos que existe una

diferencia significativa entre las medias, por lo tanto la batera de Ni-metal
dura ms que la de Ni-cadmio. 103
ANOVA
Ahora usando Minitab:
Stat>ANOVA>One-way
104
ANOVA
Indica que columna

corresponde a la respuesta y
cual a la variable de inters:
Almacena los valores de

los residuales y de los
valores ajustados.
105
ANOVA
One-way ANOVA: Horas versus Batera
Analysis of Variance for Horas

Source DF SS MS F P
Batera 1 1008 1008 4.78 0.034
Error 48 10124 211
Total 49 11132
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev --+---------+---------+---------+----
Ni-Cadmi 25 70.75 13.99 (---------*---------)
Ni-metal 25 79.73 15.03 (---------*---------)
--+---------+---------+---------+----
Pooled StDev = 14.52 66.0 72.0 78.0 84.0
Que nos da el mismo resultado que

el anterior !!
106
Intenta este...
Un instructor de RH desea determinar si existe diferencia entre

diferentes tipos de material de entrenamiento para operarios. Se
analizaron 3 materiales de entrenamiento en tres grupos diferentes.
Despus del entrenamiento se midi la eficiencia de cada operador.
Hay un material que muestre mejores resultados (eficiencia) entre los
operarios?
Material I Material II Material III

87 58 81
80 63 62
Ho:____________________
74 64 70
82 75 64 Ha:____________________
74 70 70
81 73 72
97 80 92
62 63 Asume normalidad e igualdad de
71
varianzas.
107
Que nos queda
1. Siempre revisa la normalidad de los datos y la homogeneidad de

varianzas.
2. La prueba correcta depende del nmero de niveles dentro de la

variable X: las pruebas t se usan hasta 2 niveles de X, el ANOVA
funciona para 2 o ms niveles.
3. Las suposiciones de normalidad no son necesarias para tamaos

de muestra mayores a 25. Al comparar mltiples muestras, todas
deben ser mayores a 25; se recomienda probar.
4. De preferencia, utiliza una computadora. Apyate de las

herramientas de Minitab La aritmtica es fcil, pero la oportunidad de
error es alta.
108
Apndices
109
Apndice A: Prueba de Mann-Whitney
X discreta con 2 niveles:
Cuando no se cumplen las suposiciones de normalidad, es necesario

utilizar una prueba que no dependa de esta suposicin. Una alternativa
para la prueba t de dos muestras en la prueba de Mann-Whitney (o
prueba U).
110
La prueba U (como la mayora de las pruebas no paramtricas) usan la
suma de los rangos de las dos muestras.
El procedimiento es como sigue:
Ranquea todas las (n1 + n2) observaciones en orden
ascendente. Los empates reciben el promedio de sus
observaciones.
Calcula la suma de los rangos, denominados Ra y Rb
Calcula el estadstico U,
Ua = n1(n2) + .5(n1)(n1 + 1) - Ra
o
Ub = n1(n2) + .5(n2)(n2 + 1) - Rb
donde Ua + Ub = n1(n2).
111
Las hiptesis relacionan las medianas, no las medias:
x1 ~
Ho : ~ x2
x ~
Ha : ~ 1 x 2
El estadstico de prueba, U, es el menor de Ua y Ub. El valor de corte
de la distribucin U est dado por: Un1, n2, a y las reglas de decisin son
las mismas.
Lo sentimos, no tenemos tablas de la
distribucin U. Para analizar nos
limitaremos al uso de Minitab
(Stat>Nonparametrics>Mann-
Whitney).
112
Apndice B: Prueba de Kruskal-Wallis
3+ niveles de una X discreta:
La alternativa no paramtrica para el ANOVA es la prueba de Kruskal-

Wallis, de hecho puede utilizarse para 2 o ms niveles.
El procedimiento de KW prueba la hiptesis nula de que k muestras de

poblaciones diferentes realmente provienen de la misma poblacin, al
menos en trminos de sus tendencias centrales o medianas. La prueba
asume que las variables en investigacin tienen distribuciones
continuas.
113
Al computar el estadstico de KW, cada observacin se reemplaza por
el rango en una combinacin de todas las k muestras. En otras
palabras se crea una sola serie de valores. La mnima observacin se
reemplaza por el rango de 1, la siguiente ms pequea con el rango 2,
y la mxima observacin con el rango N, donde N es el total de
observaciones entre todas las muestras (N es la suma de ni).
El siguiente paso es realizar la suma de los rangos para las muestras

originales. La prueba de KW determina si las sumas de los rangos son
muy diferentes entre las muestras y que no es probable que
provengan de la misma poblacin.
114
Se puede mostrar que si las k muestras vienen de la misma poblacin,
cuando la hiptesis nula es verdadera, el estadstico H, usado para la
prueba se distribuye aproximadamente como una chi cuadrada con gl = k
- 1, partiendo de que las k muestras no son demasiado pequeas
(digamos, ni>4, para toda ki). H se define como:
12 k
Ri2
H
N ( N 1) i 1 ni
3( N 1)
donde
k = nmero de muestras (grupos)
ni = nmero de observaciones de la i-sima muestra del grupo
N = Nmero total de observaciones (suma de las ni)
Ri = suma de los rangos del grupo i
115
Prueba deChi2 & Prueba
de Proporciones
116
Objetivo
1. Entender las diferencias entre la prueba de Chi

cuadrada y la de Proporciones.
2. Usar la Chi cuadrada para contrastar hiptesis.
3. Usar la prueba de Proporciones para contrastar

hiptesis.
117
Factor (X)
VARIABLE ATRIBUTO

VARIABLE REGRESIN Y DE T, Z
Respuesta (Y) CORRELACIN ALTERNATIVAS
NO
PARAMTRICAS
PRUEBA DE
PROPORCIONES

Prueba de Chi cuadrada
Usada para determinar si existe o no relacin entre dos grupos. El

tipo de medicin debe ser de naturaleza discreta (conteos o
frecuencias). Esta prueba tambin es conocida como prueba de
independencia.
Todo se trata
Ho: La variable A es independiente de la variable B de relaciones!!!
Ha: La variable A depende de la variable B
119
La mecnica de la prueba depende en comparar una frecuencia

(conteo) observada y compararla contra una frecuencia esperada, una
que asegure la independencia de los datos. Si existen diferencias entre
ambas, entonces diremos que existe una fuerte relacin entre los dos
grupos (variables).
Piensa en esto, una competencia de clavados, estamos seguros de

la imparcialidad de los jueces?, usan todos los mismos criterios?, en
otras palabras, la puntuacin del clavado depende del juez que
evala?
120
Las calificaciones altas dependen del juez?
Ho:
Cmo escribiras las
hiptesis?
Ha:
121
Para el anlisis de los datos, necesitamos una tabla de contingencia
para sumarizar las frecuencias. Es un arreglo n X m mostrando las
combinaciones entre los niveles de 2 variables.
n1 n2 n3 n4 Total
Necesitamos el total
m1
(suma) por rengln y por
m2 columna y el gran total:
m3
Smi = Snj = Gran Total
Total
Las frecuencias esperadas son calculadas para cada celda:
E.V. = (Total Columna j)(Total Rengln i)

Gran Total
122
Para construir el estadstico de prueba, necesitamos sumar los
valores de Chi cuadrada por celda:
Esto es para cada celda,

c2 = (O.V. - E.V.)2 entonces sumamos todos los
valores!
E.V.
Total Chi-sq=SSi,j=1 c2ij

Valor de corte
c2(n-1)(m-1), 0.05
Debemos saber en
que lado del valor de
corte cae nuestro valor
total de Chi cuadrada
(para encontrar el
valor de p relacionado Aceptar Ho Rechazar Ho
con ese valor de Chi
cuadrada)
123
Ejemplos...
Juanita es muy capaz. Ella sinti que le fue muy bien en las entrevistas de
trabajo. Sin embargo, no fue contratada. Acaso se debe a que es mujer?
Puede reclamar que hubo discriminacin por gnero en las prcticas de
contratacin de la compaa?
Gnero Contratado No contratado

M 30 70
F 10 40
Ho:
Ha:
Podemos obtener este valor

con un software estadstico o
Que concluiras con un valor de p = 0.1917? con Minitab o Excel
124
Como usando Excel.....
1. Determina los valores esperados: Gnero Contratado No contratado Total

M 30 70 100
F 10 40 50
E.V.= (Total Columna) x (Total Rengln) Total 40 110 150
Gran Total
El valor esperado para mujeres contratadas es: Valores esperados
Gnero Contratado No contratado

E.V. = (40) x (100)/150 = 26.67 (Valor real 30) M 26.6666667 73.33333333
F 13.3333333 36.66666667
2. Determina el valor de la chi cuadrada: Matriz de Chi cuadrada
c2 = (E.V. - R.V.)2 = (26.667 - 30)2 = 0.4167 Gnero Contratado No contratado

M 0.41666667 0.151515152
E.V. 26.667 F 0.83333333 0.303030303
Esto es para cada combinacin, luego se Total Chi-sq = 1.70454545
suman los resultados.
125
3. Determina el valor de p usando la funcin distr.Chi en Excel:
Para cualquier celda escribe:

= dist. Chi (Total Chi-sq,gl)
donde:
Total Chi-Sq es el valor obtenido previamente y

gl = grados de libertad = (# columnas - 1) x (# Renglones - 1)
Para nuestro ejemplo:
= dist. Chi(1.7045,1) = 0.1916947
De acuerdo a nuestras reglas de decisin, dado que el valor de p es mayor a

0.05, no tenemos suficiente evidencia para decir que la contratacin depende
en el gnero, no hay relacin entre la contratacin y el gnero.
126
Ahora, usando Minitab.....
Stat>Tables>Chi Square Test
Necesitas ordenar los

datos as:
127
Usando Minitab.....
Selecciona las dos

columnas que contienen los
datos:
Selecciona O.K.
128
Usando Minitab.....
Dado que el valor de p es mayor a 0.05

concluimos que no hay relacin entre
gnero y las prcticas de contratacin.
129
Ms ejemplos...
Queremos saber si hay diferencia significativa entre nuestros tres proveedores en
trminos de entregas a tiempo. Podemos afirmar que hay elementos para
determinar una diferencia?
Noway Inurdreams Tomorrowsure

Tarde 6 8 12
A tiempo 22 9 10
Ho:
Ha:
Podemos obtener este valor

con un software estadstico
Cul sera tu conclusin para un valor de p = 0.042? como Minitab o con Excel
130
Noway Inurdreams Tomorrowsure TOTAL
1. Determina los valores esperados: Tarde 6 8 12 26
A tiempo 22 9 10 41
TOTAL 28 17 22 67
E.V. = (Total Columna) x (Total Rengln)
Gran Total
El valor esperado para embarques tardos es: Tarde 10.87 6.60 8.54
A tiempo 17.13 10.40 13.46
E.V. = (28) x (26)/67 = 10.87 (Valor real es 6)
2. Determina el valor total de Chi cuadrada:

Tarde 2.18 0.30 1.40
c2 = (E.V. - R.V.)2 = (10.87 - 6)2 = 2.18 A tiempo 1.38 0.19 0.89
E.V. 10.87 Total Chi-Sq = 6.343
Esto es para cada combinacin, luego se

suman todos los valores.
131
3. Determina el valor de p usando la funcin distr. chi en Excel:
Para cualquier celda escribe:

= dist. Chi (Total Chi-sq,gl)
donde:
Total Chi-Sq es el valor obtenido previamente y

gl = grados de libertad = (# columnas - 1) x (# Renglones - 1)
Para nuestro ejemplo:
= dist. Chi (6.343,2) = 0.042
De acuerdo a nuestra regla de decisin, el valor es menor a 0.05 as que

tenemos suficiente evidencia para decir que hay una diferencia entre los
proveedores. Podemos saber cul es el mejor estadsticamente?
132

Tarde 2.18 0.30 1.40
A tiempo 1.38 0.19 0.89
Total Chi-Sq = 6.343
Mayor contribuidor al valor de Chi-sq.

Noway entrega ms embarques a tiempo
que los dems.
Podemos usando la tabla de Chi-sq. Nota el valor ms alto, este es donde se

encontr la mayor diferencia significativa entre proveedores.
133
Intenta este...
Edad de la Madre
Nacimiento < 25 25-35 > 35
Normal 22 23 9
Anormal 8 17 21
Est la edad de la madre relacionada con la incidencia de nacimientos anormales?
Ho:
Ha:
Valor de p:_______ Cules son tus conclusiones?

134
Prueba de Proporciones
Es similar a la Chi cuadrada, solo que la medida de inters son las

proporciones de una caracterstica en vez de las frecuencias
esperadas. Trabaja para atributos que tienen solo dos posibles
opciones (si/no, bueno/malo, a tiempo/tarde, etc.).
La prueba busca diferencias significativas entre las proporciones de 2

poblaciones diferentes.
Ho: p1 = p2 (No hay diferencia entre las proporciones)
Ha: p1 p2 (Las proporciones son diferentes)
Qu otras alternativas existen? 135

Tres escenarios para Ha:
Za -Za
Regin de
rechazo de
Ho
Ha: P> 0 Ha: P< 0
Ha: P 0
Sin importar el escenario, si el
valor de p (p-value) es menor
-Za/2 Za/2 que a, rechazamos Ho.
Nota: La mayora de los software estadsticos
Regin de hacen anlisis para dos colas, si no entonces
rechazo de habr que multiplicar el valor de p por 2.
Ho
136
Para el anlisis necesitamos: (i.e. Total

defectuoso)
Identificar dos proporciones: p = caracterstica contada ; p1, p2
Total muestreado
Total de
caractersticas
Calcula la proporcin combinada: ppooled= x1 + x2
n1 + n 2
Total muestreado
Calcula el estadstico de prueba: Z = p1 - p2

se(p1-p2)
Donde se(p1-p2) = ppooled(1-ppooled)(1/n1 + 1/n2)

137
Ejemplo
Un estudio de Harvard esperaba determinar si el consumo de Aspirina

tena influencia en la reduccin de ataques al corazn. En un periodo
de 5 aos, 22071 voluntarios fueron monitoreados. Los voluntarios se
dividieron en 2 grupos; el grupo 1 tom un placebo diariamente y el
grupo 2 recibi aspirina en forma diaria.
Los resultados se muestran en la siguiente tabla:
Ataque n p
Grupo 1 239 11034 0.0217
Grupo 2 139 11037 0.0126
Es esta diferencia suficiente
para determinar que la
aspirina previene los ataques
al corazn? 138
3.6 0.999840854 0.99984
3.7 0.999892170 0.99989
Ejemplo 3.8 0.999927628 0.99993
3.9 0.999951884 0.99995
4.0 0.999968314 0.99996
Ha: p1 p2 (Existe diferencia entre las proporciones)
4.1 0.999979331 0.99998
4.2 0.999986646 0.99998
ppooled= x1 + x2 = 239 + 139 = 0.01713 4.3 0.999991454 0.99999
n1 + n2 11034+11037 4.4 0.999994583 0.99999
4.5 0.999996599 0.99999
se(p1-p2) = ppooled(1-ppooled)(1/n1 + 1/n2) = 0.017(0.98)(1/11034
4.6 0.999997885 0.99999
+ 1/11037)
4.7 0.999998698 0.99999
4.8 0.999999206 0.99999
se(p1-p2) = 0.00175 Buscando
4.9en0.999999520
las 0.99999
tablas Z:
5.0 0.999999713 0.99999
Z = p1 - p2 = 0.0217 - 0.0126 = 5.2 Z 0.999999830
0 0.01
5.1 0.99999
se(p1-p2) 0.00175 3.0
5.2 0.998650033
0.999999900 0.998693
0.99999
3.1 0.999032329 0.999064
5.3 0.999999942 0.99999
El valor de p deseado es: 2(1-0.99999)=0.00002 3.2 0.999312798 0.999336
5.4 0.999999967 0.99999
Rechazar Ho, concluimos que 3.3 existe
0.999516517 0.999533
suficiente
5.5 0.999999981 0.99999
3.4
evidencia para afirmar que la5.6 0.999663019
aspirina 0.999675
previene0.99999
0.999999989
los ataques al corazn! 3.5 0.999767327 0.999775
5.7 0.999840854
3.6 0.999999994 0.999846
0.99999
139
5.8 0.999999997 0.99999
Ejemplo
Usando Minitab:
Stat>Basic Statistics>2 proportions
Aqu seleccionamos los

datos sumarizados:
140
Ejemplo
Escribimos los datos y

seleccionamos O.K.
Dado que el valor de p

es menor a 0.05,
concluimos que existe
una relacin entre la
razn de ataques al
corazn y el hecho de
tomar aspirina o no.
141
Ejemplo
Juanita es muy capaz. Ella sinti que le fue muy bien en las entrevistas de
trabajo. Sin embargo, no fue contratada. Acaso se debe a que es mujer?
Puede reclamar que hubo discriminacin por gnero en las prcticas de
contratacin de la compaa?
Proporcin
Gnero Contratado No contratado contratada
M 30 70 0.3
F 10 40 0.2
Ho:
Ha:
142
Ejemplo
Z 0 0.01 0.
0.0 0.50000 0.50399 0.5
Ha: p1 > p2 (Existe diferencia entre las proporciones)
0.1 0.53983 0.54380 0.5
0.2 0.57926 0.58317 0.5
ppooled= x1 + x2 = 30 + 10 = 0.26667 0.3 0.61791 0.62172 0.6
n1 + n2 100 + 50 0.4 0.65542 0.65910 0.6
0.5 0.69146 0.69497 0.6
se(p1-p2) = ppooled(1-ppooled)(1/n1 + 1/n2) = 0.267(0.73)(1/100
0.6 0.72575 +0.72907
1/50) 0.7
0.7 0.75804 0.76115 0.7
se(p1-p2) = 0.07659 0.8 0.78814 0.79103 0.7
0.9 0.81594 0.81859 0.8
Buscando en las
Z = p1 - p2 = 0.3 - 0.2 = 1.31 1.0Z:0.84134 0.84375 0.8
tablas
se(p1-p2) 0.07659 1.1 0.86433 0.86650 0.8
Z 0.88493
1.2 0 0.01 0.80
0.88686
0.0 0.90320
1.3 0.50000 0.90490
0.50399 0.9
0.
El valor de p es: 1-0.9049=0.0951
0.1 0.91924
1.4 0.53983 0.92073
0.54380 0.9
0.
No rechazar Ho, concluimos que no existe
1.5
0.2 0.93319
0.57926 0.93448
0.58317 0.9
0.
evidencia para afirmar que existen preferencias
1.6
0.3 0.94520
0.61791 0.94630
0.62172 0.9
0.
de gnero en las prcticas de contratacin. 143
1.7
0.4 0.95543
0.65542 0.95637
0.65910 0.9
0.
Intenta este....
Ao Defectuosos Total Proporcin

1999 23450 158000 0.1484177
2000 42354 254000 0.166748
Podemos afirmar que los defectuosos aumentaron de 1999 al 2000?
Ho:
Ha:
Valor de p:_______ Cules son tus conclusiones?

144
Chi cuadrada vs. Proporciones
1. Las pruebas de proporciones tienen mayor capacidad de detectar

diferencias que la Chi cuadrada y son ms fciles de calcular. Sin
embargo, requieren de un mayor tamao de muestra. Como regla el
nmero np debe ser mayor a 5.
2. La Chi cuadrada es ms verstil que la prueba de proporciones. La

prueba de proporciones es til cuando solo hay dos posibles salidas
(pasa o no pasa, si-no mejor, etc.) y la Chi cuadrada trabaja con
variables que tienen mltiples niveles. Es muy recomendable que el
conteo de la frecuencia esperada sea igual o mayor a 5.
145
Seleccin del Tamao de
muestra
146
Objetivo
1. Entender los elementos relacionados en determinar

tamaos de muestra estadsticamente vlidos.
2. Entender la influencia de a y b en el tamao de la

muestra.
3. Calcular tamaos de muestra estadsticamente

vlidos.
147
Cmo seleccionar tamao de
muestra?
Debemos examinar el tipo de datos utilizado. Cada tipo de
dato tiene un mtodo diferente para definir tamaos de
muestra.
Datos continuos o variables
Datos discretos o atributos
Continuos Discretos
148
Terminologa
1. Hiptesis nula (Ho) - Afirmacin de no cambio o diferencia.
Afirmacin que se supone cierta
2. Error tipo I - Error incurrido al rechazar Ho cuando esta es cierta,
clamar una diferencia cuando no existe.
3. Riesgo alfa - Mxima probabilidad de incurrir en error tipo I. Esta
probabilidad es mayor a cero y usualmente se fija al 5%. Los
investigadores toman su decisin considerando el mayor riesgo
aceptable al rechazar. El riesgo de rechazar Ho cuando es cierta.
Distribucin Distribucin
real mejorada?
1a a
149
Terminologa
4. Hiptesis alternativa (Ha) - Afirmacin de cambio o diferencia. Este
enunciado es cierto si Ho se rechaza.
5. Error tipo II - El error de no rechazar Ho cuando esta es falsa, o
indicar que no hay diferencia cuando si la hay.
6. Riesgo Beta - La probabilidad de incurrir en el error tipo II, el riesgo
de aceptar Ho cuando es falsa.
real mejorada?
1a b a 1b
150
Terminologa
7 Potencia (1b) - La habilidad de una prueba estadstica de detectar
una diferencia real. Comnmente usado para determinar tamaos
de muestra dependiendo de las diferencias que se desean percibir.
(delta-sigma: d/)
8. Estadstico de prueba - Valor estandarizado (z, t, F, etc.) que
representa la factibilidad de Ho y se distribuye de tal forma que se
puede determinar una probabilidad. Usualmente, dado que Ho es
ms factible, el valor absoluto del estadstico decrecer dado que la
probabilidad de ser parte de la distribucin es mayor.
a/2 1a a/2
Control
Distribution CL
Contrast
CL Distribution
b 1b
d
151
Terminologa
9. Delta (d) - La magnitud de la diferencia a ser detectada en el
universo, misma que es de inters o de utilidad prctica en el
mundo real. Se le conoce como delta o sensibilidad de la
prueba.
Muestra = f ( a, b, d, )
152
Sensibilidad de la prueba
Una vez definidos los valore de a y, es necesario determinar que tan
grande es la diferencia que se desea detectar para que exista una
diferencia prctica. Esta diferencia se conoce como delta sigma .
Por ejemplo, la diferencia entre dos medias expresada en
desviaciones estndar (valores de Z).
d/
de control de contraste
a/2 a/2
CL
1a
CL
b 1b
d/
Delta (d) = Diferencia til en la prctica
Sigma ( ) = Desviacin estndar de referencia
153
Impacto de a y b en el tamao de la
muestra
Se QUEREMOS reducir error -- (a, b )
... aumenta el tamao de muestra n
Si QUEREMOS aumentar la sensibilidad -- ( reducir d / )
... aumenta el tamao de muestra n
Error Std. vs tamao de la muestra Intervalo de confianza vs. tamao de muestra
0.5
0.6
0.4
0.5 0.3
0.4 0.2
Intervalos
0.1
SE
0.3
0
0.2 -0.1 0 100 200 300 400 500 600
0.1 -0.2
-0.3
0
-0.4
0 10 20 30 40 50 60 70 -0.5
N Tamao de muestra
154
Tamao de muestra
El criterio para determinar un adecuado tamao de muestra
es de naturaleza estadstica.
Otros criterios de naturaleza prctica incluyen elementos
tales como costo, tiempo y recursos disponibles.
Estos factores pueden tener un impacto prctico en la
seleccin de un tamao de muestra adecuado, as que esto
debe ser determinante despus de comparar el tamao
estadsticamente correcto. Solo entonces puedes evaluar
las prdidas.
Tamao
de = + +
muestra
155
Calculador de tamao de muestra
Tenemos una ayuda en Excel: sample_size_BSSA.xls para ayudarnos a
calcular tamaos de muestra estadsticamente vlidos.
156
Ejemplo
Un Green Belt quera reducir el nmero de manuales de instruccin

deficientes. Los DPMO iniciales fue de 100, 000. Ella necesitaba
reducir al menos a 11, 000 para considerar el proyecto exitoso. Alfa y
Beta se fijan en sus valores tpicos (5% y 10% respectivamente).
Cul sera un tamao de muestra estadsticamente vlido?
157
Ejemplo
Selecciona la hoja DPMO:
Vamos a comparar
una muestra del
proceso inicial contra
una muestra del
proceso mejorado,
as que
seleccionamos una
prueba de dos
muestras.
158
Ejemplo
DPMOs iniciales
vs. deseados DPMOs iniciales
(100000-11000) Esta es la muestra
necesaria para tener
validez estadstica.
159
Tamao de muestra - Datos continuos
Los tamaos de muestra para datos
continuos estn tabulados para facilitar (???)
la investigacin.
Con los valores de a, b, y d/, podemos usar
la tabla de la siguiente pgina para
determinar el tamao de muestra (n).
La columna izquierda tiene valores de d / .
La hilera superior tiene valores de a.
Bajo cada a hay 4 valores de b.
Baja por la columna de los valores de a y b

hasta llegar al valor deseado de d/ en la
columna de la izquierda. Luego lee el valor n
de tamao de muestra en la tabla.
160
Sample Size
a = 20% a = 10% a =5% a = 1%
Delta/Sigma 20% 10% 5% 1% 20% 10% 5% 1% 20% 10% 5% 1% 20% 10% 5% 1% =b

0.2 225 328 428 651 309 428 541 789 392 525 650 919 584 744 891 1202
0.3 100 146 190 289 137 190 241 350 174 234 289 408 260 331 396 534
0.4 56 82 107 163 77 107 135 197 98 131 162 230 146 186 223 300
0.5 36 53 69 104 49 69 87 126 63 84 104 147 93 119 143 192
0.6 25 36 48 72 34 48 60 88 44 58 72 102 65 83 99 134
0.7 18 27 35 53 25 35 44 64 32 43 53 75 48 61 73 98
0.8 14 21 27 41 19 27 34 49 25 33 41 57 36 46 56 75
0.9 11 16 21 32 15 21 27 39 19 16 32 45 29 37 44 59
1.0 9 13 17 26 12 17 22 32 16 21 26 37 23 30 36 48
1.1 7 11 14 22 10 14 18 26 13 17 21 30 19 25 29 40
1.2 6 9 12 18 9 12 15 22 11 15 18 26 16 21 25 33
1.3 5 8 10 15 7 10 13 19 9 12 15 22 14 18 21 28
1.4 4 7 9 13 6 9 11 16 8 11 13 19 12 15 18 25
1.5 4 6 8 12 5 8 10 14 7 9 12 16 10 13 16 21
1.6 3 5 7 10 5 7 8 12 6 8 10 14 9 12 14 19
1.7 3 4 6 9 4 6 7 11 5 7 9 13 8 10 12 17
1.8 3 4 5 8 4 5 7 10 5 6 8 11 7 9 11 15
1.9 2 3 5 7 3 4 6 9 4 6 7 10 6 8 10 13
2.0 2 3 4 7 3 4 5 8 4 5 6 9 6 7 9 12
2.1 2 3 4 6 2 4 5 7 4 5 6 8 5 7 8 11
2.2 2 2 4 5 2 3 4 7 3 4 5 8 5 6 7 10
2.3 2 2 3 5 2 3 4 6 3 4 5 7 4 6 7 9
2.4 2 2 3 5 2 3 4 5 3 4 5 6 4 5 6 8
2.5 1 2 3 4 2 3 3 5 3 3 4 6 4 5 6 8
2.6 1 2 2 4 2 2 3 5 2 3 4 5 3 4 5 7
2.7 1 2 2 4 1 2 3 4 2 3 4 5 3 4 5 7
2.8 1 2 2 3 1 2 3 4 2 3 3 4 3 4 5 6
2.9 1 2 2 3 1 2 3 4 2 2 3 4 3 4 4 6
3.0 1 1 2 3 1 2 2 4 2 2 3 4 3 3 4 5
3.1 1 1 2 3 1 2 2 3 2 2 3 4 2 3 4 5
3.2 1 1 2 3 1 2 2 3 2 2 3 3 2 3 3 5
3.3 1 1 2 2 1 1 2 3 1 2 2 3 2 3 3 4
3.4 1 1 1 2 1 1 2 3 1 2 2 3 2 3 3 4
3.5 1 1 1 2 1 1 2 3 1 2 2 3 2 2 3 4
3.6 1 1 1 2 1 1 2 2 1 2 2 3 2 2 3 4
3.7 1 1 1 2 1 1 2 2 1 2 2 3 2 2 3 4
3.8 1 1 1 2 1 1 1 2 1 1 2 3 2 2 2 3
3.9 1 1 1 2 1 1 1 2 1 1 2 2 2 2 2 3
4.0 1 1 1 2 1 1 1 2 1 1 2 2 1 2 2 3
161
Quieres saber si tienes suficientes datos para decir que una

X (con dos niveles) tiene influencia sobre la Y.
Para poder decir en la prctica que hay significancia, debes

observar un cambio de dos unidades (d = 2.0) en la Y.
Datos histricos dan una = 2.0
Riesgo alfa a = .05 (valor tpico)
Riesgo beta b = .10 (valor tpico)
Cuntas piezas (n) se requieren para cada nivel de X para

predecir si esta tiene o no influencia sobre la Y?
162
Sample Size
a = 20% a = 10% a =5% a
Delta/Sigma 20% 10% 5% 1% 20% 10% 5% 1% 20% 10% 5% 1% 20% 1
0.2 225 328 428 651 309 428 541 789 392 525 650 919 584
0.3 100 146 190 289 137 190 241 350 174 234 289 408 260
0.4 56 82 107 163 77 107 135 197 98 131 162 230 146
0.5 36 53 69 104 49 69 87 126 63 84 104 147 93
0.6 25 36 48 72 34 48 60 88 44 58 72 102 65
0.7 18 27 35 53 25 35 44 64 32 43 53 75 48
0.8 14 21 27 41 19 27 34 49 25 33 41 57 36
0.9 11 16 21 32 15 21 27 39 19 16 32 45 29
1.0 9 13 17 26 12 17 22 32 16 21 26 37 23
1.1 7 11 14 22 10 14 18 26 13 17 21 30 19
1.2 6 9 12 18 9 12 15 22 11 15 18 26 16
1.3 5 8 10 15 7 10 13 19 9 12 15 22 14
1.4 4 7 9 13 6 9 11 16 8 11 13 19 12
1.5 4 6 8 12 5 8 10 14 7 9 12 16 10
1.6 3 5 7 10 5 7 8 12 6 8 10 14 9
1.7 3 4 6 9 4 6 7 11 5 7 9 13 8
1.8 3 4 5 8 4 5 7 10 5 6 8 11 7
1.9 2 3 5 7 3 4 6 9 4 6 7 10 6
2.0 2 3 4 7 3 4 5 8 4 5 6 9 6
2.1 2 3 4 6 2 4 5 7 4 5 6 8 5
2.2 2 2 4 5 2 3 4 7 3 4 5 8 5
2.3 2 2 3 5 2 3 4 6 3 4 5 7 4
2.4 2 2 3Este es el tamao
5 2 3 4 5 3 4 5 6 4
2.5 1 2 3 4 2 3 3 5 3 3 4 6 4
2.6 1 2 2
de muestra
4 2 2 3 5 2 3 4 5 3
2.7
2.8
1
1
2
2
2
2
requerido
4
3
1
1
2
2
3
3
4
4
2
2
3
3
4
3
5
4
163 3
3
2.9 1 2 2 3 1 2 3 4 2 2 3 4 3
Usando el calculador de tamao de muestra:
Que nos da el mismo resultado anterior (El calculador

redondea el valor en vez de truncarlo como las tablas)
164
Nota que necesitamos n = 21 (o 22) muestras para cada nivel de

X, as que requerimos 42 muestras si la X es de dos niveles.
Otros factores tales como costo, tiempo y recursos deben

considerarse si como 21 tenemos una solucin prctica...si 21 es
muy grande, probablemente deseemos aumentar a, b o d. Alfa se
fija tpicamente en 0.05.
165
Intenta esto...
Actualmente tenemos a dos proveedores entregando el mismo

nmero de parte, el precio es similar entre ambos. Deseamos
seleccionar solo uno en trminos de la confiabilidad (consistencia) y
quien entrega ms rpido. De datos histricos sabemos que la
desviacin estndar de los das de entrega es de 0.8 horas. Se
tomar una decisin si podemos ver una diferencia de 1.5 horas en
el promedio de los proveedores. Cuntas muestras debemos tomar
para ver dicha diferencia?
Y:_______________________ Tipo de datos:_____________
X:_______________________ Tipo de datos:_____________
166
Intenta esto...
Un estudio de Harvard deseaba determinar si la Aspirina tiene una

influencia significativa en la reduccin de la tasa de ataques al corazn.
En un periodo de 5 aos, 22071 voluntarios fueron monitoreados. Los
voluntarios se dividieron en dos grupos; el grupo 1 tom un placebo
diariamente, y el grupo 2 tom una aspirina todos los das. Si el estudio
aceptaba un riesgo alfa del 0.1% y riesgo beta de 0.1%, fue la
muestra lo suficientemente grande para detectar una diferencia de al
menos el 10% en la tasa de ataques al corazn?
Y:_______________________ Tipo de datos:_____________
X:_______________________ Tipo de datos:_____________
167
Que nos queda
Los criterios para determinar un tamao de muestra adecuado, son de

naturaleza estadstica.
Otros criterios de naturaleza prctica incluyen elementos como el costo,

tiempo y otros recursos disponibles.
En el mundo prctico, mientras ms datos tengas, mejor !!!
168
Anlisis de Regresin
169
Objetivo
1. Identificar problemas que incluyan una Y continua y

una X continua
2. Entender la diferencia entre regresin lineal y no lineal
3. Ajustar modelos utilizando la tcnica de mnimos

cuadrados.
4. Entender el significado de R y R2.
5. Entender y desarrollar anlisis de residuales.
170
Factor (X)
VARIABLE ATRIBUTO

NO
PARAMTRICAS
REGRESIN CHI CUADRADA,
ATRIBUTO LOGSTICA PRUEBAS DE
PROPORCIONES

Regresin
Al trabajar con datos variables (continuos), es de inters

cuantificar la relacin (si existe) entre ellas. La ventaja de utilizar
datos continuos para el anlisis, es la posibilidad de definir un
modelo matemtico adecuado. Esto se hace mediante tcnicas de
estimacin mediante mnimos cuadrados, mejor conocido como
anlisis de regresin.
De nuevo, todo
se trata de
relaciones!!!
172
Regresin
Las tcnicas de regresin nos permite predecir valores de cierta

variable Y (variable dependiente), la cual se sospecha tiene relacin
con otra variable X (independiente). La intencin es cuantificar la
relacin:
Y = F(x)
la cual es la ecuacin de regresin que cuantifica la relacin entre

ambas variables.
173
Regresin
Dese un punto de vista grfico, el anlisis de regresin comienza con

un diagrama de dispersin. Dos variables continuas se grafican una
contra otra para definir si existe correlacin entre ambas.
80
75
Altura del hijo 70
65
60
60 65 70 75 80
Altura del padre
174
Regresin
Y=Millas por Y=Estatura de
galn 30 los hijos 80
(mpg) 2 6
0
1 0
4
0 0
0 .5 1 1.5 2 60 70 80
X=Peso del auto (tons) X=Estatura de los padres (pulgs)
Y=calif. Y=Precio de
(de 100%) 80 venta 35
6 (miles) 2
0
4 5
5
0
0 .5 1 1.5 2 1 6 14 22 30
X=Tiempo de estudio (hr) X=Edad del auto
Y=Precio de Y=Ventas $
casa ($) (millones) 30
2
0
1
0
15k 20k 35k 40k 0 .5 1 1.5 2
X=metros cuadrados X=Promocin $(Millones) 175
Regresin
La correlacin es la medida de que tan fuerte es la relacin entre

dos o ms variables. El coeficiente de correlacin vara de -1 a 1,
definiendo una correlacin negativa y una positiva, pasando por cero
que significa sin correlacin.
(min.)
80 50
40
75
30
70 20
65 10
0
60
85 90 95 100 105 110
60 65 70 75 80
Correlacin positiva Correlacin negativa
1550
1450
1350
1250
1150 Sin correlacin
1050 115
950
850
750
650 176
60 65 70 75 80
Regresin
El mtodo de mnimos cuadrados trata de ajustar la mejor curva que

minimice el error entre los puntos dispersos.
Y = f(x)
80
Lineal,
75 cuadrtica,
cbica,
70
logartmica,
65 etc.
60
60 65 70 75 80
177
Regresin
El modelo ms simple es la funcin lineal. El modelo lineal trata de

ajustar una lnea recta:
Pendiente
Ordenada al origen
Variable y ax b
dependiente (pronstico) Variable independiente
En estadstica el concepto es el mismo, solo cambia la nomenclatura:

Constante Coeficiente
Estimado y b 0 b1 x
Variable de regresin
178
Regresin
Las frmulas para definir el modelo de regresin son(solo mostramos
en caso para una sola variable, conocido como regresin simple):
y b 0 b1 x
Qu tan
n bueno es
( x x )( y
i i y)
SS xy
BUENO al
ajustar los
b1 i 1
n
datos?
(x x) 2 SS xx
i
i 1
b 0 y b1 x
179
Regresin
y b 0 b1 x
Un modelo de regresin es bueno dependiendo de que tan bien describe la
variacin entre dos variables. El coeficiente de correlacin (R) indica que
tan pronunciada es la pendiente. El cuadrado de la correlacin indica que
tanta variacin (cambios en la Y) puede ser explicado por las variables de
regresin.
n
SS error i i
( y
y ) 2
R2 1 1 i 1
n
i
SS yy
( y y ) 2
i 1
Y de nuevo, la decisin si el modelo descriptivo es bueno la haremos

mediante el uso de una tabla de ANOVA (para lo que utilizaremos
MINITAB).
180
Regresin
Un gerente de mercadeo que conduce un
estudio de mercado, desea predecir el
Experiencia Entrevistas nmero de entrevistas (cuestionarios) que
15 4 puede levantar dados los entrevistadores. El
41 9 piensa que el nmero de cuestionarios
58 12 depende de la experiencia del entrevistador
18 6 (en semanas). Toma una muestra de 10
37 8 entrevistadores para el anlisis. Tiene la
52 10
experiencia influencia real en el nmero de
28 6
24 5
cuestionarios aplicados?
45 10 Y = # entrevistas* Por qu??
33 7 X = Experiencia en semanas
*RDD: Si una variable discreta tiene ms de 5 niveles, puede

tratarse como una variable continua.
181
Regresin
Usando Minitab:
Stat>Regression>Regression
182
Regresin
Indica la Y
Indica la X
Selecciona Storage
183
Regresin
Selecciona O.K.
...y los valores dos veces
Selecciona que ajustados (fits)
guarde los
residuales...
184
Regresin
The regression equation is
Entrevistas = 1.62 + 0.173 Experiencia
Predictor Coef SE Coef T P

Constant 1.6222 0.5832 2.78 0.024
Experien 0.17316 0.01551 11.16 0.000
S = 0.6618 R-Sq = 94.0% R-Sq(adj) = 93.2%
Analysis of Variance
Source DF SS MS F P
Regression 1 54.596 54.596 124.65 0.000
Residual Error 8 3.504 0.438
Total 9 58.100
1. Busca la significancia en la relacin

Si el valor de p es mayor a 0.05, no es necesario continuar
dado que no existe relacin entre ambas variables. Un
valor menor a 0.05 indica una relacin significativa entre
las variables (como en este caso).
185
Regresin

Constant 1.6222 0.5832 2.78 0.024
Experien 0.17316 0.01551 11.16 0.000
S = 0.6618 R-Sq = 94.0% R-Sq(adj) = 93.2%
Source DF SS MS F P
Regression 1 54.596 54.596 124.65 0.000
Total 9 58.100
2. Busca significancia en la constante y forma el modelo

Si el valor de p de la constante es mayor a 0.05 , significa
que no ayuda a ajustar correctamente el modelo y puede
ser despreciada en el mismo. Si es menor a 0.05 entonces
se mantiene en el modelo. El modelo queda como:
Entrevistas 1.622 0.173Experienci a 186
Regresin

Constant 1.6222 0.5832 2.78 0.024
Experien 0.17316 0.01551 11.16 0.000
S = 0.6618 R-Sq = 94.0% R-Sq(adj) = 93.2%
Source DF SS MS F P
Regression 1 54.596 54.596 124.65 0.000
Total 9 58.100
3. Revisa la cantidad de variacin descrita por el modelo (R-sq)
R2=0.9396 o sea que el modelo explica el 94% de la variacin en el

nmero de entrevistas. Para decir que el modelo es adecuado nos
gustara ver un valor de R-sq mayor al 80%, algo menor significa
que existen otras variables afectando el proceso.
187
Regresin
Para ver la regresin en forma grfica, utilizamos el fitted line plot:
Indica la Y y la X y luego O.K.:
Stat>Regression>Fitted Line Plot
Nota: Esto lo hace Minitab

solo con regresin simple.
188
Regresin
Regression Plot
S = 0.661804 R-Sq = 94.0 % R-Sq(adj) = 93.2 %
12
11
10
Entrevistas
20 30 40 50 60
Experiencia
Ahora podemos ver la grfica de regresin, notas la lnea ajustada

(pronsticos) como se acerca a los datos originales?. El modelo aparenta
ser bueno, pero an no terminamos. Tenemos que hacer un estudio de
residuales.
189
Regresin
Regression Plot
Los errores residuales
S = 0.661804 R-Sq = 94.0 % R-Sq(adj) = 93.2 %
(ei) son la diferencia que
existe entre el valor real,
12
y el valor ajustado por el
11
modelo. Los residuales
10 son consecuencia de la
falta de ajuste del
Entrevistas
8
modelo. Los residuales
dan informacin sobre la
7
validez del modelo, por
6
eso hay que analizarlos.
5 ei
4
20 30 40 50 60
Experiencia
190
Regresin
Los residuales son
el resultado de
substraer el valor
observado menos
el valor
Estos vienen
pronosticado (error
de utilizar el
del modelo)
modelo con
los valores
originales de
X.
4. Revisa los residuales:

Normalidad delos residuales (consistencia del estudio)
Estabilidad de los residuales
Independencia de los residuales vs. valores ajustados
(adecuidad del modelo)
Si estos supuestos no se cumplen, sin importar el valor de R2, el modelo
no es adecuado para predecir la Y. 191
Regresin
Normal Probability Plot
.999
Stat>Basic .99
.95
Statistics>Normality
Probability
.80
Tests .50
.20
.05
.01
.001 Busca el valor
-0.5 0.0 0.5 1.0 de P
RESI1
Average: -0.0000000 Anderson-Darling Normality Test
StDev: 0.623954 A-Squared: 0.231
N: 10 P-Value: 0.734
Al graficar sobre papel normalidad, se debe formar aproximadamente

una lnea recta. Aplicando pruebas de normalidad debemos apreciar una
valor de p mayor a 0.05. Si esto no se cumple, puede deberse a
problemas con el sistema de medicin, condiciones del muestreo o a una
relacin no lineal. Algunas veces, se utiliza una transformacin
logartmica en la Y para forzar la normalidad en los residuales.
192
Regresin
I Chart for RESI1

2
Stat>Control UCL=1.808
Charts>Individuals 1
Individual Value
0 Mean=-3.4E-15
-1
LCL=-1.808
-2
0 1 2 3 4 5 6 7 8 9 10
Observation Number
La estabilidad de los residuales se valida observando el comportamiento

de los residuales segn su orden (se aprecia mejor usando una grfica
de control). Se busca que no haya puntos fuera de los lmites o
tendencias. Inestabilidad en los residuales denota variacin en la
recoleccin de los datos. Se deben identificar causas especiales de
variacin.
193
Regresin
Graphs>Plot
1
Los puntos deben
estar dispersos
RESI1
sin un patrn
0
especfico
-1
4 5 6 7 8 9 10 11 12
FITS1
Buscar independencia entre los residuales y los valores ajustados, nos

ayuda a definir si el modelo es adecuado o no. Si se aprecia un
patrn(como un embudo, curvas con diferentes jorobas, etc.) entonces
se debe seleccionar otro modelo, como cuadrtico, cbico o de otro tipo.
194
Regresin
Minitab tambin puede sacar todas las grficas al mismo tiempo:

Stat>Regression>Residual Plots
195
Regresin
Residual Model Diagnostics
Normal Plot of Residuals I Chart of Residuals
2
UCL=1.808
1
1
Residual
Residual
0 Mean=-3.4E-15
0
-1
LCL=-1.808
-1 -2
-1 0 1 0 1 2 3 4 5 6 7 8 9 10
Normal Score Observ ation Number
Histogram of Residuals Residuals vs. Fits

3
1
Frequency
Residual
2
0
1
0 -1
-1.0 -0.5 0.0 0.5 1.0 1.5 4 5 6 7 8 9 10 11 12
Residual Fit
196
Ejemplo
Trabajando en un proyecto para reducir los costos
de mantenimiento, el ingeniero del rea desea
saber si la eficiencia de un motor depende de su
velocidad en rpms. Ajusta el modelo ms
apropiado y determina su validez.
197
Ejemplo
Regression Analysis: Y(%) versus X

Y(%) = 1.04800 - 0.0395795 X
S = 0.0333843 R-Sq = 93.7 % R-Sq(adj) = 93.4 %
Source DF SS MS F P
Regression 1 0.299914 0.299914 269.100 0.000
Error 18 0.020061 0.001115
Total 19 0.319975
La velocidad es
significativa!
Y (%) 1.0479 0.0396 X

El ajuste se ve bien (94%) 198
Ejemplo
0.05 UCL=0.1213
Razonablemente
0.1
Tienden a ser estables.

Residual
Residual
0.00 0.0 Mean=-4.8E-16
normales, O.K.
-0.05 -0.1
LCL=-0.1213
-2 -1 0 1 2 0 10 20

5 0.05
4
Frequency
Residual
3
0.00
2
1
-0.05
0
-0.06 -0.04 -0.02 0.00 0.02 0.04 0.6 0.7 0.8 0.9 1.0
Residual Fit
Ahora qu????
Podemos apreciar un patrn entre los
residuales y los valores ajustados.
Esto nos indica que la relacin no es
lineal. Debemos ajustar otro modelo
tal como el cuadrtico, cbico, etc.
199
Ejemplo
Al ajustar modelos no lineales, debemos seleccionar otro tipo de modelos
tales como:
cuadrtico
y b 0 b1 x b 2 x 2
Debemos indicar a
o Minitab el modelo
necesitado.
cbico
y b 0 b1 x b 2 x 2 b 3 x3
200
Ejemplo
Es bsicamente lo mismo, solo hay que seleccionar el modelo buscado (en

la seccin de OPTIONS podemos encontrar las transformaciones
logartmicas). 201
Ejemplo
Y(%) = 0.953603 + 0.0030173 X
- 0.0035365 X**2
Mejor la R2
S = 0.0141553 R-Sq = 98.9 % R-Sq(adj) = 98.8 %
Source DF SS MS F P
Regression 2 0.316569 0.158284 789.950 0.000
Error 17 0.003406 0.000200
Total 19 0.319975
Ambos componentes
Source DF Seq SS F P son necesarios en el
Linear 1 0.299914 269.100 0.000 modelo
Quadratic 1 0.016655 83.119 0.000
Nuestro modelo es:

y 0.9536 0.0030173x 0.0035x 2
No olvides los
residuales!!!
202
Ejemplo

La normalidad y 0.02 0.05 UCL=0.05038
estabilidad an 0.01
Residual
Residual
0.00
son buenas -0.01
0.00 Mean=-4.3E-16
-0.02
-0.05 LCL=-0.05038
-0.03
-2 -1 0 1 2 0 10 20

5 0.02
4 0.01
Frequency
Residual
3 0.00
2 -0.01
1 -0.02
0 -0.03
-0.030
-0.024
-0.018
-0.012
-0.006
-0.000
0.006
0.012
0.018 0.55 0.65 0.75 0.85 0.95
Residual Fit
Gran mejora en la
independencia, el modelo
cuadrtico es adecuado.
203
Ejemplo
Regression Plot
Y(%) = 0.953603 + 0.0030173 X
- 0.0035365 X**2
S = 0.0141553 R-Sq = 98.9 % R-Sq(adj) = 98.8 %
0.95
0.85
Y(%)
0.75
0.65
0.55
0 5 10
El ajuste es muy bueno. Tenemos un buen modelo.
204
Que nos queda...
1. Planea el estudio para asegurar aleatoriedad, imparcialidad y un rango

amplio para variacin de la X y de la Y.
2. Recolecta buenos datos.
3.Evala por significancia de cada X por su valor de p y cuestiona la lgica

de la magnitud del coeficiente.
5. Evala la significancia del modelo a travs del valor de R2.
6. Busca patrones inusuales en los residuales y analiza los valores

extremos (outliers).
205
Apndices
206
Apndice A: Intervalos de prediccin
Usar un modelo de regresin para pronosticar es vlido dentro del
rango de investigacin. Extrapolacin de los datos usando el modelo,
puede ser inapropiada debido al error del modelo de prediccin. El
error disminuye cuando aumenta el valor de R2, pero aumenta al
alejarnos de la regin de experimentacin.
Un valor pronosticado en realidad est sujeto a la variacin aleatoria

del ambiente. Si embargo, podemos estimar un rango de posibles
valores alrededor del valor pronosticado.
Para la regresin lineal, los intervalos de prediccin se dan:
y b 0 b1 x ta SE ( y )
2
donde:
1 ( x0 x ) 2
SE ( y ) s
n SS xx
207
Usando Minitab: en nuestro ejemplo de los motores
Selecciona Options:
Selecciona el despliegue
de intervalos de
prediccin
208
Regression Plot
Y(%) = 0.953603 + 0.0030173 X
- 0.0035365 X**2
S = 0.0141553 R-Sq = 98.9 % R-Sq(adj) = 98.8 %
1.0
0.9
0.8
Y(%)
0.7
0.6 Regression
95% PI
0.5
0 5 10
Para un valor de X, tenemos un rango de valores para la Y.
209
Apndice B: Riesgos en la Regresin
Rango pequeo de investigacin: Es importante capturar la mayor

variacin posible en nuestra muestra. Pocos datos puede evitar capturar
suficiente variacin en la respuesta, llevando a conclusiones errneas.
Y= Millas por Y=Precio

galn 30 de venta 35
(mpg) 20 (miles) 2
10 5
5
0 .5 1 1.5 2 1 6 14 22 30
X=Peso de auto (tons) X=edad del auto (aos)
Tu ves Tu ves
Y=Millas por Y=Precio
galn 30 de venta 6
25 (miles) 4
(mpg)
20 2
.9 .95 1 1.05 1.1 13 13.5 14 14.5 15

210
Limitaciones. La mayor limitacin conceptual de las tcnicas de

regresin es que solo puede encontrar relaciones estadsticas, no
pueden asegurar mecanismos causales.
Por Ejemplo, puedes encontrar una fuerte relacin positiva (correlacin)
entre el dao que produce un incendio y el nmero de bomberos
apagndolo. Podramos concluir que los bomberos causan dao?
Desde luego, la explicacin ms adecuada de la correlacin es que el
tamao del fuego (variable externa que olvidamos incluir en nuestro
estudio) caus el dao as como un cierto nmero de bomberos
involucrados (a mayor el fuego, mayor el nmero de bomberos). A pesar
de la obviedad del ejemplo, en investigacin formal, alternativas
causales para explicar un fenmeno no son consideradas.
211
Apndice C: Regresin Mltiple
La regresin mltiple es solo una extensin de los mtodos utilizados en
este mdulo. Solo se necesita considerar tantas columnas como
variables se tengan (mostramos los modelos para 2 variables, pero se
puede extender fcilmente a ms variables):
Modelo lineal
y b 0 b1 x1 b 2 x2
Modelo lineal + interacciones
y b 0 b1 x1 b 2 x2 b 3 x1 x2
Modelo cuadrtico
y b 0 b1 x1 b 2 x2 b 3 x1 x2 b 4 x12 b5 x22
212
Usar un modelo de regresin para pronosticar es vlido dentro del
rango de investigacin. Extrapolacin de los datos usando el modelo,
puede ser inapropiada debido al error del modelo de prediccin. El
error disminuye cuando aumenta el valor de R2, pero aumenta al
alejarnos de la regin de experimentacin.
Un valor pronosticado en realidad est sujeto a la variacin aleatoria

del ambiente. Si embargo, podemos estimar un rango de posibles
valores alrededor del valor pronosticado.
Para la regresin lineal, los intervalos de prediccin se dan:
y b 0 b1 x ta SE ( y )
2
donde:
1 ( x0 x ) 2
SE ( y ) s
n SS xx
213
Usando Minitab: en nuestro ejemplo de los motores
Selecciona Options:
Selecciona el despliegue
de intervalos de
prediccin
214
Regression Plot
Y(%) = 0.953603 + 0.0030173 X
- 0.0035365 X**2
S = 0.0141553 R-Sq = 98.9 % R-Sq(adj) = 98.8 %
1.0
0.9
0.8
Y(%)
0.7
0.6 Regression
95% PI
0.5
0 5 10
Para un valor de X, tenemos un rango de valores para la Y.
215
Rango pequeo de investigacin: Es importante capturar la mayor

variacin posible en nuestra muestra. Pocos datos puede evitar capturar
suficiente variacin en la respuesta, llevando a conclusiones errneas.
Y= Millas por Y=Precio

galn 30 de venta 35
(mpg) 20 (miles) 2
10 5
5
0 .5 1 1.5 2 1 6 14 22 30
Tu ves Tu ves
Y=Millas por Y=Precio
galn 30 de venta 6
25 (miles) 4
(mpg)
20 2
.9 .95 1 1.05 1.1 13 13.5 14 14.5 15

216
Limitaciones. La mayor limitacin conceptual de las tcnicas de

regresin es que solo puede encontrar relaciones estadsticas, no
pueden asegurar mecanismos causales.
Por Ejemplo, puedes encontrar una fuerte relacin positiva (correlacin)
entre el dao que produce un incendio y el nmero de bomberos
apagndolo. Podramos concluir que los bomberos causan dao?
Desde luego, la explicacin ms adecuada de la correlacin es que el
tamao del fuego (variable externa que olvidamos incluir en nuestro
estudio) caus el dao as como un cierto nmero de bomberos
involucrados (a mayor el fuego, mayor el nmero de bomberos). A pesar
de la obviedad del ejemplo, en investigacin formal, alternativas
causales para explicar un fenmeno no son consideradas.
217
Apndice C: Regresin Mltiple
La regresin mltiple es solo una extensin de los mtodos utilizados en
este mdulo. Solo se necesita considerar tantas columnas como
variables se tengan (mostramos los modelos para 2 variables, pero se
puede extender fcilmente a ms variables):
Modelo lineal
y b 0 b1 x1 b 2 x2
Modelo lineal + interacciones
y b 0 b1 x1 b 2 x2 b 3 x1 x2
Modelo cuadrtico
y b 0 b1 x1 b 2 x2 b 3 x1 x2 b 4 x12 b5 x22
218
Regresin Logstica
Binaria
219
Objetivo
1. Identificar problemas que incluyan una Y atributo de

tipo binaria y una X continua
2. Identificar otros tipos de regresin logstica
3. Ajustar modelos utilizando modelos logit
4. Entender el significado de los valores de p para la

variable, modelo y bondad de ajuste.
5. Graficar la curva de prediccin de probabilidades.
220
Factor (X)
VARIABLE ATRIBUTO

NO
PARAMTRICAS
REGRESIN CHI CUADRADA,
ATRIBUTO LOGSTICA PRUEBAS DE
PROPORCIONES

Regresin Logstica
En muchas ocasiones, los sistemas de medicin se basan en

esquemas pasa-no pasa, o la evaluacin se basa en la inspeccin
visual para segregar aquellos elementos defectuosos. En ambas
situaciones hablamos de mediciones discretas (atributos) en la
variable de respuesta. Es de inters relacionar estas respuestas
cuando vara una variable continua (variable) de entrada. En estos
casos es conveniente utilizar el anlisis de regresin logstica.
222
Regresin Logstica
Modelo lineal
1
Modelo Logstico
La regresin logstica busca ajustar un modelo logartmico para

obtener una distribucin de probabilidades.
223
CUIDADO!!!!
Por favor tenga en cuenta...
Los productores de esta pelcula enrgicamente

sugieren que usted en forma habitual se esfuerce por
tener sistemas de medicin que generen
datos continuos o variables!!
El poder de su anlisis y la ventana de oportunidad para
usar varias herramientas es tpicamente ms grande al
utilizar datos variables.
224
Regresin Logstica
Existen diferentes tipos de regresin logstica, dependiendo del nmero

de niveles que tenga la variable de respuesta:
Binaria: La respuesta tiene solo dos valores posibles (p.e. 0,1;pasa, no

pasa; a tiempo, tarde; etc. ).
Ordinal: La respuesta tiene 3 o ms niveles y estos tienen un cierto

orden que respetar (p.ejem:Fro, tibio, caliente; primero, segundo,
tercero, etc.)
Nominal: La respuesta tiene 3 o ms niveles pero estos son

independientes entre si (p.ejem: Norte, Sur, Centro; Diseo, Produccin,
Mantenimiento, etc.)
225
Regresin Logstica
Como la variable de respuesta binaria solo puede tener dos valores, el
modelo de prediccin debe de transformarse mediante una funcin de
enlace (link function)
La funcin de enlace en regresin logstica binaria, mapea el intervalo

(0,1) en una lnea real. Esto garantiza que la probabilidad predicha de un
evento utilizando el modelo de regresin logstica sea un nmero entre 0
y 1.
Existen varios tipos de funciones de enlace, la ms usual en regresin

logstica binaria es la funcin Logit:
1
p(evento)
1 e ( b 0 b1 x )
226
Regresin Logstica
Estudio de Embarques
Un ingeniero est buscando entradas crticas (Xs) que puedieran ayudarle

con mejoras en su proyecto de embarques daados. Ella obtuvo unos datos
de los ltimos 3 meses de embarques daados y el peso de la carga entera
en la cul se transportaba el embarque daado. Al embarque daado se le
asigna un 1 y al no daado un 0. El peso de la carga esta expresado en
1000 lb.
Y de Atributos = Embarque daado

X Variable = Peso total de la carga (1000 lbs)
Embarques daados. mtw
227
Regresin Logstica
Usando Minitab:
Stat>Regression>Binary Logistic Regression

228
Regresin Logstica
Indica tu
columna con
las
respuestas
(expresadas
en 0 y 1)
El modelo lo conforman las Selecciona Storage

variables continuas, o discretas, que
quieras relacionar. 229
Regresin Logstica
Selecciona guardar la probabilidad

de eventos, luego selecciona OK
dos veces...
230
Regresin Logstica
Binary Logistic Regression: Embarque daado versus Peso de la
carga
Aqu nos indica el nmero

Link Function: Logit de veces que se present
un evento.
Response Information
Variable Value Count

Embarque 1 14 (Event)
El EVENTO es el nivel
0 11 que se toma como
Total 25 referencia para los
clculos.
231
Regresin Logstica
Busca significancia en la
influencia (relacin de cada
Logistic Regression Table variable)
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant -2.063 1.053 -1.96 0.050
Peso de 0.18110 0.07533 2.40 0.016 1.20 1.03 1.39
Log-Likelihood = -13.192
Test that all slopes are zero: G = 7.913, DF = 1, P-Value = 0.005
1
p(evento) Determina si el
1 e( 2.0630.1811x ) modelo es
significativo
232
Regresin Logstica
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 15.509 20 0.747
Deviance 18.066 20 0.583
Hosmer-Lemeshow 8.239 8 0.410
Las pruebas de bondad de ajuste las utilizamos para validar si el modelo

puede ser usado como predictivo. Si las tres pruebas tienen un valor de p
mayor que alfa (a), entonces el modelo es adecuado. Si alguna falla, la
confiabilidad del modelo puede no ser tan adecuada.
233
Regresin Logstica
Ahora graficamos la
funcin de probabilidades.
234
Regresin Logstica
Para la Y, indica la
columna que Minitab
cre de
probabilidades de
evento (EPRO1), y la
X sigue siendo Peso
de la carga...
235
Regresin Logstica
0.9 A mayor peso, mayor

0.8 es la probabilidad de
0.7 dao en el embarque!
0.6
EPRO1
0.5
0.4
0.3
0.2
0.1
0 5 10 15 20 25
Peso de la carga
236
Ahora t....
Un Black Belt estaba tratando de reducir el ruido de un motor. Uno de los
factores potenciales identificado en una sesin de tormenta de ideas de
ingeniera/manufactura fue la diferencia entre el dimetro exterior del estator y
el dimetro interior de la carcaza. El estator est diseado para que quede
ligeramente ms grande que la carcaza de tal manera que al ser prensado
dentro de la carcaza, esta se expande ligeramente y la interferencia ayuda a
mantener al estator apretado dentro de la carcaza. El dimetro exterior del
estator es 5.5 y el grosor es solo de 0.60 (ver diagrama) los datos de 35
motores estaban disponibles para un anlisis rpido.
Carcaza
Estator
Indican los datos que existe una Estator
relacin entre la interferencia estator- O.D.
carcaza, y si el motor tiene ruido Carcaza

Direct access storage
excesivo o no? I.D.
interferencia.mtw
237
Uno ms....
Una comisin presidencial estaba interesada en saber si podran haber
predicho el desastre del Challenger con los datos disponibles al momento
del incidente en 1986. La comisin consigui datos de anillos daados de
la propulsin del cohete que haba antes del lanzamiento del Challenger.
Se muestran los datos obtenidos de previos vuelos espaciales, 1 es
daado y 0 es no daado. Se inspeccionaron 3 anillos por cada uno de
los 23 vuelos anteriores al Challenger
Estos datos son reales. Se pueden encontrar ms detalles en la publicacin de 1989 Anlisis de Riesgo de la nave
espacial: Prediccin de fallas previas al Challenger por Dalal, Fowlkes y Hoardley, Journal of the American Statistical
Association.
1. Verificar valores de P y bondades de ajuste.

2. Generar una grfica de probabilidades predichas
contra temperatura.
3. Indican los datos que la temperatura es un factor
importante que afecta el dao de los aros?
4. Prediga la probabilidad de que a 31F al menos 1
de 3 anillos daados en el mismo lanzamiento.
238
challenger.mtw
Que nos queda...
1. Es una buena alternativa cuando tenemos respuestas discretas de tipo

binario.
2. Aplican los mismos conceptos e ideas.
3.Hay que validar la significancia de las variables, del modelo y la bondad

de ajuste.
5. El modelo ajusta a una funcin de densidad de probabilidades

binomiales.
239
Antes Despus
Seccin de ejercicios
7 8
6 9
Ejercicio 1: 5 8
Una cadena de supermercados colect las opiniones 6 7
de los clientes respecto del servicio proporcionado por
7 7
las tiendas de la cadena antes y despus de que el
personal asistiera a tres sesiones semanales de 10 4 8
minutos de entrenamiento, mediante videocintas, que 7 8
tenan como meta mejorar las relaciones con los 6 9
clientes. Se obtuvieron dos muestras aleatorias
5 10
independientes de 19 clientes cada una, tomadas
antes y despus de las sesiones de entrenamiento, y 5 9
se pidi a cada persona que calificara el servicio de la 6 8
tienda en una escala de 1 (malo) a 10 (excelente). 5 8
Existe evidencia de que el curso de entrenamiento
4 7
tuvo efecto?
6 7
X= tipo de datos:
4 8
Y= tipo de datos: 5 6
Ho: 6 7
Ha: 6 7
P-value: 7 8
240
Conclusin:
Ejercicio 2:
Una compaa desea comparar las expectativas salariales x 100 mensuales
de su personal de ventas femenino y masculino, segn un nuevo plan de
compensaciones ventas+comisin. Se pidi a 13 vendedoras y 12
vendedores, muestreados al azar, predijeran sus ingresos mensuales bajo el
nuevo plan. Proporcionan los datos evidencia para afirmar que existen
diferencias significativas entre las expectativas de vendedoras y
vendedores?.
Vendedoras (1) 44 44 56 46 47 38 58 53 49 35 46 30 41
Vendedores (2) 35 47 55 29 40 39 32 41 42 57 51 39
X= tipo de datos:
Y= tipo de datos:
Ho:
Ha:
241
P-value: conclusin:
Empresa 1 Empresa 2
Ejercicio 3: 250 200
Para comparar las aptitudes para 264 199
seleccionar acciones por parte de dos 255 220
empresas de corretaje, se compar las 260 230
ganancias anuales (menos los 250 200
honorarios) para una inversin de $1000 270 235
dlares en cada una de las 20 acciones 255 240
que se encuentran en las listas de las 277 234
"mas recomendadas" de ambas 260 229
empresas. Los resultados obtenidos se 257 227
presentan a continuacin: 263 227
Se puede afirmar que la Empresa 1 es 260 237
ms
X= apta que la 2?. tipo de datos: 258 228
264 230
Y= tipo de datos:
264 234
Ho: 260 220
Ha: 270 199

255 227
P-value: 250 234
Conclusin:
242 277 200
242
Ejercicio 4 8 horas/da 10 horas/da 12 horas/da
Un equipo Six sigma estaba 87 75 95
trabajando en aumentar la 96 82 76
productividad de los equipos de 75 90 87
trabajo. El tipo de semana laboral fue 90 80 82
sugerida como un factor importante 72 73 65
en la fase de medicin. El equipo 86
prob 6 das con jornada de 8
horas/da, 5 das con jornada de 10 Datos en dlares x1000
horas/da, y 5 das con 12 horas/da.
X= tipo de datos:
La produccin semanal (en miles de
dlares) se revis para cada uno de Y= tipo de datos:
los tres estilos.
Ho:
Afecta el tipo de semana laboral a Ha:
la productividad?
P-value:
Conclusin:
243
Monto en
dlares de Das para
la OC (k$) pagar
Ejercicio 5: 6.23 15
Un contador est interesado en maximizar 1.92 25
los descuentos de los proveedores que se 0.75 7
obtienen al pagarles mas pronto. Uno de 8.08 14
los factores identificado como un factor 1.89 22
potencial era la cantidad de dlares en la 8.66 8
orden de compra. El equipo consigui 8.66 20
datos de los das que se tard en pagar al 0.37 6
proveedor y el monto en dlares de la 3.32 6
0.20 18
orden de compra.
7.94 8
Es el monto en dlares un factor
7.80 11
importante en la rapidez del pago?
7.47 16
7.70 24
6.63 5
Ho: P-value constante: 7.78 23
7.85 10
Ha: P-value X:
2.86 30
R2= Conclusiones: 8.74 6
2.42 12
244
Ejercicio 6:
El nmero de vendedores que emplea una concesionaria de autos vara de
cuatro (el valor ms bajo) a ocho (el valor ms alto). Depende el nmero de
nuevos autos vendidos del nmero de vendedores?. Para aclarar esta
cuestin, el gerente de ventas examin los registros de las ventas para los
ltimos cuatro meses y localiz un perodo de ocho semanas durante el cual
no se utilizaron programas de estmulos especiales. El nmero de autos
vendidos semanalmente y el nmero de vendedores se muestran en la
siguiente tabla.
Semana 1 2 3 4 5 6 7 8
N vendedores 5 6 5 4 7 6 5 8
N Autos vendidos 10 20 18 10 21 15 13 22
Ho: P-value constante:

Ha: P-value X:
R2= Conclusiones: 245
Ejercicio 7:
Un fabricante de jabn en polvo realiz un experimento para investigar el
efecto del precio por caja sobre la demanda. Se asign a cada una de seis
diferentes regiones de venta un precio unitario al por mayor por caja, para la
venta a tiendas mayoristas y a cadenas grandes de supermercados en la
zona. Despus de un mes se calcul el porcentaje Y del incremento (o
decremento) en las ventas por regin durante el mes anterior. En la siguiente
tabla se indican los precios unitarios asignados a las regiones y los
aumentos porcentuales en las ventas.
Precio unitario X 6.40 6.45 6.50 6.55 6.60 6.65
Aumento en las ventas Y 9.8 7.6 6.3 4.5 4.2 1.7

Ha: P-value X:
Ejercicio 8:
Fueron seleccionados aleatoriamente diez gerentes que trabajan
actualmente en una Empresa de Electrodomsticos desde hace cinco aos.
En la tabla se muestran los resultados correspondientes a su calificacin en
la escala de xito (Y) y sus calificaciones como aspirantes (X). El xito
administrativo depende de la calificacin que obtuvieron como aspirantes?.
Calificacin como 39 43 21 64 57 47 28 75 34 52
aspirante X
Calificacin de xito 65 78 52 82 92 89 73 98 56 75
Y

Ha: P-value X:
A B
54.5 78.3
67 79.8
41.7 81.3
Ejercicio 9: 64.5 69.4
La PROFECO est interesada en comparar el nivel 86.8 82.8
de servicio de dos de sus centros de atencin al 40.8 82.3
cliente. Para fines de la comparacin, se utilizaron 72.5 62.5
datos histricos del nivel del servicio de los ltimos 76.9 77.5
81 85.3
24 meses, los cuales se muestran en la siguiente
83.3 85.3
tabla. 82 86.1
Existe evidencia para concluir que el centro A 71.8 41.1
ofrece un nivel de servicio significativamente menor 68.8 100
que el B? 71 100
67.8 95.4
X= tipo de datos: 56.7 91.1
69.7 46.4
Y= tipo de datos: 70.4 87.3
74.9 71.8
Ho:
75.4 83.2
Ha: 64.9 85
100 74.3
P-value: 90.4 85.5
72.8 72.1
Conclusin:
248

ANALIZAR

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

ANALIZAR

Încărcat de

Drepturi de autor:

Formate disponibile

Mdulo III: Analizar

Instructor: Antonio E. Cisneros Cisneros

--Maestra en Ciencias (Estadstica), Facultad de Ciencias de la UNAM.

-Certificado en la Metodologa Six Sigma, de la Universidad TecMilenio.

Experiencia docente y profesional

Asesor de diferentes proyectos, con herramientas Estadsticas.

Cul es su nombre y profesin? En qu

Porqu aprender Seis Sigma?.

Cules son sus expectativas para este

Exposicin del instructor.

Participacin de los asistentes.

Anlisis de problemas con Minitab e

1.Introduccin a las Pruebas de Hiptesis (10-36). Apndices (37-

Definir Medir Analizar

1. Entender el concepto y uso de Pruebas de Hiptesis en la

2. Entender el significado de los errores a y b.

3. Definir un anlisis apropiado basado en los diferentes tipos de

Velocidad Tiempo de ciclo

Recuerda, necesitamos Y=f(x) 14

Todas las suposiciones, creencias, incluso ideas locas,

Ho: Hiptesis nula: Sin relacin, sin cambios, no

Ha: Hiptesis alternativa: Relacin, cambio,

Necesitamos datos para seleccionar cualquiera de ellas 16

Aceptar Ho Aceptar Ho Rechazar Ho

a (alfa): Referencia principal para tomar conclusiones al realizar pruebas de

Regin de Nota: La mayora de los software estadsticos

Queremos analizar la influencia de una marca de auto en el consumo de combustible.

Y = Eficiencia de combustible (Km./l) Variable (continua)

X = Marca de auto Atributo (discreto)

Cul ser una herramienta apropiada para utilizar?

ANLISIS DE ANOVA, PRUEBA

Para seleccionar la herramienta ms apropiada de anlisis (comparar

Normales No normales Normales No normales

Prueba t Prueba de Varianzas son: Varianzas son:

Varianzas son: Varianzas son:

Iguales Diferentes Iguales Diferentes

Nota: Solo si los datos son no pareados.

Cambios/diferencias del promedio entre 2 muestras (p.e.

Buscar cambios en proporciones (p.e. El porcentaje de

Regression y = 3.2511x - 16.983

Qu tipo de comparaciones/relaciones haces todos los das?

Qu herramienta utilizaras para hacerlo?

Jaime quiere saber si el tiempo requerido para

Y:____________ ______________ La herramienta apropiada para

Cul sera tu conclusin si p = 0.1917?

La aspirina reduce el riesgo de un ataque al

Y:____________ ______________ La herramienta apropiada para

Cul sera tu conclusin si p = 0.0054?

Y:____________ ______________ La herramienta apropiada para

Cul sera tu conclusin si p = 0.054?

Sandra dice que la porcin defectuosa disminuy de

Y:____________ ______________ La herramienta apropiada para

Cul sera tu conclusin si p = 0.045?

Especificar la Hiptesis a Especificar Herramienta P-value y

1. Sin importar la herramienta, la regla de decisin siempre

2. Si el valor de p es menor a 0.05, concluimos que algo

3. La correcta herramienta de anlisis depende del tipo de datos

A mayor muestra, menor es el error estndar.

Error Std. vs tamao de la muestra

El error estndar ayuda a definir los intervalos de confianza de un

Promedio=5 Promedio=5.67 Promedio=5.33

Entonces, el promedio de la poblacin es...?

Intervalo de confianza vs. tamao de muestra

Intervalos ms cerrados dan estimadores de la poblacin ms

Y: __ La herramienta apropiada para

Y: __ La herramienta apropiada para

Y: __ La herramienta apropiada para

Y: __ La herramienta apropiada para