Sunteți pe pagina 1din 248

Mdulo III: Analizar

Instructor: Antonio E. Cisneros Cisneros

1
Currculum
ANTONIO E. CISNEROS CISNEROS

Estudios.

--Maestra en Ciencias (Estadstica), Facultad de Ciencias de la UNAM.

-Certificado en la Metodologa Six Sigma, de la Universidad TecMilenio.

Experiencia docente y profesional

Asesor de diferentes proyectos, con herramientas Estadsticas.


Profesor de Profesional desde el 2003, con cursos tetramensuales de :
Probabilidad y Estadstica, Control Estadstico del Proceso, Estadstica
Administrativa, Cultura de la Calidad y Seis Sigma, de la Universidad TecMilenio,
Campus Cuautitln.
Instructor de diferentes Diplomados BB de la Metodologa Six Sigma, en los
Mdulos de Analizar y Mejorar, ITESM- Campus Cd. de Mxico, Sta. Fe, Edo. De
Mxico y Toluca;Medelln. Instructor Six Sigma del Mdulo Analizar y Mejorar en
:Merck, Gemalto, S. L. Rassini, American Express, PPG, BBVA Bancomer, Sony,
Champion, Pfyzer, CFE( 2 generaciones); entre otras empresas. 2
Algunas preguntas importantes

Cul es su nombre y profesin? En qu


rea trabajan? Qu hacen?.

Porqu aprender Seis Sigma?.

Cules son sus expectativas para este


mdulo?.
3
Recapitulando Seis Sigma.

Definir.
Medir.
Analizar.
Mejorar.
Controlar.

4
Fase de Anlisis.
Qu se hace en esta fase?
Se prueban hiptesis sobre las variables que
afectan la salida del proceso. De esta manera
se identifican las causas raz (Xs).
* La prueba de hiptesis se lleva acabo en el
estado actual del proceso, es decir, sin
modificarlo.

5
Fase de Anlisis.

Objetivos:
1. Conocer y aplicar las herramientas
estadsticas mas utilizadas en el anlisis de
procesos de servicio o de manufactura.
2. Analizar la informacin de un proceso,
utilizando el paquete de cmputo estadstico
Minitab e interpretar los resultados
obtenidos con el mismo.

6
Metodologa de trabajo:

Exposicin del instructor.

Participacin de los asistentes.

Anlisis de problemas con Minitab e


interpretacin de los resultados
obtenidos.

7
En Dios confo los
dems denme datos

8
Contenido temtico

1.Introduccin a las Pruebas de Hiptesis (10-36). Apndices (37-


46).
2. Pruebas de una Muestra para comparar medias (47-67).
3.Pruebas de Varianzas y Medias para Mltiple Muestras (68-108).
Apndices (109-115).
4. Prueba de Chi-cuadrada & de Proporciones (116-145).
5. Seleccin del Tamao de la Muestra (146-168).
6. Anlisis de Regresin (169-205). Apndices (206-218).
7. Regresin Logstica Binaria (219-239).
8.Ejercicios (240-248).

9
Introduccin a las
Pruebas de Hiptesis

10
Pruebas de Hiptesis

11
Entendiendo el
Fases de Seis Sigma: proceso
(descubriendo
relaciones)

Definir Medir Analizar


Preguntas
bsicas a Cul es el Cul es el Qu Xs son
contestar problema? proceso? crticas, Y=f(x)?
Por qu es Qu Cmo justificamos
un problema? variables la relacin?
Cules son mueven el Tenemos una base
los CTQs de proceso ms realista para la
tus clientes? (Y=f(x))? mejora?
Tenemos un Medimos las
Business variables? Mantengan
Case? Cul es la sintona
capacidad del para
proceso? mejora y
control....
Caracterizacin 12
del proceso
Objetivo

1. Entender el concepto y uso de Pruebas de Hiptesis en la


fase de anlisis.

2. Entender el significado de los errores a y b.

3. Definir un anlisis apropiado basado en los diferentes tipos de


datos.

13
Anlisis: Encuentra las Xs rojas que mueven el
proceso.
Regin Persona Cmo se si estas Xs son
importantes/relevantes
a los CTQs?
Da de la semana

Costo
Tipo de formato

Velocidad Tiempo de ciclo

Temperatura
Desempeo
Presin
Nmero de parte Apariencia

Recuerda, necesitamos Y=f(x) 14


Debemos decidir que variables son crticas al proceso, y mostrarlo
estadsticamente!!!

Todas las suposiciones, creencias, incluso ideas locas,


deben ser evaluadas y cuantificadas.
Hacemos esto mediante una gama de herramientas
sencillas pero muy poderosas que vamos a generalizar
como:

15
Pruebas de Hiptesis
Para contestar la pregunta tiene relacin la X con la Y? (p.e. el costo de
ventas vara de regin a regin?), tenemos 2 opciones (solo una prevalecer):

Ho: Hiptesis nula: Sin relacin, sin cambios, no


hay diferencia, No pasa nada

Ha: Hiptesis alternativa: Relacin, cambio,


diferencia real, Algo pas

Necesitamos datos para seleccionar cualquiera de ellas 16


Pruebas de Hiptesis
Siempre que tomemos una decisin, queremos que nuestra conclusin est lo
ms cercano a la realidad:
Nuestra decisin

Aceptar Ho Aceptar Ho Rechazar Ho

Error tipo I
En realidad debemos...

a
Rechazar Ho

Error Tipo II

17
Pruebas de Hiptesis

Errores de decisin:

a (alfa): Referencia principal para tomar conclusiones al realizar pruebas de


hiptesis. Se relaciona con que tan probable (factible) es afirmar que existe una
diferencia cuando en realidad no existe.

b (beta): Muy til para determinar que tan capaz es una prueba estadstica de
detectar una diferencia no aleatoria especial de un grupo de datos. Se relaciona
con que tan probable (factible) es negar una diferencia cuando en realidad
existe. El nmero (1-b) se conoce como la potencia de la prueba.

18
Pruebas de Hiptesis
Teora de decisin:
Si definimos un valor fijo de alfa, entonces la distribucin utilizada para el anlisis
tendr un valor de corte donde el rea (probabilidad) ms all de este punto es
igual a alfa, definiendo el rea de rechazo para Ho.

Corte
1-a

Regin de
aceptacin
de Ho Regin de rechazo para Ho
a

19
Pruebas de Hiptesis
Tres escenarios para Ha:

Za -Za

Regin de
rechazo de
Ho
Ha: m> 0 Ha: m < 0

Ha: m 0
Sin importar el escenario, si el
valor de la prueba es menor
-Za/2 Za/2 que a, rechazamos Ho.

Regin de Nota: La mayora de los software estadsticos


rechazo de hacen anlisis para dos colas, si no entonces
Ho habr que multiplicar el valor de p por 2.20
Pruebas de Hiptesis
Ho: Hiptesis nula: Sin relacin, sin cambios, no
hay diferencia, No pasa nada
i.e. Mayito es inocente.
Valor de p >= alfa, mucho riesgo de tomar una
decisin equivocada, no podemos afirmar que
algo pas.
Decisin
(puede usarse
diferentes Ha: Hiptesis alternativa: Relacin, cambio,
valores de diferencia real, Algo pas.Causas especiales.
alfa: 0.1, 0.05, i.e. Mayito es culpable
0.01...)
Valor de p < alfa, poco riesgo de error. Podemos
afirmar que algo realmente pas
El valor de p se relaciona con la probabilidad (que tanto riesgo) se tienen en
tomar una decisin equivocada. Sin importar la herramienta seleccionada, esta
regla siempre va a aplicar. La seleccin de la herramienta especfica
depender principalmente de los tipos de datos analizados. Ver la Matriz de
Herramientas Estadsticas. 21
Tipos de datos

Variables Atributos
Tienen una unidad fsica Es resultado de contar entidades
relacionada. discretas o caractersticas.
Los valores se miden en una Los valores se miden a travs de
escala continua. diferentes niveles (bajo-medio-alto;
pasa o no; entrega a tiempo o no;
cumple la especificacin; 1,2,3
rayones, etc.)

22
Tipo de datos

Por ejemplo:

Queremos analizar la influencia de una marca de auto en el consumo de combustible.

Y = Eficiencia de combustible (Km./l) Variable (continua)

X = Marca de auto Atributo (discreto)

X1 = Marca de auto
Una variable discreta X11 = Ford
con 3 niveles X12 = Toyota
X13 = VW

Cul ser una herramienta apropiada para utilizar?


23
Matriz de seleccin de herramientas
Factor (X)

VARIABLE ATRIBUTO

ANLISIS DE ANOVA, PRUEBA


Respuesta (Y) VARIABLE REGRESIN Y DE T,Z
CORRELACIN ALTERNATIVAS
NO
PARAMTRICAS
REGRESIN PRUEBA DE CHI
ATRIBUTO LOGSTICA CUADRADA,
PRUEBA DE
PROPORCIONES

24
Matriz de seleccin de herramientas
Factor (X) Necesitamos
VARIABLE ATTRIBUTE consideraciones
REGRESSION ANOVA, T-TEST,
adicionales en
Response (Y) VARIABLE ANALYSIS N ON
PARAMETRIC
ALTERNATIVES
este cuadrante...
LOGISTIC CHI SQUARE
ATTRIBUTE REGRESSION TEST, TEST FOR
PROPORTIONS

Para seleccionar la herramienta ms apropiada de anlisis (comparar


medias), necesitamos determinar ciertas condiciones del grupo de datos.
Tales consideraciones tratan con la normalidad de los datos, y la
homogeneidad de las varianzas, etc.

25
Matriz de seleccin de herramientas
Necesitamos
Factor (X) consideracione
VARI ABL E AT T RIB UTE
s adicionales
en este
Response (Y) V A R I AB L E
RE G R E S S IO N
AN A LY S IS
AN O V A, T-TES T,
NO N
P ARAM ET RI C
A L TE R N A T I V E S
cuadrante... Niveles dentro de la X
L O G IS T I C CH I SQ U A RE
AT T RIB UT E RE G R E S S IO N T E S T , TE S T FO R
P R O P O R TI O N S

1 Nivel 2 Niveles
Los datos son: Los datos en cada nivel son:

Normales No normales Normales No normales

Prueba t Prueba de Varianzas son: Varianzas son:


de una rangos de
muestra Wilcoxon
Prueba Z
de una Iguales Diferentes Iguales Diferentes
muestra Prueba t Mann-Whitney Mann-Whitney
Prueba t
con Prueba t con Prueba t con
con
varianzas varianzas varianzas no
varianzas
iguales iguales(si iguales(si
no iguales
ANOVA de n>25) n>25)
1 va ANOVA de 1
Nota: Solo si los datos son no pareados. va(si n>25)
26
Matriz de seleccin de herramientas
Necesitamos
Factor (X) consideracione
VARI ABL E AT T RIB UTE
s adicionales
en este
Response (Y) V A R I AB L E
RE G R E S S IO N
AN A LY S IS
AN O V A, T-TES T,
NO N
P ARAM ET RI C
A L TE R N A T I V E S
cuadrante... Niveles para la X
L O G IS T I C CH I SQ U A RE
AT T RIB UT E RE G R E S S IO N T E S T , TE S T FO R
P R O P O R TI O N S

3 niveles
Los datos en cada nivel son:

Normales No normales

Varianzas son: Varianzas son:

Iguales Diferentes Iguales Diferentes


ANOVA de ANOVA de 1 Kruskall-Wallis
Kruskall-
1 va Wallis va(si n>25)

Nota: Solo si los datos son no pareados.


27
Herramientas para pruebas de hiptesis
Preguntas tpicas que pueden contestarse con pruebas de hiptesis:

Target
Comparar el promedio contra un valor fijo (p.e. el
tiempo de ciclo es menor a 10 das?)
Herramienta: Prueba t de una muestra

Promedio

Cambios/diferencias del promedio entre 2 muestras (p.e.


el tiempo de entrega depende del proveedor?, quin
entrega ms rpido DHL o Fedex? )
Herramienta: ANOVA o prueba t de dos muestras

28
Herramientas para pruebas de hiptesis

Cliente OC con error OC sin error Buscar independencia entre variables (p.e. los errores
A 2 5
B 3 3 en los precios depende de los clientes?)
C 4 2 Herramienta: Prueba de Chi cuadrada

Buscar cambios en proporciones (p.e. El porcentaje de


antes despus
% defectuoso 0.25 0.2
defectuosos cambi despus de la mejora?)
Herramienta: Prueba de proporciones

29
Herramientas para pruebas de hiptesis

Regression y = 3.2511x - 16.983


R2 = 0.9511
40
35
30
25 Encontrar relacin entre dos variables continuas (p.e. el
Y

20
15
10
tiempo de ciclo es influenciado por la velocidad?)
5
0
8 10 12 14 16 18
Herramienta: Regresin
X

Qu tipo de comparaciones/relaciones haces todos los das?

Qu herramienta utilizaras para hacerlo?

Por qu?

30
Ejemplo 1

Jaime quiere saber si el tiempo requerido para


completar una tarea, est relacionado con la
experiencia del empleado en aos.

H0:
HA:
Tipo de datos

Y:____________ ______________ La herramienta apropiada para


contestar esto es:
X:____________ ______________ _____________________________

Cul sera tu conclusin si p = 0.1917?


31
Ejemplo 2

La aspirina reduce el riesgo de un ataque al


corazn?

H0:
HA:
Tipo de datos

Y:____________ ______________ La herramienta apropiada para


contestar esto es:
X:____________ ______________ _____________________________

Cul sera tu conclusin si p = 0.0054?


32
Ejemplo 3
Hemos utilizado 3 diferentes proveedores de
mensajera internacional, ahora debemos seleccionar
solo uno. Parece alguno estar entregando ms
pronto en promedio?

H0:
HA:
Tipo de datos

Y:____________ ______________ La herramienta apropiada para


contestar esto es:
X:____________ ______________ _____________________________

Cul sera tu conclusin si p = 0.054?


33
Ejemplo 4

Sandra dice que la porcin defectuosa disminuy de


0.35 a 0.3. La diferencia se debe a acciones
especficas o es debida a la casualidad?

H0:
HA:
Tipo de datos

Y:____________ ______________ La herramienta apropiada para


contestar esto es:
X:____________ ______________ _____________________________

Cul sera tu conclusin si p = 0.045?


34
Actividad por equipos (30 minutos):
Para tu proyecto llena el siguiente plan de anlisis, excepto
la ltima columna.

Especificar la Hiptesis a Especificar Herramienta P-value y


variable X y Y probar Tipo de estadstica a Conclusiones
(Ho y Ha) datos para X utilizar obtenidas
yY
1.

2.

3.

35
35
Que nos queda

Recuerda:

1. Sin importar la herramienta, la regla de decisin siempre


depender del nivel de alfa (consideramos principalmente :
0.05).

2. Si el valor de p es menor a 0.05, concluimos que algo


especial ha ocurrido. Encontramos diferencia o relacin entre
variables.

3. La correcta herramienta de anlisis depende del tipo de datos


que estemos midiendo.
36
Apndices

37
Apndice A: Error Estndar de la
media e intervalos de confianza
Todas las pruebas estadsticas dependen de los resultados obtenidos
de una muestra de una poblacin. Si muestreramos en forma
continua, el promedio de las muestras variara de una muestra a otra.
La desviacin estndar de la media muestral se conoce como el error
estndar.
Error
estndar
X
(SE)

A mayor muestra, menor es el error estndar.

38
Apndice A: Error Estndar de la
media e intervalos de confianza
Dependiendo del tamao de la muestra, es el tamao del error alrededor
de la media muestral:

N 4 6 8 10 15 20 25 30 60
S 1.07558276 0.90823734 0.84086047 0.79306224 0.86141349 0.79974404 0.76238764 0.77836987 0.87002243
SE 0.53779138 0.37078634 0.29728907 0.2507883 0.22241601 0.1788282 0.15247753 0.14211025 0.11231941
Media -0.5284525 -0.49827167 -0.58815125 -0.463164 -0.10126267 -0.003829 -0.0318636 0.02844533 0.15424533

Error Std. vs tamao de la muestra

0.6
0.5
0.4
SE

0.3
0.2
0.1
0
0 10 20 30 40 50 60 70
N

39
Apndice A: Error Estndar de la
media e intervalos de confianza

El error estndar ayuda a definir los intervalos de confianza de un


parmetro especfico. El intervalo de confianza es un rango de valores
donde se espera que caiga un parmetro especfico de la muestra. Si
tomramos muestras durante un largo periodo de tiempo, el
promedio del lunes sera igual al del martes o al del mircoles? Cul
se acerca ms al promedio de la poblacin?

Promedio=5 Promedio=5.67 Promedio=5.33

Entonces, el promedio de la poblacin es...?


40
Apndice A: Error Estndar de la
media e intervalos de confianza
El intervalo de confianza depende del nivel de certeza (probabilidad)
requerida por el experimentador. Por esto los intervalos de confianza
se relacionan con una distribucin especfica para determinar sus
valores (como la Z o la distribucin t). El nivel de confianza se define
por alfa (a).
Media muestral (o Error estndar
proporcin, , etc.)

C.I . X ta SE
2
Intervalo de Nivel de
confianza para confianza
la media
(tambin puede
ser una
proporcin,
desviacin
estndar,
mediana, etc.) 41
Apndice A: Error Estndar de la
media e intervalos de confianza

Intervalo de confianza vs. tamao de muestra

0.5
0.4
0.3
0.2
Intervalos

0.1
0
-0.1 0 100 200 300 400 500 600
-0.2
-0.3
-0.4
-0.5
Tamao de muestra

Intervalos ms cerrados dan estimadores de la poblacin ms


exactos, debido a un menor error (SE). Intervalos de confianza
amplios pueden ser un indicador de alto riesgo Beta (b).

42
Apndice A: Error Estndar de la
media e intervalos de confianza
Corte
Aqu es evidente
rechazar Ho.
Aqu el valor
de p es
marginal,
usando el
intervalo de
confianza
podemos ver
si el error es
grande, por lo
tanto concluir
que hay
problemas con
el tamao de
la muestra.43
Pruebas de Hiptesis
Para contestar la pregunta Tiene relacin la X con la Y? , p.e. El uso del
democar est relacionado con la venta de un modelo de automvil?. Tenemos 2
opciones (solo una ser correcta):

Hiptesis nula (Ho): no existe relacin entre las


variables no existen diferencias.

Hiptesis alternativa (Ha): si existe relacin entre


las variables si existen diferencias.

Necesitamos datos para probar cualquiera de ellas


44
Resumen. Procedimiento de prueba de hiptesis:
1. Plantear las hiptesis
Ho: no existe relacin entre X y Y
Ha: Si existe relacin entre X y Y
2. Obtener datos.
Datos histricos o experimentales.
3. Aplicar herramienta estadstica (ver matriz de herramientas)
El tipo de herramienta a utilizar depender del tipo de datos
4. Decisin.
La decisin depender del valor de p-value proporcionado por Minitab
Si p-value < , se debe rechazar la Ho y por tanto si existe relacin
entre X y Y
Esta regla siempre es la misma, sin importar la herramienta utilizada.
**El valor de puede ser 0.05 0.01 45
Que nos queda

Recuerda:

1. Sin importar la herramienta, la regla de decisin siempre


depender del nivel de alfa (consideramos 0.05).
2. Si el valor de p es menor a 0.05, concluimos que algo
especial ha ocurrido. Encontramos diferencia o relacin entre
variables.
3. La correcta herramienta de anlisis depende del tipo de datos
que estemos midiendo.

46
Pruebas
de una Muestra para
comparacin de medias

47
Objetivo

1. Identifica problemas que incluyan 1 Y continua y una X


discreta con un solo nivel.

2. Entender las diferencias entre la prueba T de una


muestra y la prueba Z de una muestra.

3. Entender y aplicar pruebas T de una muestra a


problemas especficos.

4. Identificar alternativas no paramtricas para


comparacin de media de una muestra.

48
El escenario...

Un ingeniero de procesos afirma que cambios especficos al


Layout redujo el tiempo de ciclo a menos de 30 segundos. El
gerente no se impresiona y afirma que la reduccin se debe a
variacin aleatoria del proceso. Algunos das son mejores que
otros dijo. Tu decides, quin tiene la razn?

Ho:

Ha:

49
Matriz de seleccin de herramientas
Factor (X)

VARIABLE ATRIBUTO

ANLISIS DE ANOVA, PRUEBA


Respuesta (Y) VARIABLE REGRESIN Y DE T,Z
CORRELACIN ALTERNATIVAS
NO
PARAMTRICAS
REGRESIN PRUEBA DE CHI
ATRIBUTO LOGSTICA CUADRADA,
PRUEBA DE
PROPORCIONES

Esta es nuestra rea de inters 50


Matriz de seleccin de herramientas
En el problema del proceso, medimos el tiempo en un solo proceso
(sin cambios en turnos, no indican diferentes das, personas, etc.).
Por lo tanto es una X discreta con un solo nivel.

1 nivel
Datos son

Normales No Normales

Prueba T de una Prueba rangos


muestra de Wilcoxon
Prueba Z de una
muestra

51
Prueba Z

Al tratar con variables continuas existen dos principales preocupaciones


en el comportamiento de la distribucin: El centrado y la dispersin de
los datos. Es muy til contar con un modelo especfico para el anlisis.
Para una gran diversidad de procesos, su distribucin puede ser
explicada por la distribucin normal.


Valor
No te p(x > a) = 1 e-(1/2)[(x - m)/]2 dx Fijo
preocupes, 2
a
recuerda la Podemos afirmar
distribucin Z!!!
que existe diferencia
entre el promedio de
la poblacin y el valor
fijo?

Promedio
52
Prueba Z

Si es normal, siempre podemos estandarizar nuestros datos y buscar


probabilidades (valores de p) en las tablas Z.

Z=x-m Esta es
informacin de
la POBLACIN

Para usarla como una herramienta para contrastar hiptesis,


debemos de adaptarla para comparar los datos de la muestra
contra la media de la poblacin hipottica:

Z=X- m
s/n
53
Prueba Z
Media muestral

Z=X- m Valor de referencia

s/n
Error estndar de la media
(igual que con grficas de
control).

Con el valor de Z buscamos los valores


de p para determinar si la diferencia
entre las dos medias es significativa.

54
-5.6 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
-5.5 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
-5.4 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
Prueba Z
-5.3 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000
-5.2 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000
0.0
0.0
-5.1 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
-5.0 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
Para el ejemplo-4.9de tiempo
0.00000 de ciclo,
0.00000 0.00000el0.00000
ingeniero
0.00000(que result
0.00000 0.00000ser Black
0.00000 0.00000 0.0
Belt) obtuvo datos para probar
-4.8 0.00000 su suposicin.
0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
C. Time
-4.7 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0

Ho:-4.5m =
37.3 -4.6 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
22.5 30 (la
0.00000 media
0.00000 del proceso
0.00000 es igual
0.00000 0.00000 a 30
0.00000 segundos)
0.00000 0.00000 0.00000 0.0
30.3
29.5 Ha:-4.4m < 30 (la
0.00001 media
0.00001 es menor
0.00000 0.00000 a 30 segundos)
0.00000 0.00000 0.00000 0.00000 0.00000 0.0
26.7 -4.3 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.0
30.5
26.3
-4.2 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001 0.0
29.9
29 Z=X- m
-4.1 0.00002 0.00002 0.00002 0.00002 0.00002 0.00002 0.00002 0.00002 0.00001
= 28.3 - 30 = -3.37
-4.0 0.00003 0.00003 0.00003 0.00003 0.00003 0.00003 0.00002 0.00002 0.00002
0.0
0.0
25.2
27.6 -3.9 0.00005 0.000052.8/30
s/n 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.0
28.4 -3.8 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.0
23.6
-3.7 0.00011 0.00010 0.00010 0.00010 0.00009 0.00009 0.00008 0.00008 0.00008 0.0
-3.6 0.00016Buscando en la tabla0.00014
de Z: 0.00013 0.00013 0.00012 0.00012
27.8
25.5 0.00015 0.00015 0.00014 0.0
29
-3.5 0.00023 0.00022 0.00022 0.00021 0.00020 0.00019 0.00019 0.00018 0.00017 0.0
30.3
25.6
Z 0.00034
-3.4 0 0.01 0.00031
0.00032 0.02 0.00030
0.03 0.00029
0.04 0.00028
0.05 0.00027
0.06 0.00026
0.07 0.00025
0.08 0
0.0
28.8 -6.0 0.00048
-3.3 0.00000 0.00047
0.00000 0.00045
0.00000 0.00043
0.00000 0.00042
0.00000 0.00040
0.00000 0.00039
0.00000 0.00038
0.00000 0.00036
0.00000 0.0
29.6
25.8
-5.9 0.00069
-3.2 0.00000 0.00066
0.00000 0.00064
0.00000 0.00062
0.00000 0.00060
0.00000 0.00058
0.00000 0.00056
0.00000 0.00054
0.00000 0.00052
0.00000 0.0
29 -5.8 0.00097
-3.1 0.00000 0.00094
0.00000 0.00090
0.00000 0.00087
0.00000 0.00084
0.00000 0.00082
0.00000 0.00079
0.00000 0.00076
0.00000 0.00074
0.00000 0.0
29
25.6
Dado que el0.00000
-5.7 0.00000 valor 0.00000
de p es menor
0.00000 a 0.05,
0.00000 concluimos
0.00000 que0.00000
0.00000 0.00000 0.0
29.1 -5.6suficiente
hay 0.00000 0.00000 0.00000 0.00000
evidencia para 0.00000 0.00000
afirmar que la0.00000 0.00000en
reduccin 0.00000 0.0
27.2 -5.5 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
32
29.6
el tiempo
-5.4 de0.00000
0.00000 ciclo 0.00000
es real.0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
30.4 -5.3 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000
55 0.0
27.3 -5.2 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.0
Prueba t

La prueba anterior es vlida para tamaos de muestra grandes (>=30) y


si los datos estn normalmente distribuidos. Es muy comn que tamaos
de muestra grandes sean difciles de conseguir. Restricciones tales
como costo, tiempo, etc. pueden ser de consideracin al tomar
muestras. Cuando tenemos pequeas muestras que sabemos que
vienen de una distribucin normal, utilizamos un estadstico similar para
pequeas muestras: la distribucin t
Distribucin Z

t=X- m
s/n
- Bueno, Cul es la
Distribucin
diferencia? t

La distribucin t tiene mayor


dispersin debido a menores tamaos
de muestra 56
Prueba t

Grados de
libertad (GL)

ta,n-1
Regin de
aceptacin
(1-a)
Regin de rechazo (a)

Valor de
corte
Mismos conceptos, diferentes frmulas!!!!
Nota: Los GL son los que afectan la dispersin de la distribucin. A mayor
muestra, ms grados de libertad y ms cercanos son nuestros datos a la
distribucin de la poblacin.
57
Prueba t
Tambin hay tablas para la distribucin t:
Value for t
dof 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00
1 1.0000 0.9682 0.9365 0.9052 0.8743 0.8440 0.8145 0.7857 0.7578 0.7308 0.7048 0.6799 0.6560 0.6331 0.6112 0.5903 0.5704 0.5515 0.5335 0.5163 0.5000
2 1.0000 0.9647 0.9295 0.8945 0.8600 0.8259 0.7925 0.7598 0.7278 0.6968 0.6667 0.6375 0.6094 0.5824 0.5564 0.5315 0.5076 0.4848 0.4631 0.4424 0.4226
3 1.0000 0.9633 0.9267 0.8903 0.8543 0.8187 0.7838 0.7495 0.7159 0.6832 0.6514 0.6206 0.5908 0.5620 0.5343 0.5077 0.4822 0.4578 0.4345 0.4122 0.3910
4 1.0000 0.9625 0.9252 0.8880 0.8512 0.8149 0.7791 0.7440 0.7096 0.6760 0.6433 0.6116 0.5808 0.5511 0.5225 0.4950 0.4685 0.4432 0.4190 0.3959 0.3739
5 1.0000 0.9621 0.9242 0.8866 0.8494 0.8125 0.7762 0.7406 0.7057 0.6715 0.6383 0.6060 0.5747 0.5444 0.5151 0.4870 0.4600 0.4341 0.4094 0.3857 0.3632
6 1.0000 0.9617 0.9236 0.8857 0.8481 0.8109 0.7743 0.7383 0.7030 0.6685 0.6349 0.6022 0.5705 0.5398 0.5101 0.4816 0.4542 0.4279 0.4028 0.3788 0.3559
7 1.0000 0.9615 0.9231 0.8850 0.8472 0.8098 0.7729 0.7366 0.7011 0.6663 0.6324 0.5994 0.5674 0.5364 0.5065 0.4777 0.4500 0.4234 0.3980 0.3738 0.3506
8 1.0000 0.9613 0.9228 0.8845 0.8465 0.8089 0.7718 0.7354 0.6996 0.6647 0.6305 0.5973 0.5651 0.5339 0.5038 0.4747 0.4468 0.4200 0.3944 0.3699 0.3466
9 1.0000 0.9612 0.9225 0.8841 0.8459 0.8082 0.7710 0.7344 0.6985 0.6634 0.6291 0.5957 0.5633 0.5319 0.5016 0.4724 0.4443 0.4174 0.3916 0.3669 0.3434
10 1.0000 0.9611 0.9223 0.8837 0.8455 0.8076 0.7703 0.7336 0.6976 0.6623 0.6279 0.5944 0.5619 0.5303 0.4999 0.4705 0.4423 0.4152 0.3893 0.3645 0.3409
11 1.0000 0.9610 0.9221 0.8835 0.8451 0.8072 0.7698 0.7329 0.6968 0.6614 0.6269 0.5933 0.5607 0.5290 0.4985 0.4690 0.4406 0.4134 0.3874 0.3625 0.3388
12 1.0000 0.9609 0.9220 0.8833 0.8448 0.8068 0.7693 0.7324 0.6962 0.6607 0.6261 0.5924 0.5597 0.5279 0.4973 0.4677 0.4393 0.4120 0.3858 0.3609 0.3370
13 1.0000 0.9609 0.9219 0.8831 0.8446 0.8065 0.7689 0.7319 0.6957 0.6601 0.6254 0.5916 0.5588 0.5270 0.4963 0.4666 0.4381 0.4107 0.3845 0.3594 0.3356
14 1.0000 0.9608 0.9218 0.8829 0.8444 0.8062 0.7686 0.7315 0.6952 0.6596 0.6248 0.5910 0.5581 0.5262 0.4954 0.4657 0.4371 0.4096 0.3833 0.3582 0.3343
15 1.0000 0.9608 0.9217 0.8828 0.8442 0.8060 0.7683 0.7312 0.6948 0.6591 0.6243 0.5904 0.5575 0.5255 0.4946 0.4649 0.4362 0.4087 0.3823 0.3572 0.3332
16 1.0000 0.9607 0.9216 0.8826 0.8440 0.8058 0.7680 0.7309 0.6944 0.6587 0.6239 0.5899 0.5569 0.5249 0.4940 0.4641 0.4354 0.4079 0.3815 0.3562 0.3322
17 1.0000 0.9607 0.9215 0.8825 0.8439 0.8056 0.7678 0.7306 0.6941 0.6584 0.6235 0.5895 0.5564 0.5244 0.4934 0.4635 0.4347 0.4071 0.3807 0.3554 0.3313
18 1.0000 0.9607 0.9214 0.8824 0.8437 0.8054 0.7676 0.7304 0.6939 0.6581 0.6231 0.5891 0.5560 0.5239 0.4929 0.4629 0.4341 0.4065 0.3800 0.3547 0.3306
19 1.0000 0.9606 0.9214 0.8823 0.8436 0.8053 0.7674 0.7302 0.6936 0.6578 0.6228 0.5887 0.5556 0.5235 0.4924 0.4624 0.4336 0.4059 0.3794 0.3540 0.3299
20 1.0000 0.9606 0.9213 0.8823 0.8435 0.8051 0.7673 0.7300 0.6934 0.6575 0.6225 0.5884 0.5552 0.5231 0.4920 0.4620 0.4331 0.4054 0.3788 0.3535 0.3293
21 1.0000 0.9606 0.9213 0.8822 0.8434 0.8050 0.7671 0.7298 0.6932 0.6573 0.6223 0.5881 0.5549 0.5227 0.4916 0.4616 0.4327 0.4049 0.3783 0.3529 0.3287
22 1.0000 0.9606 0.9213 0.8821 0.8433 0.8049 0.7670 0.7297 0.6930 0.6571 0.6220 0.5879 0.5546 0.5224 0.4913 0.4612 0.4323 0.4045 0.3779 0.3524 0.3282
23 1.0000 0.9606 0.9212 0.8821 0.8432 0.8048 0.7669 0.7295 0.6928 0.6569 0.6218 0.5876 0.5544 0.5221 0.4909 0.4609 0.4319 0.4041 0.3774 0.3520 0.3277
24 1.0000 0.9605 0.9212 0.8820 0.8432 0.8047 0.7668 0.7294 0.6927 0.6567 0.6216 0.5874 0.5541 0.5219 0.4907 0.4605 0.4316 0.4037 0.3771 0.3516 0.3273
25 1.0000 0.9605 0.9211 0.8820 0.8431 0.8046 0.7667 0.7293 0.6926 0.6566 0.6214 0.5872 0.5539 0.5216 0.4904 0.4603 0.4312 0.4034 0.3767 0.3512 0.3269
26 1.0000 0.9605 0.9211 0.8819 0.8430 0.8046 0.7666 0.7292 0.6924 0.6564 0.6213 0.5870 0.5537 0.5214 0.4901 0.4600 0.4310 0.4031 0.3764 0.3509 0.3265
27 1.0000 0.9605 0.9211 0.8819 0.8430 0.8045 0.7665 0.7291 0.6923 0.6563 0.6211 0.5868 0.5535 0.5212 0.4899 0.4597 0.4307 0.4028 0.3761 0.3505 0.3262
28 1.0000 0.9605 0.9211 0.8818 0.8429 0.8044 0.7664 0.7290 0.6922 0.6562 0.6210 0.5867 0.5533 0.5210 0.4897 0.4595 0.4304 0.4025 0.3758 0.3502 0.3259
29 1.0000 0.9605 0.9210 0.8818 0.8429 0.8043 0.7663 0.7289 0.6921 0.6561 0.6208 0.5865 0.5532 0.5208 0.4895 0.4593 0.4302 0.4023 0.3755 0.3500 0.3256

Ahora debemos conocer los GL


58
8 0.0085 0.0079 0.0073 0.0068 0.0063 0.0059 0.0054 0.0050 0.0047 0.004
9 0.0075 0.0069 0.0064 0.0059 0.0054 0.0050 0.0046 0.0043 0.0039 0.003
Prueba t
10 0.0067 0.0061 0.0056 0.0052 0.0047 0.0044 0.0040 0.0037 0.0034 0.003
11 0.0060 0.0055 0.0051 0.0046 0.0042 0.0039 0.0035 0.0032 0.0030 0.002
12 0.0055 0.0050 0.0046 0.0042 0.0038 0.0035 0.0032 0.0029 0.0026 0.002
13 0.0051 0.0046 0.0042 0.0038 0.0035 0.0032 0.0029 0.0026 0.0024 0.002
Recordando14nuestro
0.0048ejemplo del tiempo
0.0043 0.0039 0.0035 de ciclo:
0.0032 0.0029 0.0026 0.0024 0.0022 0.002
15 0.0045 0.0041 0.0037 0.0033 0.0030 0.0027 0.0024 0.0022 0.0020 0.001
C. Time 16 0.0042 0.0038 0.0034 0.0031 0.0028 0.0025 0.0023 0.0020 0.0018 0.001
37.3
22.5
17 m0.0040
Ho: = 30 (la media
0.0036 del0.0029
0.0033 proceso es igual
0.0026 0.0024 a0.0021
30 segundos)
0.0019 0.0017 0.001
30.3
29.5 Ha: m < 30 (la media es menor a 30 segundos)
18 0.0038 0.0034 0.0031 0.0028 0.0025 0.0022 0.0020 0.0018 0.0016 0.001
26.7 19 0.0037 0.0033 0.0029 0.0026 0.0024 0.0021 0.0019 0.0017 0.0015 0.001
30.5
26.3 t = X - m
20 0.0035 0.0032
= 28.30.0028
- 30 =0.0025
-3.370.0022 0.0020 0.0018 0.0016 0.0014 0.001
21 0.0034 0.0030 0.0027 0.0024 0.0022 0.0019 0.0017 0.0015 0.0013 0.001

29.9
29
22 s/ n
0.0033 2.8/30
0.0029 0.0026 0.0023 0.0021 0.0018 0.0016 0.0014 0.0013 0.001
25.2
27.6 23 0.0032 0.0028 0.0025 0.0022 0.0020 0.0018 0.0016 0.0014 0.0012 0.001
28.4
23.6
24 0.0031
Dado que la0.0028 0.0024 0.0022
t es simtrica 0.0019 0.0017
buscamos 0.0015
el valor 0.0013 0.0012 0.001
cuando
27.8 25 0.0030 0.0027 0.0024 0.0021 0.0019 0.0016 0.0015 3.37 0.0013
est0.0011 0.001
entre estos
25.5 t=3.37 en la tabla de 1 cola:
26 0.0029 0.0026 0.0023 0.0020 0.0018 0.0016 0.0014 0.0012valores0.0011 0.001
29
30.3 27 0.0029 0.0025 0.0022 0.0020 0.0017 0.0015 0.0014 0.0012 0.0011 0.000
25.6
28.8 dof 3.00 0.0025
28 0.0028 3.05 0.0022
3.10 0.0019
3.15 0.0017
3.20 0.0015
3.25 0.0013
3.30 0.0012
3.35 0.0010
3.40 0.000
3.45
29.6 29
1 0.0027
0.1024 0.0024
0.1008 0.0021
0.0993 0.0019
0.0978 0.0017
0.0964 0.0015
0.0950 0.0013
0.0937 0.0011
0.0923 0.0010
0.0911 0.000
0.089
25.8
29 2 0.0477 0.0464 0.0451 0.0439 0.0427 0.0415 0.0404 0.0394 0.0383 0.037
29
3 0.0288 0.0277 0.0266 0.0256 0.0247 0.0237 0.0229 0.0220 0.0212 0.020
25.6
29.1
Dado
4
que el valor de p es menor a 0.05, llegamos a la misma
0.0200 0.0190 0.0181 0.0173 0.0165 0.0157 0.0150 0.0143 0.0136 0.013
27.2
32
conclusin
5 0.0150 de antes.
0.0142 0.0134 0.0127 0.0120 0.0113 0.0107 0.0102 0.0096 0.009
29.6 6 0.0120 0.0113 0.0106 0.0099 0.0093 0.0087 0.0082 0.0077 0.0072 0.006
30.4 59
27.3 7 0.0100 0.0093 0.0087 0.0081 0.0075 0.0070 0.0066 0.0061 0.0057 0.005
8 0.0085 0.0079 0.0073 0.0068 0.0063 0.0059 0.0054 0.0050 0.0047 0.004
Prueba Z de nuevo...
Usando Minitab: Stat>Basic Statistics>1-Sample Z

60
Prueba Z de nuevo...
Indica la columna con
los datos, el valor de la
desviacin estndar
POBLACIONAL y el
valor de referencia:

Selecciona Options:

Selecciona la opcin ms adecuada


para la hiptesis alternativa:

61
Prueba Z de nuevo...

One-Sample Z: Tiempo de ciclo

Test of mu = 30 vs mu < 30
The assumed sigma = 2.8

Variable N Mean StDev SE Mean


Tiempo de ci 30 28.280 2.790 0.511

Variable 95.0% Upper Bound Z P


Tiempo de ci 29.121 -3.36 0.000

Son los mismos resultados que obtuvimos antes

62
Prueba t de nuevo...
Usando Minitab: Stat>Basic Statistics>1-Sample t

63
Prueba t de nuevo...
Indica la columna con
los datos y el valor de
referencia:

Selecciona Options:

Selecciona la opcin ms adecuada


para la hiptesis alternativa:

64
Prueba t de nuevo...

One-Sample T: Tiempo de ciclo

Test of mu = 30 vs mu < 30

Variable N Mean StDev SE Mean


Tiempo de ci 30 28.280 2.790 0.509

Variable 95.0% Upper Bound T P


Tiempo de ci 29.145 -3.38 0.001

Son los mismos resultados que obtuvimos antes

65
Ejemplo

Alquitrn Un fabricante de cigarrillos desea probar que el


16.9
16.6 contenido promedio de alquitrn de una cierta marca
17.3
17.5 es menor a 17 mg. El fabricante muestre 25 cigarros.
17
17.2
Puede confirmar su afirmacin de que los cigarros
16.1
16.4
tienen menos de 17 mg de alquitrn?
17.3
15.9
17.7
18.3
15.6
Ho:
16.8
17.1
17.2
16.4 Ha:
18.1
17.4
16.7
16.9
16
16.5
17.8 Valor de p:_________
17

66
Que nos queda...

1. Las reglas de decisin se siguen aplicando.

2. Siempre debemos validar la normalidad y revisar los tamaos de


muestra antes de seleccionar una herramienta.

3. Si los datos son no normales, debemos entender por que no lo


son y arreglarlos. Si de momento no pueden ser arreglados,
debemos seleccionar una alternativa no paramtrica para contestar
nuestra hiptesis.

67
Pruebas de Varianzas y
Medias para mltiples
muestras

68
Objetivo

1. Identificar problemas que incluyan 1 Y continua y una


X discreta con mltiples niveles.

2. Entender y aplicar pruebas para comparar mltiples


varianzas.

3. Entender y aplicar pruebas t de dos muestras


considerando tanto varianzas iguales como diferentes.

4. Entender y aplicar ANOVA de una va a problemas


especficos.

69
Forma, centro & dispersin

Al comparar una muestra a un valor fijo, es nuestro principal


inters comparar el promedio de la muestra a ese valor para tomar
una decisin.

Cuando hablamos de comparar dos o ms poblaciones (o


muestras en este caso) necesitamos comparar otros parmetros
para identificar diferencias. Al igual que con una muestra,
necesitamos saber si tratamos con datos normales (forma),
comparar sus varianzas (dispersin) para la precisin y sus
medias (centro) para determinar que tan separadas estn entre s.

70
Matriz de seleccin de herramientas
Factor (X)

VARIABLE ATRIBUTO

ANLISIS DE ANOVA, PRUEBA


Respuesta (Y) VARIABLE REGRESIN Y DE T,Z
CORRELACIN ALTERNATIVAS
NO
PARAMTRICAS
REGRESIN PRUEBA DE CHI
ATRIBUTO LOGSTICA CUADRADA,
PRUEBA DE
PROPORCIONES

Esta es nuestra rea de inters 71


Matriz de seleccin de herramientas
Al comparar una Y continua y una X discreta con mltiples niveles,
tenemos las siguientes opciones:

3+ Niveles
2 niveles
Datos en los niveles son:
Datos en los niveles son:

Normales
Normales No Normales

Varianzas son: Varianzas son:


Varianzas son: Varianzas son:

Iguales Diferentes Iguales Diferentes


ANOVA de ANOVA de Kruskall-Wallis
Iguales Diferentes Iguales Diferentes Kruskall-
una va Wallis una va (si
Prueba t con Mann-Whitney Mann-Whitney
Prueba t n>25)
varianzas Prueba t con Prueba t con
con
iguales varianzas varianzas
varianzas
ANOVA de diferentes
iguales (si diferentes (si
una va n>25) n>25)
ANOVA de
una va (si
Nota:Solo si los datos no . n>25)
estn pareados
72
Suposicin de varianzas iguales

Al comparar dos o ms grupos, las pruebas estadsticas usadas para


comparar las medias, dependen de la suposicin de que las varianzas
son iguales (la dispersin es igual entre los grupos), esto es llamado
homogeneidad de varianzas. Pruebas tales como la t para 2 muestras
tienen anlisis alternativos cuando esto no se cumple.

12 = m1 m2
22 Podemos afirmar
diferencias entre el
proceso A y el
Homogeneidad de varianzas proceso B?

73
Suposicin de varianzas iguales

Adems de ayudar en la seleccin de la herramienta apropiada para


comparar medias, tambin nos ayuda a comparar dos o ms procesos
en trminos de su precisin (p.e. en que ajuste, A o B nuestro proceso
es ms estable?). Las hiptesis a analizar son:

Ho: 12 = 22 (Las varianzas se consideran iguales)

Ha: 12 22 (Varianzas no iguales)


Qu tan estables andamos
despus de n+1 tragos?

74
Suposicin de varianzas iguales

En muchas ocasiones no podemos asumir que las varianzas sean


iguales, as que necesitamos probar nuestros datos para tomar esta
decisin. Si los datos analizados son normales entonces podemos
usar la prueba de Bartlett (prueba F para varianzas), Si los datos no
son normales, usamos la prueba de Levene. Es ms recomendable.

Bartlett Levene

75
Prueba de homogeneidad de varianzas
Actualmente tenemos a 2 proveedores entregando el mismo nmero
de parte, los precios son similares entre los dos proveedores.
Deseamos seleccionar solo uno en trminos de su confiabilidad
(consistencia) en entregas y quien entrega ms pronto. Qu
proveedor debemos seleccionar?
Tomorrowsure Inurdrims
Para la consistencia vamos a revisar si
30 27.8
30.5 25.5 uno tiene menos variacin que el otro, o si
29.3 38 esta es la misma:
30.9 40.8
30.4 17.3
29.7 36.5 Ho: 12 = 22
30.9 30
31.3 31.4
31.2 35.3 Ha: 12 22
31.2
32.4
29.7
76
Prueba de homogeneidad de varianzas

Para hacer la prueba en Minitab, requerimos los datos apilados (una


columna para la respuesta y otra para los niveles de la X)

77
Prueba de homogeneidad de varianzas

Selecciona las
columnas que
deseas juntar.

Nombra las
columnas que van a
contener y=f(x)

78
Prueba de homogeneidad de varianzas

Para hacer la prueba en Minitab:


Stat>ANOVA>Test for Equal Variances

79
Prueba de homogeneidad de varianzas

Indica las
columnas que
contienen a la y,
as como a la x:

Selecciona O.K.
80
Prueba de homogeneidad de varianzas

Test for Equal Variances for Tiempo


95% Confidence Intervals for Sigmas Factor Levels

Inurdrims

Tomorrowsure

0 5 10 15

Como p < 0.05


F-Test Lev ene's Test
Test Statistic: 69.501 Test Statistic: 15.772 concluimos que las
P-Value : 0.000 P-Value : 0.001 varianzas son diferentes.
Boxplots of Raw Data

Inurdrims

Tomorrowsure

20 30 40
Tiempo

Dependiendo si los datos son normales o no, seleccionamos el


resultado ms adecuado. La prueba de Levene es ms universal
que la de Barttlet.
81
Prueba t de dos muestras

Para la segunda parte de nuestro ejemplo (quien entrega ms


rpido), necesitamos comparar ambos promedios. De acuerdo a
nuestra matriz de seleccin de herramientas, tenemos que:
2 niveles
Datos en los niveles son:

Normales No Normales

Varianzas son: Varianzas son:

Iguales Diferentes Iguales Diferentes


Prueba t con Mann-Whitney Mann-Whitney
Prueba t
varianzas Prueba t con Prueba t con
con
iguales varianzas varianzas
varianzas
ANOVA de iguales (si iguales (si
Discutiremos una va
diferentes
n>25) n>25)
esto despus! ANOVA de
una va (si
Nota:Solo si los datos no . n>25)
estn pareados 82
Prueba t de 2 muestras

La principal importancia de conocer la igualdad de las varianzas, es


para el clculo del estadstico t.

Para varianzas iguales: Los gl para el valor de corte son:

( x x ) ( m1 m 2 ) n1+n2-2, as que la t de referencia queda:


t 1 2
SE ( x1 x2 ) ta ,n1 n2 2
Donde:
1 1
SE ( x1 x2 ) S pool
n1 n2
y:
(n1 1) s12 (n2 1) s22
S pool
n1 n2 2 83
Prueba t de 2 muestras

Para varianzas diferentes es un poco ms complicado:

Figrate la referencia!!!
( x1 x2 ) ( m1 m 2 )
t
SE ( x1 x2 )

s12 s22
Donde: SE ( x1 x2 )
n1 n2
2
s s
2 2
1 2

DoF 12 2 2
n n
Y los gl
son: s12 s22

n1 n2
n1 1 n2 1
84
Prueba t de 2 muestras
Para nuestro ejemplo, debemos probar las siguientes hiptesis:

Ho: m1 = m2 (No hay diferencia entre las


medias).No hay relacin entre el proveedor y el
tiempo de entrega.
Ha: m1 m2 (Las medias son diferentes).Si hay
relacin entre el proveedor y el tiempo de entrega
Dado que sabemos que las
varianzas no son iguales, solo
cambiamos los datos en las
frmulas...

85
Prueba t para 2 muestras

( x1 x2 ) ( m1 m 2 ) (30.64 31.40) (0)


t
SE ( x1 x2 ) SE ( x1 x2 )

s12 s22 0.7584 52.71


SE ( x1 x2 ) 2.43
n1 n2 12 9

2
s 2
s 2
0.7584 52.71
2

1 2

DoF 12 2 2
n n 12 9
2 2
8.17 8
s1 s2
2 2
0.7584 52.71

n1 n2 12 9
n1 1 n2 1 11 8
86
Prueba t para 2 muestras

( x1 x2 ) ( m1 m 2 ) (30.64 31.40) (0)


t 0.313
SE ( x1 x2 ) 2.43

Ahora buscamos en la tabla t:


0.31 est entre
estos valores!!!

Dado que el valor de p es mayor a 0.05, no podemos decir que hay


una diferencia entre los dos proveedores. Por lo tanto la nica
diferencia se debe a la consistencia, as que debemos seleccionar a
Tomorrowsure como nuestro proveedor.
87
Prueba t para 2 muestras

Que bueno que tenemos Minitab:

Stat>Basic
Statistics>2-Sample
t...

88
Prueba t para 2 muestras
Indica las columnas
con los datos y con
los niveles por
variable (tambin
puedes comparar los
dos niveles por
separado:

Indica si las varianzas son


iguales o diferentes:

En options seleccionas el tipo de


hiptesis alternativa que quieres
comparar:

89
2 sample t-Test

Two-Sample T-Test and CI: Tiempo, Compaa

Two-sample T for Tiempo

Compaa N Mean StDev SE Mean


Inurdrims 9 31.40 7.26 2.4
Tomorrowsu 12 30.625 0.871 0.25

Difference = mu (Inurdrims ) - mu (Tomorrowsu)


Estimate for difference: 0.78
95% CI for difference: (-4.84, 6.39)
T-Test of difference = 0 (vs not =): T-Value = 0.32 P-Value = 0.758 DF = 8

Que son los mismos resultados que habamos obtenido.

90
Ejemplo

Un gerente de finanzas est monitoreando el resultado de una iniciativa


de reduccin de costos. Ella desea saber si las diferencias son
significativas durante los primeros seis meses del ao. Ella quiere
comparar los resultados con los del ao pasado y as determinar si son
ahorros reales o variacin aleatoria. Ella busc apoyo del BB para
realizar el anlisis. Con los datos provistos, Hubo ahorros?

2000 2001
351.842 362.541 Ho: El promedio de costos es igual que el ao pasado
363.527 326.435 Ha: Los costos del ao pasado fueron mayores.
340.48 341.559
349.936 324.397
346.376 320.716
346.166 348.707
346.015
370.633 Ho: m1 = m2
Ha: m1 > m2
358.718
344.722
361.61
349.75
91
Ejemplo
2 levels
Data in each level is:

Normal

Variances are:
Non Normal

Variances are:
Primero debemos saber si las varianzas son iguales o no:
Equal Different Equal Different
t-Test with Mann-Whitney Mann-Whitney
t-Test with
equal t-Test with t-Test with
non-equal
variances equal equal
variances
1- way variances (in variances (in
ANOVA n>25) n>25)
1- way 1- way
ANOVA (if ANOVA (if
Note: Only if data is not paired. n>25) n>25)

92
Ejemplo
Test for Equal Variances for Costos
95% Confidence Intervals for Sigmas Factor Levels

2000

2001

10 20 30 40 50

F-Test Lev ene's Test


Test Statistic: 0.308 Test Statistic: 3.833
P-Value : 0.096 P-Value : 0.068

Boxplots of Raw Data

2000

2001

320 330 340 350 360 370


Costos

Si vemos la prueba de Levene (recuerdas por qu?), el valor de p es


mayor a 0.05, por lo que podemos considerar las varianzas son
iguales.

93
Ejemplo

Otra forma de analizar los datos


es comparando los niveles por
separado:

Ahora las varianzas son iguales:

Tambin seleccionamos el tipo de


alternativa que queremos
contestar:

94
Ejemplo
Two-Sample T-Test and CI: 2000, 2001

Two-sample T for 2000 vs 2001

N Mean StDev SE Mean


2000 12 352.48 9.10 2.6
2001 6 337.4 16.4 6.7

Difference = mu 2000 - mu 2001


Estimate for difference: 15.09
95% lower bound for difference: 4.72
T-Test of difference = 0 (vs >): T-Value = 2.54 P-Value = 0.011 DF = 16
Both use Pooled StDev = 11.9

Como el valor de p es menor a 0.05, concluimos que existe


diferencia significativa de un ao a otro.

95
Intenta este...
Ni-Cadmium Ni-metal
54.5 78.3 Un proveedor de bateras est probando una
67 79.8
41.7 81.3
nueva alternativa a su batera de Ni-Cd. La
64.5 69.4 nueva batera de Ni-metal se espera que dure
86.8 82.8 ms tiempo con la misma consistencia. 2
40.8 82.3
72.5 62.5 muestras de 25 bateras c/u fueron probadas.
76.9 77.5 Hay evidencia que de la batera de Ni-
81 85.3
83.3 85.3
Cadmium dura menos?
82 86.1
71.8 41.1
68.8 112.3 Ho:
71 103
67.8 95.4
56.7 91.1 Ha:
69.7 46.4
70.4 87.3
74.9 71.8
75.4 83.2
64.9 85
104.4 74.3
90.4 85.5
72.8 72.1
58.7 74.1
96
ANOVA
Una alternativa muy poderosa para la prueba t, es el Anlisis de
Varianza (ANOVA). Es tambin muy til para probar diferencias en
las medias cuando la X tienen mltiples niveles.
3+ Niveles
2 niveles
Datos en los niveles son:
Datos en los niveles son:

Normales
Normales No Normales

Varianzas son: Varianzas son:


Varianzas son: Varianzas son:

Iguales Diferentes Iguales Diferentes


ANOVA de ANOVA de Kruskall-Wallis
Iguales Diferentes Iguales Diferentes Kruskall-
una va Wallis una va (si
Prueba t con Mann-Whitney Mann-Whitney
Prueba t n>25)
varianzas Prueba t con Prueba t con
con Kruskall
iguales varianzas varianzas
varianzas Wallis
ANOVA de diferentes
iguales (si diferentes (si
una va n>25) n>25)
ANOVA de
una va (si
Nota:Solo si los datos no . n>25)
estn pareados
97
ANOVA

Cuando tenemos un solo factor con mltiples niveles y observaciones


en cada nivel, decimos que tenemos un anlisis de una va. Con este
arreglo podemos calcular la media de las observaciones para cada
nivel. Tambin podemos comparar esas medias contra la media global
para ver los efectos de los niveles, y a su vez comparar la variacin
dentro de cada nivel y compararla contra la variacin generada al
cambiar de niveles (de aqu el nombre).

Tratamos de
ajustar este
modelo a

y m ai eij nuestros
datos...

Significa que cada punto es resultado del


valor promedio para la variacin del
cambio de nivel y algo de error.
98
ANOVA

Dentro
del
grupo

Entre grupos

Total
2
Entre
2
_ grupos 2
Dentro_ de _ grupos

El efecto de los cambios son determinados por cambios en la variacin


total. El ANOVA separa las diferentes fuentes de variacin para evaluar
los cambios en los promedios.
99
ANOVA
Para analizar los datos, usamos la tabla de ANOVA:
Suma de Cuadrado
Fuente de variacin GL cuadrados Medio F Valor p
k
SS EG CM EG
Entre grupos k-1 l ( xi xtotal ) 2 p( F Fa ,k 1,nk )
i 1 k 1 CM DG
SSTotal SS EG
SS DG
*
Dentro de grupos n-k
nk
l m

Total n-1 ( x
i 1 j 1
ij xtotal ) 2

De nuevo, necesitamos decidir en trminos del valor de p si la diferencia entre las


medias de grupos es significativa. Si el valor de p es menor que alfa, entonces es
significativa.
Ho: m1 = m2 = m3 =... Medias de los grupos son iguales. No hay relacin de las Xs
con la Y.
Ha: mi mj . .. Al menos un par es diferente. S hay relacin de las Xs con la
Y
*La variacin dentro de grupos tambin se le
conoce como el error o residual. 100
ANOVA
Suma de Cuadrado
Fuente de variacin GL cuadrados Medio F Valor p
k
SS EG MS EG
Entre grupos k-1 l ( xi xtotal ) 2 p( F Fa ,k 1,nk )
i 1 k 1 MS DG

SSTotal SS EG
SS DG
Dentro de grupos* n-k
nk
l m

Total n-1 ( x
i 1 j 1
ij xtotal ) 2

Un valor til es el de epsilon cuadrada (e2) que nos dice que tanta variacin
(del total) se explica por la variacin entre grupos. Si e2 del error es mayor
que la de entre grupos, entonces probablemente otra fuente de variacin
cambi durante nuestro anlisis.

SS EG 2 SS DG
e EG ; e DG
Es mejor si se 2
expresa como
porcentaje!
SSTotal SSTotal
101
ANOVA
Ni-Cadmium Ni-metal
54.5 78.3 Un proveedor de bateras est probando una
67 79.8 nueva alternativa a su batera de Ni-Cd. La
41.7 81.3
64.5 69.4
nueva batera de Ni-metal se espera que dure
86.8 82.8 ms tiempo con la misma consistencia. 2
40.8 82.3
72.5 62.5
muestras de 25 bateras c/u fueron probadas.
76.9 77.5 Hay evidencia que de la batera de Ni-
81 85.3 Cadmium dura menos?
83.3 85.3
82 86.1
71.8 41.1
68.8 112.3 Ho: mNi-Cadmium = mNi-metal
71 103
67.8
56.7
95.4
91.1
Ha: mNi-Cadmium mNi-metal
69.7 46.4
70.4 87.3 Promedio Ni-Cadmio = 70.748
74.9 71.8
75.4 83.2 Promedio Ni-metal = 79.728
64.9 85 Promedio total = 75.238
104.4 74.3
90.4 85.5
72.8 72.1
58.7 74.1
102
ANOVA
Suma de Cuad.Medio
Fuente de Variacin GL Cuadrados F Valor de p

Entre grupos 1 1008.005 1008.005 4.779 0.0337

Dentro de grupos 48 10123.633 210.909

Total 49 11131.638

SSEG = 25[(70.748-75.238)^2 + (79.728-75.238)^2] = 1008.005

SSTotal = (54.5-75.238)^2 + (67-75.238)^2 + ... + (74.1-75.238)^2 = 11131.638

SSDG = (11131.638 - 1008.005) = 10123.633

Dado que el valor de p es menor a 0.05, concluimos que existe una


diferencia significativa entre las medias, por lo tanto la batera de Ni-metal
dura ms que la de Ni-cadmio. 103
ANOVA
Ahora usando Minitab:

Stat>ANOVA>One-way

104
ANOVA

Indica que columna


corresponde a la respuesta y
cual a la variable de inters:

Almacena los valores de


los residuales y de los
valores ajustados.

105
ANOVA
One-way ANOVA: Horas versus Batera

Analysis of Variance for Horas


Source DF SS MS F P
Batera 1 1008 1008 4.78 0.034
Error 48 10124 211
Total 49 11132
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev --+---------+---------+---------+----
Ni-Cadmi 25 70.75 13.99 (---------*---------)
Ni-metal 25 79.73 15.03 (---------*---------)
--+---------+---------+---------+----
Pooled StDev = 14.52 66.0 72.0 78.0 84.0

Que nos da el mismo resultado que


el anterior !!

106
Intenta este...

Un instructor de RH desea determinar si existe diferencia entre


diferentes tipos de material de entrenamiento para operarios. Se
analizaron 3 materiales de entrenamiento en tres grupos diferentes.
Despus del entrenamiento se midi la eficiencia de cada operador.
Hay un material que muestre mejores resultados (eficiencia) entre los
operarios?

Material I Material II Material III


87 58 81
80 63 62
Ho:____________________
74 64 70
82 75 64 Ha:____________________
74 70 70
81 73 72
97 80 92
62 63 Asume normalidad e igualdad de
71
varianzas.

107
Que nos queda

1. Siempre revisa la normalidad de los datos y la homogeneidad de


varianzas.

2. La prueba correcta depende del nmero de niveles dentro de la


variable X: las pruebas t se usan hasta 2 niveles de X, el ANOVA
funciona para 2 o ms niveles.

3. Las suposiciones de normalidad no son necesarias para tamaos


de muestra mayores a 25. Al comparar mltiples muestras, todas
deben ser mayores a 25; se recomienda probar.

4. De preferencia, utiliza una computadora. Apyate de las


herramientas de Minitab La aritmtica es fcil, pero la oportunidad de
error es alta.
108
Apndices

109
Apndice A: Prueba de Mann-Whitney
X discreta con 2 niveles:

Cuando no se cumplen las suposiciones de normalidad, es necesario


utilizar una prueba que no dependa de esta suposicin. Una alternativa
para la prueba t de dos muestras en la prueba de Mann-Whitney (o
prueba U).

110
Apndice A: Prueba de Mann-Whitney
La prueba U (como la mayora de las pruebas no paramtricas) usan la
suma de los rangos de las dos muestras.
El procedimiento es como sigue:
Ranquea todas las (n1 + n2) observaciones en orden
ascendente. Los empates reciben el promedio de sus
observaciones.
Calcula la suma de los rangos, denominados Ra y Rb
Calcula el estadstico U,
Ua = n1(n2) + .5(n1)(n1 + 1) - Ra
o
Ub = n1(n2) + .5(n2)(n2 + 1) - Rb
donde Ua + Ub = n1(n2).

111
Apndice A: Prueba de Mann-Whitney
Las hiptesis relacionan las medianas, no las medias:

x1 ~
Ho : ~ x2
x ~
Ha : ~ 1 x 2
El estadstico de prueba, U, es el menor de Ua y Ub. El valor de corte
de la distribucin U est dado por: Un1, n2, a y las reglas de decisin son
las mismas.
Lo sentimos, no tenemos tablas de la
distribucin U. Para analizar nos
limitaremos al uso de Minitab
(Stat>Nonparametrics>Mann-
Whitney).

112
Apndice B: Prueba de Kruskal-Wallis

3+ niveles de una X discreta:

La alternativa no paramtrica para el ANOVA es la prueba de Kruskal-


Wallis, de hecho puede utilizarse para 2 o ms niveles.

El procedimiento de KW prueba la hiptesis nula de que k muestras de


poblaciones diferentes realmente provienen de la misma poblacin, al
menos en trminos de sus tendencias centrales o medianas. La prueba
asume que las variables en investigacin tienen distribuciones
continuas.

113
Apndice B: Prueba de Kruskal-Wallis
Al computar el estadstico de KW, cada observacin se reemplaza por
el rango en una combinacin de todas las k muestras. En otras
palabras se crea una sola serie de valores. La mnima observacin se
reemplaza por el rango de 1, la siguiente ms pequea con el rango 2,
y la mxima observacin con el rango N, donde N es el total de
observaciones entre todas las muestras (N es la suma de ni).

El siguiente paso es realizar la suma de los rangos para las muestras


originales. La prueba de KW determina si las sumas de los rangos son
muy diferentes entre las muestras y que no es probable que
provengan de la misma poblacin.

114
Apndice B: Prueba de Kruskal-Wallis
Se puede mostrar que si las k muestras vienen de la misma poblacin,
cuando la hiptesis nula es verdadera, el estadstico H, usado para la
prueba se distribuye aproximadamente como una chi cuadrada con gl = k
- 1, partiendo de que las k muestras no son demasiado pequeas
(digamos, ni>4, para toda ki). H se define como:

12 k
Ri2
H
N ( N 1) i 1 ni
3( N 1)
donde
k = nmero de muestras (grupos)
ni = nmero de observaciones de la i-sima muestra del grupo
N = Nmero total de observaciones (suma de las ni)
Ri = suma de los rangos del grupo i
115
Prueba deChi2 & Prueba
de Proporciones

116
Objetivo

1. Entender las diferencias entre la prueba de Chi


cuadrada y la de Proporciones.

2. Usar la Chi cuadrada para contrastar hiptesis.

3. Usar la prueba de Proporciones para contrastar


hiptesis.

117
Matriz de seleccin de herramientas
Factor (X)

VARIABLE ATRIBUTO

ANLISIS DE ANOVA, PRUEBA


VARIABLE REGRESIN Y DE T, Z
Respuesta (Y) CORRELACIN ALTERNATIVAS
NO
PARAMTRICAS
REGRESIN PRUEBA DE CHI
ATRIBUTO LOGSTICA CUADRADA,
PRUEBA DE
PROPORCIONES

Esta es nuestra rea de inters 118


Prueba de Chi cuadrada

Usada para determinar si existe o no relacin entre dos grupos. El


tipo de medicin debe ser de naturaleza discreta (conteos o
frecuencias). Esta prueba tambin es conocida como prueba de
independencia.

Todo se trata
Ho: La variable A es independiente de la variable B de relaciones!!!
Ha: La variable A depende de la variable B

119
Prueba de Chi cuadrada

La mecnica de la prueba depende en comparar una frecuencia


(conteo) observada y compararla contra una frecuencia esperada, una
que asegure la independencia de los datos. Si existen diferencias entre
ambas, entonces diremos que existe una fuerte relacin entre los dos
grupos (variables).

Piensa en esto, una competencia de clavados, estamos seguros de


la imparcialidad de los jueces?, usan todos los mismos criterios?, en
otras palabras, la puntuacin del clavado depende del juez que
evala?

120
Prueba de Chi cuadrada

Las calificaciones altas dependen del juez?

Ho:
Cmo escribiras las
hiptesis?
Ha:
121
Prueba de Chi cuadrada
Para el anlisis de los datos, necesitamos una tabla de contingencia
para sumarizar las frecuencias. Es un arreglo n X m mostrando las
combinaciones entre los niveles de 2 variables.

n1 n2 n3 n4 Total
Necesitamos el total
m1
(suma) por rengln y por
m2 columna y el gran total:
m3
Smi = Snj = Gran Total
Total

Las frecuencias esperadas son calculadas para cada celda:

E.V. = (Total Columna j)(Total Rengln i)


Gran Total

122
Prueba de Chi cuadrada
Para construir el estadstico de prueba, necesitamos sumar los
valores de Chi cuadrada por celda:

Esto es para cada celda,


c2 = (O.V. - E.V.)2 entonces sumamos todos los
valores!
E.V.

Total Chi-sq=SSi,j=1 c2ij


Valor de corte
c2(n-1)(m-1), 0.05
Debemos saber en
que lado del valor de
corte cae nuestro valor
total de Chi cuadrada
(para encontrar el
valor de p relacionado Aceptar Ho Rechazar Ho
con ese valor de Chi
cuadrada)
123
Ejemplos...
Juanita es muy capaz. Ella sinti que le fue muy bien en las entrevistas de
trabajo. Sin embargo, no fue contratada. Acaso se debe a que es mujer?
Puede reclamar que hubo discriminacin por gnero en las prcticas de
contratacin de la compaa?

Gnero Contratado No contratado


M 30 70
F 10 40

Ho:

Ha:

Podemos obtener este valor


con un software estadstico o
Que concluiras con un valor de p = 0.1917? con Minitab o Excel
124
Como usando Excel.....

1. Determina los valores esperados: Gnero Contratado No contratado Total


M 30 70 100
F 10 40 50
E.V.= (Total Columna) x (Total Rengln) Total 40 110 150
Gran Total

El valor esperado para mujeres contratadas es: Valores esperados

Gnero Contratado No contratado


E.V. = (40) x (100)/150 = 26.67 (Valor real 30) M 26.6666667 73.33333333
F 13.3333333 36.66666667

2. Determina el valor de la chi cuadrada: Matriz de Chi cuadrada

c2 = (E.V. - R.V.)2 = (26.667 - 30)2 = 0.4167 Gnero Contratado No contratado


M 0.41666667 0.151515152
E.V. 26.667 F 0.83333333 0.303030303
Esto es para cada combinacin, luego se Total Chi-sq = 1.70454545
suman los resultados.

125
Como usando Excel.....

3. Determina el valor de p usando la funcin distr.Chi en Excel:

Para cualquier celda escribe:


= dist. Chi (Total Chi-sq,gl)
donde:

Total Chi-Sq es el valor obtenido previamente y


gl = grados de libertad = (# columnas - 1) x (# Renglones - 1)

Para nuestro ejemplo:

= dist. Chi(1.7045,1) = 0.1916947

De acuerdo a nuestras reglas de decisin, dado que el valor de p es mayor a


0.05, no tenemos suficiente evidencia para decir que la contratacin depende
en el gnero, no hay relacin entre la contratacin y el gnero.
126
Ahora, usando Minitab.....

Stat>Tables>Chi Square Test

Necesitas ordenar los


datos as:

127
Usando Minitab.....

Selecciona las dos


columnas que contienen los
datos:

Selecciona O.K.

128
Usando Minitab.....

Dado que el valor de p es mayor a 0.05


concluimos que no hay relacin entre
gnero y las prcticas de contratacin.

129
Ms ejemplos...
Queremos saber si hay diferencia significativa entre nuestros tres proveedores en
trminos de entregas a tiempo. Podemos afirmar que hay elementos para
determinar una diferencia?

Noway Inurdreams Tomorrowsure


Tarde 6 8 12
A tiempo 22 9 10

Ho:

Ha:

Podemos obtener este valor


con un software estadstico
Cul sera tu conclusin para un valor de p = 0.042? como Minitab o con Excel
130
Como usando Excel.....
Noway Inurdreams Tomorrowsure TOTAL
1. Determina los valores esperados: Tarde 6 8 12 26
A tiempo 22 9 10 41
TOTAL 28 17 22 67
E.V. = (Total Columna) x (Total Rengln)
Gran Total
Noway Inurdreams Tomorrowsure
El valor esperado para embarques tardos es: Tarde 10.87 6.60 8.54
A tiempo 17.13 10.40 13.46

E.V. = (28) x (26)/67 = 10.87 (Valor real es 6)

2. Determina el valor total de Chi cuadrada:


Noway Inurdreams Tomorrowsure
Tarde 2.18 0.30 1.40
c2 = (E.V. - R.V.)2 = (10.87 - 6)2 = 2.18 A tiempo 1.38 0.19 0.89
E.V. 10.87 Total Chi-Sq = 6.343

Esto es para cada combinacin, luego se


suman todos los valores.

131
Como usando Excel.....

3. Determina el valor de p usando la funcin distr. chi en Excel:

Para cualquier celda escribe:


= dist. Chi (Total Chi-sq,gl)
donde:

Total Chi-Sq es el valor obtenido previamente y


gl = grados de libertad = (# columnas - 1) x (# Renglones - 1)

Para nuestro ejemplo:

= dist. Chi (6.343,2) = 0.042

De acuerdo a nuestra regla de decisin, el valor es menor a 0.05 as que


tenemos suficiente evidencia para decir que hay una diferencia entre los
proveedores. Podemos saber cul es el mejor estadsticamente?
132
Como usando Excel.....

Noway Inurdreams Tomorrowsure


Tarde 2.18 0.30 1.40
A tiempo 1.38 0.19 0.89
Total Chi-Sq = 6.343

Mayor contribuidor al valor de Chi-sq.


Noway entrega ms embarques a tiempo
que los dems.

Podemos usando la tabla de Chi-sq. Nota el valor ms alto, este es donde se


encontr la mayor diferencia significativa entre proveedores.

133
Intenta este...

Edad de la Madre
Nacimiento < 25 25-35 > 35
Normal 22 23 9
Anormal 8 17 21

Est la edad de la madre relacionada con la incidencia de nacimientos anormales?

Ho:

Ha:

Valor de p:_______ Cules son tus conclusiones?


134
Prueba de Proporciones

Es similar a la Chi cuadrada, solo que la medida de inters son las


proporciones de una caracterstica en vez de las frecuencias
esperadas. Trabaja para atributos que tienen solo dos posibles
opciones (si/no, bueno/malo, a tiempo/tarde, etc.).

La prueba busca diferencias significativas entre las proporciones de 2


poblaciones diferentes.

Ho: p1 = p2 (No hay diferencia entre las proporciones)

Ha: p1 p2 (Las proporciones son diferentes)

Qu otras alternativas existen? 135


Prueba de Proporciones
Tres escenarios para Ha:

Za -Za

Regin de
rechazo de
Ho
Ha: P> 0 Ha: P< 0

Ha: P 0
Sin importar el escenario, si el
valor de p (p-value) es menor
-Za/2 Za/2 que a, rechazamos Ho.
Nota: La mayora de los software estadsticos
Regin de hacen anlisis para dos colas, si no entonces
rechazo de habr que multiplicar el valor de p por 2.
Ho
136
Prueba de Proporciones

Para el anlisis necesitamos: (i.e. Total


defectuoso)
Identificar dos proporciones: p = caracterstica contada ; p1, p2
Total muestreado
Total de
caractersticas
Calcula la proporcin combinada: ppooled= x1 + x2
n1 + n 2
Total muestreado

Calcula el estadstico de prueba: Z = p1 - p2


se(p1-p2)

Donde se(p1-p2) = ppooled(1-ppooled)(1/n1 + 1/n2)


137
Ejemplo

Un estudio de Harvard esperaba determinar si el consumo de Aspirina


tena influencia en la reduccin de ataques al corazn. En un periodo
de 5 aos, 22071 voluntarios fueron monitoreados. Los voluntarios se
dividieron en 2 grupos; el grupo 1 tom un placebo diariamente y el
grupo 2 recibi aspirina en forma diaria.

Los resultados se muestran en la siguiente tabla:

Ataque n p
Grupo 1 239 11034 0.0217
Grupo 2 139 11037 0.0126
Es esta diferencia suficiente
para determinar que la
aspirina previene los ataques
al corazn? 138
3.6 0.999840854 0.99984
3.7 0.999892170 0.99989
Ejemplo 3.8 0.999927628 0.99993
3.9 0.999951884 0.99995
Ho: p1 = p2 (No hay diferencia entre las proporciones)
4.0 0.999968314 0.99996
Ha: p1 p2 (Existe diferencia entre las proporciones)
4.1 0.999979331 0.99998
4.2 0.999986646 0.99998
ppooled= x1 + x2 = 239 + 139 = 0.01713 4.3 0.999991454 0.99999
n1 + n2 11034+11037 4.4 0.999994583 0.99999
4.5 0.999996599 0.99999
se(p1-p2) = ppooled(1-ppooled)(1/n1 + 1/n2) = 0.017(0.98)(1/11034
4.6 0.999997885 0.99999
+ 1/11037)
4.7 0.999998698 0.99999
4.8 0.999999206 0.99999
se(p1-p2) = 0.00175 Buscando
4.9en0.999999520
las 0.99999
tablas Z:
5.0 0.999999713 0.99999
Z = p1 - p2 = 0.0217 - 0.0126 = 5.2 Z 0.999999830
0 0.01
5.1 0.99999
se(p1-p2) 0.00175 3.0
5.2 0.998650033
0.999999900 0.998693
0.99999
3.1 0.999032329 0.999064
5.3 0.999999942 0.99999
El valor de p deseado es: 2(1-0.99999)=0.00002 3.2 0.999312798 0.999336
5.4 0.999999967 0.99999
Rechazar Ho, concluimos que 3.3 existe
0.999516517 0.999533
suficiente
5.5 0.999999981 0.99999
3.4
evidencia para afirmar que la5.6 0.999663019
aspirina 0.999675
previene0.99999
0.999999989
los ataques al corazn! 3.5 0.999767327 0.999775
5.7 0.999840854
3.6 0.999999994 0.999846
0.99999
139
5.8 0.999999997 0.99999
Ejemplo
Usando Minitab:
Stat>Basic Statistics>2 proportions

Aqu seleccionamos los


datos sumarizados:

140
Ejemplo

Escribimos los datos y


seleccionamos O.K.

Dado que el valor de p


es menor a 0.05,
concluimos que existe
una relacin entre la
razn de ataques al
corazn y el hecho de
tomar aspirina o no.
141
Ejemplo
Juanita es muy capaz. Ella sinti que le fue muy bien en las entrevistas de
trabajo. Sin embargo, no fue contratada. Acaso se debe a que es mujer?
Puede reclamar que hubo discriminacin por gnero en las prcticas de
contratacin de la compaa?

Proporcin
Gnero Contratado No contratado contratada
M 30 70 0.3
F 10 40 0.2

Ho:

Ha:

142
Ejemplo
Z 0 0.01 0.
Ho: p1 = p2 (No hay diferencia entre las proporciones)
0.0 0.50000 0.50399 0.5
Ha: p1 > p2 (Existe diferencia entre las proporciones)
0.1 0.53983 0.54380 0.5
0.2 0.57926 0.58317 0.5
ppooled= x1 + x2 = 30 + 10 = 0.26667 0.3 0.61791 0.62172 0.6
n1 + n2 100 + 50 0.4 0.65542 0.65910 0.6
0.5 0.69146 0.69497 0.6
se(p1-p2) = ppooled(1-ppooled)(1/n1 + 1/n2) = 0.267(0.73)(1/100
0.6 0.72575 +0.72907
1/50) 0.7
0.7 0.75804 0.76115 0.7
se(p1-p2) = 0.07659 0.8 0.78814 0.79103 0.7
0.9 0.81594 0.81859 0.8
Buscando en las
Z = p1 - p2 = 0.3 - 0.2 = 1.31 1.0Z:0.84134 0.84375 0.8
tablas
se(p1-p2) 0.07659 1.1 0.86433 0.86650 0.8
Z 0.88493
1.2 0 0.01 0.80
0.88686
0.0 0.90320
1.3 0.50000 0.90490
0.50399 0.9
0.
El valor de p es: 1-0.9049=0.0951
0.1 0.91924
1.4 0.53983 0.92073
0.54380 0.9
0.
No rechazar Ho, concluimos que no existe
1.5
0.2 0.93319
0.57926 0.93448
0.58317 0.9
0.
evidencia para afirmar que existen preferencias
1.6
0.3 0.94520
0.61791 0.94630
0.62172 0.9
0.
de gnero en las prcticas de contratacin. 143
1.7
0.4 0.95543
0.65542 0.95637
0.65910 0.9
0.
Intenta este....

Ao Defectuosos Total Proporcin


1999 23450 158000 0.1484177
2000 42354 254000 0.166748

Podemos afirmar que los defectuosos aumentaron de 1999 al 2000?

Ho:

Ha:

Valor de p:_______ Cules son tus conclusiones?


144
Chi cuadrada vs. Proporciones

1. Las pruebas de proporciones tienen mayor capacidad de detectar


diferencias que la Chi cuadrada y son ms fciles de calcular. Sin
embargo, requieren de un mayor tamao de muestra. Como regla el
nmero np debe ser mayor a 5.

2. La Chi cuadrada es ms verstil que la prueba de proporciones. La


prueba de proporciones es til cuando solo hay dos posibles salidas
(pasa o no pasa, si-no mejor, etc.) y la Chi cuadrada trabaja con
variables que tienen mltiples niveles. Es muy recomendable que el
conteo de la frecuencia esperada sea igual o mayor a 5.

145
Seleccin del Tamao de
muestra

146
Objetivo

1. Entender los elementos relacionados en determinar


tamaos de muestra estadsticamente vlidos.

2. Entender la influencia de a y b en el tamao de la


muestra.

3. Calcular tamaos de muestra estadsticamente


vlidos.

147
Cmo seleccionar tamao de
muestra?
Debemos examinar el tipo de datos utilizado. Cada tipo de
dato tiene un mtodo diferente para definir tamaos de
muestra.
Datos continuos o variables
Datos discretos o atributos

Continuos Discretos

148
Terminologa
1. Hiptesis nula (Ho) - Afirmacin de no cambio o diferencia.
Afirmacin que se supone cierta
2. Error tipo I - Error incurrido al rechazar Ho cuando esta es cierta,
clamar una diferencia cuando no existe.
3. Riesgo alfa - Mxima probabilidad de incurrir en error tipo I. Esta
probabilidad es mayor a cero y usualmente se fija al 5%. Los
investigadores toman su decisin considerando el mayor riesgo
aceptable al rechazar. El riesgo de rechazar Ho cuando es cierta.

Distribucin Distribucin
real mejorada?
1a a
149
Terminologa
4. Hiptesis alternativa (Ha) - Afirmacin de cambio o diferencia. Este
enunciado es cierto si Ho se rechaza.
5. Error tipo II - El error de no rechazar Ho cuando esta es falsa, o
indicar que no hay diferencia cuando si la hay.
6. Riesgo Beta - La probabilidad de incurrir en el error tipo II, el riesgo
de aceptar Ho cuando es falsa.

Distribucin Distribucin
real mejorada?
1a b a 1b

150
Terminologa
7 Potencia (1b) - La habilidad de una prueba estadstica de detectar
una diferencia real. Comnmente usado para determinar tamaos
de muestra dependiendo de las diferencias que se desean percibir.
(delta-sigma: d/)
8. Estadstico de prueba - Valor estandarizado (z, t, F, etc.) que
representa la factibilidad de Ho y se distribuye de tal forma que se
puede determinar una probabilidad. Usualmente, dado que Ho es
ms factible, el valor absoluto del estadstico decrecer dado que la
probabilidad de ser parte de la distribucin es mayor.

a/2 1a a/2
Control
Distribution CL
Contrast
CL Distribution

b 1b

d
151
Terminologa
9. Delta (d) - La magnitud de la diferencia a ser detectada en el
universo, misma que es de inters o de utilidad prctica en el
mundo real. Se le conoce como delta o sensibilidad de la
prueba.

Muestra = f ( a, b, d, )

152
Sensibilidad de la prueba
Una vez definidos los valore de a y, es necesario determinar que tan
grande es la diferencia que se desea detectar para que exista una
diferencia prctica. Esta diferencia se conoce como delta sigma .
Por ejemplo, la diferencia entre dos medias expresada en
desviaciones estndar (valores de Z).

d/
Distribucin Distribucin
de control de contraste

a/2 a/2
CL
1a
CL
b 1b
d/
Delta (d) = Diferencia til en la prctica
Sigma ( ) = Desviacin estndar de referencia
153
Impacto de a y b en el tamao de la
muestra
Se QUEREMOS reducir error -- (a, b )
... aumenta el tamao de muestra n
Si QUEREMOS aumentar la sensibilidad -- ( reducir d / )
... aumenta el tamao de muestra n

Error Std. vs tamao de la muestra Intervalo de confianza vs. tamao de muestra

0.5
0.6
0.4
0.5 0.3
0.4 0.2

Intervalos
0.1
SE

0.3
0
0.2 -0.1 0 100 200 300 400 500 600

0.1 -0.2
-0.3
0
-0.4
0 10 20 30 40 50 60 70 -0.5
N Tamao de muestra

154
Tamao de muestra
El criterio para determinar un adecuado tamao de muestra
es de naturaleza estadstica.
Otros criterios de naturaleza prctica incluyen elementos
tales como costo, tiempo y recursos disponibles.
Estos factores pueden tener un impacto prctico en la
seleccin de un tamao de muestra adecuado, as que esto
debe ser determinante despus de comparar el tamao
estadsticamente correcto. Solo entonces puedes evaluar
las prdidas.

Tamao
de = + +
muestra
155
Calculador de tamao de muestra
Tenemos una ayuda en Excel: sample_size_BSSA.xls para ayudarnos a
calcular tamaos de muestra estadsticamente vlidos.

156
Ejemplo

Un Green Belt quera reducir el nmero de manuales de instruccin


deficientes. Los DPMO iniciales fue de 100, 000. Ella necesitaba
reducir al menos a 11, 000 para considerar el proyecto exitoso. Alfa y
Beta se fijan en sus valores tpicos (5% y 10% respectivamente).
Cul sera un tamao de muestra estadsticamente vlido?

157
Ejemplo
Selecciona la hoja DPMO:

Vamos a comparar
una muestra del
proceso inicial contra
una muestra del
proceso mejorado,
as que
seleccionamos una
prueba de dos
muestras.
158
Ejemplo

DPMOs iniciales
vs. deseados DPMOs iniciales
(100000-11000) Esta es la muestra
necesaria para tener
validez estadstica.

159
Tamao de muestra - Datos continuos
Los tamaos de muestra para datos
continuos estn tabulados para facilitar (???)
la investigacin.
Con los valores de a, b, y d/, podemos usar
la tabla de la siguiente pgina para
determinar el tamao de muestra (n).
La columna izquierda tiene valores de d / .
La hilera superior tiene valores de a.
Bajo cada a hay 4 valores de b.

Baja por la columna de los valores de a y b


hasta llegar al valor deseado de d/ en la
columna de la izquierda. Luego lee el valor n
de tamao de muestra en la tabla.

160
Tamao de muestra - Datos continuos

Sample Size
a = 20% a = 10% a =5% a = 1%

Delta/Sigma 20% 10% 5% 1% 20% 10% 5% 1% 20% 10% 5% 1% 20% 10% 5% 1% =b


0.2 225 328 428 651 309 428 541 789 392 525 650 919 584 744 891 1202
0.3 100 146 190 289 137 190 241 350 174 234 289 408 260 331 396 534
0.4 56 82 107 163 77 107 135 197 98 131 162 230 146 186 223 300
0.5 36 53 69 104 49 69 87 126 63 84 104 147 93 119 143 192
0.6 25 36 48 72 34 48 60 88 44 58 72 102 65 83 99 134
0.7 18 27 35 53 25 35 44 64 32 43 53 75 48 61 73 98
0.8 14 21 27 41 19 27 34 49 25 33 41 57 36 46 56 75
0.9 11 16 21 32 15 21 27 39 19 16 32 45 29 37 44 59
1.0 9 13 17 26 12 17 22 32 16 21 26 37 23 30 36 48
1.1 7 11 14 22 10 14 18 26 13 17 21 30 19 25 29 40
1.2 6 9 12 18 9 12 15 22 11 15 18 26 16 21 25 33
1.3 5 8 10 15 7 10 13 19 9 12 15 22 14 18 21 28
1.4 4 7 9 13 6 9 11 16 8 11 13 19 12 15 18 25
1.5 4 6 8 12 5 8 10 14 7 9 12 16 10 13 16 21
1.6 3 5 7 10 5 7 8 12 6 8 10 14 9 12 14 19
1.7 3 4 6 9 4 6 7 11 5 7 9 13 8 10 12 17
1.8 3 4 5 8 4 5 7 10 5 6 8 11 7 9 11 15
1.9 2 3 5 7 3 4 6 9 4 6 7 10 6 8 10 13
2.0 2 3 4 7 3 4 5 8 4 5 6 9 6 7 9 12
2.1 2 3 4 6 2 4 5 7 4 5 6 8 5 7 8 11
2.2 2 2 4 5 2 3 4 7 3 4 5 8 5 6 7 10
2.3 2 2 3 5 2 3 4 6 3 4 5 7 4 6 7 9
2.4 2 2 3 5 2 3 4 5 3 4 5 6 4 5 6 8
2.5 1 2 3 4 2 3 3 5 3 3 4 6 4 5 6 8
2.6 1 2 2 4 2 2 3 5 2 3 4 5 3 4 5 7
2.7 1 2 2 4 1 2 3 4 2 3 4 5 3 4 5 7
2.8 1 2 2 3 1 2 3 4 2 3 3 4 3 4 5 6
2.9 1 2 2 3 1 2 3 4 2 2 3 4 3 4 4 6
3.0 1 1 2 3 1 2 2 4 2 2 3 4 3 3 4 5
3.1 1 1 2 3 1 2 2 3 2 2 3 4 2 3 4 5
3.2 1 1 2 3 1 2 2 3 2 2 3 3 2 3 3 5
3.3 1 1 2 2 1 1 2 3 1 2 2 3 2 3 3 4
3.4 1 1 1 2 1 1 2 3 1 2 2 3 2 3 3 4
3.5 1 1 1 2 1 1 2 3 1 2 2 3 2 2 3 4
3.6 1 1 1 2 1 1 2 2 1 2 2 3 2 2 3 4
3.7 1 1 1 2 1 1 2 2 1 2 2 3 2 2 3 4
3.8 1 1 1 2 1 1 1 2 1 1 2 3 2 2 2 3
3.9 1 1 1 2 1 1 1 2 1 1 2 2 2 2 2 3
4.0 1 1 1 2 1 1 1 2 1 1 2 2 1 2 2 3
161
Tamao de muestra - Datos continuos

Quieres saber si tienes suficientes datos para decir que una


X (con dos niveles) tiene influencia sobre la Y.

Para poder decir en la prctica que hay significancia, debes


observar un cambio de dos unidades (d = 2.0) en la Y.
Datos histricos dan una = 2.0

Riesgo alfa a = .05 (valor tpico)

Riesgo beta b = .10 (valor tpico)

Cuntas piezas (n) se requieren para cada nivel de X para


predecir si esta tiene o no influencia sobre la Y?
162
Tamao de muestra - Datos continuos
Sample Size
a = 20% a = 10% a =5% a
Delta/Sigma 20% 10% 5% 1% 20% 10% 5% 1% 20% 10% 5% 1% 20% 1
0.2 225 328 428 651 309 428 541 789 392 525 650 919 584
0.3 100 146 190 289 137 190 241 350 174 234 289 408 260
0.4 56 82 107 163 77 107 135 197 98 131 162 230 146
0.5 36 53 69 104 49 69 87 126 63 84 104 147 93
0.6 25 36 48 72 34 48 60 88 44 58 72 102 65
0.7 18 27 35 53 25 35 44 64 32 43 53 75 48
0.8 14 21 27 41 19 27 34 49 25 33 41 57 36
0.9 11 16 21 32 15 21 27 39 19 16 32 45 29
1.0 9 13 17 26 12 17 22 32 16 21 26 37 23
1.1 7 11 14 22 10 14 18 26 13 17 21 30 19
1.2 6 9 12 18 9 12 15 22 11 15 18 26 16
1.3 5 8 10 15 7 10 13 19 9 12 15 22 14
1.4 4 7 9 13 6 9 11 16 8 11 13 19 12
1.5 4 6 8 12 5 8 10 14 7 9 12 16 10
1.6 3 5 7 10 5 7 8 12 6 8 10 14 9
1.7 3 4 6 9 4 6 7 11 5 7 9 13 8
1.8 3 4 5 8 4 5 7 10 5 6 8 11 7
1.9 2 3 5 7 3 4 6 9 4 6 7 10 6
2.0 2 3 4 7 3 4 5 8 4 5 6 9 6
2.1 2 3 4 6 2 4 5 7 4 5 6 8 5
2.2 2 2 4 5 2 3 4 7 3 4 5 8 5
2.3 2 2 3 5 2 3 4 6 3 4 5 7 4
2.4 2 2 3Este es el tamao
5 2 3 4 5 3 4 5 6 4
2.5 1 2 3 4 2 3 3 5 3 3 4 6 4
2.6 1 2 2
de muestra
4 2 2 3 5 2 3 4 5 3
2.7
2.8
1
1
2
2
2
2
requerido
4
3
1
1
2
2
3
3
4
4
2
2
3
3
4
3
5
4
163 3
3
2.9 1 2 2 3 1 2 3 4 2 2 3 4 3
Tamao de muestra - Datos continuos
Usando el calculador de tamao de muestra:

Que nos da el mismo resultado anterior (El calculador


redondea el valor en vez de truncarlo como las tablas)

164
Tamao de muestra - Datos continuos

Nota que necesitamos n = 21 (o 22) muestras para cada nivel de


X, as que requerimos 42 muestras si la X es de dos niveles.

Otros factores tales como costo, tiempo y recursos deben


considerarse si como 21 tenemos una solucin prctica...si 21 es
muy grande, probablemente deseemos aumentar a, b o d. Alfa se
fija tpicamente en 0.05.

165
Intenta esto...

Actualmente tenemos a dos proveedores entregando el mismo


nmero de parte, el precio es similar entre ambos. Deseamos
seleccionar solo uno en trminos de la confiabilidad (consistencia) y
quien entrega ms rpido. De datos histricos sabemos que la
desviacin estndar de los das de entrega es de 0.8 horas. Se
tomar una decisin si podemos ver una diferencia de 1.5 horas en
el promedio de los proveedores. Cuntas muestras debemos tomar
para ver dicha diferencia?

Y:_______________________ Tipo de datos:_____________

X:_______________________ Tipo de datos:_____________

166
Intenta esto...

Un estudio de Harvard deseaba determinar si la Aspirina tiene una


influencia significativa en la reduccin de la tasa de ataques al corazn.
En un periodo de 5 aos, 22071 voluntarios fueron monitoreados. Los
voluntarios se dividieron en dos grupos; el grupo 1 tom un placebo
diariamente, y el grupo 2 tom una aspirina todos los das. Si el estudio
aceptaba un riesgo alfa del 0.1% y riesgo beta de 0.1%, fue la
muestra lo suficientemente grande para detectar una diferencia de al
menos el 10% en la tasa de ataques al corazn?

Y:_______________________ Tipo de datos:_____________

X:_______________________ Tipo de datos:_____________

167
Que nos queda

Los criterios para determinar un tamao de muestra adecuado, son de


naturaleza estadstica.

Otros criterios de naturaleza prctica incluyen elementos como el costo,


tiempo y otros recursos disponibles.

En el mundo prctico, mientras ms datos tengas, mejor !!!

168
Anlisis de Regresin

169
Objetivo

1. Identificar problemas que incluyan una Y continua y


una X continua

2. Entender la diferencia entre regresin lineal y no lineal

3. Ajustar modelos utilizando la tcnica de mnimos


cuadrados.

4. Entender el significado de R y R2.

5. Entender y desarrollar anlisis de residuales.

170
Matriz de seleccin de herramientas
Factor (X)

VARIABLE ATRIBUTO

ANLISIS DE ANOVA, PRUEBA


Respuesta (Y) VARIABLE REGRESIN Y DE T,Z
CORRELACIN ALTERNATIVAS
NO
PARAMTRICAS
REGRESIN CHI CUADRADA,
ATRIBUTO LOGSTICA PRUEBAS DE
PROPORCIONES

Esta es nuestra rea de inters 171


Regresin

Al trabajar con datos variables (continuos), es de inters


cuantificar la relacin (si existe) entre ellas. La ventaja de utilizar
datos continuos para el anlisis, es la posibilidad de definir un
modelo matemtico adecuado. Esto se hace mediante tcnicas de
estimacin mediante mnimos cuadrados, mejor conocido como
anlisis de regresin.
De nuevo, todo
se trata de
relaciones!!!

172
Regresin

Las tcnicas de regresin nos permite predecir valores de cierta


variable Y (variable dependiente), la cual se sospecha tiene relacin
con otra variable X (independiente). La intencin es cuantificar la
relacin:

Y = F(x)

la cual es la ecuacin de regresin que cuantifica la relacin entre


ambas variables.

173
Regresin

Dese un punto de vista grfico, el anlisis de regresin comienza con


un diagrama de dispersin. Dos variables continuas se grafican una
contra otra para definir si existe correlacin entre ambas.

80
75
Altura del hijo 70
65
60
60 65 70 75 80
Altura del padre
174
Regresin
Y=Millas por Y=Estatura de
galn 30 los hijos 80
(mpg) 2 6
0
1 0
4
0 0
0 .5 1 1.5 2 60 70 80
X=Peso del auto (tons) X=Estatura de los padres (pulgs)

Y=calif. Y=Precio de
(de 100%) 80 venta 35
6 (miles) 2
0
4 5
5
0
0 .5 1 1.5 2 1 6 14 22 30
X=Tiempo de estudio (hr) X=Edad del auto

Y=Precio de Y=Ventas $
casa ($) (millones) 30
2
0
1
0
15k 20k 35k 40k 0 .5 1 1.5 2
X=metros cuadrados X=Promocin $(Millones) 175
Regresin

La correlacin es la medida de que tan fuerte es la relacin entre


dos o ms variables. El coeficiente de correlacin vara de -1 a 1,
definiendo una correlacin negativa y una positiva, pasando por cero
que significa sin correlacin.
(min.)
80 50
40
75
30
70 20
65 10
0
60
85 90 95 100 105 110
60 65 70 75 80
Correlacin positiva Correlacin negativa
1550
1450
1350
1250
1150 Sin correlacin
1050 115
950
850
750
650 176
60 65 70 75 80
Regresin

El mtodo de mnimos cuadrados trata de ajustar la mejor curva que


minimice el error entre los puntos dispersos.

Y = f(x)
80
Lineal,
75 cuadrtica,
cbica,
70
logartmica,
65 etc.

60
60 65 70 75 80

177
Regresin

El modelo ms simple es la funcin lineal. El modelo lineal trata de


ajustar una lnea recta:
Pendiente
Ordenada al origen

Variable y ax b
dependiente (pronstico) Variable independiente

En estadstica el concepto es el mismo, solo cambia la nomenclatura:


Constante Coeficiente

Estimado y b 0 b1 x
Variable de regresin
178
Regresin
Las frmulas para definir el modelo de regresin son(solo mostramos
en caso para una sola variable, conocido como regresin simple):

y b 0 b1 x
Qu tan
n bueno es
( x x )( y
i i y)
SS xy
BUENO al
ajustar los
b1 i 1
n
datos?
(x x) 2 SS xx
i
i 1

b 0 y b1 x

179
Regresin
y b 0 b1 x
Un modelo de regresin es bueno dependiendo de que tan bien describe la
variacin entre dos variables. El coeficiente de correlacin (R) indica que
tan pronunciada es la pendiente. El cuadrado de la correlacin indica que
tanta variacin (cambios en la Y) puede ser explicado por las variables de
regresin.
n

SS error i i
( y
y ) 2

R2 1 1 i 1
n

i
SS yy
( y y ) 2

i 1

Y de nuevo, la decisin si el modelo descriptivo es bueno la haremos


mediante el uso de una tabla de ANOVA (para lo que utilizaremos
MINITAB).

180
Regresin
Un gerente de mercadeo que conduce un
estudio de mercado, desea predecir el
Experiencia Entrevistas nmero de entrevistas (cuestionarios) que
15 4 puede levantar dados los entrevistadores. El
41 9 piensa que el nmero de cuestionarios
58 12 depende de la experiencia del entrevistador
18 6 (en semanas). Toma una muestra de 10
37 8 entrevistadores para el anlisis. Tiene la
52 10
experiencia influencia real en el nmero de
28 6
24 5
cuestionarios aplicados?
45 10 Y = # entrevistas* Por qu??
33 7 X = Experiencia en semanas

*RDD: Si una variable discreta tiene ms de 5 niveles, puede


tratarse como una variable continua.
181
Regresin

Usando Minitab:
Stat>Regression>Regression

182
Regresin

Indica la Y

Indica la X

Selecciona Storage

183
Regresin

Selecciona O.K.
...y los valores dos veces
Selecciona que ajustados (fits)
guarde los
residuales...
184
Regresin
The regression equation is
Entrevistas = 1.62 + 0.173 Experiencia

Predictor Coef SE Coef T P


Constant 1.6222 0.5832 2.78 0.024
Experien 0.17316 0.01551 11.16 0.000

S = 0.6618 R-Sq = 94.0% R-Sq(adj) = 93.2%

Analysis of Variance

Source DF SS MS F P
Regression 1 54.596 54.596 124.65 0.000
Residual Error 8 3.504 0.438
Total 9 58.100

1. Busca la significancia en la relacin


Si el valor de p es mayor a 0.05, no es necesario continuar
dado que no existe relacin entre ambas variables. Un
valor menor a 0.05 indica una relacin significativa entre
las variables (como en este caso).
185
Regresin
The regression equation is
Entrevistas = 1.62 + 0.173 Experiencia

Predictor Coef SE Coef T P


Constant 1.6222 0.5832 2.78 0.024
Experien 0.17316 0.01551 11.16 0.000

S = 0.6618 R-Sq = 94.0% R-Sq(adj) = 93.2%

Analysis of Variance

Source DF SS MS F P
Regression 1 54.596 54.596 124.65 0.000
Residual Error 8 3.504 0.438
Total 9 58.100

2. Busca significancia en la constante y forma el modelo


Si el valor de p de la constante es mayor a 0.05 , significa
que no ayuda a ajustar correctamente el modelo y puede
ser despreciada en el mismo. Si es menor a 0.05 entonces
se mantiene en el modelo. El modelo queda como:
Entrevistas 1.622 0.173Experienci a 186
Regresin
The regression equation is
Entrevistas = 1.62 + 0.173 Experiencia

Predictor Coef SE Coef T P


Constant 1.6222 0.5832 2.78 0.024
Experien 0.17316 0.01551 11.16 0.000

S = 0.6618 R-Sq = 94.0% R-Sq(adj) = 93.2%

Analysis of Variance

Source DF SS MS F P
Regression 1 54.596 54.596 124.65 0.000
Residual Error 8 3.504 0.438
Total 9 58.100
3. Revisa la cantidad de variacin descrita por el modelo (R-sq)

R2=0.9396 o sea que el modelo explica el 94% de la variacin en el


nmero de entrevistas. Para decir que el modelo es adecuado nos
gustara ver un valor de R-sq mayor al 80%, algo menor significa
que existen otras variables afectando el proceso.
187
Regresin

Para ver la regresin en forma grfica, utilizamos el fitted line plot:

Indica la Y y la X y luego O.K.:

Stat>Regression>Fitted Line Plot

Nota: Esto lo hace Minitab


solo con regresin simple.
188
Regresin
Regression Plot
Entrevistas = 1.62222 + 0.173156 Experiencia

S = 0.661804 R-Sq = 94.0 % R-Sq(adj) = 93.2 %

12

11

10
Entrevistas

20 30 40 50 60

Experiencia

Ahora podemos ver la grfica de regresin, notas la lnea ajustada


(pronsticos) como se acerca a los datos originales?. El modelo aparenta
ser bueno, pero an no terminamos. Tenemos que hacer un estudio de
residuales.
189
Regresin
Regression Plot
Entrevistas = 1.62222 + 0.173156 Experiencia
Los errores residuales
S = 0.661804 R-Sq = 94.0 % R-Sq(adj) = 93.2 %
(ei) son la diferencia que
existe entre el valor real,
12
y el valor ajustado por el
11
modelo. Los residuales
10 son consecuencia de la
falta de ajuste del
Entrevistas

8
modelo. Los residuales
dan informacin sobre la
7
validez del modelo, por
6
eso hay que analizarlos.
5 ei
4

20 30 40 50 60

Experiencia

190
Regresin
Los residuales son
el resultado de
substraer el valor
observado menos
el valor
Estos vienen
pronosticado (error
de utilizar el
del modelo)
modelo con
los valores
originales de
X.

4. Revisa los residuales:


Normalidad delos residuales (consistencia del estudio)
Estabilidad de los residuales
Independencia de los residuales vs. valores ajustados
(adecuidad del modelo)
Si estos supuestos no se cumplen, sin importar el valor de R2, el modelo
no es adecuado para predecir la Y. 191
Regresin
Normal Probability Plot

.999

Stat>Basic .99
.95
Statistics>Normality
Probability
.80

Tests .50
.20
.05
.01
.001 Busca el valor
-0.5 0.0 0.5 1.0 de P
RESI1
Average: -0.0000000 Anderson-Darling Normality Test
StDev: 0.623954 A-Squared: 0.231
N: 10 P-Value: 0.734

Al graficar sobre papel normalidad, se debe formar aproximadamente


una lnea recta. Aplicando pruebas de normalidad debemos apreciar una
valor de p mayor a 0.05. Si esto no se cumple, puede deberse a
problemas con el sistema de medicin, condiciones del muestreo o a una
relacin no lineal. Algunas veces, se utiliza una transformacin
logartmica en la Y para forzar la normalidad en los residuales.
192
Regresin

I Chart for RESI1


2
Stat>Control UCL=1.808

Charts>Individuals 1

Individual Value
0 Mean=-3.4E-15

-1

LCL=-1.808
-2

0 1 2 3 4 5 6 7 8 9 10
Observation Number

La estabilidad de los residuales se valida observando el comportamiento


de los residuales segn su orden (se aprecia mejor usando una grfica
de control). Se busca que no haya puntos fuera de los lmites o
tendencias. Inestabilidad en los residuales denota variacin en la
recoleccin de los datos. Se deben identificar causas especiales de
variacin.
193
Regresin

Graphs>Plot
1
Los puntos deben
estar dispersos

RESI1
sin un patrn
0
especfico

-1
4 5 6 7 8 9 10 11 12
FITS1

Buscar independencia entre los residuales y los valores ajustados, nos


ayuda a definir si el modelo es adecuado o no. Si se aprecia un
patrn(como un embudo, curvas con diferentes jorobas, etc.) entonces
se debe seleccionar otro modelo, como cuadrtico, cbico o de otro tipo.

194
Regresin

Minitab tambin puede sacar todas las grficas al mismo tiempo:


Stat>Regression>Residual Plots

195
Regresin
Residual Model Diagnostics
Normal Plot of Residuals I Chart of Residuals
2
UCL=1.808
1
1
Residual

Residual
0 Mean=-3.4E-15
0
-1

LCL=-1.808
-1 -2
-1 0 1 0 1 2 3 4 5 6 7 8 9 10
Normal Score Observ ation Number

Histogram of Residuals Residuals vs. Fits


3
1
Frequency

Residual
2

0
1

0 -1
-1.0 -0.5 0.0 0.5 1.0 1.5 4 5 6 7 8 9 10 11 12

Residual Fit
196
Ejemplo
Trabajando en un proyecto para reducir los costos
de mantenimiento, el ingeniero del rea desea
saber si la eficiencia de un motor depende de su
velocidad en rpms. Ajusta el modelo ms
apropiado y determina su validez.

197
Ejemplo
Regression Analysis: Y(%) versus X

The regression equation is


Y(%) = 1.04800 - 0.0395795 X

S = 0.0333843 R-Sq = 93.7 % R-Sq(adj) = 93.4 %

Analysis of Variance

Source DF SS MS F P
Regression 1 0.299914 0.299914 269.100 0.000
Error 18 0.020061 0.001115
Total 19 0.319975

La velocidad es
significativa!

Y (%) 1.0479 0.0396 X


El ajuste se ve bien (94%) 198
Ejemplo
Residual Model Diagnostics
Normal Plot of Residuals I Chart of Residuals
0.05 UCL=0.1213
Razonablemente
0.1

Tienden a ser estables.


Residual

Residual
0.00 0.0 Mean=-4.8E-16

normales, O.K.
-0.05 -0.1
LCL=-0.1213

-2 -1 0 1 2 0 10 20
Normal Score Observ ation Number

Histogram of Residuals Residuals vs. Fits


5 0.05

4
Frequency

Residual
3
0.00
2

1
-0.05
0
-0.06 -0.04 -0.02 0.00 0.02 0.04 0.6 0.7 0.8 0.9 1.0

Residual Fit

Ahora qu????
Podemos apreciar un patrn entre los
residuales y los valores ajustados.
Esto nos indica que la relacin no es
lineal. Debemos ajustar otro modelo
tal como el cuadrtico, cbico, etc.
199
Ejemplo
Al ajustar modelos no lineales, debemos seleccionar otro tipo de modelos
tales como:

cuadrtico

y b 0 b1 x b 2 x 2

Debemos indicar a
o Minitab el modelo
necesitado.
cbico

y b 0 b1 x b 2 x 2 b 3 x3

200
Ejemplo

Es bsicamente lo mismo, solo hay que seleccionar el modelo buscado (en


la seccin de OPTIONS podemos encontrar las transformaciones
logartmicas). 201
Ejemplo
The regression equation is
Y(%) = 0.953603 + 0.0030173 X
- 0.0035365 X**2
Mejor la R2
S = 0.0141553 R-Sq = 98.9 % R-Sq(adj) = 98.8 %

Analysis of Variance

Source DF SS MS F P
Regression 2 0.316569 0.158284 789.950 0.000
Error 17 0.003406 0.000200
Total 19 0.319975
Ambos componentes
Source DF Seq SS F P son necesarios en el
Linear 1 0.299914 269.100 0.000 modelo
Quadratic 1 0.016655 83.119 0.000

Nuestro modelo es:


y 0.9536 0.0030173x 0.0035x 2
No olvides los
residuales!!!

202
Ejemplo

Residual Model Diagnostics


Normal Plot of Residuals I Chart of Residuals
La normalidad y 0.02 0.05 UCL=0.05038

estabilidad an 0.01
Residual

Residual
0.00
son buenas -0.01
0.00 Mean=-4.3E-16

-0.02
-0.05 LCL=-0.05038
-0.03
-2 -1 0 1 2 0 10 20
Normal Score Observ ation Number

Histogram of Residuals Residuals vs. Fits


5 0.02

4 0.01
Frequency

Residual
3 0.00

2 -0.01

1 -0.02

0 -0.03
-0.030
-0.024
-0.018
-0.012
-0.006
-0.000
0.006
0.012
0.018 0.55 0.65 0.75 0.85 0.95

Residual Fit
Gran mejora en la
independencia, el modelo
cuadrtico es adecuado.
203
Ejemplo

Regression Plot
Y(%) = 0.953603 + 0.0030173 X
- 0.0035365 X**2
S = 0.0141553 R-Sq = 98.9 % R-Sq(adj) = 98.8 %

0.95

0.85
Y(%)

0.75

0.65

0.55

0 5 10

El ajuste es muy bueno. Tenemos un buen modelo.

204
Que nos queda...

1. Planea el estudio para asegurar aleatoriedad, imparcialidad y un rango


amplio para variacin de la X y de la Y.

2. Recolecta buenos datos.

3.Evala por significancia de cada X por su valor de p y cuestiona la lgica


de la magnitud del coeficiente.

5. Evala la significancia del modelo a travs del valor de R2.

6. Busca patrones inusuales en los residuales y analiza los valores


extremos (outliers).

205
Apndices

206
Apndice A: Intervalos de prediccin
Usar un modelo de regresin para pronosticar es vlido dentro del
rango de investigacin. Extrapolacin de los datos usando el modelo,
puede ser inapropiada debido al error del modelo de prediccin. El
error disminuye cuando aumenta el valor de R2, pero aumenta al
alejarnos de la regin de experimentacin.

Un valor pronosticado en realidad est sujeto a la variacin aleatoria


del ambiente. Si embargo, podemos estimar un rango de posibles
valores alrededor del valor pronosticado.

Para la regresin lineal, los intervalos de prediccin se dan:

y b 0 b1 x ta SE ( y )
2

donde:
1 ( x0 x ) 2
SE ( y ) s
n SS xx
207
Apndice A: Intervalos de prediccin

Usando Minitab: en nuestro ejemplo de los motores

Selecciona Options:

Selecciona el despliegue
de intervalos de
prediccin
208
Apndice A: Intervalos de prediccin

Regression Plot
Y(%) = 0.953603 + 0.0030173 X
- 0.0035365 X**2
S = 0.0141553 R-Sq = 98.9 % R-Sq(adj) = 98.8 %

1.0

0.9

0.8
Y(%)

0.7

0.6 Regression

95% PI

0.5

0 5 10

Para un valor de X, tenemos un rango de valores para la Y.

209
Apndice B: Riesgos en la Regresin

Rango pequeo de investigacin: Es importante capturar la mayor


variacin posible en nuestra muestra. Pocos datos puede evitar capturar
suficiente variacin en la respuesta, llevando a conclusiones errneas.

Y= Millas por Y=Precio


galn 30 de venta 35
(mpg) 20 (miles) 2
10 5
5

0 .5 1 1.5 2 1 6 14 22 30
X=Peso de auto (tons) X=edad del auto (aos)
Tu ves Tu ves
Y=Millas por Y=Precio
galn 30 de venta 6
25 (miles) 4
(mpg)
20 2

.9 .95 1 1.05 1.1 13 13.5 14 14.5 15


X=Peso de auto (tons) X=edad del auto (aos)
210
Apndice B: Riesgos en la Regresin

Limitaciones. La mayor limitacin conceptual de las tcnicas de


regresin es que solo puede encontrar relaciones estadsticas, no
pueden asegurar mecanismos causales.
Por Ejemplo, puedes encontrar una fuerte relacin positiva (correlacin)
entre el dao que produce un incendio y el nmero de bomberos
apagndolo. Podramos concluir que los bomberos causan dao?
Desde luego, la explicacin ms adecuada de la correlacin es que el
tamao del fuego (variable externa que olvidamos incluir en nuestro
estudio) caus el dao as como un cierto nmero de bomberos
involucrados (a mayor el fuego, mayor el nmero de bomberos). A pesar
de la obviedad del ejemplo, en investigacin formal, alternativas
causales para explicar un fenmeno no son consideradas.

211
Apndice C: Regresin Mltiple
La regresin mltiple es solo una extensin de los mtodos utilizados en
este mdulo. Solo se necesita considerar tantas columnas como
variables se tengan (mostramos los modelos para 2 variables, pero se
puede extender fcilmente a ms variables):
Modelo lineal
y b 0 b1 x1 b 2 x2

Modelo lineal + interacciones

y b 0 b1 x1 b 2 x2 b 3 x1 x2

Modelo cuadrtico

y b 0 b1 x1 b 2 x2 b 3 x1 x2 b 4 x12 b5 x22
212
Apndice A: Intervalos de prediccin
Usar un modelo de regresin para pronosticar es vlido dentro del
rango de investigacin. Extrapolacin de los datos usando el modelo,
puede ser inapropiada debido al error del modelo de prediccin. El
error disminuye cuando aumenta el valor de R2, pero aumenta al
alejarnos de la regin de experimentacin.

Un valor pronosticado en realidad est sujeto a la variacin aleatoria


del ambiente. Si embargo, podemos estimar un rango de posibles
valores alrededor del valor pronosticado.

Para la regresin lineal, los intervalos de prediccin se dan:

y b 0 b1 x ta SE ( y )
2

donde:
1 ( x0 x ) 2
SE ( y ) s
n SS xx
213
Apndice A: Intervalos de prediccin

Usando Minitab: en nuestro ejemplo de los motores

Selecciona Options:

Selecciona el despliegue
de intervalos de
prediccin
214
Apndice A: Intervalos de prediccin

Regression Plot
Y(%) = 0.953603 + 0.0030173 X
- 0.0035365 X**2
S = 0.0141553 R-Sq = 98.9 % R-Sq(adj) = 98.8 %

1.0

0.9

0.8
Y(%)

0.7

0.6 Regression

95% PI

0.5

0 5 10

Para un valor de X, tenemos un rango de valores para la Y.

215
Apndice B: Riesgos en la Regresin

Rango pequeo de investigacin: Es importante capturar la mayor


variacin posible en nuestra muestra. Pocos datos puede evitar capturar
suficiente variacin en la respuesta, llevando a conclusiones errneas.

Y= Millas por Y=Precio


galn 30 de venta 35
(mpg) 20 (miles) 2
10 5
5

0 .5 1 1.5 2 1 6 14 22 30
X=Peso de auto (tons) X=edad del auto (aos)
Tu ves Tu ves
Y=Millas por Y=Precio
galn 30 de venta 6
25 (miles) 4
(mpg)
20 2

.9 .95 1 1.05 1.1 13 13.5 14 14.5 15


X=Peso de auto (tons) X=edad del auto (aos)
216
Apndice B: Riesgos en la Regresin

Limitaciones. La mayor limitacin conceptual de las tcnicas de


regresin es que solo puede encontrar relaciones estadsticas, no
pueden asegurar mecanismos causales.
Por Ejemplo, puedes encontrar una fuerte relacin positiva (correlacin)
entre el dao que produce un incendio y el nmero de bomberos
apagndolo. Podramos concluir que los bomberos causan dao?
Desde luego, la explicacin ms adecuada de la correlacin es que el
tamao del fuego (variable externa que olvidamos incluir en nuestro
estudio) caus el dao as como un cierto nmero de bomberos
involucrados (a mayor el fuego, mayor el nmero de bomberos). A pesar
de la obviedad del ejemplo, en investigacin formal, alternativas
causales para explicar un fenmeno no son consideradas.

217
Apndice C: Regresin Mltiple
La regresin mltiple es solo una extensin de los mtodos utilizados en
este mdulo. Solo se necesita considerar tantas columnas como
variables se tengan (mostramos los modelos para 2 variables, pero se
puede extender fcilmente a ms variables):
Modelo lineal
y b 0 b1 x1 b 2 x2

Modelo lineal + interacciones

y b 0 b1 x1 b 2 x2 b 3 x1 x2

Modelo cuadrtico

y b 0 b1 x1 b 2 x2 b 3 x1 x2 b 4 x12 b5 x22
218
Regresin Logstica
Binaria

219
Objetivo

1. Identificar problemas que incluyan una Y atributo de


tipo binaria y una X continua

2. Identificar otros tipos de regresin logstica

3. Ajustar modelos utilizando modelos logit

4. Entender el significado de los valores de p para la


variable, modelo y bondad de ajuste.

5. Graficar la curva de prediccin de probabilidades.

220
Matriz de seleccin de herramientas
Factor (X)

VARIABLE ATRIBUTO

ANLISIS DE ANOVA, PRUEBA


Respuesta (Y) VARIABLE REGRESIN Y DE T,Z
CORRELACIN ALTERNATIVAS
NO
PARAMTRICAS
REGRESIN CHI CUADRADA,
ATRIBUTO LOGSTICA PRUEBAS DE
PROPORCIONES

Esta es nuestra rea de inters 221


Regresin Logstica

En muchas ocasiones, los sistemas de medicin se basan en


esquemas pasa-no pasa, o la evaluacin se basa en la inspeccin
visual para segregar aquellos elementos defectuosos. En ambas
situaciones hablamos de mediciones discretas (atributos) en la
variable de respuesta. Es de inters relacionar estas respuestas
cuando vara una variable continua (variable) de entrada. En estos
casos es conveniente utilizar el anlisis de regresin logstica.

222
Regresin Logstica
Modelo lineal

1
Modelo Logstico

La regresin logstica busca ajustar un modelo logartmico para


obtener una distribucin de probabilidades.
223
CUIDADO!!!!
Por favor tenga en cuenta...

Los productores de esta pelcula enrgicamente


sugieren que usted en forma habitual se esfuerce por
tener sistemas de medicin que generen
datos continuos o variables!!
El poder de su anlisis y la ventana de oportunidad para
usar varias herramientas es tpicamente ms grande al
utilizar datos variables.

224
Regresin Logstica

Existen diferentes tipos de regresin logstica, dependiendo del nmero


de niveles que tenga la variable de respuesta:

Binaria: La respuesta tiene solo dos valores posibles (p.e. 0,1;pasa, no


pasa; a tiempo, tarde; etc. ).

Ordinal: La respuesta tiene 3 o ms niveles y estos tienen un cierto


orden que respetar (p.ejem:Fro, tibio, caliente; primero, segundo,
tercero, etc.)

Nominal: La respuesta tiene 3 o ms niveles pero estos son


independientes entre si (p.ejem: Norte, Sur, Centro; Diseo, Produccin,
Mantenimiento, etc.)

225
Regresin Logstica
Como la variable de respuesta binaria solo puede tener dos valores, el
modelo de prediccin debe de transformarse mediante una funcin de
enlace (link function)

La funcin de enlace en regresin logstica binaria, mapea el intervalo


(0,1) en una lnea real. Esto garantiza que la probabilidad predicha de un
evento utilizando el modelo de regresin logstica sea un nmero entre 0
y 1.

Existen varios tipos de funciones de enlace, la ms usual en regresin


logstica binaria es la funcin Logit:
1
p(evento)
1 e ( b 0 b1 x )
226
Regresin Logstica
Estudio de Embarques

Un ingeniero est buscando entradas crticas (Xs) que puedieran ayudarle


con mejoras en su proyecto de embarques daados. Ella obtuvo unos datos
de los ltimos 3 meses de embarques daados y el peso de la carga entera
en la cul se transportaba el embarque daado. Al embarque daado se le
asigna un 1 y al no daado un 0. El peso de la carga esta expresado en
1000 lb.

Y de Atributos = Embarque daado


X Variable = Peso total de la carga (1000 lbs)

Embarques daados. mtw

227
Regresin Logstica

Usando Minitab:

Stat>Regression>Binary Logistic Regression


228
Regresin Logstica

Indica tu
columna con
las
respuestas
(expresadas
en 0 y 1)

El modelo lo conforman las Selecciona Storage


variables continuas, o discretas, que
quieras relacionar. 229
Regresin Logstica

Selecciona guardar la probabilidad


de eventos, luego selecciona OK
dos veces...
230
Regresin Logstica
Binary Logistic Regression: Embarque daado versus Peso de la
carga

Aqu nos indica el nmero


Link Function: Logit de veces que se present
un evento.
Response Information

Variable Value Count


Embarque 1 14 (Event)
El EVENTO es el nivel
0 11 que se toma como
Total 25 referencia para los
clculos.

231
Regresin Logstica
Busca significancia en la
influencia (relacin de cada
Logistic Regression Table variable)
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant -2.063 1.053 -1.96 0.050
Peso de 0.18110 0.07533 2.40 0.016 1.20 1.03 1.39

Log-Likelihood = -13.192
Test that all slopes are zero: G = 7.913, DF = 1, P-Value = 0.005

1
p(evento) Determina si el
1 e( 2.0630.1811x ) modelo es
significativo
232
Regresin Logstica

Goodness-of-Fit Tests

Method Chi-Square DF P
Pearson 15.509 20 0.747
Deviance 18.066 20 0.583
Hosmer-Lemeshow 8.239 8 0.410

Las pruebas de bondad de ajuste las utilizamos para validar si el modelo


puede ser usado como predictivo. Si las tres pruebas tienen un valor de p
mayor que alfa (a), entonces el modelo es adecuado. Si alguna falla, la
confiabilidad del modelo puede no ser tan adecuada.

233
Regresin Logstica

Ahora graficamos la
funcin de probabilidades.

234
Regresin Logstica

Para la Y, indica la
columna que Minitab
cre de
probabilidades de
evento (EPRO1), y la
X sigue siendo Peso
de la carga...

235
Regresin Logstica

0.9 A mayor peso, mayor


0.8 es la probabilidad de
0.7 dao en el embarque!
0.6
EPRO1

0.5

0.4
0.3

0.2
0.1
0 5 10 15 20 25
Peso de la carga

236
Ahora t....
Un Black Belt estaba tratando de reducir el ruido de un motor. Uno de los
factores potenciales identificado en una sesin de tormenta de ideas de
ingeniera/manufactura fue la diferencia entre el dimetro exterior del estator y
el dimetro interior de la carcaza. El estator est diseado para que quede
ligeramente ms grande que la carcaza de tal manera que al ser prensado
dentro de la carcaza, esta se expande ligeramente y la interferencia ayuda a
mantener al estator apretado dentro de la carcaza. El dimetro exterior del
estator es 5.5 y el grosor es solo de 0.60 (ver diagrama) los datos de 35
motores estaban disponibles para un anlisis rpido.

Carcaza
Estator
Indican los datos que existe una Estator
relacin entre la interferencia estator- O.D.

carcaza, y si el motor tiene ruido Carcaza


Direct access storage
excesivo o no? I.D.

interferencia.mtw

237
Uno ms....
Una comisin presidencial estaba interesada en saber si podran haber
predicho el desastre del Challenger con los datos disponibles al momento
del incidente en 1986. La comisin consigui datos de anillos daados de
la propulsin del cohete que haba antes del lanzamiento del Challenger.
Se muestran los datos obtenidos de previos vuelos espaciales, 1 es
daado y 0 es no daado. Se inspeccionaron 3 anillos por cada uno de
los 23 vuelos anteriores al Challenger
Estos datos son reales. Se pueden encontrar ms detalles en la publicacin de 1989 Anlisis de Riesgo de la nave
espacial: Prediccin de fallas previas al Challenger por Dalal, Fowlkes y Hoardley, Journal of the American Statistical
Association.

1. Verificar valores de P y bondades de ajuste.


2. Generar una grfica de probabilidades predichas
contra temperatura.
3. Indican los datos que la temperatura es un factor
importante que afecta el dao de los aros?
4. Prediga la probabilidad de que a 31F al menos 1
de 3 anillos daados en el mismo lanzamiento.
238
challenger.mtw
Que nos queda...

1. Es una buena alternativa cuando tenemos respuestas discretas de tipo


binario.

2. Aplican los mismos conceptos e ideas.

3.Hay que validar la significancia de las variables, del modelo y la bondad


de ajuste.

5. El modelo ajusta a una funcin de densidad de probabilidades


binomiales.

239
Antes Despus
Seccin de ejercicios
7 8
6 9
Ejercicio 1: 5 8
Una cadena de supermercados colect las opiniones 6 7
de los clientes respecto del servicio proporcionado por
7 7
las tiendas de la cadena antes y despus de que el
personal asistiera a tres sesiones semanales de 10 4 8
minutos de entrenamiento, mediante videocintas, que 7 8
tenan como meta mejorar las relaciones con los 6 9
clientes. Se obtuvieron dos muestras aleatorias
5 10
independientes de 19 clientes cada una, tomadas
antes y despus de las sesiones de entrenamiento, y 5 9
se pidi a cada persona que calificara el servicio de la 6 8
tienda en una escala de 1 (malo) a 10 (excelente). 5 8
Existe evidencia de que el curso de entrenamiento
4 7
tuvo efecto?
6 7
X= tipo de datos:
4 8
Y= tipo de datos: 5 6
Ho: 6 7
Ha: 6 7

P-value: 7 8
240
Conclusin:
Ejercicio 2:
Una compaa desea comparar las expectativas salariales x 100 mensuales
de su personal de ventas femenino y masculino, segn un nuevo plan de
compensaciones ventas+comisin. Se pidi a 13 vendedoras y 12
vendedores, muestreados al azar, predijeran sus ingresos mensuales bajo el
nuevo plan. Proporcionan los datos evidencia para afirmar que existen
diferencias significativas entre las expectativas de vendedoras y
vendedores?.

Vendedoras (1) 44 44 56 46 47 38 58 53 49 35 46 30 41
Vendedores (2) 35 47 55 29 40 39 32 41 42 57 51 39

X= tipo de datos:
Y= tipo de datos:
Ho:
Ha:
241
P-value: conclusin:
Empresa 1 Empresa 2

Ejercicio 3: 250 200

Para comparar las aptitudes para 264 199

seleccionar acciones por parte de dos 255 220

empresas de corretaje, se compar las 260 230

ganancias anuales (menos los 250 200

honorarios) para una inversin de $1000 270 235

dlares en cada una de las 20 acciones 255 240

que se encuentran en las listas de las 277 234

"mas recomendadas" de ambas 260 229

empresas. Los resultados obtenidos se 257 227

presentan a continuacin: 263 227

Se puede afirmar que la Empresa 1 es 260 237

ms
X= apta que la 2?. tipo de datos: 258 228
264 230
Y= tipo de datos:
264 234
Ho: 260 220

Ha: 270 199


255 227
P-value: 250 234
Conclusin:
242 277 200
242
Ejercicio 4 8 horas/da 10 horas/da 12 horas/da
Un equipo Six sigma estaba 87 75 95
trabajando en aumentar la 96 82 76
productividad de los equipos de 75 90 87
trabajo. El tipo de semana laboral fue 90 80 82
sugerida como un factor importante 72 73 65
en la fase de medicin. El equipo 86
prob 6 das con jornada de 8
horas/da, 5 das con jornada de 10 Datos en dlares x1000
horas/da, y 5 das con 12 horas/da.
X= tipo de datos:
La produccin semanal (en miles de
dlares) se revis para cada uno de Y= tipo de datos:
los tres estilos.
Ho:
Afecta el tipo de semana laboral a Ha:
la productividad?
P-value:
Conclusin:

243
Monto en
dlares de Das para
la OC (k$) pagar
Ejercicio 5: 6.23 15
Un contador est interesado en maximizar 1.92 25
los descuentos de los proveedores que se 0.75 7
obtienen al pagarles mas pronto. Uno de 8.08 14
los factores identificado como un factor 1.89 22
potencial era la cantidad de dlares en la 8.66 8
orden de compra. El equipo consigui 8.66 20
datos de los das que se tard en pagar al 0.37 6
proveedor y el monto en dlares de la 3.32 6
0.20 18
orden de compra.
7.94 8
Es el monto en dlares un factor
7.80 11
importante en la rapidez del pago?
7.47 16
7.70 24
6.63 5
Ho: P-value constante: 7.78 23
7.85 10
Ha: P-value X:
2.86 30
R2= Conclusiones: 8.74 6
2.42 12
244
Ejercicio 6:
El nmero de vendedores que emplea una concesionaria de autos vara de
cuatro (el valor ms bajo) a ocho (el valor ms alto). Depende el nmero de
nuevos autos vendidos del nmero de vendedores?. Para aclarar esta
cuestin, el gerente de ventas examin los registros de las ventas para los
ltimos cuatro meses y localiz un perodo de ocho semanas durante el cual
no se utilizaron programas de estmulos especiales. El nmero de autos
vendidos semanalmente y el nmero de vendedores se muestran en la
siguiente tabla.
Semana 1 2 3 4 5 6 7 8
N vendedores 5 6 5 4 7 6 5 8
N Autos vendidos 10 20 18 10 21 15 13 22

Ho: P-value constante:


Ha: P-value X:
R2= Conclusiones: 245
Ejercicio 7:
Un fabricante de jabn en polvo realiz un experimento para investigar el
efecto del precio por caja sobre la demanda. Se asign a cada una de seis
diferentes regiones de venta un precio unitario al por mayor por caja, para la
venta a tiendas mayoristas y a cadenas grandes de supermercados en la
zona. Despus de un mes se calcul el porcentaje Y del incremento (o
decremento) en las ventas por regin durante el mes anterior. En la siguiente
tabla se indican los precios unitarios asignados a las regiones y los
aumentos porcentuales en las ventas.

Precio unitario X 6.40 6.45 6.50 6.55 6.60 6.65

Aumento en las ventas Y 9.8 7.6 6.3 4.5 4.2 1.7

Ho: P-value constante:


Ha: P-value X:
R2= Conclusiones: 246
Ejercicio 8:
Fueron seleccionados aleatoriamente diez gerentes que trabajan
actualmente en una Empresa de Electrodomsticos desde hace cinco aos.
En la tabla se muestran los resultados correspondientes a su calificacin en
la escala de xito (Y) y sus calificaciones como aspirantes (X). El xito
administrativo depende de la calificacin que obtuvieron como aspirantes?.

Calificacin como 39 43 21 64 57 47 28 75 34 52
aspirante X
Calificacin de xito 65 78 52 82 92 89 73 98 56 75
Y

Ho: P-value constante:


Ha: P-value X:
R2= Conclusiones: 247
A B
54.5 78.3
67 79.8
41.7 81.3
Ejercicio 9: 64.5 69.4
La PROFECO est interesada en comparar el nivel 86.8 82.8
de servicio de dos de sus centros de atencin al 40.8 82.3
cliente. Para fines de la comparacin, se utilizaron 72.5 62.5
datos histricos del nivel del servicio de los ltimos 76.9 77.5
81 85.3
24 meses, los cuales se muestran en la siguiente
83.3 85.3
tabla. 82 86.1
Existe evidencia para concluir que el centro A 71.8 41.1
ofrece un nivel de servicio significativamente menor 68.8 100
que el B? 71 100
67.8 95.4
X= tipo de datos: 56.7 91.1
69.7 46.4
Y= tipo de datos: 70.4 87.3
74.9 71.8
Ho:
75.4 83.2
Ha: 64.9 85
100 74.3
P-value: 90.4 85.5
72.8 72.1
Conclusin:
248

S-ar putea să vă placă și