Sunteți pe pagina 1din 20

ESTADISTICA III

INTEGRANTES

FRANCIA MILENA MINA MONTAÑO

KAREN RUÍZ TÉLLEZ

LUZ MILAGRO MIRANDA A

ALBERTO CHURIO GÜISAÜISAÜISA

CARLOS JULIO ARAQUE JARAMILLO

DOCENTE

RICK KEVIN ACOSTA VEGA

UNIVERSIDAD DEL MAGDALENA


FACULTAD DE INGENIERIA
PROGRAMA DE ING. INDUSTRIAL
SANTA MARTA D.T.C.H
2017
SOLUCION A TALLER 2

I. Preguntas (Experimentos con un solo factor)


1. Explique ¿En qué consiste y cuando se debe aplicar el diseño
completamente al azar con un solo criterio de clasificación?

R/ Consiste en comparar los tratamientos en cuanto a sus medias


poblacionales y de debe aplicar cuando el objetivo es comparar más de dos
tratamientos.

2. Supongamos que se desea probar la igualdad entre si, de cinco medias.


Una alternativa para hacer esto sería comparar de dos en dos las medias,
utilizando la prueba T de Student y al final tomar una decisión. Explique
porque esto aumenta el error tipo I.

R/ Para este caso con cinco medias tenemos para realizar la prueba para
cada media con su respectivo par sin repetir las medias. Para aceptar Ho
para cada prueba individual es de 1-α=0.95, entonces la probabilidad de
aceptar todas es muy alta lo cual representa un aumento significativo del
error tipo I, por lo que el experimento resulta inapropiado porque puede
producir sesgos por parte del experimentador.

3. ¿Que mide el cuadrado medio del error en el ANOVA de un experimento?

R/ Es la suma de cuadrados divididos entre sus respectivos grados de


libertad

4. ¿Qué son los grados de libertad para una suma de cuadrados en un


análisis de varianza?

R/ Representa el número de piezas de información independientes en la


suma de cuadrados o sea el número de observaciones menos el número de
parámetros estimados de los datos.

5. A continuación se muestra parte del ANOVA para comparar cinco


tratamientos con cuatro replicas cada uno

Fuente de Suma de G. de C. medio Razón F Valor –p


Variación cuadrados libertad
Tratamient 800 4
o 400 15
Error 1200 19
Total

a) Agregar en esta tabla los grados de libertad, el cuadrado medio y la razón F


para cada una de las fuentes de variación

Fuente de Suma de G. de C. medio Razón F Valor –p


Variación cuadrados libertad
Tratamient 800 4 200 7.5 P(3.06>7.5)
o 400 15 26.66
Error 1200 19
Total

SCT = 800 + 400 CM TRAT = 800/4 CM E = 400/15


SCT = 1200 CM TRAT = 200 CM E = 26.66

Fo = 200/26.66
Fo = 7.5

b) Explique de manera esquemática como calcularía el valor – p o la


significancia observada, para ver si hay diferencia entre tratamientos.

R/ El Valor-p es el área bajo la curva con distribución Fk-1,N-k del


estadístico Fα, entonces el

valor –p= P(F>F0)

c) ¿Con la información disponible se pueden hacer conjeturas sobre si hay


diferencias significativas entre los tratamientos? Argumente su respuesta

R/ Es posible determinar la diferencia entre los tratamientos, mediante la


información presentada en la tabla ANOVA con el valor obtenido des
estadístico Fo que sigue una distribución F con (k-1) grados de libertad en
el numerador (N-k) grados de libertad en el denominador y el valor obtenido
de las tablas de la distribución F para probar la hipótesis de igualdad de los
tratamientos con respecto a la medida de la correspondiente variable de
respuesta. Ya que en este caso de rechazar la hipótesis anterior se estaría
asumiendo que las medias de los tratamientos son diferentes. +

d) Anote el modelo estadístico y formule la hipótesis pertinente.


R/ Ho = µ1 = µ2 = ….. = µn
Ha = µi ≠ µj para algún i , j

6. Se desea investigar el efecto del pH en el crecimiento de cierto


microorganismo en un medio específico. Para ello se realiza un
experimento, teniendo como punto de partida la misma cantidad de
microorganismos. Se hacen cuatro repeticiones y se obtienen los siguientes
resultados. ¿Estos datos son evidencia suficiente para afirmar que los
niveles de pH donde se logra menor y mayor crecimiento son e1 3 y el 2,
respectivamente? Explique su respuesta

Nivel de pH Crecimiento promedio (en %)


1 80
2 105
3 75

No se puede afirmar que el nivel de pH influya directamente en el


crecimiento promedio, se considera que hay más factores que intervienen,
además es necesario que nos proporcionen más datos por tratamiento para
tomar esa decisión.

7. Se desea investigar la influencia de la temperatura en el rendimiento de un


proceso químico, en particular interesa investigar un rango de temperatura
entre 60 y 120°C. Se tienen recursos para realizar 20 corridas
experimentales.

a) Los niveles de temperatura con los que se experimenta son: 60, 65, 70 y
120; se hacen cinco repeticiones con cada nivel. ¿Considera que es
adecuado el diseño experimental usado? Argumente su respuesta, y de
ser necesario proponga alternativas.

R/ No es adecuado el diseño experimental debido a que los niveles de


temperatura con los cuales se pretende experimentar no están
distribuidos uniformemente en el rango establecido, se recomienda
hacer un experimento con 5 réplicas para los siguientes tratamientos:
60, 80, 100, 120.

b) El orden en que decidieron hacer las corridas experimentales para


facilitar el trabajo experimental fue: primero las cinco del nivel bajo de
temperatura, luego las cinco del siguiente y así hasta finalizar. ¿Es
correcto lo que hicieron? Argumente su respuesta.

R/ No es correcto, las corridas experimentales deben ser aleatorias para


que el resultado de un tratamiento no influya en el inmediato siguiente y
no violar los supuestos del modelo.

c) Para hacer el análisis estadístico se comparan, mediante una prueba T


de Student, de dos en dos niveles de temperatura, y con base en esto
obtuvieron conclusiones. ¿Es adecuado tal análisis?, argumente, y en
su caso proponga alternativas.

R/ No adecuado, aumenta el error tipo I: rechazar Ho siendo verdadera


en cada par de medias.

8. Describa en qué consiste cada uno de los supuestos del modelo en un


análisis de varianza, y explique la forma típica en que estos supuestos se
verifican.

R/ Normalidad: Consiste en verificar que los residuos sigan una distribución


normal con media cero y se verifica graficando los residuos en una escala x
– y de tal manera que los residuos siguen una distribución normal al
graficarlos tienden a quedar alineados en una línea recta
Varianza constante: Comprobar que los residuos de cada tratamiento tienen
la misma varianza, es verificado graficando los predichos contra los
residuos y si los puntos en esta grafica se distribuyen de manera aleatoria
en una banda horizontal (sin ningún patrón claro contundente) entonces es
señal de que se cumple el supuesto de que los tratamientos tienen igual
varianza.
Independencia: Probar que los residuos son independientes entre si, se
verifica si se grafica en el orden que se recolecto un dato contra el residuo
correspondiente, de esta manera si malo graficar en el eje horizontal el
tiempo (orden de corrida) y en el eje vertical los residuos. Se detecta una
tendencia o patrón no aleatorio claramente definido, esto es evidencia de
que existe una correlación entre los errores y, por lo tanto el supuesto de
independencia no se cumple.
9. ¿Qué son y cuándo se aplican las pruebas para comparar medias?

R/ Son métodos que nos permiten hacer comparaciones entre todos los
posibles pares de medias, dependiendo del número de tratamientos para
identificar cuales resultaron diferentes, se aplican cuando es rechazada la
Ho (todas las medias son iguales)

II. Preguntas de Diseño de Bloques

1. ¿En qué situaciones se aplica un diseño en bloques completos al azar?


¿En qué difieren los factores de tratamientos y de bloque?

R/ Cuando se quieren comparar ciertos tratamientos o estudiar el efecto de


un factor, es deseable que las posibles diferencias se deban principalmente
al factor de interés y a otros factores que no se consideran en el estudio.
Cuando esto no ocurre y existen otros factores que no se controlan o
nulifican a la hora de hacer la comparación, las conclusiones podrían ser
afectadas sensiblemente. El diseño en bloques completos al azar se aplica
cuando el efecto de un tratamiento a comparar depende de otros factores
que se pueden influir en el resultado de un experimento y que deben de
tomarse en cuenta para anular su posible efecto y evitar el sesgo al
comparar los factores de interés. Para evitar este sesgo se deben incluir
estos factores adicionales en la experimentación y probarlos con cada uno
de los factores de interés de manera tal que puedan presentarse todas las
combinaciones posibles entre ambos para obtener resultados e4n la
comparación que sean válidos, esta forma de nulificar su efecto se llama
bloqueo.
La diferencia entre los factores de tratamiento los de bloque radica en que
estos últimos no se incluyen en el experimento de manera explícita por que
interese analizar su efecto, si no como un medio para estudiar de manera
adecuada y eficaz al factor de interés para no sesgar la comparación. Estos
entran al estudio con un nivel de importancia secundaria con respecto al
factor de interés y la inclusión de estos es un medio no un fin para lograr la
comparación

2. ¿Qué diferencia hay entre un DBCA y los diseños en cuadro latino?

R/ El diseño de bloque completo al azar se controla un factor de bloque y


uno de tratamiento más el error aleatorio y cuadro latino dos factores de
bloque y uno de tratamiento por lo que se tienen cuatro fuentes de
variabilidad, incluyendo el termino error, que pueden afectar la respuesta
observada.

3. De acuerdo con el modelo estadístico para un diseño en bloques, ¿por qué


a través de este diseño se reduce el error aleatorio?

R/ Porque en el diseño en bloques se analiza bloque a bloque y se toman


en cuenta todos los factores posibles que puedan afectar de manera
significativa a nuestro experimento

4. Aunque en el análisis de varianza para un diseño en bloques completos al


azar también se puede probar la hipótesis sobre si hay diferencia entre los
bloques, se dice que esta hipótesis se debe ver con ciertas reservas.
Explique por qué.

R/ La hipótesis que se plantea:


Ho: Ƴ1 = Ƴ2 = Ƴ3 = ……… = Ƴb = 0
Ha: Ƴ≠o para algún bloque j

Esta no es una prueba F exacta, sino aproximada debido a la restricción de


aleatorización (solo se aleatoriza dentro del bloque). En la práctica se
recomienda su interpretación porque es evidencia a favor o en contra de
que valió la pena el esfuerzo de controlar el factor de bloque. Si resulta
significativa implica que el factor de bloques tiene influencia sobre la
variabilidad de respuesta, y debe ser tomado en cuenta para mejorar la
calidad de esta. Pero, si no se rechaza y se acepta que los bloques son
iguales en respuesta media, entonces se tiene el argumento a favor de no
controlar este factor en futuros experimentos sobre esta misma respuesta,
además de que si}u influencia en la calidad de la respuesta no es
significativa.

La restricción de aleatorización se debe al hecho de que no se aleatoriza el


orden de las corridas experimentales en relación a los bloques. El
experimento supone que solo se aleatoriza el orden de las corridas dentro
de casa bloque, lo cual evita sesgos en la comparación de los tratamientos,
pero no los impide en comparación de los bloques.

5. Explique por qué se utiliza el adjetivo azar en el nombre del diseño en


bloques completos al azar.
R/ La palabra completo en el nombre del diseño se debe a que en cada
bloque se prueban todos los tratamientos, o sea, los bloques están
completos. La aleatorización se hace dentro de cada bloque, por lo tanto,
no se realiza de manera total como el diseño completamente al azar. El
hecho de que existan bloques hace que no sea practico o incluso sea
imposible aleatorizar en su totalidad.

6. Una compañía farmacéutica realizó un experimento para estudiar los


tiempos promedio (en días) necesarios para que una persona se recupere
de los efectos y complicaciones que siguen a un resfriado común. En este
experimento se hizo una comparación de distintas dosis diarias de vitamina
C. Para hacer el experimento se contactó a un número determinado de
personas, que en cuanto les daba el resfriado empezaban a recibir algún
tipo de dosis. Si la edad de las personas es una posible fuente de
variabilidad, explique con detalle cómo aplica ría la idea de bloqueo para
controlar tal fuente de variabilidad.

R/ Si fuera un número grande de personas se podrían acomodar en


subgrupos o en rangos para distribuir las diferentes edades se probarían las
distintas dosis en las diferentes edades.

III. EJERCICIOS

1. Se hace un estudio sobre la efectividad de tres marcas de spray para matar


moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se
cuenta el número de moscas muertas expresado en porcentajes. Se hacen
seis réplicas y los resultados obtenidos se muestran a continuación.

Numero de Replica
Marca de Spray 1 2 3 4 5 6
1 72 65 67 75 62 73
2 55 59 68 70 53 50
3 64 74 61 58 51 69

FUENTE DE SUMA DE GRADOS CUADRADO Fo Valor –


VARIBILIDAD CUADRADOS DE MEDIO p
LIBERTAD
METODOS 296.33 2 148.1665 2.880
OPERADORES 281.33 5 52.266 1.0939
ERROR 514.3337 10 51.433337
TOTAL 1092 17

a) Formule la hipótesis adecuada y el modelo estadístico.


1. Ho: β1 = β2 = β 3
Ha: Al menos el efecto de un bloque es diferente de los demás
2. Ho: Ϯ1 = Ϯ2 = Ϯ3
Ha: Al menos el efecto de un tratamiento es diferente de los demás
b) ¿Existe diferencia entre la efectividad promedio de los productos en spray?
No

c) ¿Hay algún spray mejor? Argumente su respuesta.


Por muy poca significancia es mejor el número 1, pero este no varía en la
efectividad para con los otros 2 atomizadores.

d) Dé un intervalo al 95% de confianza para la efectividad promedio


(porcentaje) de cada una de las marcas.

No, ya que cada atomizador tuvo un porcentaje de moscas muertas muy


parecido entre los seis días que se utilizaron las replicas

e) Dibuje las gráficas de medias y los diagramas de caja simultáneos, después


interprételos.
f) Verifique los supuestos de normalidad y de igual varianza entre las marcas.

2. Para estudiar la confiabilidad de ciertos tableros electrónicos para carros, se


someten a un envejecimiento acelerado durante 100 horas a determinada
temperatura, y como variable de interés se mide la intensidad de corriente que
circula entre dos puntos, cuyos valores aumentan con el deterioro. Se probaron 20
módulos repartidos de manera equitativamente en cinco temperaturas y los
resultados obtenidos fueron los siguientes:

a) es un modelo estadistico con un solo


factor
Ho= la intensidad de la corriente medida es igual en todas las
tempraturas
Ha= al menos la intensidad de corriente en dos temperaturas es
diferente
numero de numero de datos=
niveles = 5 repeticiones 4 20

Observaciones
temperatura yi. Promedios
1 2 3 4
20º 15 18 13 12 58 14.5
40º 17 21 11 16 65 16.25
60º 23 19 25 22 89 22.25
80º 28 32 34 31 125 31.25
100º 45 51 57 48 201 50.25
y.. 538  
Factor de
Coreccion 14472.2

Grados
Suma
Fuente de de Cuadrado
Cuadrados Fo Fc P value
Variacion libertad Medio (MS)
(SS)
(Dof)

Entre los
3411.8 4 852.95 68.05 3.06  
tratamiento
Fo>F, se dice que se
Error (Dentro rechaza la hipotesis
de los 188 15 12.533 nula, por lo que la
tratamientos) media de los
tratamientos difiere.
Se concluye quela
temperatura afecta
Total 3599.8 19   significativamente la
intensidad de
corriente
Log 12.533333
(Si)^2 ((Si)^2) (Sp)^2 3
1.0980665
7.00 0.85 Log ((Sp)^2) 9
16.92 1.23
1.2180923
6.25 0.80 q 3
1.7777777
6.25 0.80 c 8
1.5776884
26.25 1.42 Xo^2 1
9.4877290
Xcri 4
62.67 5.08

Xo^2<Xcri, se dice que hay igualdad de varianza en los tratamientos

3 ) Una compañía farmacéutica desea evaluar el efecto que tiene la cantidad de


almidón en la dureza de las tabletas. Se decidió producir lotes con una cantidad
determinada de almidón, y que las cantidades de almidón a aprobar fueran 2%,
5% y 10%. La variable de respuesta sería el promedio de la dureza de 20 tabletas
de cada lote. Se hicieron 4 réplicas por tratamiento y se obtuvieron los siguientes
resultados:

% de almidón Dureza

2 4.3 5.2 4.8 4.5


5 6.5 7.3 6.9 6.1

10 9.0 7.8 8.5 8.1

a) ¿Hay evidencia suficiente de que el almidón influye en la dureza en las


tabletas? Halle el ANOVA.
R/ A simple vista, los datos que arroja la tabla anterior, indican que el
porcentaje de almidón es directamente proporcional al nivel de dureza que
presentan las tabletas.

Ho=µT2= µT3=µT4

% de dureza
almidón
2 4.3 5.2 4.8 4.5
5 6.5 7.3 6.9 6.1
10 9.0 7.8 6.1 8.1
Yi. 19.8 20.3 17.8 18.7
promedio 6.6 6.76 5.93 6.23
y.. = 76.6
Media Y = 6.38

ANOVA
Fuente de Suma de Grados de Cuadrados Fo F TABLAS
variación cuadrados libertad medios
Tratamient 1.25 3 0.418 0.14 < 4.066
o
Error 23.62 8 2.95
Total 24.87 11

b) Realice los análisis complementarios necesarios.


Según los resultados arrojados por el análisis de varianza, la F de tablas es mayor
que la F calculada, por lo que se acepta la hipótesis nula, que dice, que todas las
medias de los tratamientos son iguales entre sí, esto es, que tal y como se mostró
al inicio de la tabla, el porcentaje de almidón adicionado a las tabletas, es
directamente proporcional al nivel de dureza adquirido por las tabletas.

c) Si se desea maximizar la dureza de las tabletas, ¿qué recomendaría al


fabricante?

En principio fabricar tabletas con porciones equivalentes, es decir, almidón con


respecto a la sustancia activa, además de revisar bien los datos arrojados por el
estudio, ya que cuando pasamos de un 2% a un 5% de almidón la dureza
aumenta 1.52 veces, sin embargo, cuando pasan a agregar 10%, sólo aumenta
1.38 respectivamente, por lo que considero que debería llegarse a un término
adecuado donde se contemple la economía de la empresa.

d) Verifique los supuestos.

1) normalidad

Los datos de dureza de las tabletas presentan una distribución normal con
respecto al almidón agregado, esto se puede comprobar gracias a la correlación
entre sí que es de 0.98 (0.9735).

2) homogeneidad
Los datos cumplen con el supuesto de homogeneidad al presentarse en una
distribución similar entre sí.

3) Prueba de independencia

Aunado a lo anterior, los datos presentan independencia, lo que indica que la


probabilidad de cada uno de ellos no está influida porque el otro suceso, es decir,
que los sucesos no están relacionados.

4) Se hace un estudio sobre la efectividad de tres marcas de atomizador para


matar moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se
cuenta el número de moscas muertas expresado en porcentajes. Se hicieron seis
réplicas, pero en días diferentes; por ello, se sospecha que puede haber algún
efecto importante debido a esta fuente de variación. Los datos obtenidos se
muestran a continuación:

a) Suponiendo un DBCA, formule las hipótesis adecuadas y el modelo estadístico:

 Modelo de Regresión

Yij =µ + Ti+ βj + ξij

 Hipotesis apropiada

Ho: µd1 = µd2 = µd3 = µd4

Ha: µi ≠ µj para todo alguna pareja de tratamientos.

b) ¿Existe diferencia entre la efectividad promedio de los atomizadores?

R/ No existe diferencia estadísticamente significativa entre los diferentes


atomizadores sobre el porcentaje de efectividad, ya que poseen un valor-p de
0,1028 siendo este mayor a 0,05, esto con un 95% de confianza.

c) ¿Hay algún atomizador mejor? Argumente su respuesta.

R/ Si, el 1 uno posee un 74% de eficiencia con respecto al 68% y al 64% de los
atomizadores 2 y 3, pero según el inciso anterior ninguno posee diferencias
significativas sobre la efectividad.

d) ¿Hay diferencias significativas en los resultados de diferentes días en que se


realizó el experimento? Argumente su respuesta.

R/ No existe diferencia estadísticamente significativa entre los días que se realizó


el experimento, ya que su Valor-p es de 0,4207, lo que nos determina que se
acepta la Ho dado que su valor-p es mayor a 0,05.

e) Verifique los supuestos de normalidad y de igual varianza entre las marcas.

R/ Normalidad:

Pruebas de Normalidad para efectibilidad


Prueba Estadísti Valor-P
co
Estadístico W de 0,94944 0,41763
Shapiro-Wilk 6

H 0 :losdatos siguenuna distribucion normal


Ha= los datos no siguen una distribucion normal

Se acepta la Ho ya que valor-p es mayor a 0,05, lo que significa que todos los
datos siguen una distribución normal.

Verificación de Varianza

Prueb Valor-P
a
de 1,0901 0,551858
Bartlett 4

H 0 :las varianzas son iguales


Ha= las varianzas son diferentes

Se acepta la Ho, ya que valor-p es mayor a 0,05, lo que significa que las varianzas
son iguales.

Prueba de aleatoridad o de independencia

H 0 :losdatos estan totalmente aleatorizados


Ha= los datos No estan totalmente aleatorizados

(1) Corridas arriba o abajo de la mediana

Mediana = 64,5

Número de corridas arriba o abajo de la mediana = 11

Número esperado de corridas = 10,0

Estadístico z para muestras grandes = 0,242956

Valor-P = 0,808035

Se acepta la Ho, ya que valor-p es mayor a 0,05, lo que significa que todos los
datos están aleatorizados.

5) Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y E)


sobre el tiempo de reacción de un proceso químico. Cada lote de material sólo
permite cinco corridas y cada corrida requiere aproximadamente 1.5 horas, por lo
que sólo se pueden realizar cinco corridas diarias. El experimentador decide correr
los experimentos con un diseño en cuadro latino para controlar activa mente a los
lotes y días. Los datos obtenidos son:

a) ¿Cómo se aleatorizó el experimento?

1. Se construye el cuadro latino estándar más sencillo.


2. Se aleatoriza el orden de los renglones (o columnas) y después se aleatoriza
el orden de las columnas (o renglones).
3. Por último, los tratamientos a comparar se asignan en forma alea toria a las
letras latinas.

b) Anote la ecuación del modelo y las hipótesis estadísticas correspondientes.

Hipotesis apropiada

Ho: µd1 = µd2 = µd3 = µd4

Ha: µi ≠ µj para todo alguna pareja de tratamientos

c) ¿Existen diferencias entre los tratamientos? ¿Cuáles tratamientos son


diferentes entre sí?
Según la prueba de múltiples rangos:
No existe una diferencia significativa entre los tratamientos.

d) ¿Los factores de ruido, lote y día afectan el tiempo de reacción del proceso?

Como ninguno de los factores tiene un valor-p menor que 0,05 se concluye que
no hay un efecto estadísticamente significativo.
e) Dibuje los gráficos de medias para los tratamientos, los lotes y los días. ¿Cuál
tratamiento es mejor?
Medias y 95,0% de Fisher LSD

10,5

8,5

tiempo de reaccion
6,5

4,5

2,5
1 2 3 4 5
Factor_C

Medias y 95,0% de Fisher LSD

10,5

8,5
tiempo de reaccion

6,5

4,5

2,5
1 2 3 4 5
dia

Medias y 95,0% de Fisher LSD

10,5

8,5
tiempo de reaccion

6,5

4,5

2,5
1 2 3 4 5
LOTE

f) Verifique los supuestos del modelo, considerando que los datos se obtuvieron
columna por columna, día a día.

Los datos si provienen de una distribución normal.


No se rechaza la hipótesis de que la serie de datos es aleatoria.

Se acepta el supuesto de varianzas iguales.

S-ar putea să vă placă și