Sunteți pe pagina 1din 15

Materia: Estadística Inferencial II IEG Carrera: Ingeniería en Gestión Empresarial

Clave de la asignatura: GEG-0908

Unidad V Diseño experimental con bloques al azar y diseños factoriales.

Objetivo Educacional (Competencia específica a desarrollar) Investiga el


comportamiento de dos o más factores en una variable de respuesta que permite mejorar
la calidad de un proceso, y estudia los diferentes bloques que podrían afectar las
respuestas para el desarrollo de experimentos.

Objetivo 5.1 Metodología del diseño experimental de bloques al azar.

En cualquier experimento, la variabilidad que surge de un factor perturbador puede afectar


los resultados. En general, un factor perturbador puede definirse como un factor del
diseño que probablemente tenga efecto sobre la respuesta, pero en el que no existe un
interés específico. En ocasiones un factor perturbador es desconocido y no controlable; es
decir se desconoce la existencia de ese factor e incluso puede tener niveles variables
mientras se está realizando el experimento. En otros casos, el factor perturbador es
conocido pero no controlable.

Cuando la fuente de variabilidad perturbadora es conocida y controlable, puede usarse


una técnica de diseño llamada formación de bloques para eliminar de manera sistemática
su efecto sobre las comparaciones estadísticas entre los tratamientos. La formación de
bloques es una técnica de diseño en extremo importante que se utiliza ampliamente en la
experimentación industrial.

Un diseño de bloques aleatorizado que contiene a tratamientos y b bloques consiste


de b bloques con a unidades experimentales cada uno. Los tratamientos se asignan al
azar a las unidades de cada bloque, apareciendo cada tratamiento exactamente una vez
en cada bloque.

Considerando un experimento diseñado para comparar la reacción de un individuo a un


conjunto de cuatro estímulos (tratamientos) en un experimento psicológico de estímulo-
reacción. Denotaremos los tratamientos como T1 , T2 , T3 y T4 .

Supongamos que se van a asignar al azar ocho individuos a cada uno de los cuatro
tratamientos. La asignación aleatoria de los individuos a los tratamientos distribuye
aleatoriamente los errores causados por la variabilidad de persona a persona entre los
cuatro tratamientos y produce cuatro muestras que son, para todo propósito práctico,
aleatorio e independiente. Este sería un diseño experimental completamente
aleatorizado.

El error experimental asociado con un diseño completamente aleatorizado contiene varios


componentes. Algunos de estos se deben a la diferencia entre individuos, a la
imposibilidad de que las mediciones repetidas en el mismo individuo sean idénticas
(debido a las variaciones en las condiciones físicas y psicológicas), a la imposibilidad de
que el experimentador produzca un estímulo dado con exactamente la misma intensidad
en mediciones repetidas, y finalmente, a errores de medición. La reducción de cualquiera
de estas causas de error aumenta la información del experimento.

1
La variación de individuo a individuo en el experimento anterior se puede eliminar usando
los individuos como bloques. De esta forma cada individuo recibiría los cuatro
tratamientos, asignados en una secuencia aleatoria. El diseño de bloques aleatorizado
sería como el que se muestra a continuación:

Individuos

1 2 3 4 … 8

T2 T4 T1 T1 T2
T1 T2 T3 T4 T
L 3
T4 T1 T2 T3 T4
T3 T3 T4 T2 T1
En este caso, sólo se requieren ocho individuos para obtener ocho observaciones por
tratamiento. Nótese que cada tratamiento aparece exactamente una vez en cada bloque.

La palabra “aleatorización” en el nombre del diseño implica que los tratamientos se


asignan aleatoriamente dentro de cada bloque. En nuestro experimento, la posición en el
bloque correspondería a la posición en la secuencia que asigna los estímulos a un
individuo dado, a través del tiempo. El propósito de la aleatorización (de la posición en el
bloque) es eliminar el sesgo causado por la fatiga o el aprendizaje.

Los bloques pueden representar tiempo, ubicación o material experimental. Así, si se van
a comparar tres tratamientos y se sospecha que la respuesta media varia con el tiempo,
entonces se puede eliminar una parte sustancial de la variación causada por la variación
con el tiempo, al formar los bloques. Los tres tratamientos se aplicarían al azar a las
unidades experimentales en un bloque pequeño de tiempo. Este procedimiento se
repetiría en bloques de tiempo sucesivos hasta que se obtenga la cantidad requerida de
datos.

Una comparación de las ventas de productos de varias marcas en los supermercados,


debe hacerse dentro de los supermercados, tomando así los supermercados como
bloques, lo que elimina la variación de supermercado a supermercado. Los experimentos
con animales en agricultura y medicina, frecuentemente utilizan las crías o camadas como
bloques, aplicando todos los tratamientos a los animales de una cría (un tratamiento a
cada animal).

2
El modelo general de un diseño de bloques completos al azar seria como el que se
muestra a continuación:

bloque 1 bloque 2 bloque “b”

y11 y12 y1b


y21 y22 y2b
y31 y32 … y3b
M M M
ya1 ya 2 yab

ANOVA PARA UN DISEÑO DE BLOQUES ALEATORIZADO

El diseño de bloques aleatorizado implica la presencia de dos variables cualitativas


independientes: “bloques” y “tratamientos”. Por consiguiente, la suma total de los
cuadrados de las desviaciones respecto a su media puede dividirse en tres partes: la
suma de cuadrados de los bloques, de los tratamientos y del error.

En un experimento en el que se use el diseño de bloques completos aleatorizado, el


interés se encuentra en probar la igualdad de las medias de los tratamientos. Por lo tanto
las hipótesis de interés son:

H 0 : 1 = 2 = ... = a
H1 : al menos una i   j
Una manera equivalente de escribir las hipótesis anteriores es en términos de los efectos
de los tratamientos:

H 0 :1 =  2 = ... a = 0
H1 : i  0 para al menos una i

Sea yi . el total de observaciones hechas bajo el tratamiento i, y. j el total de


observaciones del bloque j, y.. el gran total de las observaciones y N = ab el número
total de observaciones. Expresado matemáticamente:

b a
yi . =  yij j = 1, 2,..., a y. j =  yij i = 1, 2,..., b
j =1 i =1
a b a b
y.. =  yij =  yi . =  y. j
i =1 j =1 i =1 j =1

3
De manera similar, y i. es el promedio de las observaciones hechas bajo el tratamiento i,
y. j es el promedio de las observaciones del bloque j, y.. es el gran promedio de todas
las observaciones. Es decir:

yi . y. j y..
yi . = y. j = N
b a
Al expresar simbólicamente las sumas de cuadrados, se tiene:

SST = SSB + SSTratam. + SSE


Puesto que hay N observaciones, SST tiene N – 1 grados de libertad. Hay a tratamientos
y b bloques, de donde SSTratam. y SSB tienen a −1 y b −1 grados de libertad,
respectivamente. La suma de cuadrados del error es sólo la suma de cuadrados entre las
celdas menos las suma de cuadrados de los tratamientos y los bloques. Hay ab celdas
con ab -1 grados de libertad entre ellas, de donde SS E tiene
ab −1 − (a −1) − (b −1) = (a −1)(b −1) grados de libertad. Cada suma de cuadrados
dividida por sus grados de libertad es un cuadrado medio.

A continuación las formulas a utilizarse para el diseño en bloques completos al


azar:

SST = SSB + SSTrat . + SSE


2
 a b 
a b   yij 
2  i =1 j =1 
SST =  yij −
i =1 j =1 N
( suma de todas las observaciones ) 2
SST = ( suma de los cuadrados de todos los valores de y ) −
N

2
 a b 
  yij 
=  yi2. −  
1 a i =1 j =1
SSTrat
b i =1 N
2
 a b 
  yij 
SS B =  y.2j −  
1 b i =1 j =1

a j =1 N

4
suma de cuadrados de totales de tratamientos ( suma de todas las observaciones)2
SSTrat. = −
número de observaciones en cada total N

Y la suma de cuadrados del error se obtiene por sustracción como:

SSE = SST − SSTrat. − SSB


Tabla ANOVA para un diseño de bloques aleatorizado:

Fuente g. l. SS MS F
Tratamientos a −1 SSTrat . SSTrat. a −1 MSTrat. MSE
Bloques b −1 SSB SSB b −1 MSB MSE
Error (a −1)(b −1) SS E SSE (a −1)(b −1)
Total N-1 SST

PRUEBA F PARA COMPARAR a TRATAMIENTOS, USANDO UN DISEÑO DE


BLOQUES ALEATORIZADOS:

H0: Las medias de las poblaciones de los tratamientos son iguales

H1: Uno o más pares de medias poblacionales de los tratamientos son distintos.

MST
El estadístico de prueba: F0 = donde F está basada en:
MSE
v1 = (a −1) y v2 = (a −1)(b −1) o ( N − a − b +1) Grados de libertad.

Región de rechazo: Rechazar H0 si F0  F


La introducción de bloques no sólo reduce el error en el experimento, sino que también
proporciona una oportunidad para ver si existe evidencia que indique que hay diferencia
entre las respuestas medias de los bloques. Bajo la hipótesis nula de que no hay
diferencia entre las respuestas medias de los bloques, MS B proporciona un estimador
insesgado de  basado en (b-1) grados de libertad. Cuando existe una diferencia real
2

entre las medias de los bloques, MS B tiende a estar inflado en comparación con MS E .
Por lo tanto:

MSB
F=
MSE

5
Se puede usar como estadístico de prueba para detectar diferencias entre las medias de
los bloques. La región de rechazo es:

F  F

Basado en v1 = b −1 y v2 = N − b − a + 1 grados de libertad

Sin embargo, se puede argumentar que hacer lo anterior no es necesario, que el único
propósito de establecer bloques es proporcionar medios más eficientes para probar los
efectos de tratamientos mediante la reducción del error experimental.

Existen diferentes puntos de vista entre los experimentadores acerca de usar o no el


estadístico F = MS B MS E en el procedimiento ANOVA. Algunos consideran que sólo es
necesario para investigar el efecto de la variable formación de bloques, examinar este
cociente es muy razonable. Si este cociente es muy grande, implica que el factor
formación de bloques tiene un efecto considerable y que la reducción del ruido obtenida
por la formación de bloques fue útil para mejorar la precisión de la comparación de
medias de los tratamientos.

Ejemplo: 1

Se consideran cuatro diferentes máquinas, M1, M2, M3, y M4, para el ensamblaje de un
producto particular. Se decide que se utilizarán seis operadores diferentes en un
experimento de bloques aleatorizado para comparar las máquinas. Las máquinas se
asignan en orden aleatorio a cada operador. La operación de las máquinas requiere
destreza física y se anticipa que habrá una diferencia entre los operadores en la rapidez
con la que operan las máquinas (ver tabla de abajo). Se registra la cantidad de tiempo (en
segundos) para ensamblar producto:

1er. Paso.

TIEMPO EN SEGUNDOS PARA ENSAMBLAR EL PRODUCTO

MAQUINA OPERADOR ∑ 𝑦𝑖.


1 2 3 4 5 6
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8
2 39.8 40.1 40.5 42.3 42.5 43.1 248.3
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4
∑ 𝑦.𝑗 163.8 162.1 164.9 169.8 176.2 174.1 1010.9

Pruebe la hipótesis H0, en el nivel de significancia de 0.05, de que las máquinas funcionan
a la misma tasa media de velocidad α=µ por lo tanto.

2do. Paso.

H0: µ1= µ2 = µ3 = µ4 = 0 (Los Efectos de la maquina son cero)

H1: Al menos una de las µi´s no es Igual a cero.

6
También la formulación de las hipótesis podría ser:

H0: α1= α2 = α3 = α4 = 0 (Los Efectos de la maquina son cero)

H1: Al menos una de las αi´s no es Igual a cero.

3er. Paso. Calcula los grados de libertad:

Grados de libertad = v1= (a-1), v2= (a-1) (b-1) por lo tanto v1= 3 y v2=15, α = 0.05

a = Tratamientos o Niveles. a = 4

b = Bloques, b = 6

N= a * b

Entonces tenemos que: F v1= 3 y v2=15, α = 0.05= 3.29

4to Paso. Calcular los datos que se presentan en el arreglo rectangular.

1010.92
SST = 42.52 + 39.82 + ...... + 42.32 − = 81.86
24
247.82 + 248.32 + 255.42 + 259.42 1010.92
SSTrat . = − = 15.93
6 24

163.82 + 162.12 + 164.92 + ........... + 174.12 1010.92


SS B = − = 42.09
4 24

SS E = SST − SSTrat . − SS B = 81.86 − 15.93 − 42.09 = 23.84

5to. Paso

MST SSTrat . SS E
FO = = 3.34 MST = MS E =
MS E a −1 ( a − 1)( b − 1)
Pero también está el estadístico se prueba para bloques:

SS B 42.09
FB =
MS B
= b −1 = 5 = 8.18 = 5.17
MS E SS E 23.84 1.58
(a − 1)(b − 1) 15

7
6to Paso Decisión: Se rechaza la HO y se concluye que las maquinas no se comportan a
la misma velocidad promedio. El valor de P es ligeramente Inferior a 0.05.

La tabla ANOVA quedaría como sigue:

Fuente de Suma de Grados de Cuadrados Calculada Fo


Variación Cuadrados Libertad Medios
Maquinas 15.93 3 5.31
Operadores 42.09 5 8.42 3.34
Error 23.84 15 1.59
Total 81.86 23 Ho se rechaza

EJEMPLO 2:

Un químico quiere probar el efecto de cuatro agentes químicos sobre la resistencia de un


tipo particular de tela. Debido a podría haber variabilidad de un rollo de tela a otro, el
químico decide usar un diseño de bloques aleatorizado, con los rollos de tela
considerados como bloques. Selecciona cinco rollos y aplica los cuatro agentes químicos
de manera aleatoria a cada rollo. A continuación se presentan las resistencias a la tensión
resultantes. Analizar los datos de este experimento (utilizar  = 0.05 ) y sacar
conclusiones apropiadas.

H0: µ1= µ2 = µ3 = µ4 = 0 (Los Efectos de los agentes quimicos son cero)

H1: Al menos una de las µi´s no es Igual a cero.

Agente
químico 1 2
Rollo ( Bloques)
3 4 5
yi.
1 73 68 74 71 67 353
2 73 67 75 72 70 357
3 75 68 78 73 68 362
4 73 71 75 75 69 363
y. j 294 274 302 291 274 y..= 1435

Estos Objetivos, Realizar una Investigación Minuciosa y hacer una hoja de presentación y
entregar en archivo Electrónico. Agregar las direcciones o bibliografías donde se llevó a
cabo la investigación del trabajo.

Objetivo 5.2 Diseño de experimentos factoriales.


Objetivo 5.3 Diseño factorial 2^K.

8
Objetivo 5.4 Diseño de cuadrados latinos.

El diseño de bloque aleatorizado es muy efectivo para reducir el error experimental al


eliminar una fuente de variación. Otro diseño que es muy útil para controlar dos fuentes
de variación y que al mismo tiempo reduce el número requerido de combinaciones de
tratamientos, recibe el nombre de cuadrados latinos. Supóngase que se está interesado
en los rendimientos de cuatro variedades de trigo utilizando 4 diferentes fertilizantes
durante un periodo de 4 años. El número total de combinaciones de tratamiento para un
diseño completamente aleatorizado sería de 64. Al seleccionar el mismo número de
categorías para los tres criterios de clasificación, puede escogerse un diseño en
cuadrados latinos y llevar a cabo el análisis de varianza utilizando los resultados de solo
16 combinaciones de tratamientos. Un cuadrado latino ordinario, seleccionado al azar de
todos los posibles 4 x 4 cuadrados, podría ser el siguiente:

Columna
Región 1 2 3 4
1 A B C D
2 D A B C
3 C D A B
4 B C D A

Las cuatro letras A, B, C, y D representan las cuatro variedades de trigo que se


consideran como los tratamientos. Los renglones y las columnas, representadas por
los 4 fertilizantes y los 4 años, respectivamente, son las dos fuentes de variación que
desean controlarse. Se ve ahora que cada tratamiento ocurre exactamente una vez en
cada renglón y en cada columna. Con tal arreglo balanceado, el análisis de varianza
permite separar la variación debida a los diferentes fertilizantes y años de la suma de
cuadrados del error y de esta manera obtener una prueba más exacta para las diferencias
en las capacidades de rendimiento de las cuatro variedades de trigo. Cuando existe
interacción entre cualquiera de las fuentes de variación, los valores F en el análisis de
variancia ya no son válidos. En este caso el diseño de cuadrados latinos sería
Inapropiado.

Ahora se generalizara y se considerara el cuadrado latino r x r, donde yijk representa una


observación en el i-ésimo renglón y la j-ésima columna correspondiente a la k-ésima letra.
Nótese que una vez que se especifica i y j para el cuadrado latino en particular,
automáticamente se conoce la letra dada por k. por ejemplo, cuando i=2 y j=3 en el
cuadrado latino 4 x 4 anterior, se tiene k = B. De aquí que k es una función de i y j. Si αi y
βj son los efectos del i-ésimo renglón y de la j-ésima columna,  k es el efecto del k-
e´simo tratamiento, µ la media principal y εijk el error aleatorio, entonces puede escribirse:

yijk = µ + αi + βj +  k + εijk,

9
Sobre la cual se imponen restricciones:

 =   = 
i
i
j
j
k
k =0
Igual que antes, se asume que las yijk son valores de variables aleatorias independientes
que tienen distribuciones normales con medias:

µijk = µ + αi + βj +  k

y variancia común σ2.

La hipótesis a probar es como sigue:

HO = α1 = α2 =………..= αr = 0

H1 = al menos una de las αi ‘s no es igual a cero.

Esta prueba se basara en una comparación de estimaciones independientes de σ2


proporcionada por la división de la suma total de cuadrados de los datos en cuatro
componentes por medio de la siguiente identidad.

2
 
 ( ) i  i  j j ( ) (
k k )  ( )
2 2 2 2
yijk − Y ... = r Y .. − Y ... + r Y . . − Y ... + r Y .. − Y ... + yijk − Yi .. − Y  . j . − Y ..k + 2Y ...
i j k i j k

Simbólicamente, se escribe la identidad de suma de cuadrados como:

SST = SSR + SSC + SSTr + SSE

Donde:

SSR = Suma de cuadrados del renglón.

SSC = Suma de cuadrado de columna.

SSTr = Suma de cuadrados de tratamiento.

SSE = Suma de cuadrado del Error.

Los grados de libertad se dividen de acuerdo con la identidad:

r2 -1= (r-1) + (r-1) + (r-1) + (r-1)(r-2)

10
Al dividir cada una de las sumas de cuadrados en el lado derecho de la identidad de
sumas de cuadrados por su correspondiente número de grados de libertad, se obtienen
cuatro estimaciones independientes De σ2, que se pueden calcular con las siguientes
ecuaciones:

SSR SSC SSTr SSE


S12 = S22 = S32 = S2 =
r −1
, , ,
r −1 r −1 (r − 1)(r − 2)
Al interpretar la suma de cuadrados como funciones de variables aleatorias.

r   i2
 SSR 
E ( S12 ) = E   =2 + i
 r − 1 r −1

r   j2
 SSC 
E ( S 22 ) = E  =  2
+ j

 r − 1  r −1

r  k2
 SSTr 
E ( S32 ) = E   =  + r − 1
2 k

 r −1

 
E (S2 ) = E 
SSE
 =2
 (r − 1)(r − 2) 

11
Análisis de varianza para un cuadrado latino r x r

Fuente de Suma de Grados de Cuadrados Calcular Fo


Variación Cuadrados Libertad Medios
Renglón SSR r-1 SSR
S12 =
r −1
Columna SSC r-1 SSC
S22 =
r −1 FO =
S32
Tratamientos SSTr r-1 SSTr S2
S32 =
r −1
Error SSE (r – 1)(r – 2) SSE
S2 =
(r − 1)(r − 2)
Total SST r2 - 1

El análisis de Variancia indica la prueba F apropiada para tratamientos. Dado que el


subíndice k de la observación yijk es una función de i y j, será ventajoso para escribir las
formulas de cálculo de las sumas de cuadrados, introducir la siguiente notación:

Ti.. = Suma de las observaciones en el i-ésimo renglón.

T.j. = Suma de las observaciones en la j-ésima columna.

T..K = Suma de las observaciones para el tratamiento k.

T… = Suma de todas las observaciones r2.

Ahora las sumas de cuadrados se calculan con facilidad por medio de las siguientes
formulas:

Formulas de cálculo de suma de cuadrados:

2
T•••
SST =    y 2
ijk − 2
i j k r

T 2
i .. 2
T•••
SSR = i

r r2

12
T 2
. j. 2
T•••
SSC = j
− 2
r r
T 2
.. k 2
T•••
SSTr = k
− 2
r r

SSE = SST − SSR − SSC − SSTr

Ejemplo: Para ejemplificar el análisis de un diseño de cuadrado latino, se volverá al


experimento en el cual las letras A, B, C y D, representan 4 variedades de trigo, los
renglones 4 diferentes fertilizantes y las columnas a 4 diferentes años. Los datos en la
tabla son los rendimientos para las 4 variedades de trigo medidos en kilogramos por
parcela. Se supone que las diversas fuentes de variación no interactúan. Con un nivel de
significancia de 0.05, pruebe la hipótesis de que HO: No hay diferencia en los rendimientos
promedio de las 4 variedades de trigo.

Tratamiento Años
del 1981 1982 1983 1984
Fertilizante
t1 A 70 B 75 C 68 D 81
t2 D 66 A 59 B 55 C 63
t3 C 59 D 66 A 39 B 42
t4 B 41 C 57 D 39 A 55

Solución:

1.- HO: α1 = α1 = α1 = α1 = 0

2.- H1: Al menos una de las αi´S no es igual cero.

3.- α = 0.05

4.- Región Crítica: f1 > 4.76 v1= 3 gl numerador, v2= 6 denominador gl

5.- Cálculos: A partir de los datos de la tabla anterior se encuentra que los totales del
renglón, columna, y el tratamiento son:

T1.. = 294 , T2.. = 243 , T3.. = 206 , T4.. = 192

13
Fuente de Suma de Grados de Cuadrados Calcular Fo
Variación Cuadrados Libertad Medios
Renglón 1557 3 519.000
Columna 418 3 139.000 2.02
Tratamientos 264 3 88.000
Error 261 6 43.500
Total 2500 15

T.1. = 236 , T.2. = 257 , T.3. = 201 T.4. = 241

T..A = 223 , T..B = 213 T..C = 247 T..D = 252

De aquí que:

9352
SST = 70 + 75 + .... + 55 −
2 2
= 25002

16

2942 + 2432 + 2062 + 1922 9352


SSR = − = 1557
4 16

2362 + 2572 + 2012 + 2412 9352


SSC = − = 418
4 16

2232 + 2132 + 2472 + 2522 9352


SSTr = − = 264
4 16

SSE = 2500 − 1557 − 418 − 264 = 261


Estos resultados, junto con los cálculos restantes, se dan en la tabla anterior

14
6.- Decisiones: No se rechaza la hipótesis H O. Se concluye que las variedades de trigo no
afectan significativamente el rendimiento.

Ejemplo: El departamento de matemáticas de una universidad desea evaluar las


capacidades de enseñanza de 4 profesores. Con objeto de eliminar cualesquiera efectos
debidos a los diferentes cursos de matemáticas y a las diferentes horas del día, se decidió
llevar a cabo un experimento utilizando un diseño en cuadrado latino, en el cual las letras
A, B, C, y D representan a los cuatro diferentes profesores. Cada profesor impartió una
sección de cada uno de 4 diferentes cursos programados en cada uno de los 4 horarios
durante el día. Los datos de la siguiente tabla muestran las calificaciones asignadas por
estos profesores a 16 estudiantes de aproximadamente la misma capacidad:

Periodo CURSO
de Algebra Geometría Estadística Calculo
Tiempo
1 84 A 79 B 63 C 97 D
2 91 B 82 C 80 D 93 A
3 59 C 70 D 77 A 80 B
4 75 D 91 A 75 B 68 C

Utilice un nivel de significación de 0.05 y pruébela hipótesis de que diferentes


profesores no tienen efecto sobre las calificaciones.

Objetivo 5.2 Diseño de experimentos factoriales.


Objetivo 5.3 Diseño factorial 2^K.
Objetivo 5.5 Diseño de cuadrados grecolatinos

Realizar una investigación y definir en media cuartilla cuales son las características
principales de estos objetivos y cuales son la distribución de muestreo apropiada para su
aplicación hoja de presentación. Entregar archivo electrónico.

15

S-ar putea să vă placă și