Sunteți pe pagina 1din 6

Dise

no Experimental de un Factor
Completamente Aleatorio
Juan Carlos Figueroa-Garca
Estadstica Inferencial - Ingeniera Industrial
Universidad Distrital
14/05/2015
Los Dise
nos de experimentos son modelos estadsticos clasicos cuyo objetivo
es averiguar si unos determinados factores influyen en una variable de interes,
y si existe influencia de alg
un factor, cuantificarla. Ejemplos donde habra que
utilizar estos modelos son los siguientes:
En el rendimiento de un determinado tipo de maquinas (unidades producidas por da) se desea estudiar la influencia del trabajador que la maneja
y la marca de la maquina.
Se quiere estudiar la influencia del tipo de pila electrica y de la marca en
la duraci
on de las pilas.
Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para
ello se desean controlar diferentes factores: mtodo de enseanza; sexo del
alumno, etc.
Siempre se deben considerar los siguientes aspectos clave:
Se define una Variable de Inter
es a medir, que denotamos por y. Esa
variable es la que se mide y tabula con el fin de analizar los hallazgos.
Se establece un Factor o fuente de variacion que denotaremos pot .
Consideraremos un modelo que solamente considera un factor que tiene
diferentes niveles denotados por el subndice i a, donde cada uno de los
niveles del factor se conoce como Tratamiento. As pues, se tienen i
niveles del factor o a tratamientos.
Se deben definir una serie de Unidades Observacionales a las cuales se
les mide el efecto de uno de los tratamientos previamente establecidos. En
general se deben asignar el mismo nmero de unidades observacionales a
cada tratamiento con el fin de tener uniformidad en los grados de libertad.
De esta manera se tendran j n observaciones para cada tratamiento i,
en total tenemos a tratamientos y n observaciones por tratamiento, un
total de N = n a observaciones.
1

En general, nos referiremos a in dise


no de un solo factor a una estrategia que
intencionalmente tiene una u
nica fuente variacion o factor en la cual intentaremos contrastar el efecto que tienen diferentes tratamientos. Las unidades observacionales se asignan de manera aleatoria a cada nivel del factor que queremos
medir.
Ejemplo de eso es un experimento en el cual se planea evaluar el efecto que
tiene hacer 3 diferentes setups a un tipo de maquina determinado, y se realizan
15 pruebas de desempe
no por cada una de las configuraciones que se desean
evaluar, con lo cual se deben asignar aleatoriamente 45 unidades observacionales
a los 3 tratamiento.
M
as formalmente, se trata de un problema de a tratamientos o niveles del factor que denotaremos por i, en donde se realizan n observaciones por tratamiento,
cuyo resultado es una variable aleatoria o variable respuesta que se denota por
yij . As pues habr
an n observaciones para el i-esimo tratamiento o nivel del
factor. Matricialmente se tiene:
Tratamiento
1
2
..
.

y11
y21
..
.

ya1

Observaciones
y11 y1n
y21 y2n
..
..
.

.
ya1

yan

Total
y1.
y2.
..
.

Promedio
y1.
y2.
..
.

ya.
y..

ya.
y..

Table 1: Tabulacion de datos


Recordemos que en total tendramos N = a n observaciones, donde cada
observaci
on yij se puede descomponer en 2 componentes: Un efecto del factor
i denotado por i y un error asociado a la observaci
on j denotado por ij que
corresponde a todo efecto no controlado u oscilacion aleatoria, de esta manera
tenemos:
yij = i + ij , i = 1, 2, , a; j = 1, 2, , n
Tambien se puede descomponer la media i en dos componentes: el efecto
de la media general de los datos y el efecto palpable del tratamiento i , por
lo cual tenemos
i = + i , i = 1, 2, , a
Finalmente tendramos:
yij = + i + ij , i = 1, 2, , a; j = 1, 2, , n
Si asumimos que los efectos son fijos, es decir conocidos desde el inicio del
experimento, podemos reescribir las siguientes estadsticas:
X
yi.
yij , yi. =
yi. =
n
j

y.. =

XX
i

yij ,

y.. =

y..
N

La idea principal del Analisis de Varianza se centra en evaluar si los tratamientos tienen efectos diferentes o no, lo cual implica que haya una diferencia entre
las medias de los tratamientos. Si las i medias son iguales, entonces no existe
variabilidad en la respuesta medida debido a los tratamientos, mientras que si
hay alguna media diferente a las dem
as, entonces existe un efecto debido a uno
de los tratamientos. Esto lo podemos expresar como la siguiente prueba de
hip
otesis:
H0 : 1 = 2 = = a
H1 : i 6= j

por lo menos para un par (i,j)

Si la hip
otesis nula se cumple, tenemos que la media global es igual a la
de los tratamientos i ya que no habra efecto alguno, se puede expresar como:
P
i
= i
a
Y adicionalmente se supone que bajo la hipotesis nula no existira efecto de
los tratamientos es cero:
X
i = 0
i

Lo cual equivale a la suguiente hipotesis nula:


H0 : 1 = 2 = = a = 0
H1 : i 6= 0 por lo menos para un i
Desde el punto de vista constructivista de la hipotesis H0 basada en las
medias, no tiene sentido hacer comparaciones m
ultiples exhaustivas con el fin
de evaluar si existe alg
un tratamiento diferente o si por lo contrario todos son
iguales, por lo que recurrimos a construir una prueba f basada en estadsticas
cuadraticas conocidas como Sumas de Cuadrados. As pues, podemos reescribir
nuestras fuentes de variaci
on de la siguiente manera:
SST = SStr + SSE
donde SST es la suma de cuadrados total de los datos que se puede descomponer
en SStr que es la suma de cuadrados de los tratamientos (tambien conocida como
entre tratamientos) y SSE que es la suma de cuadrados del error aleatorio o no
controlable (tambien conocida como dentro de tratamientos).
De esta manera el An
alisis de Varianza se centra en descomponer SST
en sus fuentes de variaci
on, que en este caso sera el efecto de los tratamientos
conocidos de un solo factor. Realmente SST es la suma de las deviaciones
cuadraticas de yij respecto a la media global y.. , mas formalmente:
XX
(yij y.. )2
SST =
i

Si sumamos y restamos (para no modificar el resultado) la media de cada


tratamiento yi. tenemos
XX
XX
(
yi. yi. + yij y.. )2
(1)
(yij y.. )2 =
SST =
i

XX

=
=

XX
i

i
2

[(
yi. y.. ) + 2
2

(
yi. y.. ) +

XX
i

N
otese que:
2

(
yi. y.. )(yij yi. ) +

j
2

(yij yi. ) + 2

XX
i

XX
i

(yij yi. )2 ]

(
yi. y.. )(yij yi. )

XX
(
yi. y.. )(yij yi. ) = 0
i

[(
yi. y.. ) + (yij yi. )]2

XX
i

i. ) = 0 (Por favor descomponer y demostrarlo).


Ya que
j (yij y
Tenemos finalmente que:
XX
X
XX
(yij yi. )2
(
yi. y.. )2 +
(yij y.. )2 = n
SST =
i

As pues, la suma de cuadrados de los tratamientos SST r es:


X
(
yi. y.. )2
SST r = n

(2)

Y la suma de cuadrados del error SSE es:


XX
(yij yi. )2
SSE =
i

(3)

Grados de libertad Los grados de libertad se calculan de manera directa


de la siguiente manera: Para SST r tenemos a observaciones disponibles (los a
promedios de cada tratamiento) y tenemos que calcular y.. (la media global),
por lo tanto se tienen a 1 grados de libertad de a valores disponibles donde se
pierde un grado debido a que hay que calcular y.. .
Dentro de SSE tenemos N = a n observaciones disponibles y tenemos que
calcular a promedios de los tratamientos yi. , por lo tanto perdemos a grados de
libertad y en total tenemos N a grados de libertad del error.
Finalmente la suma de los grados de libertad total de todos los efectos conjuntos conforman los grados de libertad de SST , as pues a 1 + N a = N 1
grados de libertad totales.

Cuadrados Medios Si nos damos cuenta, tenemos en general 3 cantidades


cuadraticas que est
an definidas por promedios de variables aleatorias, lo cual nos
conduce a pensar que dichas cantidades divididas por sus grados de libertad se
distribuyen Chi-Cuadrado. Dichas variables las denominaremos Cuadrados
Medios denotados por M S; de la siguiente manera:
SST r
(4)
a1
SSE
M SE =
(5)
N a
SST
M ST =
(6)
N 1
En terminos generales, si no existe efecto alguno de los tratamientos entonces las fluctuaciones que tienen los tratamientos respecto a sus grados de
libertad deberan ser similares a las del error respecto a sus grados de libertad.
En otras palabras, las medias de los tratamientos deberan tener las misma varianza respecto a la media global que la varianza de las observaciones respecto a
las medias de los tratamientos. As pues, lo que podemos hacer para verificar
nuestra hipo
otesis nula es cons trur una prueba f con el fin de contrastar SST r
y SSE ; si ambas son iguales es porque no hay efecto de ning
un tratamiento
dentro de la media global, por ende todas las medias de los tratamientos seran
iguales, y su varianza correspondera a la de las observaciones frente a las medias
de los tratamientos.
Por otra parte si existe alg
un tratamiento significativamente diferente, entonces esto afectara la media de el/los tratamiento/s diferente/s e incrementar
a
SST r respecto a SSE . Esto finalmente implicara rechazar la Hip
otesis Nula.
Nuestra prueba f se construye entonces a partir de los cuadrados medios a
traves del siguiente estadstico muestral:
M ST r =

f0 =

M ST r
M SE

Y se contrasta contra el estadstico de prueba f1,a1,N a ya que es una


prueba unilateral (note que no existe manera alguna que los tratamientos tengan
menor varianza que las observaciones).
Para resumir el analisis, lo mas com
un es utilizar una tabla resumen llamada
Tabla ANOVA, la cual presentamos a continuacion:
Fuente de
Variaci
on
Tratamientos
Error
Total

Suma de
Cuadrados
P
SST r =
yi. y.. )2
Pn Pi (
(yij yi. )2
SSE =
i
j
P P
.. )2
SST =
i
j (yij y

Grados de
Libertad
a1
N a
N 1

Cuadrado
Medio
MST r = SST r /a 1
MSE = SSE /N a

f0
f0 = MST r /MSE

Table 2: Tabla ANOVA para el modelo de un solo factor completamente aleatorio


De esta manera se contrasta f0 contra f1,a1,N a para verificar H0 o
rechazarla.
5

Ejercicio de aplicaci
on.
La idea central del ejercicio es ver si existe alguna diferencia entre el n
umero
de llamadas abandonadas por hora a un Call center de acuerdo a alguna de 5
estrategias de enrutamiento que se probaron. As pues tenemos un u
nico factor
que es la estrategia de enrutamiento con 5 tratamientos que son cada una de
las estrategias adoptadas, donde se miden las llamadas perdidas por hora a 12
diferentes operadores por cada estrategia. Nuestra variable yij es en n
umero de
llamadas abandonadas y se asignaron 60 operadores (unidades observacionales)
en total, 12 por cada tratamiento.
Los datos se encuentran en el archivo anexo Call Center.txt. La primera
hiptesis que planteamos refiere a la idea que no existe efecto de las estrategias de
asignacion de llamadas a los operadores, es decir que en promedio las llamadas
perdidas son iguales para todos los tratamientos:
H0 : 1 = 2 = 3 = 4 = 5
H1 : i 6= j por lo menos para un par (i,j)
Dicha hip
otesis se constrasta con una Tabla ANOVA, cuyos resultados se
muestran a continuacion:
Fuente de
Variaci
on
Tratamientos
Error
Total

Suma de
Cuadrados
47.43
86.75
134.18

Grados de
Libertad
4
55
59

Cuadrado
Medio
11.86
1.58

f0
7.52

Table 3: Tabla ANOVA para el ejemplo del Call Center

Para probar H0 contrastamos f0 contra f1,a1,N a = f0.95,4,50 = 2.54


para verificar H0 o rechazarla. Dado que 7.52 > 2.54 no existe evidencia estadstica suficiente para aceptar H0 a un nivel de confianza del 0.05, por tanto
existe un efecto de las estrategias de asignacion de llamadas en el Call Center.
Por favor verificar todos los c
alculos realizados.

S-ar putea să vă placă și