Dca o Al Azar Con RRRRR

Diseo Completamente Aleatorizado
Vctor Maehara
DISEO COMPLETAMENTE ALEATORIZADO O AL AZAR
Este diseo experimental es el ms simple de todos los diseos experimentales y til cuando
las unidades experimentales son esencialmente homogneas; es decir cuando la variacin
entre ellas es pequea que al agruparlas en bloques la ganancia en precisin sera
insignificante. En este diseo los tratamientos se asignan aleatoriamente a las unidades
experimentales sin imponer restriccin. Es decir, cada unidad experimental tiene la misma
oportunidad o probabilidad de recibir un tratamiento. Esto puede realizarse mediante el uso de
nmeros aleatorios.
Ejemplo Se desea comparar los rendimientos de tres variedades de un cultivar: A, B y C.
Suponga que se cuenta con 15 parcelas(numeradas del 1 al 15) y se decide usar 5 repeticiones
por tratamiento. Entonces en la tabla de nmero aleatorio dada en el libro de Steel y Torrie
(tabla A1) se eligi aleatoriamente un punto de partida (puede ser eligiendo un nmero
aleatoria para pgina, otra para fila y otro para columna) de este punto de partida se elige
verticalmente y en forma consecutiva 15 nmeros aleatorios de tres dgitos, luego se rankea
estos nmeros asignando el nmero 1 al menor, el nmero 2 al siguiente y as sucesivamente
hasta llegar asignar el nmero 15 al mayor de todo. Los 5 primeros nmeros aleatorios da
origen a las parcelas (de acuerdo al rango asignado) las parcelas que se le aplicarn el
tratamiento A, los 5 siguiente el tratamiento B y los 5 ltimos las parcelas que se le aplicarn
el tratamiento C. Suponga se obtuvo los siguientes nmeros aleatorios:
Nmero aleatorio
Rango (Tratamiento A)
Nmero aleatorio
Rango (Tratamiento B)
Nmero aleatorio
Rango (Tratamiento C)
118
1
638
5
687
6
701
8
901
13
938
14
789
9
841
11
377
2
965
15
396
4
392
3
688
7
802
10
848
12
Con el R
> runif(15)
[1] 0.88531918 0.67671878 0.33055180 0.78807129 0.99752578 0.84816566
[7] 0.72926011 0.74283935 0.28981326 0.88392633 0.60864244 0.99716336
[13] 0.49769922 0.80065374 0.08644736
0.88531918 0.67671878 0.33055180 0.78807129 0.99752578
13
6
3
9
14
0.84816566 0.72926011 0.74283935 0.28981326 0.88392633
11
7
8
2
12
0.60864244 0.99716336 0.49769922 0.80065374 0.08644736
5
15
4
10
1
Tratamiento A
Tratamiento B
Tratamiento C
Ventajas
1)
Este diseo es flexible en cuanto a que el nmero de tratamiento y repeticiones slo
est limitado por el nmero de unidades experimentales.
2)
El nmero de repeticiones puede variar de un tratamiento a otro, aunque generalmente
lo ideal es tener el mismo nmero de repeticiones por cada tratamiento
6
Vctor Maehara
3)
El anlisis estadstico es simple, aun cuando se pierde unidades experimentales o
tratamientos completos, el diseo se mantiene es decir sigue siendo un diseo completamente
al azar
4)
El nmero de grados de libertad para estimar el error experimental es mximo, esto
mejora la precisin del experimento, lo cual toma mayor importancia con experimento
pequeo (en aquellos cuyos grados de libertad para el error es menor a 20).
Desventaja
Su principal desventaja es su ineficiencia, debido a que el error incluye toda la variacin entre
las unidades experimentales excepto a la debida a los tratamientos.
Diseo completamente Randomizado con una observacin por unidad experimental
Cuadro de datos: Suponga que se desea comparar t tratamientos. El tratamiento i cuenta con
ni repeticiones y de cada unidad experimental se obtiene una observacin. Luego, se obtiene
el siguiente cuadro de datos:
Totales
Tratamiento
Y11 Y12
Y1n1
Y1.
N de
Media
observaciones
n1
Y1.
Y21 Y22
Y2n2
Y2.
n2
Y2.
Yt1
Yt 2
Ytnt
Yt .
nt
Yt .
Totales
ni
Y.. Yij
i 1 j 1
ni
Donde: Yi. Yij , Yi.

j 1
Yi.
, para i 1, 2,
ni
n. ni
Y..
i 1
Y..
n.
,t
Modelo aditivo lineal

Yij i ij
para i 1, 2,
j 1, 2,
,t
, ni
donde:
Yij = Es la observacin o respuesta que se obtiene de la unidad experimental que
constituye la j-sima repeticin del tratamiento i .
= Es el parmetro comn para todos los tratamientos llamado media comn.

i = Es el parmetro que representa el efecto verdadero del i -simo tratamiento.
Vctor Maehara
ij = Es un componente aleatorio no observable llamado comnmente error.

Para las pruebas de hiptesis se asume que ij es una variable independiente distribuida
normalmente con media cero y variancia comn 2 (esto es, ij ~ N 0, 2 ).
En un diseo experimental de acuerdo con el tipo de efecto que se desea analizar se presenta
dos tipos de modelo:
Modelo de efectos fijos (modelo I) Ocurre cuando los niveles del factor son especificado o
fijado por el investigador.
Modelo de efectos aleatorios (Modelo II) Ocurre cuando los niveles del factor son elegidos al
azar de una poblacin grande.
Anlisis de modelos de efectos fijos
En un modelo de efectos fijos, los efectos de los tratamientos son definidos como
desviaciones de la media de la respuesta obtenido con cada tratamiento con respecto a la
media comn, de manera tal que:
t
ni
i 1 j 1
Estimacin de parmetros: Para realizar la estimacin de parmetros se usar el mtodo de

los mnimos cuadrados, el cual consiste en encontrar los valores de y i ( i 1, 2, t ) que
minimiza la suma de cuadrados de los errores:
ni
ni
Q Yij i
t
i 1 j 1
2
ij
i 1 j 1
Estos valores sern denotados por y i ( i 1, 2,

Aplicando este mtodo se tiene:
t ).
ni
t
Q
2 Yij i 0
, i
i 1 j 1
Q
i
ni
2 Yij i 0 , para i 1, 2,
i 1
, i
Lo cual es equivalente a:
t
ni
j 1
n. i Y..
ni nii Yi.
para i 1, 2,
t
8
Vctor Maehara
Al sistema de ecuaciones dado anteriormente se le llama sistema de ecuaciones normales, la

cual tiene mltiples soluciones. Para obtener una solucin se aplica restricciones:
t
n
i 1
i i
Con esta restriccin el sistema se reduce a:
n. Y..
ni nii Yi.
para i 1, 2,
Resolviendo se tiene la siguiente solucin:
Y..
i
Y..
n.
Yi.
Y..
ni
para i 1, 2,
Al valor
Yij i
Yij Yi. ,
para i 1, 2,
t,
j 1, 2,
ni
se le llama valores ajustado de la j -sima repeticin del tratamiento i .

De esto se puede obtener los residuos del modelo:
eij Yij Yij
eij Yij Yi. ,
para i 1, 2,
t,
j 1, 2,
ni
Anlisis de Variancia (Modelo I)

En un modelo de efectos fijos, es de inters en probar la siguiente hiptesis:
H 0 : 1 2
t 0 , contra
H a : i 0 , para al menos un i .
Si hacemos
i i , para i 1, 2,
Vctor Maehara
entonces un estimador de i est dado por i Yi. y las hiptesis dados anteriormente puede
ser expresado como:
H 0 : 1 2 t , contra
H a : al menos dos i son diferentes
El procedimiento de prueba adecuado para probar estas hiptesis es el Anlisis de Variancia,

el cual consiste en descomponer la variabilidad total en sus fuentes. Esto es,
ni
Y
t
i 1 j 1
ni
ij Y.. ni Yi . Y.. Yij Yi .

2
i 1
i 1 j 1
donde:
ni
ni
SCTotal Yij Y.. Yij2

t
i 1 j 1
i 1 j 1
SCTrat ni Yi. Y..

i 1
ni
SCE Yij Yi.

t
i 1 j 1
Y..2
= Medida de la variacin total
n.
Yi.2 Y..2
= Medida de la variacin que existe entre los

n.
i 1 ni
tratamientos.
t
ni
Yi.2
Y = Medida de la variacin que existe dentro de
i 1 j 1
i 1 ni
cada tratamiento.
t
2
ij
Se puede observar que:

SCE SCTotal SCTrat
Adems al trmino:
TC
Y..2
n.
Cuadrados Medios y sus Valores Esperados: Los cuadrados medios se define como el
cociente entre la suma de cuadrados y sus respectivos grados de libertad. Para un DCA se
tiene:
CMTrat SCTrat / t 1
CME SCE / n. t
Se puede demostrar que para modelo de efectos fijo (modelo I):
t
E CMTrat
2
E CME
n
i 1
2
i i
t 1
10
Vctor Maehara
Para modelo de efectos aleatorio (modelo II)
n
n n
2
i
E CMTrat rd , siendo rd
2
E CME 2
t 1
Se puede observar el CME es un estimador insesgado de la variancia comn 2

Luego, esto puede ser representado en el siguiente cuadro llamado cuadro de ANVA
Fuente
de
Variacin
Entre
Tratamiento
Dentro de
Tratamiento
Total
Suma
de Grados de Cuadrados Medios
Fc
Cuadrados Libertad
SCTrat
t 1
CMTrat SCTrat / t 1 CMTrat
CME
SCE
n. t
CME SCE / n. t
SCTotal
n. 1
Entonces, bajo la asuncin de que los errores son variables aleatorias independientes
distribuidas normalmente con media cero y variancia comn y bajo la H 0 se puede demostrar
que
F
CMTrat
~ Ft 1,n. t
CME
Luego para probar H 0 se puede usar esta Estadstica de Prueba, se rechaza H 0 si

Fc F1 ;t 1,n. t .
Coeficiente de Variabilidad: Una medida que permite medir cuan homogneo el conjunto de
unidades experimentales usadas est dado por el coeficiente de variabilidad, el cual se define:
CME
100
Y..
En experimentos agrcolas se considera un coeficiente aceptable si cv 25% .
cv
Ejemplo: Con la finalidad de comparar los tiempos (en segundos) promedios de coagulacin
de animales sometidos a 4 dietas diferentes: A, B, C y D, se realiz un experimento con 24
animales de caractersticas similares. Las dietas fueron asignadas aleatoriamente entre los
animales. Las muestras fueron tomadas en orden aleatorio. Los datos obtenidos se muestran a
continuacin.
Tratamientos
A
B
C
D
62
63 68 56
60
67 66 62
11
63
59
71
64
65
66
71
67
68
68
60
61
63
64
63
59
Yi.
244 396 408 488
ni
Yi.
61
66
68
61
ni
Vctor Maehara
Y.. Yij 62 60
59 1536 ,
i 1 j 1
1536 98304 ,
Y
TC
n.
24
2
2
..
ni
Y
i 1 j 1
2
ij
622 602
592 98644 ,
2
i.
Y
2442 3962 4082 4882
98532
4
6
6
8
i 1 ni
4
Yi.2
TC 98532 98304 228 ,
i 1 ni
4
SCTrat
4
ni
SCTotal Yij2 TC 98644 98304 340

i 1 j 1
SCE SCTotal SCTrat 340 228 112
Fuente de Variacin
Entre Dietas (tratamientos)
Dentro de dietas (residual)
Total
SC
228
112
340
GL
3
20
23
CM
76
5.6
F
13.57
H p : 1 2 3 4 0
H a : Al menos un i 0
CMTrat 76
Fc
13.57
CME
5.6
F 0.95,3,20 3.10 , F 0.99,3,20) 4.94 , Se rechaza H 0

Diagnstico de cumplimiento de Supuestos
1.- Introduccin
Las suposiciones que se hacen sobre el modelo para realizar estimacin por intervalo y
pruebas de hiptesis sobre los parmetros son:
1.- modelo aditivo lineal
12
Vctor Maehara
2.- El trmino de error tiene media cero.

3.- El trmino de error tiene variancia constante 2 .
4.- Los errores no estn correlacionados.
5.- Los errores se distribuyen normalmente.
Las suposiciones 4 y 5 implican que los errores son variables aleatorias independientes.
Violaciones de estos supuestos, sobretodo de los supuestos 3, 4 y 5, le resta validez a la
prueba de hiptesis realizada en el ANVA y a las pruebas de comparaciones mltiples.
En este captulo, se presenta varios mtodos tiles para realizar el diagnstico y tratamiento
de las violaciones de las suposiciones bsicas en el anlisis de variancia
2.- Definicin de Residuos
Un residuo se define:
eij Yij Yij ,
j 1, 2,
, ni y i 1,2,
,t
donde:
Yij es una observacin y Yij el valor ajustado correspondiente. Esto es
Yij i Y.. Yi. Y.. Yi.

Desde que el residuo es una desviacin entre el valor observado y el ajustado, entonces es una
medida de variabilidad no explicada por el modelo. De esta manera, cualquier violacin de
las suposiciones del modelo debe ser mostrada por el residual. Tambin puede pensarse que
los residuos son valores observado de los errores.
Propiedades de los residuos
1)
2)
La media de los residuos es igual a cero.

La variancia promedio aproximada es:
t
CME
ni
e
i 1 j 1
t
2
ij
SCE
t
n t n t
i 1
i 1
3) Los residuos no son independientes. Esta dependencia de los residuos tiene un pequeo
t
efecto sobre su uso para investigar la calidad del modelo mientras
n
i 1
no sea pequeo.
Residuo Estandarizado
Muchas veces es til trabajar con los residuos estandarizados, los cuales se define:
13
dij
Vctor Maehara
eij
CMError 1 hi ,i
, j 1, 2,
, ni y i 1, 2,
,t
Siendo el elemento i de la diagonal de la siguiente matriz hat H X XX X donde

-
1n11 1n11 0n11
1n 1 0n2 1 1n2 1
X 2
1nt 1 0nt 1 0nt 1
0n11
0n2 1
, X X es la inversa generalizada de X X
1nt 1
El residuo estandarizado tiene media cero y una variancia aproximadamente igual a la unidad.
Los residuos estandarizados son tambin tiles para detectar violaciones al supuesto de
normalidad. Si los errores estn distribuido normalmente, entonces aproximadamente el 68%
de los residuales podran caer entre 1 y +1, y aproximadamente el 95% podran caer entre 2
y +2 desviaciones sustanciales de estos lmites indican violacin potencial de la suposicin de
normalidad. Si n es pequeo, se reemplaza los lmite 1 y 2 con los correspondiente
valores de la distribucin de tGLE . El examen de los residuales estandarizados hecho de esta
manera es tambin til para identificar valores extremos.
Chequeo de supuestos de Normalidad
1)
2)
Para chequear este supuestos se debe realizar el grfico en papel de probabilidad

normal de los residuales estandarizado y tener la observacin del prrafo anterior.
Realizar la prueba de normalidad de Shapiro Wild, o de Anderson Darling
Test de ShapiroWilk
Esta prueba fue dada en una publicacin dada en 1965 por Samuel Shapiro y Martin Wilk. Se
considera uno de los pruebas ms poderosa para el contraste de normalidad, sobre todo para
muestras pequeas (n<30).
El estadstico del test es:
2
ai xi
W n i1
( X i X )2
i 1
Donde:
x i es el i-simo estadstico de orden de la muestra x1,
, xn
14
Vctor Maehara
a1,
x
i 1
, an
mTV 1
mTV 1V 1m
1
2
siendo m m1,
, mn
y m1,
, mn son los valores esperados
de las variables aleatorias independientes e idnticamente distribuidas muestreada de una

distribucin normal estndar y V es la matriz variancia covariancia de estos estadsticos de
orden.
Anderson Darling
La prueba de Anderson-Darling es una prueba no paramtrica sobre si los datos de una
muestra provienen de una distribucin especfica. La frmula para el estadstico A determina
si los datos x1, , xn (observar que los datos se deben ordenar) vienen de una distribucin
con funcin acumulativa
A2 n S
Donde:
2k 1
ln F xk ln 1 F xn1k
n
k 1
n
El estadstico de la prueba se puede entonces comparar contra las distribuciones del

estadstico de prueba (dependiendo que se utiliza) para determinar el P-valor.
La prueba de Anderson-Darling es una prueba estadstica que permite determinar si una
muestra de datos se extrae de una distribucin de probabilidad. En su forma bsica, la prueba
asume que no existen parmetros a estimar en la distribucin que se est probando, en cuyo
caso la prueba y su conjunto de valores crticos siguen una distribucin libre. Sin embargo, la
prueba se utiliza con mayor frecuencia en contextos en los que se est probando una familia
de distribuciones, en cuyo caso deben ser estimados los parmetros de esa familia y debe
tenerse estos en cuenta a la hora de ajustar la prueba estadstica y sus valores crticos. Cuando
se aplica para probar si una distribucin normal describe adecuadamente un conjunto de
datos, es una de las herramientas estadsticas ms potentes para la deteccin de la mayora de
las desviaciones de la normalidad.
Chequeo de Homogeneidad de variancia
15
1)
2)
3)
Vctor Maehara
Grfico de Caja, este grfico no slo permite visualizar si existe homogeneidad de

varianza, sino si existe valores extremos. Adems permite tambin realizar una
comparacin grfica entre tratamientos. (solo para DCA)
Grfico de los residuales versus los valores ajustados. Aparte de chequear
homogeneidad de varianza, permite detectar valores extremos y falta de ajuste del
modelo. Todos los residuales debe distribuirse uniformemente en una banda de ancho
del mismo ancho
Grfico de los valores ajustados versus la raz cuadrada de los valores absolutos de los
residuales estandarizados: el paquete R proporciona este grfico ms la curva estimada
de la regresin Lowes que se obtiene con estos valores. El Lowes no debe tener una
tendencia marcada.
Grfico de residuos versus valores estimados y

Este grfico es til para detectar varios tipos comunes de modelos inadecuados, y puede ser
de las siguientes formas:
Los residuos caen dentro de una banda, el modelo es adecuado
4) Pruebas de Homogeneidad de variancia.
Test de Breusch-Pagan:
H 0 : Existe homogeneidad de variancia de los errores

H1 : No existe homogeneidad de variancia de los errores
Cuando sean varias las variables causantes de tal problema, se deber recurrir a otras pruebas.
En concreto, el test de Breusch-Pagan el cual slo es estrictamente vlido cuando se dispone
de muestras suficientemente grandes presupone que es posible expresar la varianza del
trmino de perturbacin como una combinacin lineal de p variables explicativas, esto es,
Var ui 0 1z1i
p z pi
Los pasos a seguir para obtener el estadstico BP, el cual seguir bajo la hiptesis nula una
distribucin 2 con p grados de libertad, son:
1. Estimar por MCO el modelo original yi 0 1x1i
k xki ui , guardando los residuos
resultantes y donde: ei yi yi
2. Calcular una serie con los errores del modelo anterior al cuadrado estandarizados:
n
ei
ei
, 2
2
e
i 1
2
i
16
Vctor Maehara
3. Estimas una regresin del error calculado en el paso (2) explicado por una constante y el
conjunto de las variables Z que se pretende saber si producen o no heterocedasticidad en el
modelo, obtenindose la R 2 de este modelo y la varianza de la estimada
ei 0 1z1i
p z pi i
Re2
4. En principio, dado que el modelo tiene trmino constante, se cumple la regla general de las
regresiones segn la cual la varianza de la endgena real es igual a la suma de la varianza de
la endgena estimada ms la varianza del error obtenido en el modelo Se22 S2 o su
equivalente multiplicando a ambos lados de la igualdad por el nmero de observaciones n,
donde en vez de varianzas hablaremos de Sumas al cuadrado. Por ello, si el modelo es "malo"
la varianza de la endgena estimada ser pequea (es lo mismo que decir que la varianza del
error estimado es grande o que el "modelo tiene mucho error"). En definitiva, y siguiendo el
inters que aqu buscamos, si la varianza de la endgena estimada en este segundo modelo es
muy pequea, estaremos afirmando que el poder explicativo del conjunto de variables Z sobre
la representacin de la varianza de las perturbaciones aleatorias es escaso. A partir de esta
afirmacin, podramos generar un contraste calculado con la suma residual, a sabiendas de
que cuanto ms cerca de cero se encuentre, ms probabilidades de homocedasticidad
habr en el modelo. El contraste propuesto es:
BP
Se22 * n
p2 H 0 es verdadera
2
El paquete R en su librera car tiene programado esta prueba da el valor de la estadstica de
prueba y su pvalue.
Ejemplo: Con los datos de tiempo de Coagulacin
A
62
60
63
59
Tratamientos
B
C
63 68
67 66
71 71
64 67
65 68
66 68
D
56
62
60
61
63
64
63
59
> coag<-read.table("coag.txt",T)
> coag
Tiempo dieta aleatorizacion
1
62
A
4
2
60
A
15
17
Vctor Maehara
3
63
A
24
4
59
A
9
5
63
B
12
6
67
B
18
7
71
B
22
8
64
B
17
9
65
B
8
10
66
B
5
11
68
C
2
12
66
C
19
13
71
C
13
14
67
C
7
15
68
C
23
16
68
C
20
17
56
D
1
18
62
D
14
19
60
D
3
20
61
D
6
21
63
D
10
22
64
D
11
23
63
D
16
24
59
D
21
> mod<-lm(Tiempo~dieta,coag)
> summary(aov(mod))
Df Sum Sq Mean Sq F value
Pr(>F)
dieta
3
228
76.0
13.57 4.66e-05 ***
Residuals
20
112
5.6
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
> par(mfrow=c(2,2))
> plot(mod)
2
1
0
17
-2
-1
Fitted values
Theoretical Quantiles
Scale-Location
Residuals vs Leverage
0.5
63
65
Fitted values
67
0.5
1.0
-2 -1
17
61
-1
67
Standardized residuals
-6
1.5
65
0.0
63
-2
5
17
61
Normal Q-Q
-2 0
Residuals
4 6
Residuals vs Fitted
Cook's distance
17
0.00
0.10
0.5
0.20
Leverage
> ri<-rstandard(mod)
18
Vctor Maehara
> sort(ri)
17
5
4
12
8
24
2
-2.2587698 -1.3887301 -0.9759001 -0.9258201 -0.9258201 -0.9035079 -0.4879500
14
9
19
10
11
15
16
-0.4629100 -0.4629100 -0.4517540 0.0000000 0.0000000 0.0000000 0.0000000
20
18
6
1
21
23
3
0.0000000 0.4517540 0.4629100 0.4879500 0.9035079 0.9035079 0.9759001
22
13
7
1.3552619 1.3887301 2.3145502
> shapiro.test(ri)
Shapiro-Wilk normality test
data: ri
W = 0.9822, p-value = 0.9322
> ad.test(ri)
Anderson-Darling normality test
data: ri
A = 0.2598, p-value = 0.6814
H 0 : La variancia del error es constante

Contra la alternativa
H1 : La variancia del error no es constante
> library(car)
> ncvTest(mod)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.1454082
Df = 1
p = 0.7029627
Grfico de leverage vs residuales estandarizados

Permite detectar valores extremos y leverages y corresponde al cuarto grfico que
presenta el comando plot(mod).
Estimacin del Nmero de Rplicas para la prueba de F en el ANVA en un DCA
Para probar la H 0 : 1 2
t 0 se usa la estadstica
CMTrat
CME
Esta estadstica tiene una distribucin F central con v1 t 1 y v2 r t 1 grados de
F0
libertad si H 0 es verdadera.
Dentro de una prueba de hiptesis se puede cometer dos tipos de errores. Error tipo I y
error tipo II. Generalmente una prueba de hiptesis el investigador fija la probabilidad de
cometer error tipo I (el nivel de significacin ) pero no la probabilidad de cometer
error tipo II, . La potencia de prueba es la probabilidad de rechazar la hiptesis nula
cuando esta es falsa; esto es 1 P F F1 ,v1 ,v2 H 0 es falsa , esta variable F tiene
19
Vctor Maehara
una distribucin F no central con v1 t 1 , v2 r t 1 grados de libertad y parmetro

de no centralidad
r i2
. Los valores de los efectos de los tratamientos y de 2 ,
pueden ser reemplazados por sus estimados basados de un experimento similar o

preliminar, as como el valor de la variancia comn por el CME. Luego fijando los
valores de y , se puede hacer un programa en lenguaje R como el se muestra a
continuacin:
nrepdca<-function(y,trat,t,r1,a,b){trat<-as.factor(trat)
y<-as.vector(y)
mod<-lm(y~trat)
efectos<-coefficients(mod)
trat1<-sum(y[1 :r1])/r1-mean(y)
etrat1<-efectos[2 :t]+trat1
etrat<-c(trat1,etrat1)
v2p<- mod$df.residual
cme<-deviance(mod)/v2p
scef<-sum(etrat^2)
v1<-t-1
fo<-qf(1-a,v1,v2p)
r<-0
pot1<-0
pot<-1-b
while(pot1<pot){r<-r+1
v2<-r*(t-1)
lamda<-(r*scef)/cme
pot1<-1pf(fo,v1,v2,lamda)
}
valor<-c(r,pot1)
caract<-c("replica","potencia")
nrep<-data.frame(caract,valor)
nrep
}
Para el ejemplo de coagulacin se tiene:
> nrepdca(tiempo,dieta,4,4,0.05,0.1)
caract
valor
1 replica 3.000000
2 potencia 0.927757
Tambin, se puede utilizar mtodo grfico basado en el grfico de la probabilidad de

cometer error tipo II, y de una variable
r i2
que est en funcin del parmetro

t 2
de no centralidad. Estos grficos pueden ser encontrados en el apndice V del libro de
Montgomery.
Modelo de efectos aleatorios (Modelo II) Ocurre cuando los niveles del factor son
elegidos al azar de una poblacin grande. En este caso se considera el siguiente modelo:
Yij i ij
para i 1, 2,
j 1, 2,
,t
, ni
20
Vctor Maehara
En este modelo, se asumen que los ij ~ NID 0, 2 , y que los efectos i son variables
aleatorias independientes distribuidas normalmente con media cero y variancia comn 2 .
Esto es:
i ~ NID 0, 2
A 2 y 2 se le conoce con el nombre de componentes de variancias, debido a que la
variancia de una observacin puede ser expresada como:
var yij 2 2
En este caso el parmetro de inters es la variancia de los efectos 2 . Si 2 0 todos

los efectos de los tratamientos son iguales, si 2 0 existe variabilidad entre estos
efectos. En este caso, el inters del investigador es probar si existe una variabilidad
significativa los efectos de los tratamientos. Esto es
H 0 : 2 0
H1 : 2 0
Se puede demostrar que bajos estas suposiciones ( ij ~ NID 0, 2 y i ~ NID 0, 2 ),

en el cuadro de ANVA se cumple:
n
n n
2
i
E CMTrat rd , siendo rd
2
E CME 2
t 1
Luego, para probar H 0 : 2 0 contra la alternativa H1 : 2 0 , se puede usar la

siguiente estadstica de prueba:
Fc
CMTrat
~ Ft 1,n t H 0 es verdadera
CME
Se rechaza H 0 : 2 0 a un nivel de significacin si Fc F1 ,t 1,n t

De los esperados cuadrados medios, se puede observar que los estimadores insesgados
de 2 y 2 est dado por
CMTrat CME
,
rd
respectivamente. Si n1 n2 nt r , entonces
2 CME y 2
21
Vctor Maehara
CMTrat CME
r
Ejemplo: Una compaa textil que confecciona un tipo de fibra posee un nmero muy
grande de telares. En la produccin de fibra es importante que produzca fibra con
resistencia uniforme. Se sospecha, que adicionalmente a la variacin usual en la
resistencia de las fibras producidas por un telar, existen variaciones en la resistencia de
fibras producidas entre los telares. Para investigar esto, se selecciona 5 telares al azar y
se realiza 4 determinaciones por cada telar. Este experimento fue conducido bajo un
diseo completamente azar. Realice el ANVA y pruebe la hiptesis respectiva.
T1
T2
Telares
T3
T4
42
45
43
44
48
47
49
47
50
52
53
51
55
54
53
54
T5
44
45
46
43
> telares<-read.table("telares.txt",T)
> modte2<-lm(resist~telares,data=telares)
> modte2
Call:
lm(formula = resist ~ telares, data = telares)
Coefficients:
(Intercept)
43.50
telaresb
4.25
telaresc
8.00
telaresd
10.50
telarese
1.00
> summary(aov(modte2))
Pr(>F)
telares
4 322.0
80.50
61.14 4.17e-09 ***
Residuals
15
19.8
1.32
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
H 0 : 2 0
H a : 2 0
En este caso la prueba result altamente significativo ya que
Fc
CMTrat
61.139 con un P-value=0.000000004175.
CME
Luego los componentes de variancia estimados estn dado por:
2 CME 1.32 y 2
CMTrat CME 80.5 1.32
19.795
r
4
Para ver si esta prueba es vlida se debe realizar un anlisis de residuales
22
Vctor Maehara
> par(mfrow=c(2,2))
> plot(modte2)
46
48
50
52
1.5
0.5
1
-2
-1
Scale-Location
Constant Leverage:
Residuals vs Factor Levels
0.4
0.0
46
48
50
52
54
Fitted values
0.5
-1.5 -0.5
1.5
Theoretical Quantiles
Fitted values
2
1
44
-0.5
54
0.8
1.2
-1.5
44
Normal Q-Q
0.5
-1.5 -0.5
Residuals
1.5
Residuals vs Fitted
telares :
a
Factor Level Combinations
> ri<-rstandard(modte2)
> shapiro.test(ri)
data: ri
W = 0.9308, p-value = 0.1601
> library(car)
Loading required package: MASS
Loading required package: nnet
> ncvTest(modte2)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.4140372
Df = 1
p = 0.5199275
> summary(aov(modte2))
Pr(>F)
telares
4 322.0
80.50
61.14 4.17e-09 ***
Residuals
15
19.8
1.32
23

--Signif. codes:
Vctor Maehara
0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
>xt<cbind(c(rep(1,4),rep(0,16)),c(rep(0,4),rep(1,4),rep(0,12)),c(rep(0,8),r
ep(1,4),
rep(0,8)),c(rep(0,12),rep(1,4),rep(0,4)),c(rep(0,16),rep(1,4)))
> xt
[,1] [,2] [,3] [,4] [,5]
[1,]
1
0
0
0
0
[2,]
1
0
0
0
0
[3,]
1
0
0
0
0
[4,]
1
0
0
0
0
[5,]
0
1
0
0
0
[6,]
0
1
0
0
0
[7,]
0
1
0
0
0
[8,]
0
1
0
0
0
[9,]
0
0
1
0
0
[10,]
0
0
1
0
0
[11,]
0
0
1
0
0
[12,]
0
0
1
0
0
[13,]
0
0
0
1
0
[14,]
0
0
0
1
0
[15,]
0
0
0
1
0
[16,]
0
0
0
1
0
[17,]
0
0
0
0
1
[18,]
0
0
0
0
1
[19,]
0
0
0
0
1
[20,]
0
0
0
0
1
> efectos1<-t(xt)%*%as.vector(telares1[,1])/4-sum(telares1[,1])/20
> efectos1
[,1]
[1,] -4.75
[2,] -0.50
[3,] 3.25
[4,] 5.75
[5,] -3.75
> shapiro.test(efectos1)
data: efectos1
W = 0.9334, p-value = 0.6197
24
Vctor Maehara
Problemas Propuestos
1. Se est estudiando si la tcnica de mezclado afecta la resistencia a la tensin (lb/pulg2) del
cemento portland. Con tal fin se realiz un experimento con cuatro tcnicas de mezclado.
Los datos se dan a continuacin:
Tcnica de Mezclado
1
2
3
4
3129
3200
2800
2600
3000
3300
2900
2700
2865
2975
2985
2600
2890
3150
3050
2765
a) Realice el chequeo de supuestos del modelo mediante grficos y pruebas de hiptesis que
se obtiene con el paquete R. Plante las hiptesis, de sus conclusiones y recomendaciones
en trminos de enunciado
b) Presente el modelo aditivo lineal y defina sus componentes segn enunciado
c) Realice el anlisis de variancia. Calcule el coeficiente de variacin.
2. A continuacin se tiene datos sobre el tiempo de supervivencia de 64 pacientes con cncer
avanzado del estmago bronquios, colon, ovario o de mama fueron tratadas con ascorbato.
El propsito del estudio fue determinar si los tiempos de supervivencia (tiempo en das)
difieren con respecto al rgano afectado por el cncer(rgano). Los datos se encuentra en
el archivo tipocancer.txt.
a) Realice el chequeo de supuestos del modelo mediante grficos y pruebas de hiptesis que
se obtiene con el paquete R. Plante las hiptesis, de sus conclusiones y recomendaciones
en trminos de enunciado
b) Presente el modelo aditivo lineal y defina sus componentes segn enunciado
c) Realice el anlisis de variancia. Calcule el coeficiente de variacin.
3. En una empresa de montaje trabajan 135 operarios que realizan la construccin de un auto.
La direccin de la empresa est interesada en conocer si influye el factor operario en la
variable tiempo en el ensamblaje de un auto. Para ello se eligen cinco operarios al azar y
se les controla el tiempo en minutos que tardan en realizar el trabajo en diez ocasiones.
Oper.l. Oper.2. Oper.3. Oper. 4. Oper. 5.
72
75
71
69
75
70
77
73
78
79
84
72
69
65
61
75
65
60
63
68
25

67
71
75
73
69
65
Vctor Maehara
79
77
72
78
73
69
83
77
80
83
71
85
70
68
67
63
76
72
70
64
62
64
69
62
a) Presente el modelo aditivo lineal y defina sus componentes en trmino de enunciado.

Cules son los supuestos del modelo?
b) Presente cuadro de anlisis de variancias y pruebe las hiptesis respectiva. Concluya
en trmino de enunciado.
c) Cheque los supuestos del modelo mediante mtodos grficos y pruebas de hiptesis.
26

Dca o Al Azar Con RRRRR

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Dca o Al Azar Con RRRRR

Încărcat de

Drepturi de autor:

Formate disponibile

Diseo Completamente Aleatorizado

DISEO COMPLETAMENTE ALEATORIZADO O AL AZAR

Diseo Completamente Aleatorizado

Donde: Yi. Yij , Yi.

Modelo aditivo lineal

= Es el parmetro comn para todos los tratamientos llamado media comn.

Diseo Completamente Aleatorizado

ij = Es un componente aleatorio no observable llamado comnmente error.

Estimacin de parmetros: Para realizar la estimacin de parmetros se usar el mtodo de

Estos valores sern denotados por y i ( i 1, 2,

Diseo Completamente Aleatorizado

Al sistema de ecuaciones dado anteriormente se le llama sistema de ecuaciones normales, la

Con esta restriccin el sistema se reduce a:

Resolviendo se tiene la siguiente solucin:

se le llama valores ajustado de la j -sima repeticin del tratamiento i .

eij Yij Yij

eij Yij Yi. ,

Anlisis de Variancia (Modelo I)

Diseo Completamente Aleatorizado

El procedimiento de prueba adecuado para probar estas hiptesis es el Anlisis de Variancia,

ij Y.. ni Yi . Y.. Yij Yi .

SCTotal Yij Y.. Yij2

SCTrat ni Yi. Y..

SCE Yij Yi.

Se puede observar que:

Diseo Completamente Aleatorizado

Para modelo de efectos aleatorio (modelo II)

Se puede observar el CME es un estimador insesgado de la variancia comn 2

Luego para probar H 0 se puede usar esta Estadstica de Prueba, se rechaza H 0 si

Diseo Completamente Aleatorizado

244 396 408 488

SCTotal Yij2 TC 98644 98304 340

SCE SCTotal SCTrat 340 228 112

F 0.95,3,20 3.10 , F 0.99,3,20) 4.94 , Se rechaza H 0

Diseo Completamente Aleatorizado

2.- El trmino de error tiene media cero.

eij Yij Yij ,

Yij i Y.. Yi. Y.. Yi.

La media de los residuos es igual a cero.

efecto sobre su uso para investigar la calidad del modelo mientras

Diseo Completamente Aleatorizado

Siendo el elemento i de la diagonal de la siguiente matriz hat H X XX X donde

1n11 1n11 0n11

1nt 1 0nt 1 0nt 1

Para chequear este supuestos se debe realizar el grfico en papel de probabilidad

x i es el i-simo estadstico de orden de la muestra x1,

Diseo Completamente Aleatorizado

, mn son los valores esperados

de las variables aleatorias independientes e idnticamente distribuidas muestreada de una

El estadstico de la prueba se puede entonces comparar contra las distribuciones del

Diseo Completamente Aleatorizado

Grfico de Caja, este grfico no slo permite visualizar si existe homogeneidad de

Grfico de residuos versus valores estimados y

H 0 : Existe homogeneidad de variancia de los errores

k xki ui , guardando los residuos

Diseo Completamente Aleatorizado

Diseo Completamente Aleatorizado

Diseo Completamente Aleatorizado

H 0 : La variancia del error es constante

Grfico de leverage vs residuales estandarizados

Diseo Completamente Aleatorizado

una distribucin F no central con v1 t 1 , v2 r t 1 grados de libertad y parmetro

. Los valores de los efectos de los tratamientos y de 2 ,

0 * 0.001 0.01 * 0.05 . 0.1 1