Documente Academic
Documente Profesional
Documente Cultură
Vctor Maehara
Este diseo experimental es el ms simple de todos los diseos experimentales y til cuando
las unidades experimentales son esencialmente homogneas; es decir cuando la variacin
entre ellas es pequea que al agruparlas en bloques la ganancia en precisin sera
insignificante. En este diseo los tratamientos se asignan aleatoriamente a las unidades
experimentales sin imponer restriccin. Es decir, cada unidad experimental tiene la misma
oportunidad o probabilidad de recibir un tratamiento. Esto puede realizarse mediante el uso de
nmeros aleatorios.
Ejemplo Se desea comparar los rendimientos de tres variedades de un cultivar: A, B y C.
Suponga que se cuenta con 15 parcelas(numeradas del 1 al 15) y se decide usar 5 repeticiones
por tratamiento. Entonces en la tabla de nmero aleatorio dada en el libro de Steel y Torrie
(tabla A1) se eligi aleatoriamente un punto de partida (puede ser eligiendo un nmero
aleatoria para pgina, otra para fila y otro para columna) de este punto de partida se elige
verticalmente y en forma consecutiva 15 nmeros aleatorios de tres dgitos, luego se rankea
estos nmeros asignando el nmero 1 al menor, el nmero 2 al siguiente y as sucesivamente
hasta llegar asignar el nmero 15 al mayor de todo. Los 5 primeros nmeros aleatorios da
origen a las parcelas (de acuerdo al rango asignado) las parcelas que se le aplicarn el
tratamiento A, los 5 siguiente el tratamiento B y los 5 ltimos las parcelas que se le aplicarn
el tratamiento C. Suponga se obtuvo los siguientes nmeros aleatorios:
Nmero aleatorio
Rango (Tratamiento A)
Nmero aleatorio
Rango (Tratamiento B)
Nmero aleatorio
Rango (Tratamiento C)
118
1
638
5
687
6
701
8
901
13
938
14
789
9
841
11
377
2
965
15
396
4
392
3
688
7
802
10
848
12
Con el R
> runif(15)
[1] 0.88531918 0.67671878 0.33055180 0.78807129 0.99752578 0.84816566
[7] 0.72926011 0.74283935 0.28981326 0.88392633 0.60864244 0.99716336
[13] 0.49769922 0.80065374 0.08644736
0.88531918 0.67671878 0.33055180 0.78807129 0.99752578
13
6
3
9
14
0.84816566 0.72926011 0.74283935 0.28981326 0.88392633
11
7
8
2
12
0.60864244 0.99716336 0.49769922 0.80065374 0.08644736
5
15
4
10
1
Tratamiento A
Tratamiento B
Tratamiento C
Ventajas
1)
Este diseo es flexible en cuanto a que el nmero de tratamiento y repeticiones slo
est limitado por el nmero de unidades experimentales.
2)
El nmero de repeticiones puede variar de un tratamiento a otro, aunque generalmente
lo ideal es tener el mismo nmero de repeticiones por cada tratamiento
6
Vctor Maehara
3)
El anlisis estadstico es simple, aun cuando se pierde unidades experimentales o
tratamientos completos, el diseo se mantiene es decir sigue siendo un diseo completamente
al azar
4)
El nmero de grados de libertad para estimar el error experimental es mximo, esto
mejora la precisin del experimento, lo cual toma mayor importancia con experimento
pequeo (en aquellos cuyos grados de libertad para el error es menor a 20).
Desventaja
Su principal desventaja es su ineficiencia, debido a que el error incluye toda la variacin entre
las unidades experimentales excepto a la debida a los tratamientos.
Diseo completamente Randomizado con una observacin por unidad experimental
Cuadro de datos: Suponga que se desea comparar t tratamientos. El tratamiento i cuenta con
ni repeticiones y de cada unidad experimental se obtiene una observacin. Luego, se obtiene
el siguiente cuadro de datos:
Totales
Tratamiento
Y11 Y12
Y1n1
Y1.
N de
Media
observaciones
n1
Y1.
Y21 Y22
Y2n2
Y2.
n2
Y2.
Yt1
Yt 2
Ytnt
Yt .
nt
Yt .
Totales
ni
Y.. Yij
i 1 j 1
ni
Yi.
, para i 1, 2,
ni
n. ni
Y..
i 1
Y..
n.
,t
para i 1, 2,
j 1, 2,
,t
, ni
donde:
Yij = Es la observacin o respuesta que se obtiene de la unidad experimental que
constituye la j-sima repeticin del tratamiento i .
Vctor Maehara
En un diseo experimental de acuerdo con el tipo de efecto que se desea analizar se presenta
dos tipos de modelo:
Modelo de efectos fijos (modelo I) Ocurre cuando los niveles del factor son especificado o
fijado por el investigador.
Modelo de efectos aleatorios (Modelo II) Ocurre cuando los niveles del factor son elegidos al
azar de una poblacin grande.
Anlisis de modelos de efectos fijos
En un modelo de efectos fijos, los efectos de los tratamientos son definidos como
desviaciones de la media de la respuesta obtenido con cada tratamiento con respecto a la
media comn, de manera tal que:
t
ni
i 1 j 1
ni
Q Yij i
t
i 1 j 1
2
ij
i 1 j 1
t ).
ni
t
Q
2 Yij i 0
, i
i 1 j 1
Q
i
ni
2 Yij i 0 , para i 1, 2,
i 1
, i
Lo cual es equivalente a:
t
ni
j 1
n. i Y..
ni nii Yi.
para i 1, 2,
t
8
Vctor Maehara
n
i 1
i i
n. Y..
ni nii Yi.
para i 1, 2,
Y..
i
Y..
n.
Yi.
Y..
ni
para i 1, 2,
Al valor
Yij i
Yij Yi. ,
para i 1, 2,
t,
j 1, 2,
ni
para i 1, 2,
t,
j 1, 2,
ni
t 0 , contra
H a : i 0 , para al menos un i .
Si hacemos
i i , para i 1, 2,
Vctor Maehara
entonces un estimador de i est dado por i Yi. y las hiptesis dados anteriormente puede
ser expresado como:
H 0 : 1 2 t , contra
H a : al menos dos i son diferentes
Y
t
i 1 j 1
ni
i 1
i 1 j 1
donde:
ni
ni
i 1 j 1
i 1 j 1
ni
i 1 j 1
Y..2
= Medida de la variacin total
n.
Yi.2 Y..2
= Medida de la variacin que existe entre los
n.
i 1 ni
tratamientos.
t
ni
Yi.2
Y = Medida de la variacin que existe dentro de
i 1 j 1
i 1 ni
cada tratamiento.
t
2
ij
Adems al trmino:
TC
Y..2
n.
Cuadrados Medios y sus Valores Esperados: Los cuadrados medios se define como el
cociente entre la suma de cuadrados y sus respectivos grados de libertad. Para un DCA se
tiene:
CMTrat SCTrat / t 1
CME SCE / n. t
Se puede demostrar que para modelo de efectos fijo (modelo I):
t
E CMTrat
2
E CME
n
i 1
2
i i
t 1
10
Vctor Maehara
n
n n
2
i
E CMTrat rd , siendo rd
2
E CME 2
t 1
Suma
de Grados de Cuadrados Medios
Fc
Cuadrados Libertad
SCTrat
t 1
CMTrat SCTrat / t 1 CMTrat
CME
SCE
n. t
CME SCE / n. t
SCTotal
n. 1
Entonces, bajo la asuncin de que los errores son variables aleatorias independientes
distribuidas normalmente con media cero y variancia comn y bajo la H 0 se puede demostrar
que
F
CMTrat
~ Ft 1,n. t
CME
CME
100
Y..
En experimentos agrcolas se considera un coeficiente aceptable si cv 25% .
cv
Ejemplo: Con la finalidad de comparar los tiempos (en segundos) promedios de coagulacin
de animales sometidos a 4 dietas diferentes: A, B, C y D, se realiz un experimento con 24
animales de caractersticas similares. Las dietas fueron asignadas aleatoriamente entre los
animales. Las muestras fueron tomadas en orden aleatorio. Los datos obtenidos se muestran a
continuacin.
Tratamientos
A
B
C
D
62
63 68 56
60
67 66 62
11
63
59
71
64
65
66
71
67
68
68
60
61
63
64
63
59
Yi.
ni
Yi.
61
66
68
61
ni
Vctor Maehara
Y.. Yij 62 60
59 1536 ,
i 1 j 1
1536 98304 ,
Y
TC
n.
24
2
2
..
ni
Y
i 1 j 1
2
ij
622 602
592 98644 ,
2
i.
Y
2442 3962 4082 4882
98532
4
6
6
8
i 1 ni
4
Yi.2
TC 98532 98304 228 ,
i 1 ni
4
SCTrat
4
ni
Fuente de Variacin
Entre Dietas (tratamientos)
Dentro de dietas (residual)
Total
SC
228
112
340
GL
3
20
23
CM
76
5.6
F
13.57
H p : 1 2 3 4 0
H a : Al menos un i 0
CMTrat 76
Fc
13.57
CME
5.6
Vctor Maehara
j 1, 2,
, ni y i 1,2,
,t
donde:
Yij es una observacin y Yij el valor ajustado correspondiente. Esto es
CME
ni
e
i 1 j 1
t
2
ij
SCE
t
n t n t
i 1
i 1
3) Los residuos no son independientes. Esta dependencia de los residuos tiene un pequeo
t
n
i 1
no sea pequeo.
Residuo Estandarizado
Muchas veces es til trabajar con los residuos estandarizados, los cuales se define:
13
dij
Vctor Maehara
eij
CMError 1 hi ,i
, j 1, 2,
, ni y i 1, 2,
,t
1n 1 0n2 1 1n2 1
X 2
0n11
0n2 1
, X X es la inversa generalizada de X X
1nt 1
El residuo estandarizado tiene media cero y una variancia aproximadamente igual a la unidad.
Los residuos estandarizados son tambin tiles para detectar violaciones al supuesto de
normalidad. Si los errores estn distribuido normalmente, entonces aproximadamente el 68%
de los residuales podran caer entre 1 y +1, y aproximadamente el 95% podran caer entre 2
y +2 desviaciones sustanciales de estos lmites indican violacin potencial de la suposicin de
normalidad. Si n es pequeo, se reemplaza los lmite 1 y 2 con los correspondiente
valores de la distribucin de tGLE . El examen de los residuales estandarizados hecho de esta
manera es tambin til para identificar valores extremos.
Chequeo de supuestos de Normalidad
1)
2)
Test de ShapiroWilk
Esta prueba fue dada en una publicacin dada en 1965 por Samuel Shapiro y Martin Wilk. Se
considera uno de los pruebas ms poderosa para el contraste de normalidad, sobre todo para
muestras pequeas (n<30).
El estadstico del test es:
2
ai xi
W n i1
( X i X )2
i 1
Donde:
, xn
14
Vctor Maehara
a1,
x
i 1
, an
mTV 1
mTV 1V 1m
1
2
siendo m m1,
, mn
y m1,
Anderson Darling
La prueba de Anderson-Darling es una prueba no paramtrica sobre si los datos de una
muestra provienen de una distribucin especfica. La frmula para el estadstico A determina
si los datos x1, , xn (observar que los datos se deben ordenar) vienen de una distribucin
con funcin acumulativa
A2 n S
Donde:
2k 1
ln F xk ln 1 F xn1k
n
k 1
n
15
1)
2)
3)
Vctor Maehara
Var ui 0 1z1i
p z pi
Los pasos a seguir para obtener el estadstico BP, el cual seguir bajo la hiptesis nula una
distribucin 2 con p grados de libertad, son:
1. Estimar por MCO el modelo original yi 0 1x1i
resultantes y donde: ei yi yi
2. Calcular una serie con los errores del modelo anterior al cuadrado estandarizados:
n
ei
ei
, 2
2
e
i 1
2
i
16
Vctor Maehara
3. Estimas una regresin del error calculado en el paso (2) explicado por una constante y el
conjunto de las variables Z que se pretende saber si producen o no heterocedasticidad en el
modelo, obtenindose la R 2 de este modelo y la varianza de la estimada
ei 0 1z1i
p z pi i
Re2
4. En principio, dado que el modelo tiene trmino constante, se cumple la regla general de las
regresiones segn la cual la varianza de la endgena real es igual a la suma de la varianza de
la endgena estimada ms la varianza del error obtenido en el modelo Se22 S2 o su
equivalente multiplicando a ambos lados de la igualdad por el nmero de observaciones n,
donde en vez de varianzas hablaremos de Sumas al cuadrado. Por ello, si el modelo es "malo"
la varianza de la endgena estimada ser pequea (es lo mismo que decir que la varianza del
error estimado es grande o que el "modelo tiene mucho error"). En definitiva, y siguiendo el
inters que aqu buscamos, si la varianza de la endgena estimada en este segundo modelo es
muy pequea, estaremos afirmando que el poder explicativo del conjunto de variables Z sobre
la representacin de la varianza de las perturbaciones aleatorias es escaso. A partir de esta
afirmacin, podramos generar un contraste calculado con la suma residual, a sabiendas de
que cuanto ms cerca de cero se encuentre, ms probabilidades de homocedasticidad
habr en el modelo. El contraste propuesto es:
BP
Se22 * n
p2 H 0 es verdadera
2
El paquete R en su librera car tiene programado esta prueba da el valor de la estadstica de
prueba y su pvalue.
Ejemplo: Con los datos de tiempo de Coagulacin
A
62
60
63
59
Tratamientos
B
C
63 68
67 66
71 71
64 67
65 68
66 68
D
56
62
60
61
63
64
63
59
> coag<-read.table("coag.txt",T)
> coag
Tiempo dieta aleatorizacion
1
62
A
4
2
60
A
15
17
Vctor Maehara
3
63
A
24
4
59
A
9
5
63
B
12
6
67
B
18
7
71
B
22
8
64
B
17
9
65
B
8
10
66
B
5
11
68
C
2
12
66
C
19
13
71
C
13
14
67
C
7
15
68
C
23
16
68
C
20
17
56
D
1
18
62
D
14
19
60
D
3
20
61
D
6
21
63
D
10
22
64
D
11
23
63
D
16
24
59
D
21
> mod<-lm(Tiempo~dieta,coag)
> summary(aov(mod))
Df Sum Sq Mean Sq F value
Pr(>F)
dieta
3
228
76.0
13.57 4.66e-05 ***
Residuals
20
112
5.6
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
> par(mfrow=c(2,2))
> plot(mod)
2
1
0
17
-2
-1
Fitted values
Theoretical Quantiles
Scale-Location
Residuals vs Leverage
0.5
63
65
Fitted values
67
0.5
1.0
-2 -1
17
61
-1
67
Standardized residuals
-6
1.5
65
0.0
Standardized residuals
63
-2
5
17
61
Normal Q-Q
Standardized residuals
-2 0
Residuals
4 6
Residuals vs Fitted
Cook's distance
17
0.00
0.10
0.5
0.20
Leverage
> ri<-rstandard(mod)
18
Vctor Maehara
> sort(ri)
17
5
4
12
8
24
2
-2.2587698 -1.3887301 -0.9759001 -0.9258201 -0.9258201 -0.9035079 -0.4879500
14
9
19
10
11
15
16
-0.4629100 -0.4629100 -0.4517540 0.0000000 0.0000000 0.0000000 0.0000000
20
18
6
1
21
23
3
0.0000000 0.4517540 0.4629100 0.4879500 0.9035079 0.9035079 0.9759001
22
13
7
1.3552619 1.3887301 2.3145502
> shapiro.test(ri)
Shapiro-Wilk normality test
data: ri
W = 0.9822, p-value = 0.9322
> ad.test(ri)
Anderson-Darling normality test
data: ri
A = 0.2598, p-value = 0.6814
p = 0.7029627
t 0 se usa la estadstica
CMTrat
CME
Esta estadstica tiene una distribucin F central con v1 t 1 y v2 r t 1 grados de
F0
libertad si H 0 es verdadera.
Dentro de una prueba de hiptesis se puede cometer dos tipos de errores. Error tipo I y
error tipo II. Generalmente una prueba de hiptesis el investigador fija la probabilidad de
cometer error tipo I (el nivel de significacin ) pero no la probabilidad de cometer
error tipo II, . La potencia de prueba es la probabilidad de rechazar la hiptesis nula
cuando esta es falsa; esto es 1 P F F1 ,v1 ,v2 H 0 es falsa , esta variable F tiene
19
Vctor Maehara
r i2
r i2
Yij i ij
para i 1, 2,
j 1, 2,
,t
, ni
20
Vctor Maehara
En este modelo, se asumen que los ij ~ NID 0, 2 , y que los efectos i son variables
aleatorias independientes distribuidas normalmente con media cero y variancia comn 2 .
Esto es:
i ~ NID 0, 2
A 2 y 2 se le conoce con el nombre de componentes de variancias, debido a que la
variancia de una observacin puede ser expresada como:
var yij 2 2
n
n n
2
i
E CMTrat rd , siendo rd
2
E CME 2
t 1
CMTrat
~ Ft 1,n t H 0 es verdadera
CME
2 CME y 2
21
Vctor Maehara
CMTrat CME
r
Ejemplo: Una compaa textil que confecciona un tipo de fibra posee un nmero muy
grande de telares. En la produccin de fibra es importante que produzca fibra con
resistencia uniforme. Se sospecha, que adicionalmente a la variacin usual en la
resistencia de las fibras producidas por un telar, existen variaciones en la resistencia de
fibras producidas entre los telares. Para investigar esto, se selecciona 5 telares al azar y
se realiza 4 determinaciones por cada telar. Este experimento fue conducido bajo un
diseo completamente azar. Realice el ANVA y pruebe la hiptesis respectiva.
T1
T2
Telares
T3
T4
42
45
43
44
48
47
49
47
50
52
53
51
55
54
53
54
T5
44
45
46
43
> telares<-read.table("telares.txt",T)
> modte2<-lm(resist~telares,data=telares)
> modte2
Call:
lm(formula = resist ~ telares, data = telares)
Coefficients:
(Intercept)
43.50
telaresb
4.25
telaresc
8.00
telaresd
10.50
telarese
1.00
> summary(aov(modte2))
Df Sum Sq Mean Sq F value
Pr(>F)
telares
4 322.0
80.50
61.14 4.17e-09 ***
Residuals
15
19.8
1.32
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
H 0 : 2 0
H a : 2 0
En este caso la prueba result altamente significativo ya que
Fc
CMTrat
61.139 con un P-value=0.000000004175.
CME
2 CME 1.32 y 2
19.795
r
4
22
Vctor Maehara
> par(mfrow=c(2,2))
> plot(modte2)
46
48
50
52
1.5
0.5
1
-2
-1
Scale-Location
Constant Leverage:
Residuals vs Factor Levels
0.4
0.0
46
48
50
52
54
Fitted values
0.5
-1.5 -0.5
1.5
Theoretical Quantiles
Standardized residuals
Fitted values
2
1
44
-0.5
54
0.8
1.2
-1.5
Standardized residuals
44
Standardized residuals
Normal Q-Q
0.5
-1.5 -0.5
Residuals
1.5
Residuals vs Fitted
telares :
a
> ri<-rstandard(modte2)
> shapiro.test(ri)
Shapiro-Wilk normality test
data: ri
W = 0.9308, p-value = 0.1601
> library(car)
Loading required package: MASS
Loading required package: nnet
> ncvTest(modte2)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.4140372
Df = 1
p = 0.5199275
> summary(aov(modte2))
Df Sum Sq Mean Sq F value
Pr(>F)
telares
4 322.0
80.50
61.14 4.17e-09 ***
Residuals
15
19.8
1.32
23
Vctor Maehara
>xt<cbind(c(rep(1,4),rep(0,16)),c(rep(0,4),rep(1,4),rep(0,12)),c(rep(0,8),r
ep(1,4),
rep(0,8)),c(rep(0,12),rep(1,4),rep(0,4)),c(rep(0,16),rep(1,4)))
> xt
[,1] [,2] [,3] [,4] [,5]
[1,]
1
0
0
0
0
[2,]
1
0
0
0
0
[3,]
1
0
0
0
0
[4,]
1
0
0
0
0
[5,]
0
1
0
0
0
[6,]
0
1
0
0
0
[7,]
0
1
0
0
0
[8,]
0
1
0
0
0
[9,]
0
0
1
0
0
[10,]
0
0
1
0
0
[11,]
0
0
1
0
0
[12,]
0
0
1
0
0
[13,]
0
0
0
1
0
[14,]
0
0
0
1
0
[15,]
0
0
0
1
0
[16,]
0
0
0
1
0
[17,]
0
0
0
0
1
[18,]
0
0
0
0
1
[19,]
0
0
0
0
1
[20,]
0
0
0
0
1
> efectos1<-t(xt)%*%as.vector(telares1[,1])/4-sum(telares1[,1])/20
> efectos1
[,1]
[1,] -4.75
[2,] -0.50
[3,] 3.25
[4,] 5.75
[5,] -3.75
> shapiro.test(efectos1)
Shapiro-Wilk normality test
data: efectos1
W = 0.9334, p-value = 0.6197
24
Vctor Maehara
Problemas Propuestos
1. Se est estudiando si la tcnica de mezclado afecta la resistencia a la tensin (lb/pulg2) del
cemento portland. Con tal fin se realiz un experimento con cuatro tcnicas de mezclado.
Los datos se dan a continuacin:
Tcnica de Mezclado
1
2
3
4
3129
3200
2800
2600
3000
3300
2900
2700
2865
2975
2985
2600
2890
3150
3050
2765
a) Realice el chequeo de supuestos del modelo mediante grficos y pruebas de hiptesis que
se obtiene con el paquete R. Plante las hiptesis, de sus conclusiones y recomendaciones
en trminos de enunciado
b) Presente el modelo aditivo lineal y defina sus componentes segn enunciado
c) Realice el anlisis de variancia. Calcule el coeficiente de variacin.
2. A continuacin se tiene datos sobre el tiempo de supervivencia de 64 pacientes con cncer
avanzado del estmago bronquios, colon, ovario o de mama fueron tratadas con ascorbato.
El propsito del estudio fue determinar si los tiempos de supervivencia (tiempo en das)
difieren con respecto al rgano afectado por el cncer(rgano). Los datos se encuentra en
el archivo tipocancer.txt.
a) Realice el chequeo de supuestos del modelo mediante grficos y pruebas de hiptesis que
se obtiene con el paquete R. Plante las hiptesis, de sus conclusiones y recomendaciones
en trminos de enunciado
b) Presente el modelo aditivo lineal y defina sus componentes segn enunciado
c) Realice el anlisis de variancia. Calcule el coeficiente de variacin.
3. En una empresa de montaje trabajan 135 operarios que realizan la construccin de un auto.
La direccin de la empresa est interesada en conocer si influye el factor operario en la
variable tiempo en el ensamblaje de un auto. Para ello se eligen cinco operarios al azar y
se les controla el tiempo en minutos que tardan en realizar el trabajo en diez ocasiones.
Oper.l. Oper.2. Oper.3. Oper. 4. Oper. 5.
72
75
71
69
75
70
77
73
78
79
84
72
69
65
61
75
65
60
63
68
25
Vctor Maehara
79
77
72
78
73
69
83
77
80
83
71
85
70
68
67
63
76
72
70
64
62
64
69
62
26