Documente Academic
Documente Profesional
Documente Cultură
MAESTRIA EN BIOMETRIA
PROYECTO
1.1 Ejemplo-1
1.1.1 Enunciado
Se prepararon 9 macetas con suelo a las cuales se les aplicó diferentes cantidades de
fósforo inorgánico. En cada maceta se cultivo plantas de maíz que fueron cosechadas
38 días después de la siembra y fueron analizadas en el laboratorio para determinar la
cantidad de fósforo asimilado como una medida aproximada de la cantidad de fósforo
disponible en el suelo. Los resultados introducidos en GenStat como sigue:
P_suelo P_planta
1 64
4 71
5 54
9 81
11 76
13 93
23 77
23 95
28 109
1
1.1.5 Modelo, supuestos, prueba de los supuestos
Yi = α + βxi + εi
Donde:
.Yi = α + βxi + εi
3. Se asume que las desviaciones ei siguen una distribución normal con media cero y
varianza constante. En notación estadística ei ~ N(m,σ2 )
El tercero sólo puede ser probado una vez que el análisis ha sido realizado. La forma
más fácil de comprobar este supuesto es a través de gráficos.
En Genstat estos gráficos se pueden obtener una vez que el análisis ha sido efectuado
presionando el botón Further output y luego Model Checking Esto genera el
comando RCHECK [RMETHOD=deviance; GRAPHICS=high] residual; composite
2
Que produce la siguiente salida:
Discusión:
En este caso es mas útil interpretar los restantes gráficos de residuales que emuestran
cierta normalidad de los datos que están por encima de la media y con distribución
sesgada a la izquierda
3
P planta = 61.58 + 1.417 P suelo
Andeva
Grados de libertad (g.l.), en regresión linear simple los g.l resultan ser uno por que se
considera solo una variable independiente. Para el total de la andeva los g.l son el
total de las observaciones menos 1. Para los residuales los g.l. vienen dados por la
diferencia de los g.l del total menos los de la regresión.
RGRAPH [GRAPHICS=high]
Note que el título del gráfico puede cambiarse usando la opción Title, por ejemplo
4
RGRAPH [GRAPHICS=high; title = ‘Gráfico de regresión y = 60.58 + 1.417 x’]
s2
s.e.(b) = = 0.395
s xx
b ± t ( n − 2) x error tipico
En nuestro ejemplo el intervalo de confianza del 95% para la verdadera pendiente esta
dado por:
1.1.7 Predicción
Un uso frecuente de la regresión es para predecir el valor que la variable respuesta (y)
tomaría bajo ciertos valores de la variable independiente (x). Estas predicciones se
obtienen sustituyendo el valor de x en la ecuación y calculando el valor
correspondiente de y.
5
−
s.e( y ) = s 2 [ + o x ]
1 (x − )
^ 2
n s xx
Esta situación corresponde por ejemplo al caso cuando se cultiva un número grande
de plantas de maíz en suelo con 20 ppm de fósforo inorgánico. El valor medio del
contenido de fósforo en las plantas será: 89.92 y su error típico es:
^
1 (20 − 13) 2
s.e( y ) = 114.3[ + ] = 4.51
9 734
Debe notarse que el error típico de ŷ tendrá su mínimo cuando x = media. Esto quiere
0
decir que la precisión de las predicciones es más alta cuando xo es igual a la media de
la variable independiente.
El intervalo de confianza del 95% para la predicción media del valor de y cuando x =
xo esta dado por:
−
^
2 1 ( xo − x) 2
( y ) ± t( 7 ) s [ + ]
n s xx
Si se cultiva una sola maceta con un nivel de fósforo de 20 ppm el valor predicho
sería:
Y su error tipico:
6
El intervalo de confianza esta dado por (61.85, 116.56)
Para hacer este análisis en Genstat se puede usar el menú como se describió arriba o
bien los siguientes comandos:
MODEL P_planta
TERMS P_suelo
FIT [PRINT=model,summary,estimates; CONSTANT=estimate;
FPROB=yes; TPROB=yes] P_suelo
calc max95=ypred+2.36*etipico
calc min95=ypred-2.36*etipico
calc ancho=max95-min95
print ypred, etipico, min95, max95, ancho
calc imax95=iypred+2.36*ietipico
calc imin95=iypred-2.36*ietipico
calc iancho=imax95-imin95
print iypred, ietipico, imin95, imax95, iancho
7
*** Summary of analysis ***
Prediction S.e.
89.92 4.51
Prediction S.e.
89.9 11.6
Se debe ser muy cuidadoso al usar los modelos para hacer predicciones fuera del
rango de valores estudiado en la variable independiente. En primer lugar a medida que
se predice para valores de x alejados de la media la precisión de la predicción se
8
reduce como se vio en el ejemplo anterior. En segundo lugar cuando se hace una
predicción fuera del rango conocido de x se esta asumiendo que el modelo continuará
siendo válido. Como ejemplo véase el gráfico de abajo
1.2 Ejemplo - 2.
R2 = 1474/2274 =0.64
64% de la variación del fósforo encontrado en las plantas es explicada por su relación
lineal con el contenido de fósforo inorgánico en el suelo.
¿Hasta que punto la relación es lineal? Esto se puede medir usando el coeficiente de
correlación (r)
9
Note que r =√ 0 64 . =√ R2, es decir el coeficiente de correlación es igual a la raíz
cuadrada del coeficiente de determinación únicamente en el caso cuando el
coeficiente de determinación mide la variabilidad de y explicada por el modelo
y = a + bx.
1.2.4 Modelos
¿Cómo están relacionadas x y y? Hasta ahora hemos visto el caso del modelo
y = a + bx,
Una manera de corregir problemas con los supuestos de los análisis de regresión es
transformar la variable respuesta. Algunas transformaciones usadas para estabilizar
varianzas pueden asociarse a ciertos tipos de variables respuesta. Por ejemplo:
Una vez que se han aplicado las transformaciones se debe ajustar la línea de regresión
otra vez y analizar de nuevo los residuos.
10
1.3 Ejemplo 3.
1.3.1 Enunciado.
Se supone que el rendimiento del cultivo del arroz en tierras bajas de Nicaragua es
afectado por la concentración de sal en el suelo. Como consecuencia de la
introducción de irrigación, la concentración de sales ha ido incrementándose en los
últimos 25 años. Un sonde de los niveles de salinidad en 28 campos arrojo los
siguientes resultados. La concentración de sal se dad como la diferencia entre la
concentración en el campo irrigado y la concentración en áreas adyacentes no
irrigadas.
11
1.3.3 Análisis exploratorio de datos:
El supuesto de relación lineal entre P suelo y P planta parece razonable pero no parece
seguir una línea recta propiamente, ante la duda veremos el porcentaje de variación
que toma en cuenta el análisis considerando regresión lineal mediante el análisis de
varianza.
Los supuestos son similares al ejemplo 1. la prueba de los supuestos se vera con el
análisis de varianza.
12
El grafico de los valores ajustados se muestra a continuación:
CALCULATE logrend=LOG(rend)
RGRAPH [GRAPHICS=high]
13
La salida de GenStat es:
Los cambios entre la salida como resultado del análisis, es diferente básicamente
debido a la transformación de datos. Las ultimas cuatro columnas de la andeva cambia
hacia números menores es de nuestro interés observar el cuadrado medio de los
residuales (la varianza) que es mucho menor (0.1362) cuando se analiza datos
transformados. El error estándar de la observaciones mucho menor 0.221. lo cual nos
permitirá estimar intervalos de confianza de menor ancho y mayor precisión.
14
Comentarios sobre los gráficos de residuos:
Los gráficos de histograma y residuales vs valores ajustados aun muestran que los
datos transformados no siguen una distribución normal propiamente, sin embargo los
siguientes dos gráficos llamados Normal plot y Half-Normal plot muestran una mayor
aproximación a lo que llamamos distribución normal comparando con los gráficos
usando datos sin transformar.
2 Regresión Múltiple
Los mismos principios usados para la regresión lineal pueden usarse para extender el
modelo con la inclusión de mas de una variable independiente. A estos modelos se les
llama modelos de regresión múltiple.
2.1 Ejemplo 4
2.1.1 Enunciado.
Por ejemplo considere los datos un estudio para investigar el efecto del consumo de
alimento y el tiempo de descanso en el aumento de peso de cerdos. Para el estudio se
observaron 12 cerdos durante 4 semanas. Los resultados se presentan a continuación.
Consumo de alimento Tiempo de descanso Ganancia de peso
15
90 175 865.71
120 342 1178.48
114 252 1084.86
137 362 1229.59
128 284 1114.62
130 219 1102.61
114 229 1045.29
73 260 976.4
55 88 519.32
102 132 893.9
106 254 1095.24
60 199 828.68
Se asume que ei sigue una distribución normal con media m=0 y varianza constante.
Note que el modelo incluye múltiples variables independientes, de allí el nombre de
regresión múltiple.
16
La prueba de F del ANOVA “summary of analysis” es para la hipótesis nula
H0 : b1 = b2 = ... = bk = 0
individualmente así:
H0 : b1 = 0
H0 : b2 (una
vez que b1 ha sido estimado) = 0
H0 : b3 (una
vez que b2 y b1 han sido estimados) = 0
De la misma forma que en la regresión lineal el coeficiente de determinación R 2
(llamado coeficiente de determinación múltiple en este caso) es un indicador de que
tan bueno es el modelo que se esta ajustando.
17
*** Accumulated analysis of variance ***
Discusión de normalidad
Mediante el análisis grafico podemos ver que el normal plot muestra distribución
normal para los residuales positivos pero la figura es algo diferente para los negativos
lo cual también es expresado en el grafico de residuales contra valores ajustados las
líneas centrales no coinciden mostrando que existe una ligera tendencia cuadrática.
Sin enbarfo la tendencia de normalidad fue suficiente para continuar con el análisis de
varianza.
Discusión de resultados
Los valores estimados indican que para el modelo señalado, las variables alimento y
descanso presentan efectos positivos en la ganancia de peso. Mientras que en los
términos de constante e interacción los efectos son negativos siendo de menor
repercusión la interacción por ser de menor valor.
Hay distintas formas de buscar el modelo más apropiado en una regresión múltiple.
Para decidir
18
si un modelo es apropiado debe tomarse dos aspectos principales:
1. La Suma de cuadrados residual (RSS). Mientras esta sea más pequeña el modelo
será mejor.
2. El coeficiente de determinación múltiple. Mientras R2 sea más grande el modelo
será mejor. Estos dos estadísticos tienen la desventaja de que un modelo reducirá su
RSS (o incrementará su R2 ) cada vez que se incluya un término nuevo en el modelo
independientemente de si el nuevo término realmente contribuye a explicar la
variabilidad de y. Aun así estos dos criterios pueden ser útiles en la selección de
modelos.
3. Un criterio mucho mejor que se puede usar es el Cuadrado Medio del Error (RMS,
residual mean square, en Inglés). Este es calculado por RSS/gl del error, y por lo
tanto toma en cuenta el número de variables que han sido incluidas en el modelo.
Hasta ahora hemos descrito como comparar modelos usando estadísticos derivados
del análisis de varianza de cada modelo en particular y este método funcionó bien
para el primer ejemplo pues la ventaja del modelo que incluye 3 variables
independientes salta a la vista. Sin embargo en algunas ocasiones es necesario decidir
si la inclusión de una nueva variable realmente mejora un modelo y para esto se
requiere de una prueba estadística.
19
Esta prueba esta basada en el principio de Extra Suma de Cuadrados mencionado
anteriormente en este curso.
A este modelo se quiere añadir la variable X2 para formar el modelo M2 con una
suma de cuadrados del error RSS2 que representa la variabilidad no explicada por M2
RSS1 – RSS2
2.2 Ejemplo - 5
2.2.1 Enunciado.
La calidad del agua para el cultivo de peces en estanques puede ser evaluada por la
producción de oxigeno de los organismos que flotan en el agua. Además se sabe que
la cantidad de luz que incide sobre la superficie de los estanques también afecta la
producción de oxigeno. En una evaluación de 17 estanques midió la cantidad de
20
clorofila en el agua, la cantidad de luz incidente y la producción de oxigeno. A partir
de estos datos se quiere determinar un modelo estadístico para la predicción de la
producción de oxigeno, y en particular se quiere confirmar si la clorofila y la luz son
variables importantes en el modelo.
De las dos variables independientes, la variable luz muestra que existe relacion
positiva mucho mas definida que la variable independiente clorofila.
21
2.2.4 Modelo, hipótesis, supuestos, prueba de los supuestos
Comandos de GenStat
model oxigeno
terms[fact=9] clorofila+luz
fit[print=model, summary; constant=estimate; fprob=yes;
tprob=yes; fact=9]clorofila
Salida de GenStat
Discusión:
22
Si el estimado de la variabilidad aleatoria no es el cuadrado medio del error del
segundo modelo, entonces se debe tener cuidado de no usar el test automático de
Genstat.
¿Qué pasa si la primera variable que se incluye es Luz y a esta se añade Clorofila?
Los resultados del análisis en Genstat son los siguientes
23
3 Diseños de experimentos
3.1.2 Tratamientos
3.1.2.1 Cualitativos
3.1.2.2 Cuantitativos
3.1.5.1 Aleatorización
Consiste en la distribución de los tratamientos sobre unidades experimentales de tal
manera que estas no interfieran el efecto individual de cada tratamientos, asi se reduce
24
el sesgo debido a aleatorización y permite que los tratamientos se comparen con
imparcialidad. Esto justifica el supuesto de independencia de errores in modelos
lineales.
3.1.5.2 Bloque
Se utiliza para homogeneizar las unidades experimentales o reducir la heterogeneidad
asi los bloques pueden estar formados por ej. Sexo masculino, sexo femenino, edad,
tipo de suelo, pastura etc.
3.1.5.3 Repetición
Se considera asi al tener mas de una unidad del mismo tratamiento, son necesarias
incrementar la suma de cuadrados como efecto de los tratamientos y asi reducir la
suma de los mismo por causa del error de aleatorizacion, a esto se llama incrementar
la precisión de las diferencias de tratamientos.
Notación comun:
Bloques Tratamientos
1 A B C D
2 A B C D
3 A B C D
4 A B C D
5 A B C D
25
En los diseños incompletos el tamaño de bloque es menor al numero de tratamientos
(k<t) por lo tanto tambien el numero de replicas es menor al numero de bloques (r<b)
hay menos de una replica por bloque porque cada tratamiento no aparece en cada
bloque. Por definición de ortogonalidad, los diseños de bloques incompletos no son
ortogonales.
Ej. Se pretende comparar dos variedades tradicionales (T1 y T2) con dos variedades
nuevas (N1 y N2), además saber cual de las tradicionales a la fecha es mejor y cual de
la nuevas es mejor.
T1 T2 N1 N2 SUMA(horizontal)
Cont-1 0.5 0.5 -0.5 -0.5 =0
Cont-2 -1 1 0 0 =0
Cont-3 0 0 -1 1 =0
Multiplicación vertical:
Solo tres contrastes por que se tiene solo tres grados de libertad para tratamientos, se
puede hacer mas contraste pero ya no serian ortogonales.
3.2 Ejemplo – 7
26
Diseño completamente aleatorizado (diferente numero de replicas)
3.2.1 Enunciado
A B C A
B C A D
C A D B
A D B C
Después de la cosecha se midio el peso seco de trigo por parcela. Los siguientes
rendimientos fueron obtenidos de cada parcela.
27
Este análisis grafico se obtiene, eligiendo Stats del menu principal, luego Summary
statistics, del submenú elegir Sumarise Contents of Variates, luego en el cuadro de
dialogo Variates introducir rendimiento y en el recuadro By groups introducir
variedades. En el recuadro de Options en este caso elegimos Aritmetic Mean y
Standard Deviation. Finalmente en el recuadro de Graphics elegimos Boxplots para
obtener el grafico que se observa arriba.
Interpretación
Observando los datos horizontalmente, podemos ver un traslape entre las variedades
A y C las cuales probablemente no serian diferentes estadísticamente, al igual que B,
C y D, pero no existe traslape alguno comparando A vs B y D. Según la distribución
de datos las variedades D y A, presentan los menores valores en desviación estándar
11.5 y 11.8 respectivamente seguidos por los valores de C y B ver la salida de
resumen estadístico para rendimiento.
yij = u + ti + eij
Análisis:El análisis de datos se obtuvo eligiendo Stats del menú principal, luego
Análisis of variance del submenú. Del recuadro Design se eligio One-way ANOVA
28
(no blocking). Se introdujo la variable rendimiento en el recuadro Y-Variate, y
variedades en el recuadro Treatments. Para obtener los contrastes que se presentan
en la Andeva, hacemos clic en el boton de Contrasts, en el recuadro Contrast-factor
introducimos variedades, en Number of Contrast colocamos hasta un máximo igual
al numero de grados de libertad de los tratamientos en la Andeva finalmente en
Contrast type elegimos Regresión lo cual nos genera una matriz que se debe llenar
con los coeficientes ortogonales de cada contraste o comparación que se muestra al
final de resultados. Luego de hacer clic en Ok dos veces aceptando los contrastes
elegidos y para ejecutar el análisis de varianza hacemos clic en Further ouput y
luego en Residual plots para obtener los gráficos que se muestran a continuación y
observar la condición de normalidad.
Ambos gráficos muestran que los errores siguen distribución normal aceptable para
continuar con el análisis de varianza que se muestra a continuación.
29
AB C D
Contrast 1 1 -1 0 0
Contrast 2 0 1 -1 0
Contrast 3 2 1 0 -1
matrix[rows=!t('A-B','B-C','B-D');columns=4;values=1,-
1,0,0,0,1,-1,0,0,1,0,-1]mycomp
treatmentstructure var+comp(var;3;mycomp)
anova[print=aov,means,contrasts;fprob=yes] Rend
3.3 Ejemplo – 8
3.3.1 Enunciado
Los datos aparecen abajo. Corresponden a las alturas de una planta (en cm) tres
semanas después de la aplicación.
30
3.3.2 Entrada de datos en GenStat:
Nota:
TABULATE [PRINT=means,variances,minima,maxima;
CLASSIFICATION=fert; MARGINS=no] growth
31
3.3.4 Modelo, hipótesis, supuestos, prueba de los supuestos
yij = u + ti + eij
Nota.- DAPLOT, es la directiva que nos genera los gráficos de residuales que
permiten observar si el análisis cumple con la condición de normalidad
Ambos gráficos muestran que los datos siguen distribución normal aceptable para
continuar con el análisis de varianza que se muestra a continuación.
32
Discusión del supuesto de normalidad:
Ambos gráficos muestran que los datos siguen distribución normal aunque algunos
residuos positivos correspondientes a los valores 31 y 39.8 observados en el
tratamientos estiércol de caballo hacen que la curva normal este sesgada a la derecha,
pero que a pesar de ello aceptable para continuar con el análisis de varianza que se
muestra a continuación.
Variate: growth
33
3.3.5 Interpretación del análisis.
3.4 Ejemplo – 9
Estructura factorial
3.4.1 Enunciado
34
3.4.2 Entrada de datos en GenStat
Mean
pot Np sp Mean
fert
nf 33.25 44.00 38.63
sf 47.25 51.00 49.13
Mean 40.25 47.50 43.88
Discusión
35
3.4.4 Modelo, hipótesis, supuestos, prueba de los supuestos
yij = u + ti + eij
Ambos gráficos muestran que los datos siguen distribución normal aunque algunos
residuos negativos correspondientes a los valores 31 y 32 de rendimiento observados
en el tratamiento uno sin ninguna fertilización hacen curva normal este sesgada a la
derecha, pero que a pesar de ello es aceptable para continuar con el análisis de
varianza que se muestra a continuación.
36
***** Analysis of variance *****
Variate: rend
Variate: rend
trat A B C D
33.25 44.00 47.25 51.00
Table trat
rep. 4
d.f. 12
s.e.d. 2.194
Variate: rend
37
Variate: rend
fert f1 f2
38.63 49.13
pot p1 p2
40.25 47.50
fert pot p1 p2
f1 33.25 44.00
f2 47.25 51.00
E análisis de varianza con estructura factorial (rend = fert + pot + fert*pot), muestra
que promedios de los niveles de fertilización (f1 y f2) presenta diferencia altamente
significativa a favor de las parcelas donde se aplico fertilizacion organica. De igual
manera para los promedios de los niveles de fertilizacion con potasio. Finalmente, los
promedios de la interaccion que se observan al final del análisis presentan diferencia
estadística signifcativa lo que indica que se obtuvo mayor rendimiento 51.0 en
parcelas donde se aplicaron ambos fertilizantes.
anova[print=aovtable,information,mean;FACT=32; FPROB=yes;
PSE=diff]rend
treatments fert+pot+fert.pot
anova[print=aovtable,information,mean;FACT=32; FPROB=yes;
PSE=diff]rend
DAPLOT fitted,normal,halfnormal,histogram
38
3.5 Ejemplo - 10.
3.5.1 Enunciado
Ubicación,
El trabajo se realizo en la estación experimental agrícola de Saavedra (EEAS-CIAT).
La zona presenta precipitación promedio anual de 1298 mm (media de 52 años), de
los cuales al periodo de invierno (Abril-Septiembre) corresponden 470 mm. Con
temperatura media de 24 oC.
Tratamientos:
Objetivos:
39
3.5.2 Entrada de datos en GenStat
yij = u + bi + ti + eij
hipótesis
40
4. Ho. El uso de adherente combinado al numero de aplicaciones no afecta el rend.
H1. El uso de adherente combinada al numero de aplicaciones afecta el rend.
Los gráficos de distribución de residuales, muestran que los datos siguen distribución
muy aproximada a la normal con excepción del dato mas bajo correspondiente al
tratamiento E bloque 1 con rendimiento 960 y al tratamiento D bloque 2 con
rendimiento 1169.
Variate: rend
trat A B C D E
1085.5 1129.0 1100.7 1126.5 1002.2
*** Standard errors of differences of means ***
41
Table trat
rep. 4
d.f. 15
s.e.d. 25.94
READ _trows_
'Trat. Vs Cntrl' 'Aplicaciones' 'Adherente' 'Aplic.Adher' :
MATRIX [rows=!t(#_trows_);columns=!t(#_tcols_)] Cont
READ Cont
1 1 1 1 -4 1 1 -1 -1 0 1 -1 1 -1 0 1 -1 -1 1 0 :
3.6 Ejemplo – 11
3.6.1 Enunciado
42
Columna 1 Columna 2 Columna 3 Columna 4 Columna 5
Fila 1 A B C D E
2 B E D A C
3 C D B E A
4 D A E C B
5 E C A B D
Discusión:
Se decidió aleatorizar los tratamientos bajo del diseño cuadrado latino 5x5, por que en
los objetivos del ensayo se quiere establecer si existe algún efecto de aleatorizacion
respecto a filas y columnas y por que las unidades experimentales eran suficientes
para el requerimiento del diseño.
Tratamientos:
Objetivos:
TABULATE [PRINT=means,variances,minima,maxima;
CLASSIFICATION=trat; MARGINS=yes] rend
43
Mean Minimum Maximum Variance
trat
A 11.94 10.800 13.70 1.3530
B 9.50 8.300 10.80 0.8950
C 11.08 10.400 12.00 0.4870
D 9.56 9.000 9.90 0.1530
E 11.32 11.000 11.90 0.1670
Discusión
yij = u + ri + c j + t k ( ij ) + eij
44
Hipotesis: Ho: (µA+µc+µe)/3 = (µB+ µD)2
H1: (µA + µc +µe)/3 ≠ (µB+ µD)2
Ho: µA =µB
H1: µA ≠ µB
Ho: µe = µD
H1: µe ≠ µD
Los datos siguen distribución normal con excepción de un para de datos que expresan
largos residuales como se puede observar en los extremos del normal plot, estos
residuales corresponden a los datos de rendimientos ubicados en la fila 4, columna 1 y
fila 5 columna 5.
Variate: rend
Total 24 36.2400
45
fila 4 colum 1 -0.700 s.e. 0.345
fila 5 colum 5 0.780 s.e. 0.345
Variate: rend
trat A B C D E
11.940 9.500 11.080 9.560 11.320
Table trat
rep. 5
d.f. 12
s.e.d. 0.3154
TABULATE [PRINT=means,variances,minima,maxima;
CLASSIFICATION=trat; MARGINS=yes] rend
46
Diseño de parcelas divididas
3.7.1 Enunciado
Un experimento diseñado para probar el efecto de tres cultivos de abono vegetal sobre
la producción subsecuente de remolacha azucarera, con dos niveles de fertilización de
nitrógeno, fue planificado con un diseño de parcelas dividida. Al principio se supuso
que la remolacha azucarera respondería en diversas formas a los abonos vegetales,
dependiendo del nivel de fertilidad del nitrógeno; por tanto el objetivo consistió en
comparar precisamente como fuese posible el efecto de los abonos vegetales en cada
nivel de fertilidad. En consecuencia, las parcelas principales tuvieron que ser dos
niveles dos niveles de fertilización de nitrógeno, aplicados a la remolacha de azúcar
en poco tiempo y repetidos tres veces en un proyecto de bloque aleatorio completo.
Las sub-parcelas fueron los abonos vegetales que crecieron durante el otoño y el
invierno anteriores a la siembra de la remolacha azucarera. Los tratamientos de abono
vegetal fueron cebada ( C ), vicia ( V ), cebada y vicia creciendo juntas ( CV ) y
barbecho ( B ). No se permitió que creciera nada en las parcelas en barbecho, antes de
sembrar la remolacha azucarera.
47
Nitrogeno 0-N
Mean Minimum Maximum Variance
Abonos
Ba 13.50 13.20 13.80 0.090
Ce 15.23 15.00 15.50 0.063
Vi 22.00 21.00 22.70 0.790
CeVi 18.93 18.30 19.60 0.423
Nitrogeno 120-N
Mean Minimum Maximum Variance
Abonos
Ba 19.27 18.00 20.50 1.563
Ce 23.93 22.20 25.40 2.613
Vi 26.17 24.80 28.40 3.803
CeVi 26.73 25.90 27.60 0.723
Ho: Rend. en parcelas sin nitrógeno es estadísticamente igual a las que no tuvieron
H1: Rend. en parcelas sin nitrógeno es estadísticamente diferente a las que no tuvieron
Ho: Rend. de parcelas con vicia es estadísticamente igual a las que no tenían vicia
H1: Rend. de parcelas con vicia es estadísticamente diferente a las que no tenían vicia
Ho: Rend. de pacelas sobre barvecho es estad. Igual a las que tenían cebada
H1: Rend. de pacelas sobre barvecho es estad. diferentes a las que tenían cebada
Ho: Rend. de parc. sobre vicia es estad. igual a las que tenían cebada y vicia.
H1: Rend. de parc. sobre vicia es estad. diferentes a las que tenían cebada y vicia.
Se planten otras tres hipótesis para saber si existe interacción de los abonos vegetales
con el nitrógeno. Ver cuadro de coeficientes ortogonales de los contrastes.
49
***** Analysis of variance *****
Variate: Rend
Bloq.Nitrogeno stratum
Nitrogeno 1 262.0204 262.0204 104.06 0.009
Residual 2 5.0358 2.5179 4.17
Bloq.Nitrogeno.Abonos stratum
Abonos 3 215.2612 71.7537 118.96 <.001
Nitrogeno.Abonos 3 18.6979 6.2326 10.33 0.001
Residual 12 7.2383 0.6032
Total 23 516.1196
Nitrogeno 0N 120N
17.42 24.02
Abonos Ba Ce Vi CeVi
16.38 19.58 24.08 22.83
50
La parcela principal correspondiente a las dosis de nitrógeno presenta diferencia
altamente significativa, entre sus niveles al igual que la sub-parcela que corresponde
a los niveles de abonos vegetales. Lo importante del análisis esta en la interacción
como se vio en el análisis de estructuras factoriales, aquí también tenemos una
estructura factorial pero aplicada en un diseño de parcelas divididas, donde ambos
factores presentan interacción altamente significativa entre sus niveles. En la mayoría
de los casos la elección de este diseño obedece a una razón logística mas que a una
estrategia con tendencia a buscar precisión debido a que los grados de libertad de los
residuales se reducen según la cantidad de estratos o subparcelas, de esta manera el
cuadrado medio de los residuales o varianza es muy grande dando lugar a
comparaciones poco precisas entre interacciones de niveles.
TABULATE [PRINT=means,variances,minima,maxima;
CLASSIFICATION=Nitrogeno,Abonos; MARGINS=no] Rend
3.8 Ejemplo – 13
3.8.1 Enunciado
Objetivo
51
Se busca la intersección de niveles de los tres factores que presenten mejor
incremento en el rendimiento.
Lo cual genera el diseño en la siguiente salida que incluye la andeva con grados de
libertad:
Blocks stratum 3
Blocks.Wplotsstratum
Fsiembra 2
Residual 6
Blocks.Wplots.Subplots stratum
Insectisida 1
Fsiembra.Insectisida 2
Residual 9
Blocks.Wplots.Subplots.Subsubplots stratum
Fcosecha 2
Fsiembra.Fcosecha 4
Insectisida.Fcosecha 2
Fsiembra.Insectisida.Fcosecha 4
Residual 36
Total 71
Esta seria la manera de ingresar los datos en Genstat para analizar la variable
rendimiento de acuerdo al diseño de parcelas sub-divididas observado en el parrafo
anterior.
54
El supuesto de normalidad se cumple, de acuerdo con los graficos de valores
ajustados y normalidad.
Variate: Rend
Blocks.Fsiembra stratum
Fsiembra 2 443.689 221.844 11.91 0.008
Residual 6 111.758 18.626 2.14
Blocks.Fsiembra.Insectisida stratum
Insectisida 1 706.880 706.880 81.21 <.001
Fsiembra.Insectisida 2 40.688 20.344 2.34 0.152
Residual 9 78.343 8.705 1.86
Blocks.Fsiembra.Insectisida.*Units* stratum
Fcosecha 2 962.335 481.168 102.80 <.001
Fsiembra.Fcosecha 4 13.110 3.277 0.70 0.597
Insectisida.Fcosecha 2 127.831 63.915 13.66 <.001
Fsiembra.Insectisida.Fcosecha 4 44.019 11.005 2.35 0.072
Residual 36 168.498 4.681
Total 71 2840.606
Variate: Rend
Fsiembra 1 2 3
55
32.35 33.01 27.45
Insectisida 1 2
27.80 34.07
Fcosecha 1 2 3
26.42 31.01 35.38
Fsiembra Insectisida 1 2
1 28.16 36.55
2 30.37 35.64
3 24.88 30.02
Fsiembra Fcosecha 1 2 3
1 27.29 32.58 37.20
2 29.25 33.00 36.78
3 22.73 27.46 32.15
Insectisida Fcosecha 1 2 3
1 24.28 28.77 30.36
2 28.56 33.26 40.39
Insectisida 1 2
Fsiembra Fcosecha 1 2 3 1 2 3
1 24.23 29.10 31.15 30.35 36.05 43.25
2 26.20 31.95 32.98 32.30 34.05 40.57
3 22.42 25.25 26.95 23.03 29.68 37.35
56
Fsiembra.Insecticida 1.530
d.f. 36
Fsiembra.Fcosecha 1.735
d.f. 30.07
Mas allá, de analizar la diferencia significativa en los diferentes estratos este ejemplo
trata de mostrar, la cantidad de bloques que se requieren para obtener un cuadrado
medio de residuales relativamente bajo - con respecto a la variación total (expresada
en la suma de cuadrados) - correspondientes a la triple interacción que se convierte en
el centro de interés del estudio, 36 grados de libertad en este caso es mas que
suficiente para obtener preescisión en las comparaciones. Pero la exactitud es la
cantidad de grados de libertad requeridos es un tema muy particular que no tratamos
en este capitulo.
"Split-Split-Plot Design."
BLOCK bloq/Fsiembra/Insectisida
TREATMENTS Fsiembra*Fcosecha*Insectisida
COVARIATE "No Covariate"
ANOVA [PRINT=aovtable,information,means; FACT=32; FPROB=yes;
PSE=diff] rend
DAPLOT fitted,normal
3.9 Ejemplo 14
Diseño no balanceado
3.9.1 Enunciado
Croquis de campo
Jaula 1 Jaula-2 Jaula-3 Jaula-4
Trat C 1600,1580,1670 1620 1540
Trat A 1760 1520 1720 1660, 1690
Trat B 1510,1490,1590 1650 1670
57
3.9.2 Entrada de datos en GenStat
58
3.9.5 Análisis de varianza y promedios
model peso
terms jaulas+vitaminas
fit[print=a,e;fprob=yes;tprob=yes]jaulas+vitaminas
predict[print=p,se]jaulas,vitaminas
Los errores estándares del resumen de valores predicho son apropiados para la
interpretación de los resultados mas para la predicción de nuevas observaciones.
59
Response variate: peso
vitaminas C A B
Prediction S.e. Prediction S.e. Prediction S.e.
jaulas
1 1622.1 21.4 1743.7 29.4 1722.1 36.7
2 1422.1 36.7 1543.7 29.4 1522.1 21.4
3 1589.5 29.9 1711.1 27.8 1689.5 29.9
4 1554.2 28.8 1675.8 23.1 1654.2 28.8
predict[print=p,se]vitaminas
predict[print=p,se]jaulas
predict[print=p,se;adjust=equal]vitaminas
rkeep v=mycova
print mycova
mycova
Constant 457.3
jaulas2 -295.8 1479.0
jaulas3 -340.6 739.5 1119.0
60
jaulas4 -319.2 739.5 583.8 1011.9
vitaminas A -202.4 -443.7 -264.7 -350.3 809.6
vitaminas B -147.9 -887.4 -443.7 -443.7 591.6 1183.2
El cual es inferior en mas de cuatro veces al valor de tabla que se encuentra con 7
grados de libertad y al nivel de 0.005 de confianza.
61
4.1 Ejemplo – 15
4.1.1 Enunciado
62
4.1.3 Análisis exploratorio de datos
Discusión
La variable respuesta el la cantidad de alimento que esta afectada por tres factores:
1. La dietas A, B, C y D. Que serian los tratamientos que afectan la respuesta.
2. El total de numero de pavos por caja no es el mismo en todas las cajas.
3. el numero de machos y hembras no es igual en cada caja.
63
Estos tres factores seran tomados en cuenta para analizar los datos considerando un
modelo lineal que pordria ser el siguiente.
Los parámetros estimados para las dietas B, C y D son comparados con la Dieta A.
Asi podemos ver le error estándar, valor de t y la probabilidad para cada comparación
que nos dice que unicamente las diferencia entre las dietas B y C respecto de A es
significativa .
Discusión:
Los parámetros estimados no dicen que el consumo esta afectado básicamente por los
pavos machos, siendo el efecto de la Hembras no significativo.
Con estos resultados, una opción es sacar el factor hembras del modelo. Reorganizar
el modelo tomando como respuesta el consumo por pavo y como variables
independiente la proporción de machos sobre el total de pavos mas las dietas. Esto
facilitara al investigador entender la relación del siguiente modelo .
model Consporpav
terms Machprop+Dietas
fit[print=a,e;fprob=yes;tprob=yes]Machprop+Dietas
64
***** Regression Analysis *****
Discusion
En el Nuevo analisis vemos que los factores que explican las variaciones de la
variable respuesta son altamente significativos por tanto si hay diferencia en la
preferencia de las dietas como se puede observar en los resultados de valores
estimados.
predict[print=p,se;adjust=equal]Dietas
Discusión
Se calcula de manera los valores predichos por el modelo para realizar futuras
comparaciones entre dietas o grupo de diestas que el investigador considere
necesarias.
rkeep v=mycova
print mycova
mycova
65
Constant 0.6006
Machprop -1.1650 2.3299
Dietas B -0.0181 0.0000 0.0362
Dietas C -0.0450 0.0539 0.0181 0.0374
Dietas D -0.0181 0.0000 0.0181 0.0181 0.0362
model Consumo
terms Machos+Hembras+Dietas
fit[print=a,e;fprob=yes;tprob=yes]Machos+Hembras+Dietas
model Consporpav
terms Machprop+Dietas
fit[print=a,e;fprob=yes;tprob=yes]Machprop+Dietas
predict[print=p,se;adjust=equal]vitaminas
rkeep v=mycova
print mycova
5 Medidas repetidas
66
Un metodo de analizar tales datos es usar regresión para ajustar un apropiada
respuesta (con respecto del tiempo) para los datos de cada unidad separadamente y
luego para analizar los parámetros estimados en forma individual.
Este enfoque puede se llevado acabo en un proceso de dos etapas, primero ajustar
todas las respuestas individuales, luego introducir los valores de los parámetros en un
subsecuente análisis de varianza.
5.1 Ejemplo - 16
5.1.1 Enunciado.
dia c11 C12 C13 C14 C15 C21 C22 C23 C24 C25 C31 C32 c33 C34 C35
3 3.7 3.9 3.9 3 3.6 3.4 3.2 3.6 2.6 3.1 2.4 2.3 2.2 3.2 2.2
4 5 5.6 5 3.7 4.6 4.5 3.9 5.2 3.8 3.8 3.5 3.2 2.8 3.9 2.6
5 6.1 6.5 5.8 4.3 5.7 5.6 4.7 6.3 3.9 5.3 3.7 4.2 3.4 5.2 3.7
6 7.5 7.3 7.3 5.6 6.7 6.2 5.5 7.7 5.3 6.1 4.9 5.2 4.2 6.3 3.8
7 8.3 9.1 8 6.2 8.1 7.4 6.7 8.6 6.2 6.9 6.1 5.3 4.7 7.3 5
8 9.8 10.8 9.5 7.2 9.2 9 7.7 10 6.7 8.4 7 6.4 5.8 7.9 5.3
Nota. En las columnas el primer numero después de la c (caja petrix) indica el numero de aislamiento,
el segundo indica la repetición.
Aclaración.-se tiene tres factores que afectan la variable respuesta (medición del
diámetro del hongo por caja), los factores son: repetición, el tiempo (días) y los
tratamientos (métodos de aislamientos).
1. Si los datos se organizaran como en la tabla de arriba se puede analizar los datos
haciendo regresiones individuales tomando como variable respuesta los diámetros
tomados de las repeticiones que están incluidas en los tres aislamientos y por días.
67
2. En Gesntat se utilizaría el siguiente menú: (Stat, Regresión Análisis, Linear, y
eligiendo Simple Linear Regresión).
Precediendo de igual manera con las restantes 14 mediciones se obtienen las tasas
individuales que pueden ser reordenadas en una nueva tabla de entrada, como se
muestra abajo. Esta tiene 15 filas con tres columnas, dos factores Aislamiento y
numero de caja petrix, (5 cajas petrix por aislamiento).
Variate: Pendientes
68
Source of variation d.f. s.s. m.s. v.r. F pr.
Aislam 2 0.24379 0.12189 4.90 0.028
Met1 vs (Met2+Met3)/2 1 0.13565 0.13565 5.46 0.038
Met2 vs Met3 1 0.10814 0.10814 4.35 0.059
Residual 12 0.29831 0.02486
Total 14 0.54210
Variate: Pendientes
Aislam 1 2 3
1.117 1.019 0.811
Table Aislam
rep. 5
d.f. 12
s.e.d. 0.0997
Discussion:
Otra alternativa que permite realizar las regresiones en el metodo 1 llevarlas acabo de
forma simultanea.
los diámetros de todas las cajas petrix son introducidos en una hoja electrónica de
Genstat en una larga columna con 90 observaciones (6 días por 15 cajas petric por
método).,
Luego de tener la hoja electrónica lista, usar los siguientes comandos Stats,
Regresión Análisis de la lista de regresión. Hacer clic en Opciones, y de-seleccionar
la opción Estimate Constant Term. Hacer clic en Ok para confirmar. Entrar
diámetro como variable respuesta y método cajas/dias en Model to be Fitted. Luego
hacer clic en Ok para confirmar.
Hacer clic en Save. Seleccionar Estimates e introducir el nombre Pendiente en el
recuadro adyacente. También seleccione la opción, Display in Spreadsheet. Clic Ok.
Mediante este procedimiento se gravara los parametros estimados (ambos constantes
y pendientes) dentro de una columna llamada pendiente.
69
La hoja electrónica resultante, se muestra arriba y tiene 30 filas y la primeras 15
contienes las constantes y el resto las tasas de crecimiento o desarrollo de cada
regresión. Se deberá borrar las constantes así la columna queda con 15 filas
correspondiente a las tasas de crecimientos esto se hace usando el siguiente menú
Spread, Delete y Selected rows).
En la nueva hoja electrónica creada, deberá introducirse el factor método para poder
hacer el análisis de varianza similar al método anterior.
SLOPE(known_y’s, known_x’s)
En este caso y’s son los diametros de cada replica por metodo de aislamiento x’s son
el numero de dias que se realizaron las mediciones. Como se observa en siguiente
cuadro:
70
Luego del calculo de las tasas de desarrollo que se muestran en la columna 3, es muy
sencillo importar las tres primeras columnas al Genstat y proceder igual que en el
metodo1.
6 Comparación de regresiones
Cuando se han tomado los datos para una regresión lineal de diferentes muestras o
tratamientos, usualmente interesa investigar si hay efecto de los tratamientos en los
parámetros de la regresión (la pendiente y el intercepto). Hay tres resultados posibles.
La serie de regresiones pueden ser obtenidas usando Simple Linear Rgression with
Groups de la lista del menú de Regresión. Una vez que el modelo apropiado se ha
determinado será mas fácil usar General Linear Regression para obtener las
ecuaciones de una manera mas apropiada, como se ilustra a continuación.
6.1.1 Enunciado
71
Los datos corresponde al numero de hojas en plantas de coliflor, que serán
relacionadas con los grados de temperatura acumulados (grados acumulados por día).
Hay siete pares de valores para cada variedad del experimento. Los análisis evaluaran
si la relación (lineal) entre el numero de hojas y la temperatura acumulada díaria entre
las variedades.
72
6.1.4 Modelos y análisis
73
*** Accumulated analysis of variance ***
6.1.5 Interpretación
Del primer modelo vemos que el termino temp es importante y que el cuadrado
medio del residuo es 1.272. el segundo modelo expuesto en el inciso ( b)), muestra
la salida resultante de agregar el termino variedad es decir líneas paralelas, el
termino adicional es significativo y el cuadrado medio del error (variaza) ha
bajado a 0.163. En el tercer modelo presentado en el inciso ( c ) muestra que las
líneas separadas no mejoran el modelo siendo no significativo y que el cuadrado
medio del residuo no aumento en gran medida 0.165, por lo cual escogemos el
modelo de líneas paralelas, es decir con el arreglo temp + variedad.
74
6.1.6 Grafico del modelo elegido
Para obtener los detalles y el grafico del modelo ajustado regresamos al menu de
regresión y ajustamos directamente el modelo, usando General linear Regresión
como se muestra en la siguiente figura. El modelo ajustado puede examinarse
gráficamente seleccionando Further options y Fitted model con temp como
Expalnatory variate y variedad como el Grouping factor.
Finalmente como Genstat muestra los coeficientes del modelo ajustado. Por
defecto se obtine la siguiente salida:
75
De esta ultima salida se obtienen directamente las ecuaciones:
6.1.7 Conclusiones
La variedad dos muestra el mismo incrento del numero de hojas por unidad de
temperatura lo que esta condicionado por la pendiente 0.8186. Pero por las
características de la variedad presenta mayor numero de hojas que la variedad uno
lo que se manifiesta en la diferencia de constantes en las ecuaciones.
76
6.2 Ejemplo – 18 Cuando la distribución es Binomial
Usando el mismo enunciado anterior, aquí se trata de analizar los datos registrados
para un determinado numero de plantas infestadas con mancha temprana Alternaria
sp. Encontradas en un total que varia entre 6 y 9 platas de las 2 variedades replicadas
para cada año.
77
6.2.2 Análisis exploratorio de datos
este primer modelo con una sola variable independiente (Temperatura) genera una
regresión lineal simple.
78
*** Accumulated analysis of deviance ***
6.2.4 Interpretación
79
Al igual que en el caso anterior 19.1, En el cuadro de dialogo Generalized linear
models, Ajustamos el modelo introduciendo en el sub menu model to be fitted el
modelo variedad + temp.variedad y antes de ejecutarlo, seleccionamos el menu
Options y eliminamos la selección Estimate Constant para obtener los siguientes
parámetros estimados para cada una de la variedades con constantes pendientes
diferentes al ser líneas separadas.
6.2.6 Conclusión
80
+ln(1.317)*(10.6) = 1. Mientras que para la variedad dos serian 3. y podriamos
concluir que el incremento de la temperatura afecta incrementando el numero de
plantas enfermas de las variedades pero tambien que la variedad 2 es
exponencialmente susceptible.
A la tabla del ejemplo anterior agregamos una columna con la información señalada.
81
6.3.3 Modelos y análisis
6.3.4 Interpretación
Del primer modelo vemos que el termino temp es importante y que el cuadrado
medio del residuo es 4.389. el segundo modelo expuesto en el inciso ( b), muestra
la salida resultante de agregar el termino variedad es decir líneas paralelas, el
termino adicional es significativo y el cuadrado medio del error (variaza) ha
bajado considerablemente a 0.1929. En el tercer modelo presentado en el inciso (
c ) muestra que las líneas separadas no mejoran el modelo siendo no significativo
y que el cuadrado medio del residuo no aumento en gran medida 0.1853, por lo
82
cual escogemos el modelo de líneas paralelas, es decir con el arreglo temp +
variedad, procediendo al igual que en el primer caso cuando analizamos datos con
distribución normal.
antilog of
estimate s.e. t(*) t pr. stimate
Variedad Var1 -0.985 0.478 -2.06 0.039 0.3736
Variedad Var2 0.642 0.397 1.62 0.106 1.901
temp 0.1518 0.0296 5.12 <.001 1.164
83
Variedad 1 logit (p) = -.985 + 0.2755*Temp.
Variedad 2 logit (p) = 0.642 + 1.562*Temp.
6.3.6 Conclusión
Los cual se interpreta diciendo que el numero de plantas infestadas en 0.1518 ves
o las veces del resultado ln (1.164) por cada unidad de temperatura que se
incremente para cada variedad en particular. Asi para 12 grados de temperatura el
numero de plantas infestadas para la variedad uno se calcula:
Lo cual esta de acuerdo con los datos exploratorios que demuestran una respuesta
natural de mayor susceptibilidad de la variedad dos que se incrementa
logaritmicamente en forma paralela a la variedad uno como efecto del incremento
de la temperatura.
6.4 Ejemplo – 20
7 Estructura Binomial
Como parte de un largo estudio sobre los efectos de varios químicos sobre la
germinación de semillas bajo viarios regímenes de temperatura, cuatro diferentes
concentraciones de un químico fueron usadas para tratamiento de semillas
almacenadas a cuatro niveles de temperatura. Para cada una de las 16
combinaciones 4 recipientes con 50 semillas fueron almacenados y el numero de
semillas contenidas en las 64 unidades experimentales fueron probados bajo
condiciones estándares. En la tabla de abajo se muestra el numero de semillas
germinadas en cada recipiente. Si se asume que cada una de las 50 semillas
germinan independientemente y que no existe ninguna diferencia en la tasa de
germinación entre recipientes que son tratados idénticamente, luego una
distribución binomial mas una relación logística puede ser esperada como un
modelo apropiado. Una secuencia de modelos es ajustada para evaluar la relativa
importancia de los efectos de los niveles de concentración y temperatura y su
interacción. Note que no hay boque para las 4 repeticiones.
84
7.1.1 Datos a introducir
Concentración
Temp! Rep Agua 0.1 1 10
T1 1 9 13 21 40
2 9 12 23 32
3 3 14 24 43
4 7 15 27 34
T2 1 19 33 43 48
2 30 32 40 48
3 21 30 37 49
4 29 26 41 48
T3 1 7 1 8 3
2 7 2 10 4
3 2 4 6 8
4 5 4 7 5
T4 1 4 13 16 13
2 9 6 13 18
3 3 15 18 11
4 7 7 19 16
60 60
40 40
20
20
0
0
0 2 4 6
0 2 4 6
C o ncentracio n
C o ncentracio n
Mean
Conc agua 0.1 1.0 10
Temp
T1 7.00 13.50 23.75 37.25
T2 24.75 30.25 40.25 48.25
T3 5.25 2.75 7.75 5.00
T4 5.75 10.25 16.50 14.50
85
7.1.3 Modelos y análisis
Usando el menu principal Stats, luego del submenú Regresión análisis elegimos
Generalized linear models. Del cuadro de dialogo para Análisis, elegimos
Modelling of binomial proportions (e.g. by logists). En el recuadro Number(s) of
subjects introducimos el total de semillas por recipiente (50). En el recuadro de
Number of successes introducimos la columna que representa el numero de plantas
germinadas. En el recuadro Model to be fitted la variable independiente. Luego para
adicionar mas factores, inicialmente hacemos clic en el submenú Change model en el
recuadro Terms introduciremos los términos en el orden de interés.
86
Modelo Desvianza Grados de libertad
antilog of
estimate s.e. t(*) t pr. estimate
Constant -1.815 0.204 -8.91 <.001 0.1628
Temp T2 1.795 0.248 7.24 <.001 6.021
Temp T3 -0.328 0.308 -1.06 0.287 0.7207
Temp T4 -0.225 0.301 -0.75 0.454 0.7982
Conc 0.1 0.821 0.259 3.17 0.002 2.272
Conc 1 1.715 0.248 6.91 <.001 5.558
Conc 10 2.887 0.26 11.09 <.001 17.95
Temp T2 .Conc 0.1 -0.374 0.328 -1.14 0.254 0.6878
Temp T2 .Conc 1.0 -0.277 0.337 -0.82 0.41 0.7578
Temp T2 .Conc 10 0.449 0.485 0.93 0.354 1.567
Temp T3 .Conc 0.1 -1.522 0.465 -3.27 0.001 0.2184
Temp T3 .Conc 1.0 -1.268 0.391 -3.24 0.001 0.2813
Temp T3 .Conc 10 -2.942 0.42 -7 <.001 0.05277
Temp T4 .Conc 0.1 -0.135 0.383 -0.35 0.724 0.8734
Temp T4 .Conc 1.0 -0.383 0.365 -1.05 0.295 0.682
Temp T4 .Conc 10 -1.742 0.376 -4.64 <.001 0.1751
Agregando un pseudofactor con dos niveles para comparar dos grupos de niveles de
temperatura (T1 + T2) vs (T3 + T4), la primera agrupación por presentar el mayor
incremento de plantas germinadas mientras en los dos últimos niveles presentaron los
incrementos mas bajos.
87
Change mean deviance approx
d.f. deviance deviance ratio chi pr
+ pseudoF 1 554.586 554.586 554.59 <.001
+ Temp 2 209.101 104.551 104.55 <.001
+ Conc 3 282.008 94.003 94.00 <.001
+ Temp.Conc 9 92.464 10.274 10.27 <.001
Residual 48 55.641 1.159
7.1.4 Interpretación
8 Regresión logística
8.1 Ejemplo 21
8.1.1 Enunciado
88
8.1.3 Análisis exploratorio
Los principios expuestos en capitulos anteriores para tables de doble entrada pueden
ser extendidos para tables de mayors dimenciones. En este ejemplo se muestra una
tabla con tres variables categóricas: La epoca de siembra, el tamaño y la
sobrevivencia.
Los datos como respuesta a estas tres variables estan representados por
Donde:
Uijk = media gral. como resultado del efecto de todos los términos de miembro izq.
Ei, Tj, y Sk = efectos individuales de cada factor en orden jerarquico.
(ET)ij, (ES)ik, (TS)jk y (ETS)ijk = Interacciones de acuerdo al orden jerarquico.
89
Empezando con el factor Epoca
8.1.5 Discusion
Los análisis anteriores nos permiten elejir el modelo que explica la mayor variavilidad
de la media general 194.702. el ultimo análisis de desvianzas presenta el residual mas
bajo 2.294 que seria lo que no explica el modelo, pero que es el mas bajo en
comparación con los modelos anteriores que al igual que este presenta diferencia
estadística altamente significativa. Estas son las razones para elegir este modelo que
90
considera la sobrevivencia como factor individual y las interacciones con los otros dos
factores.
antilog of
estimate s.e. t(*) t pr. estimate
Constant 5.1179 0.0730 70.14 <.001 167.0
Sobrev muerta -0.624 0.111 -5.61 <.001 0.5359
Sobrev viva.Epoca Verano -0.827 0.112 -7.40 <.001 0.4373
Sobrev muerta.Epoca Verano 0.5200 0.0857 6.07 <.001 1.682
Sobrev viva.Tamano corto -0.553 0.107 -5.18 <.001 0.5750
Sobrev muerta .Tamano corto 0.3542 0.0842 4.21 <.001 1.425
8.1.6 Interpretación
8.2.1 Enunciado
91
8.2.2 Introducción de datos
TABULATE [PRINT=totals;CLASSIFICATION=var,injerto;MARGINS=yes]
Nopla
Total
injerto Ex Fr Total
var
A 45.00 60.00 105.00
B 20.00 95.00 115.00
Para probar si existe una relación de dependencia entre las variedades y la respuesta
en el injerto bastaria con hacer una prueba de chi-cuadrado en Genstat usando los
siguientes comandos: Stats, Statistical test y luego elegir Contingency table. Hacer
clic en Create table luego dar nombre a la tabla y especificar el numero de filias y
columnas 2x2. e ingresar los valores. Finalmente hacer clic en Ok para confirmar.
92
X2 = Sumatoria{(valor Obs. – valor esperado)2/valor esperado}
8.2.5 Interpretación
esta probabilidad nos indica que la respuesta del los niveles categoricos de ijerto
(éxito/fracaso) responden altamente significativa al efecto de los dos niveles
categóricos de la variedad (A/B).
8.3 Ejemplo 23
8.3.1 Enunciado
Si a los datos del ejercicio anterior agregamos una factor llamado localidad (L1 y L2)
a nuestro estudio como es muy normal en investigación agrícola, nuestros datos en
Genstat estarian de la siguiente manera:
Note que los valores de éxito y fracaso de ambas variedades se reparten por
localidades
93
8.3.4 Discusión del análisis
El calculo para los valores esperados ahora es mas tedioso así para el primer valor de
nuestros datos seria:
200x(105/200)x(100/200)x(120/200)=31.5
EAL1IEx = Nx(VA/N)x(L1/N)x(IEx/N)
Para calcular los efectos por separado talvez tendríamos que organizar tablas
individuales o si queremos ver la interacción de efectos y se complica mas aun si
tenemos la necesidad de seguir agregando factores.
8.3.5 Modelo
Si aplicamos logaritmo a la formula de arriba tendríamos la siguiente formula que
explicaria como la respuesta de cada valor se ve afectado por cada uno de las niveles
categóricos:
Este mismo modelo se realiza en Genstat valanceando con la constante el termino que
aqui reduce en 2 o 3 veces Ln(N) al miembro izquierdo de la ecuación.
Usando el mismo proceso en el manejo del menu que en el ejercicio anterior aquí
obtenemos el modelo completo y observamos la desviación media del residual y la
significancia básicamente en la respuesta y las interacciones de los factores.
94
8.3.6 Análisis de desvianza
Asi el modelo que explica la variabilidad en la respuesta vendría dado por el Éxito o
fracaso de injertar mas las 3 dobles interacciones que presentan significancia, el
análisis final de desvianza es como sigue.
antilog of
estimate s.e. t(*) t pr. estimate
Constant 3.266 0.188 17.34 <.001 26.19
injerto Fr -1.090 0.330 -3.30 <.001 0.3362
varA.Loc L2 -0.331 0.275 -1.20 0.229 0.7180
var B .Loc L1 0.809 0.223 3.63 <.001 2.245
var B .Loc L2 -0.481 0.314 -1.53 0.126 0.6182
injerto Fr .var B -1.161 0.357 -3.25 0.001 0.3132
injerto Fr .Loc L2 2.091 0.361 5.79 <.001 8.096
8.3.7 Interpretación
95
La cantidad de plantas injertadas son estadísticamente superiores con ralacion en la
que no se tubo éxito. La interacción entre variedad y localidad esta generada
básicamente por la diferencia entre lo totales de la cantidad de plantas de la variedad
B en la localidad 1 que es estadísticamente diferente del total de la variedad A en
localidad 1. Finalmente podemos afirmar que se obtuvo mayor éxito injertando con la
variedad A efectuados en la localidad 1.
8.4 Ejemplo 24
8.4.1 Enunciado
96
8.4.3 Análisis exploratorio
cor_vivos 0 1 2 3+
Fincas razas
1 A 10 21 96 23
B 4 6 28 8
C 6 7 58 7
2 A 8 19 44 1
B 5 17 56 1
C 1 5 20 2
3 A 22 95 103 4
B 18 49 62 0
C 4 12 16 2
8.4.5 Discusión:
97
*** Accumulated analysis of deviance ***
8.4.6 Discusión
Para efectos de interpretación del modelo, necesitamos una tabla que explique la
interacción fincas por corderos vivos, ya que la interacción precedente es
independiente de corderos vivos, aunque se pueden presentar ambas tablas que
expliquen ambas interacciones. la siguiente tabla muestra la interacción finca vs
corderos vivos
TABULATE [PRINT=means;CLASSIFICATION=fincas,cor_vivios;
MARGINS=no] NoCorderos
Mean
cor_vivos 0 1 2 3+
fincas
98
1 6.67 11.33 60.67 12.67
2 4.67 13.67 40.00 1.33
3 14.67 52.00 60.33 2.00
Mean
razas A B C
fincas
1 37.50 11.50 19.50
2 18.00 19.75 7.00
3 56.00 32.25 8.50
8.4.7 Interpretación
99