Aplicacion de Modelos Lineales y Lineales Generalizados

UNIVERSIDAD DE READING
MAESTRIA EN BIOMETRIA
PROYECTO
“APLICACION DE MODELOS LINEALES y MODELOS LINEALES

GENERALIZADOS A LA INVESTIGACIÓN AGROPECUARIA Y
FORESTAL EN EL CIAT, SANTA CRUZ, BOLIVIA”
Reading, 27 de Agosto de 2002

1 Regresión lineal Simple .........................................................................................1
1.1 Ejemplo-1.......................................................................................................1
1.1.1 Enunciado ..............................................................................................1
1.1.2 Entrada de datos en GenStat ..................................................................1
1.1.3 Análisis exploratorio de datos................................................................1
1.1.4 Gráfico de la relación.............................................................................1
1.1.5 Modelo, supuestos, prueba de los supuestos..........................................2
1.1.6 El error típico de la pendiente................................................................5
1.1.7 Predicción ..............................................................................................5
1.1.8 Predicciones para un valor medio y de un valor individual...................5
1.1.9 Predicciones para un valor individual....................................................6
1.2 Ejemplo - 2.....................................................................................................9
1.2.1 Regresión y Correlación ........................................................................9
1.2.2 La proporción de variabilidad explicada por la regresión .....................9
1.2.3 El coeficiente de correlación..................................................................9
1.2.4 Modelos................................................................................................10
1.3 Ejemplo 3. ....................................................................................................11
1.3.1 Enunciado. ...........................................................................................11
1.3.2 Entrada de datos en GenStat: ...............................................................11
1.3.3 Análisis exploratorio de datos:.............................................................12
1.3.4 Modelo, supuestos, prueba de los supuestos........................................12
2 Regresión Múltiple...............................................................................................15
2.1 Ejemplo 4 .....................................................................................................15
2.1.1 Enunciado. ...........................................................................................15
2.1.2 Entrada de datos en GenStat ................................................................15
2.1.3 Análisis exploratorio de datos..............................................................16
2.1.4 Modelo, hipótesis, supuestos, prueba de los supuestos .......................16
2.1.5 Buscando el modelo más apropiado ....................................................18
2.1.6 Prueba de hipótesis para comparar modelos........................................19
2.2 Ejemplo - 5...................................................................................................20
2.2.1 Enunciado. ...........................................................................................20
3 Diseños de experimentos .....................................................................................24
3.1 Conceptos y ejemplos - 6.............................................................................24
3.1.1 Objetivos de un experimento ...............................................................24
3.1.2 Tratamientos ........................................................................................24
3.1.3 Componentes de la experimentación ...................................................24
3.1.4 Componentes del diseño de un experimento .......................................24
3.1.5 Principios sobre diseños.......................................................................24
3.2 Ejemplo – 7 ..................................................................................................26
Diseño completamente aleatorizado (diferente numero de replicas).......................27
3.2.1 Enunciado ............................................................................................27
3.2.5 Interpretación del análisis. ...................................................................30
3.2.6 Programa de comandos en GenStat. ....................................................30
3.3 Ejemplo – 8 ..................................................................................................30
Diseño Completamente Aleatorizado ......................................................................30
3.3.1 Enunciado ............................................................................................30
3.4 Ejemplo – 9 ..................................................................................................34
Estructura factorial...................................................................................................34
3.4.1 Enunciado ............................................................................................34
3.4.5 Interpretación del análisis ....................................................................37
3.4.6 Programa de comandos en GenStat .....................................................38
3.5 Ejemplo - 10.................................................................................................39
Estructura factorial más control en bloques completos al azar................................39
3.5.1 Enunciado ............................................................................................39
3.6 Ejemplo – 11 ................................................................................................42
Diseño Cuadrado Latino ..........................................................................................42
3.6.1 Enunciado ............................................................................................42
3.7 Ejemplo –12 .................................................................................................46
Diseño de parcelas divididas....................................................................................47
3.7.1 Enunciado ............................................................................................47
3.8 Ejemplo – 13 ................................................................................................51
Diseño de parcelas sub-divididas.............................................................................51
3.8.1 Enunciado ............................................................................................51
3.8.2 Diseño del experimento en GenStat.....................................................52
3.8.5 Análisis de varianza y promedios ........................................................55
3.9 Ejemplo 14 ...................................................................................................57
Diseño no balanceado ..............................................................................................57
3.9.1 Enunciado ............................................................................................57
4 Analisis de datos - M.Sc ......................................................................................61
4.1 Ejemplo – 15 ................................................................................................62
4.1.1 Enunciado ............................................................................................62
5 Medidas repetidas ................................................................................................66
5.1 Ejemplo - 16.................................................................................................67
5.1.1 Enunciado. ...........................................................................................67
5.1.2 Método 1 de análisis ............................................................................67
5.1.3 Método 2 mediante regresiones ...........................................................69
5.1.4 Metodo 3. Usando Excel......................................................................70
6 Comparación de regresiones ................................................................................71
6.1 Ejemplo – 17 Cuando la distribución es normal.......................................71
6.1.1 Enunciado ............................................................................................71
6.1.4 Modelos y análisis................................................................................73
6.1.5 Interpretación .......................................................................................74
6.1.6 Grafico del modelo elegido..................................................................75
6.1.7 Conclusiones ........................................................................................76
6.2 Ejemplo – 18 Cuando la distribución es Binomial ....................................77
6.2.4 Interpretación .......................................................................................79
6.2.6 Conclusión ...........................................................................................80
6.3 Ejemplo – 19 Cuando los datos siguen la distribución de Poisson.............81
6.3.1 Entrada de datos en Genstat.................................................................81
6.3.4 Interpretación .......................................................................................82
6.3.6 Conclusión ...........................................................................................84
6.4 Ejemplo – 20 ................................................................................................84
7 Estructura Binomial .............................................................................................84
7.1.1 Datos a introducir.................................................................................85
7.1.2 Análisis exploratorio............................................................................85
7.1.4 Interpretación .......................................................................................88
8 Regresión logística...............................................................................................88
8.1 Ejemplo 21 ...................................................................................................88
8.1.1 Enunciado ............................................................................................88
8.1.2 Introducción de datos...........................................................................88
8.1.5 Discusion..............................................................................................90
8.1.6 Interpretación .......................................................................................91
8.2 Ejemplo 22 ...................................................................................................91
8.2.1 Enunciado ............................................................................................91
8.2.5 Interpretación .......................................................................................93
8.3 Ejemplo 23 ...................................................................................................93
8.3.1 Enunciado ............................................................................................93
8.3.4 Discusión del análisis...........................................................................94
8.3.5 Modelo .................................................................................................94
8.3.6 Análisis de desvianza...........................................................................95
8.3.7 Interpretación .......................................................................................95
8.4 Ejemplo 24 ...................................................................................................96
8.4.1 Enunciado ............................................................................................96
8.4.5 Discusión: ............................................................................................97
8.4.6 Discusión..............................................................................................98
8.4.7 Interpretación .......................................................................................99
1 Regresión lineal Simple
1.1 Ejemplo-1
1.1.1 Enunciado
Se prepararon 9 macetas con suelo a las cuales se les aplicó diferentes cantidades de
fósforo inorgánico. En cada maceta se cultivo plantas de maíz que fueron cosechadas
38 días después de la siembra y fueron analizadas en el laboratorio para determinar la
cantidad de fósforo asimilado como una medida aproximada de la cantidad de fósforo
disponible en el suelo. Los resultados introducidos en GenStat como sigue:
1.1.2 Entrada de datos en GenStat
1.1.3 Análisis exploratorio de datos
P_suelo P_planta
1 64
4 71
5 54
9 81
11 76
13 93
23 77
23 95
28 109
1.1.4 Gráfico de la relación
El supuesto de relación lineal entre P suelo y P planta parece razonable.

Ahora podemos estimar los parámetros de la ecuación de la línea recta: a y b.
mediante el análisis de varianza.
1
1.1.5 Modelo, supuestos, prueba de los supuestos
Yi = α + βxi + εi
Donde:
Yi variable respuesta con in valores

α Valor constante cuando el valor de la abcisa es cero.
β Pendiente de la línea de regresión
xi Variable independiente con con in valores
εi representa la suma de cuadrados de residuales que no explica el modelo:
1.1.5.1 Los supuestos para el análisis de varianza
1. La variable independiente se mide sin error.
2. El valor verdadero de la variable respuesta y esta linealmente relacionado con x, sin

embargo los valores observados están afectados por variación aleatoria. Así
.Yi = α + βxi + εi
3. Se asume que las desviaciones ei siguen una distribución normal con media cero y
varianza constante. En notación estadística ei ~ N(m,σ2 )
El primero esta determinado por el diseño del experimento y en este caso es

aceptable.
El segundo fue aceptado cuando hicimos el gráfico de P planta contra P suelo y

decidimos que el uso del modelo y = a + bx era razonable.
El tercero sólo puede ser probado una vez que el análisis ha sido realizado. La forma
más fácil de comprobar este supuesto es a través de gráficos.
En Genstat estos gráficos se pueden obtener una vez que el análisis ha sido efectuado
presionando el botón Further output y luego Model Checking Esto genera el
comando RCHECK [RMETHOD=deviance; GRAPHICS=high] residual; composite
2
Que produce la siguiente salida:
Discusión:
En este caso es mas útil interpretar los restantes gráficos de residuales que emuestran
cierta normalidad de los datos que están por encima de la media y con distribución
sesgada a la izquierda
Esta secuencia produce los siguientes comandos y salida
"Simple Linear Regression"

MODEL P_planta
TERMS P_suelo
FIT [PRINT=model,summary,estimates; CONSTANT=estimate;
FPROB=yes; TPROB=yes] P_suelo
***** Regression Analysis *****

Response variate: P_planta
Fitted terms: Constant, P_suelo
*** Summary of analysis ***
d.f. s.s. m.s. v.r. F pr.

Regression 1 1473.6 1473.6 12.89 0.009
Residual 7 800.4 114.3
Total 8 2274.0 284.2
Percentage variance accounted for 59.8 = [1-(114.3/284)*100]

Standard error of observations is estimated to be 10.7
*** Estimates of parameters ***
estimate s.e. t(7) t pr.

Constant 61.58 6.25 9.86 <.001
P_suelo 1.417 0.395 3.59 0.009
De donde podemos decir que la ecuación de la recta es:
3
P planta = 61.58 + 1.417 P suelo
El análisis de regresión puede hacerse en Genstat usando el menú Stats, Regression

Analysis, Linear, luego en el recuadro de Response variate colocar el nombre de la
variable respuesta, en el recuadro Explanatory variates nombre o los nombres de las
variables independientes.
Interpretación de los resultados
Andeva
Grados de libertad (g.l.), en regresión linear simple los g.l resultan ser uno por que se
considera solo una variable independiente. Para el total de la andeva los g.l son el
total de las observaciones menos 1. Para los residuales los g.l. vienen dados por la
diferencia de los g.l del total menos los de la regresión.
La suma de cuadrados medios es el resultado de dividir la suma de cuadrados entre

los g.l., asi la varianza corresponde a la suma de cuadrados medios de los residuales
(114.3). El valor de F calculado o v.r. corresponde a la razon: (1473.6/114.3) cuyo
resultado es 12.89 comparado con el valor de F(1,7) de tabla 5.59, claramente el valor
de F calculado es superior al de tabla de F. Sin embargo, las diferencias significativas
las podemos observar directamente en la ultima columna de la andeva cuyo valor es
0.009 menor que el 1% como margen de error mas bajo para aceptar la hipótesis
alternativa de que dichas variables tienen relación lineal.
Genstat también puede producir el gráfico de la línea de regresión y los valores

observados x, y. Para ello use el menú Further Output, Model Checking y complete
la caja de dialogo seleccionando Fitted Values, o bien use el commando
RGRAPH [GRAPHICS=high]
Que produce el gráfico
Note que el título del gráfico puede cambiarse usando la opción Title, por ejemplo
4
RGRAPH [GRAPHICS=high; title = ‘Gráfico de regresión y = 60.58 + 1.417 x’]
1.1.6 El error típico de la pendiente
El error típico de la pendiente nos de la medida de la precisión de b. Esta dado por
s2
s.e.(b) = = 0.395
s xx
Usando este resultado y la información b sigue una distribución de t de Student con

los grados de libertad del error, es posible definir el intervalo de confianza para la
pendiente como
b ± t ( n − 2) x error tipico
En nuestro ejemplo el intervalo de confianza del 95% para la verdadera pendiente esta
dado por:
1.417 ± (2.36) x (0.395) = (0.485, 2.349).
1.1.7 Predicción
Un uso frecuente de la regresión es para predecir el valor que la variable respuesta (y)
tomaría bajo ciertos valores de la variable independiente (x). Estas predicciones se
obtienen sustituyendo el valor de x en la ecuación y calculando el valor
correspondiente de y.
Por ejemplo, si el fósforo inorgánico en el suelo fuera X0 = 20 ppm el contenido

esperado de fósforo en la planta sería
y = 61.58 + 1.417 * 20 = 89.92
Dado que el valor predicho (y ) es un estimado es necesario tener una medida de su

precisión.
Esta precisión se mide a través del error típico de la predicción.

Aquí hay que distinguir dos situaciones:
1.1.8 Predicciones para un valor medio y de un valor individual
La predicción del valor medio esperado para un grupo de observaciones tomadas a un

nivel fijo de x. En este caso el error típico esta dado por
5
−
s.e( y ) = s 2 [ + o x ]
1 (x − )
^ 2
n s xx
Esta situación corresponde por ejemplo al caso cuando se cultiva un número grande
de plantas de maíz en suelo con 20 ppm de fósforo inorgánico. El valor medio del
contenido de fósforo en las plantas será: 89.92 y su error típico es:
^
1 (20 − 13) 2
s.e( y ) = 114.3[ + ] = 4.51
9 734
Debe notarse que el error típico de ŷ tendrá su mínimo cuando x = media. Esto quiere
0
decir que la precisión de las predicciones es más alta cuando xo es igual a la media de
la variable independiente.
El intervalo de confianza del 95% para la predicción media del valor de y cuando x =
xo esta dado por:
−
^
2 1 ( xo − x) 2
( y ) ± t( 7 ) s [ + ]
n s xx
(89.21-4.51*2.36 , 89.21+4.51*2.36) = (78.56, 99.85)
1.1.9 Predicciones para un valor individual
La predicción para un valor individual se hace de la misma forma, es decir usando el

modelo:
Sin embargo el error típico se calcula como:
Si se cultiva una sola maceta con un nivel de fósforo de 20 ppm el valor predicho
sería:
Ŷ = 61.58 + 1.417 * 20 = 89.92
Y su error tipico:
6
El intervalo de confianza esta dado por (61.85, 116.56)
Para hacer este análisis en Genstat se puede usar el menú como se describió arriba o
bien los siguientes comandos:
MODEL P_planta
TERMS P_suelo
FPROB=yes; TPROB=yes] P_suelo
RCHECK [RMETHOD=deviance; GRAPHICS=high] residual; composite
predict P_suelo; levels=20

predict [scope=new]P_suelo; levels=20
print 'predicciones medias'

predict[prediction=ypred; se=etipico] P_suelo; levels=P_suelo
calc max95=ypred+2.36*etipico
calc min95=ypred-2.36*etipico
calc ancho=max95-min95
print ypred, etipico, min95, max95, ancho
print 'predicciones individuales'
PREDICT[Prediction=iypred; se=ietipico; scope=new]P_suelo;

levels=P_suelo
calc imax95=iypred+2.36*ietipico
calc imin95=iypred-2.36*ietipico
calc iancho=imax95-imin95
print iypred, ietipico, imin95, imax95, iancho
Comentarios sobre el programa:
La directiva VARIATE, especifica el numero de datos y el nombre de la variable. La

directiva READ especifica el orden de los datos de la variable. Para el análisis de
regresión, la directiva MODEL señala la variable respuesta, mientras que TERMS
indica la variable respuesta. La directiva FIT hace que el contenido entre corchetes
realice el análisis de varianza considerando la variable respuesta que debe estar
indicada luego del cierre de corchetes. La directiva RCHECK, permite observar el
supuesto de normalidad mediante graficos que indican como se distribuyen los
residuales. La directiva PREDICT permite encontrar el valor de la variable respuesta
para un determinado valor del la variable independiente. Esta directiva tambien
permite especificar entre corchetes el error tipico para cada correspondencia de
valores entre la variable independiente y respuesta, permitiendo calcular los intervalos
de confianza como se muestra el los resultados de salida del GenStat.

Fitted terms: Constant, P_suelo
7

Regresión 1 1473.6 1473.6 12.89 0.009
Residual 7 800.4 114.3
Total 8 2274.0 284.2
Percentage variance accounted for 59.8


Constant 61.58 6.25 9.86 <.001
P_suelo 1.417 0.395 3.59 0.009
*** Predictions from regression model ***
These predictions are estimated mean values.

The predictions are based on fixed values of some variates:
Variate Fixed value Source of value

P_suelo 20.00 Supplied
The standard errors are appropriate for interpretation of the predictions as

summaries of the data rather than as forecasts of new observations.
Prediction S.e.
89.92 4.51

These predictions are estimated mean values.
The predictions are based on fixed values of some variates:
Variate Fixed value Source of value

P_suelo 20.00 Supplied
The standard errors are appropriate for interpretation of the predictions as

forecasts of new observations rather than as summaries of the data.
Prediction S.e.
89.9 11.6
Se debe ser muy cuidadoso al usar los modelos para hacer predicciones fuera del
rango de valores estudiado en la variable independiente. En primer lugar a medida que
se predice para valores de x alejados de la media la precisión de la predicción se
8
reduce como se vio en el ejemplo anterior. En segundo lugar cuando se hace una
predicción fuera del rango conocido de x se esta asumiendo que el modelo continuará
siendo válido. Como ejemplo véase el gráfico de abajo
1.2 Ejemplo - 2.
1.2.1 Regresión y Correlación
Cuando tenemos un grupo de pares (x, y) podemos estudiar la relación entre x y y de

dos formas
1.2.2 La proporción de variabilidad explicada por la regresión
La proporción de la variación de y que es explicada por la regresión de x en y esta

dada por el Coeficiente de Determinación (R 2 ) que se calcula como:
R2= Suma de cuadrados de la regresión /suma de cuadrados total
Que en nuestro ejemplo –1
R2 = 1474/2274 =0.64
Este coeficiente se interpreta así:
64% de la variación del fósforo encontrado en las plantas es explicada por su relación
lineal con el contenido de fósforo inorgánico en el suelo.
1.2.3 El coeficiente de correlación
¿Hasta que punto la relación es lineal? Esto se puede medir usando el coeficiente de
correlación (r)
9
Note que r =√ 0 64 . =√ R2, es decir el coeficiente de correlación es igual a la raíz
cuadrada del coeficiente de determinación únicamente en el caso cuando el
coeficiente de determinación mide la variabilidad de y explicada por el modelo
y = a + bx.
1.2.4 Modelos
¿Cómo están relacionadas x y y? Hasta ahora hemos visto el caso del modelo
y = a + bx,
la línea recta, como un posible modelo y se asume que estamos interesado en la

relación de dependencia entre y y x . Al comparar la utilidad de la regresión lineal con
el coeficiente de correlación se puede concluir que la regresión lineal es mas útil
porque
a. Da la forma de la relación entre y y x.

b. Da el valor de R 2 , que contiene toda la información del coeficiente de correlación
y aun mas.
c. Porque es posible chequear la validez del modelo de regresión.
2.5. Uso de transformaciones para solventar las violaciones de los supuestos
Una manera de corregir problemas con los supuestos de los análisis de regresión es
transformar la variable respuesta. Algunas transformaciones usadas para estabilizar
varianzas pueden asociarse a ciertos tipos de variables respuesta. Por ejemplo:
Raiz cuadrada de y Para respuestas Poisson
Sen-1 (√y) Para respuestas binomiales
Log(y) Cuando la variable respuesta es proporcional al cuadrado del

tamaño de la variable independiente.
Una vez que se han aplicado las transformaciones se debe ajustar la línea de regresión
otra vez y analizar de nuevo los residuos.
Es importante detectar y corregir el problema de la falta de homogeneidad de

varianzas. Si no se elimina el problema los estimadores tienen errores típicos mas
grandes de lo que deberían tener, es decir nuestros estimados son menos precisos.
10
1.3 Ejemplo 3.
1.3.1 Enunciado.
Se supone que el rendimiento del cultivo del arroz en tierras bajas de Nicaragua es
afectado por la concentración de sal en el suelo. Como consecuencia de la
introducción de irrigación, la concentración de sales ha ido incrementándose en los
últimos 25 años. Un sonde de los niveles de salinidad en 28 campos arrojo los
siguientes resultados. La concentración de sal se dad como la diferencia entre la
concentración en el campo irrigado y la concentración en áreas adyacentes no
irrigadas.
1.3.2 Entrada de datos en GenStat:
sal rend …………...Continua

7 14.5 75 9.9
9 25.3 79 14.4
18 16.2 83 10.8
24 10.82 94 5.8
26 20.6 100 8.9
42 9.7 106 11.3
43 18.6 107 9.89
51 13.8 108 9
54 10.85 113 7.69
58 16.4 116 9.07
59 11.64 120 8.7
68 8.5 131 7.4
72 14.3 142 5.7
74 9 142 5.1
11
1.3.3 Análisis exploratorio de datos:
El supuesto de relación lineal entre P suelo y P planta parece razonable pero no parece
seguir una línea recta propiamente, ante la duda veremos el porcentaje de variación
que toma en cuenta el análisis considerando regresión lineal mediante el análisis de
varianza.
1.3.4 Modelo, supuestos, prueba de los supuestos
Los supuestos son similares al ejemplo 1. la prueba de los supuestos se vera con el
análisis de varianza.

Regression 1 334.2 334.217 36.86 <.001
Residual 26 235.7 9.067
Total 27 570.0 21.110

* MESSAGE: The following units have large standardized
residuals:
Unit Response Residual
2 25.30 2.77
* MESSAGE: The error variance does not appear to be constant:
large responses are more variable than small responses

Constant 18.37 1.25 14.75 <.001
sal -0.0888 0.0146 -6.07 <.001
12
El grafico de los valores ajustados se muestra a continuación:
El análisis grafico de los residuos produjo lo siguiente:
El grafico de residuos estandarizados contra valores ajustados confirma la advertencia

de Genstat sobre la falta de homogeneidad de varianzas. Para tratar de resolver este
problema se sugiere probar transformando la variable respuesta al logaritmo natural
de los valores originales, de tal forma que analizaremos ln(y) en lugar de y.
Los comandos de GenStat son:
CALCULATE logrend=LOG(rend)

MODEL logrend
TERMS sal
FPROB=yes; TPROB=yes] sal
RGRAPH [GRAPHICS=high]
RCHECK [RMETHOD=deviance; GRAPHICS=high] residual; composite
13
La salida de GenStat es:
Response variate: logrend

Fitted terms: Constant, sal

Regression 1 2.410 2.40973 49.43 <.001
Residual 26 1.268 0.04875
Total 27 3.677 0.13620

estimate s.e. t(26) tpr.

Constant 2.9586 0.0914 32.39 <.001
sal -0.00754 0.00107 -7.03 <.001
Comparación de las salidas
Los cambios entre la salida como resultado del análisis, es diferente básicamente
debido a la transformación de datos. Las ultimas cuatro columnas de la andeva cambia
hacia números menores es de nuestro interés observar el cuadrado medio de los
residuales (la varianza) que es mucho menor (0.1362) cuando se analiza datos
transformados. El error estándar de la observaciones mucho menor 0.221. lo cual nos
permitirá estimar intervalos de confianza de menor ancho y mayor precisión.
A continuación se muestran el grafico de los valores ajustados:
El análisis grafico de los residuos fue el siguiente:
14
Comentarios sobre los gráficos de residuos:
Los gráficos de histograma y residuales vs valores ajustados aun muestran que los
datos transformados no siguen una distribución normal propiamente, sin embargo los
siguientes dos gráficos llamados Normal plot y Half-Normal plot muestran una mayor
aproximación a lo que llamamos distribución normal comparando con los gráficos
usando datos sin transformar.
2 Regresión Múltiple
Los mismos principios usados para la regresión lineal pueden usarse para extender el
modelo con la inclusión de mas de una variable independiente. A estos modelos se les
llama modelos de regresión múltiple.
2.1 Ejemplo 4
2.1.1 Enunciado.
Por ejemplo considere los datos un estudio para investigar el efecto del consumo de
alimento y el tiempo de descanso en el aumento de peso de cerdos. Para el estudio se
observaron 12 cerdos durante 4 semanas. Los resultados se presentan a continuación.
Consumo de alimento Tiempo de descanso Ganancia de peso
La preguntas de interés son:
¿Hay alguna relación entre la ganancia de peso y el consumo de alimento?

¿Hay alguna relación entre la ganancia de peso y el tiempo de descanso?
¿Será que la ganancia de peso depende tanto del consumo de alimento como del
tiempo de descanso?
¿Hay algún efecto combinado del tiempo de descanso y el consumo de alimento sobre
con la ganancia de peso?
alimento descanso gpeso
15
90 175 865.71
120 342 1178.48
114 252 1084.86
137 362 1229.59
128 284 1114.62
130 219 1102.61
114 229 1045.29
73 260 976.4
55 88 519.32
102 132 893.9
106 254 1095.24
60 199 828.68
Los gráficos expresan un crecimiento positivo de ganancia en peso en los cerdos, en

función de las dos variables independientes. Ambas variables independientes expresan
una tendencia lineal pero un mejor ajuste de la variable respuesta podría estar en
función de la variable denominada descaso.
2.1.4 Modelo, hipótesis, supuestos, prueba de los supuestos
El modelo que incluye todas las variables independientes es:
Ganancia de peso i = constante + b1*alimentoi + b2*descansoi + b3*

alimento*descanso + ei
Se asume que ei sigue una distribución normal con media m=0 y varianza constante.
Note que el modelo incluye múltiples variables independientes, de allí el nombre de
regresión múltiple.
16
La prueba de F del ANOVA “summary of analysis” es para la hipótesis nula
H0 : b1 = b2 = ... = bk = 0
Contra la hipótesis alternativa de que por lo menos uno de los coeficientes β es

distinto de cero.
Las pruebas de F en el ANOVA “Accumulated analysis of variance” son pruebas para

cada β
individualmente así:
H0 : b1 = 0
H0 : b2 (una
vez que b1 ha sido estimado) = 0
H0 : b3 (una
vez que b2 y b1 han sido estimados) = 0
De la misma forma que en la regresión lineal el coeficiente de determinación R 2
(llamado coeficiente de determinación múltiple en este caso) es un indicador de que
tan bueno es el modelo que se esta ajustando.
Los datos estan contenidos en 3 variables: alimento, descanso, gpeso. Luego de

introducir los datos en Genstat, ajustamos el modelo usando los siguientes comandos
comandos:
"General Linear Regression"

model gpeso
FIT [PRINT=model, summary, accumulated, estimates;
CONSTANT=estimate; FPROB=yes; TPROB=yes; FACT=9]
alimento+descanso+alimento.descanso
RCHECK [RMETHOD=deviance;GRAPHICS=high] residual;composite
Response variate: gpeso

Fitted terms: Constant+alimento+descanso +alimento.descanso
estimate s.e. t(8) t.pr.

Constant -139.9 65.7 -2.13 0.066
alimento 3.636 0.325 11.20 <.001
descanso 8.177 0.696 11.75 <.001
alimento.descanso -0.02185 0.00295 -7.41 <.001
17
*** Accumulated analysis of variance ***
Change d.f. s.s. m.s. v.r. F pr.

+ alimento 1 329256.8 329256.8 730.00 <.001
+ descanso 1 58798.6 58798.6 130.36 <.001
+ alimento.descanso 1 24789.0 24789.0 54.96 <.001
Residual 8 3608.3 451.0
Total 11 416452.7 37859.3
Discusión de normalidad
Mediante el análisis grafico podemos ver que el normal plot muestra distribución
normal para los residuales positivos pero la figura es algo diferente para los negativos
lo cual también es expresado en el grafico de residuales contra valores ajustados las
líneas centrales no coinciden mostrando que existe una ligera tendencia cuadrática.
Sin enbarfo la tendencia de normalidad fue suficiente para continuar con el análisis de
varianza.
Discusión de resultados
Los valores estimados indican que para el modelo señalado, las variables alimento y
descanso presentan efectos positivos en la ganancia de peso. Mientras que en los
términos de constante e interacción los efectos son negativos siendo de menor
repercusión la interacción por ser de menor valor.
En el análisis de varianza se puede observar que los componentes de variación

presentan efectos significativos, en la elección del modelo, este resulto ser el mas
adecuado por presentar el mayor valor en la suma de cuadrados del residual, menor
varianza y mayor coeficiente de correlación R2.
2.1.5 Buscando el modelo más apropiado
Hay distintas formas de buscar el modelo más apropiado en una regresión múltiple.
Para decidir
18
si un modelo es apropiado debe tomarse dos aspectos principales:
• Que el modelo tenga sentido práctico

• Que tenga el mínimo número necesario de variables independientes, a este modelo
se le llama un modelo parsimonioso.
Una vez que se han seleccionado las posibles variables que serán incluidas en el
modelo, se pueden ajustar los todos los modelos posibles (este número puede ser
bastante grande) o un sub-conjunto promisorio y la decisión sobre cual modelo es más
apropiado puede ser hecha sobre la base de:
1. La Suma de cuadrados residual (RSS). Mientras esta sea más pequeña el modelo
será mejor.
2. El coeficiente de determinación múltiple. Mientras R2 sea más grande el modelo
será mejor. Estos dos estadísticos tienen la desventaja de que un modelo reducirá su
RSS (o incrementará su R2 ) cada vez que se incluya un término nuevo en el modelo
independientemente de si el nuevo término realmente contribuye a explicar la
variabilidad de y. Aun así estos dos criterios pueden ser útiles en la selección de
modelos.
3. Un criterio mucho mejor que se puede usar es el Cuadrado Medio del Error (RMS,
residual mean square, en Inglés). Este es calculado por RSS/gl del error, y por lo
tanto toma en cuenta el número de variables que han sido incluidas en el modelo.
Debe hacerse énfasis que el proceso de selección de un modelo adecuado debe

siempre comenzar por encontrar un modelo que tiene sentido práctico, solo después
de ello se deben utilizar métodos estadísticos
para la comparación de modelos.
En el ejemplo anterior, los modelos posibles son:

1. Ganancia de peso = a + b1* alimento
2. Ganancia de peso = a + b2* descanso
3. Ganancia de peso = a + b1* alimento + b2* descanso
4. Ganancia de peso = a + b1* alimento + b2* descanso + b3* alimento* descanso
Comparemos los 3 estadísticos sugeridos arriba para cada modelo:
Modelo RSS R2 RMS

1 87196 77.0 8720
2 99990 73.6 9999
3 28397 91.7 3151
4 3608 98.8 451
2.1.6 Prueba de hipótesis para comparar modelos
Hasta ahora hemos descrito como comparar modelos usando estadísticos derivados
del análisis de varianza de cada modelo en particular y este método funcionó bien
para el primer ejemplo pues la ventaja del modelo que incluye 3 variables
independientes salta a la vista. Sin embargo en algunas ocasiones es necesario decidir
si la inclusión de una nueva variable realmente mejora un modelo y para esto se
requiere de una prueba estadística.
19
Esta prueba esta basada en el principio de Extra Suma de Cuadrados mencionado
anteriormente en este curso.
La prueba se realiza de la siguiente forma:
Supongamos que tenemos un modelo M1 para la variable respuesta y que incluye la

variable x1, con una suma de cuadrados del error RSS1 que representa la variabilidad
no explicada por M1
M1: y = a + b1*x1, RSS1
A este modelo se quiere añadir la variable X2 para formar el modelo M2 con una
suma de cuadrados del error RSS2 que representa la variabilidad no explicada por M2
M2: y = a + b1*x1 + b2*x2,RSS2
Además se tiene un estimado de la variabilidad aleatoria de y, S2, probablemente dado

por el cuadrado medio del error de M2, = RSS2/gl. (Este estimado puede también
venir de un modelo con más términos de tal forma que generalmente escogemos el
cuadrado medio del error del modelo mas grande que se este ajustando).
Entonces para determinar si M2 realmente es mejor que M1, habría que ver si la
reducción en la variabilidad no explicada
RSS1 – RSS2
Es suficientemente grande para decir que X2 realmente contribuye a explicar y, una

vez que X1 esta incluida en el modelo.
La prueba para la hipótesis H0: X2 mejora el modelo y = a + b1* x1 es:
donde s2 puede estimarse como RSS2/gl2.
Si la hipótesis nula es cierta el estadístico F sigue la distribución de F de Fisher con gl1

y gl2 grados de libertad.
2.2 Ejemplo - 5
2.2.1 Enunciado.
La calidad del agua para el cultivo de peces en estanques puede ser evaluada por la
producción de oxigeno de los organismos que flotan en el agua. Además se sabe que
la cantidad de luz que incide sobre la superficie de los estanques también afecta la
producción de oxigeno. En una evaluación de 17 estanques midió la cantidad de
20
clorofila en el agua, la cantidad de luz incidente y la producción de oxigeno. A partir
de estos datos se quiere determinar un modelo estadístico para la predicción de la
producción de oxigeno, y en particular se quiere confirmar si la clorofila y la luz son
variables importantes en el modelo.
clorofila luz oxigeno

33.8 329.5 2.16
47.8 306.8 4.13
100.7 374.7 2.84
105.5 432.8 4.65
33.4 222.9 -0.42
27 352.1 1.32
46 390.8 4.04
139.5 232.6 1.97
27 277.7 1.63
22.5 358.5 1.16
16.5 210 0.61
71.3 361.8 1.94
49.4 300.4 1.7
19.3 96.9 0.21
71.6 151.8 0.98
13.4 126 0.06
11.8 67.8 -0.19
De las dos variables independientes, la variable luz muestra que existe relacion
positiva mucho mas definida que la variable independiente clorofila.
21
Modelo incluyendo solo clorofila
Comandos de GenStat
model oxigeno
terms[fact=9] clorofila+luz
fit[print=model, summary; constant=estimate; fprob=yes;
tprob=yes; fact=9]clorofila
Salida de GenStat
Response variate: oxigeno

Fitted terms: Constant + clorofila

Regression 1 10.91 10.915 6.31 0.024
Residual 15 25.93 1.729
Total 16 36.85 2.303
Ahora añadimos luz al modedo:
add[print=model, summary; constant=estimate; fprob=yes;

tprob=yes; fact=9]luz
Nueva salida, incluyendo el efecto de la variable luz.

Fitted terms: Constant + clorofila + luz

Regression 2 24.43 12.2135 13.77 <.001
Residual 14 12.42 0.8872
Total 16 36.85 2.3030
Change -1 -13.51 13.5124 15.23 0.002

Discusión:
22
Si el estimado de la variabilidad aleatoria no es el cuadrado medio del error del
segundo modelo, entonces se debe tener cuidado de no usar el test automático de
Genstat.
De esta prueba se deduce que si el término Luz se incluye en el modelo después de

tener Clorofila, el modelo si mejora y por lo tanto M2 es mejor que M1.
¿Qué pasa si la primera variable que se incluye es Luz y a esta se añade Clorofila?
Los resultados del análisis en Genstat son los siguientes

Fitted terms: Constant + luz

Regression 1 21.87 21.8668 21.89 <.001
Residual 15 14.98 0.9987
Total 16 36.85 2.3030

Fitted terms: Constant + luz + clorofila

Regression 2 24.43 12.2135 13.77 <.001
Residual 14 12.42 0.8872
Total 16 36.85 2.3030
Change -1 -2.56 2.5602 2.89 0.111
El resultado de añadir Clorofila a un modelo que ya incluye Luz es que la nueva

variable no mejora significativamente el modelo.
La conclusión general de este análisis es que el modelo el mejor modelo de los

probados es
Producción de Oxigeno = Constante + β Luz
El modelo no mejora significativamente con la inclusión de Clorofila como variable

adicional.
23
3 Diseños de experimentos
3.1 Conceptos y ejemplos - 6
3.1.1 Objetivos de un experimento
Generalmente para conocer resultados o reunir información (ej. Para optimizar la

producción).
3.1.2 Tratamientos
En este curso se comparan los efectos de diferentes tratamientos. Ejemplos de

tratamientos en diferentes áreas de investigación:
3.1.2.1 Cualitativos
Medicina drogas o medicamentos

Animales dietas
Agricultura Variedades, pesticidas, maquinarias, tipos de suelo... etc.
Psicología Métodos de enseñanza.
3.1.2.2 Cuantitativos
Fertilizantes (Cantidad en peso o volumen)

Pesticidas (Cantidad en peso o volumen)
Semillas (Numero o peso por area o sitio)
3.1.3 Componentes de la experimentación
1. El diseño (antes de experimentar)

2. El análisis (después de realizado el experimento)
3.1.4 Componentes del diseño de un experimento
1. Los tratamientos a ser usados (ej. Pesticidas, dietas, variedades, maquinaria

etc)
2. Las unidades experimentales (ej. Platas, animales, unidades de area)
3. Las observaciones a ser recolectadas (ej. Altura de planta, peso etc.)
4. La ubicación de los tratamientos en las unidades experimentales (ej. Parcelas)
3.1.5 Principios sobre diseños
3.1.5.1 Aleatorización
Consiste en la distribución de los tratamientos sobre unidades experimentales de tal
manera que estas no interfieran el efecto individual de cada tratamientos, asi se reduce
24
el sesgo debido a aleatorización y permite que los tratamientos se comparen con
imparcialidad. Esto justifica el supuesto de independencia de errores in modelos
lineales.
3.1.5.2 Bloque
Se utiliza para homogeneizar las unidades experimentales o reducir la heterogeneidad
asi los bloques pueden estar formados por ej. Sexo masculino, sexo femenino, edad,
tipo de suelo, pastura etc.
3.1.5.3 Repetición
Se considera asi al tener mas de una unidad del mismo tratamiento, son necesarias
incrementar la suma de cuadrados como efecto de los tratamientos y asi reducir la
suma de los mismo por causa del error de aleatorizacion, a esto se llama incrementar
la precisión de las diferencias de tratamientos.
3.1.5.4 Diseño de bloques Ortogonales
Un diseño de bloques es ortogonal si cada bloque contiene cada tratamiento en la

misma cantidad de veces. Un diseño ortogonal requiere que el tamaño de bloque sea
múltiplo del numero de tratamientos. Ej. 4 trat. Se distribuyen en diseño de bloques
ortogonales siempre y cuando el tamaño de los bloques sea: 4, 8, 12..... etc. Asi cada
bloque contiene cada tratamiento 1, 2 o 3 veces.
3.1.5.5 Diseños de bloques completos
Un diseño de bloques completos al azar es un diseño de bloques en el cual cada

bloque contiene cada tratamiento una sola vez. De acuerdo con la definición de
ortogonalidad los DBCA es ortogonal.
Notación comun:
t = numero de tratamientos r = repeticiones

b = No. De bloques k = tamaño de bloque
n = No. Unidades experimentales
ej: 4 tratamientos, 20 unidades exp., 5 bloques, tamaño de bloque 4.
Bloques Tratamientos
1 A B C D
2 A B C D
3 A B C D
4 A B C D
5 A B C D
t=4 r=5 b=5 k=4 n = 20
3.1.5.6 Diseños de bloques incompletos
25
En los diseños incompletos el tamaño de bloque es menor al numero de tratamientos
(k<t) por lo tanto tambien el numero de replicas es menor al numero de bloques (r<b)
hay menos de una replica por bloque porque cada tratamiento no aparece en cada
bloque. Por definición de ortogonalidad, los diseños de bloques incompletos no son
ortogonales.
3.1.5.7 Diseños de bloques incompletos balanceados (Condición )
Un diseño de bloques es balanceado si cada par de tratamientos aparecen juntos en los

bloques el mismo numero de veces. Asi por definición, los diseños de bloques
ortogonales son balanceados, mientras que los diseños de bloques incompletos no son
necesariamente ortogonales.
La formula para detectar si un diseño de bloques incompletos es balanceado es:
Λ = r(k-1)/t-1 debe dar siempre un entero, si no es asi el diseño no es balanceado y

el análisis de varianza no podra ser realizado por Genstat usando los comandos Stats,
Análisis of Variance para un diseño especifico.
3.1.5.8 Contrastes ortogonales
Son las comparaciones donde cada promedio de tratamiento o grupo de tratamientos

que se compara participa con un mismo o diferente numero de observaciones por lo
cual para cada comparación es preciso calcular el error estándar de la diferencia de
medias teniendo como base la misma varianza homogénea que se extrae de la andeva
donde se la conoce como el cuadrado medio del error.
Prueba de coeficientes ortogonales en el total de contrastes que se incluyen en la

anova:
Ej. Se pretende comparar dos variedades tradicionales (T1 y T2) con dos variedades
nuevas (N1 y N2), además saber cual de las tradicionales a la fecha es mejor y cual de
la nuevas es mejor.
T1 T2 N1 N2 SUMA(horizontal)
Cont-1 0.5 0.5 -0.5 -0.5 =0
Cont-2 -1 1 0 0 =0
Cont-3 0 0 -1 1 =0
Multiplicación vertical:
Cont-1*Cont-2 -0.5 0.5 0 0 =0

Cont-1*Cont-3 0 0 0.5 -0.5 =0
Con-2*Cont-3 0 0 0 0 =0
Solo tres contrastes por que se tiene solo tres grados de libertad para tratamientos, se
puede hacer mas contraste pero ya no serian ortogonales.
3.2 Ejemplo – 7
26
Diseño completamente aleatorizado (diferente numero de replicas)
3.2.1 Enunciado
Se realiza un experimento con el objetivo de comparar el rendimiento de tres nuevas

variedades de trigo, representadas por las letras A, C, D, frente a una variedad
tradicional B; las variedades fueron aleatorizadas sobre 16 parcelas. Debido a un error
de procedimiento, la variedad D fue sembrada en tres parcelas y variedad A en 5
parcelas, las otras dos variedades en cuatro. El experimento se establecido como
sigue:
A B C A
B C A D
C A D B
A D B C
Después de la cosecha se midio el peso seco de trigo por parcela. Los siguientes
rendimientos fueron obtenidos de cada parcela.
var! Rend …continuacion

A 115.5 B 83.8
A 137.2 C 109.1
A 118.3 C 116.7
A 105.9 C 90.6
A 112.4 C 86.6
B 90.6 D 76.9
B 58.8 D 66.4
B 97.2 D 89.3
Mean Minimum Maximum Variance

var
A 117.86 105.90 137.2 138.2
B 82.60 58.80 97.2 281.7
C 100.75 86.60 116.7 209.1
D 77.53 66.40 89.3 131.4
27
Este análisis grafico se obtiene, eligiendo Stats del menu principal, luego Summary
statistics, del submenú elegir Sumarise Contents of Variates, luego en el cuadro de
dialogo Variates introducir rendimiento y en el recuadro By groups introducir
variedades. En el recuadro de Options en este caso elegimos Aritmetic Mean y
Standard Deviation. Finalmente en el recuadro de Graphics elegimos Boxplots para
obtener el grafico que se observa arriba.
Interpretación
Observando los datos horizontalmente, podemos ver un traslape entre las variedades
A y C las cuales probablemente no serian diferentes estadísticamente, al igual que B,
C y D, pero no existe traslape alguno comparando A vs B y D. Según la distribución
de datos las variedades D y A, presentan los menores valores en desviación estándar
11.5 y 11.8 respectivamente seguidos por los valores de C y B ver la salida de
resumen estadístico para rendimiento.
yij = u + ti + eij
Donde: j es el rendimiento de cada i variedad

µ es el efecto de la media general
ti es el efecto de tratamientos (variedades)
ei error sin explicacion de la variación aleatoria se asume que son indep. Con
distribución normal N(o, σ2)
Hipotesis: Ho: µA= µB= µC= µD

H1: µA≠ µB (almenos dos de los promedios de tratamientos sean difrerentes)
Supuestos: son necesarios dos supuestos:

1.Los residuales son independientes y normalmente distribuidos
2.La varianza de las observaciones en cada grupo de tratamiento es la misma.
Análisis:El análisis de datos se obtuvo eligiendo Stats del menú principal, luego
Análisis of variance del submenú. Del recuadro Design se eligio One-way ANOVA
28
(no blocking). Se introdujo la variable rendimiento en el recuadro Y-Variate, y
variedades en el recuadro Treatments. Para obtener los contrastes que se presentan
en la Andeva, hacemos clic en el boton de Contrasts, en el recuadro Contrast-factor
introducimos variedades, en Number of Contrast colocamos hasta un máximo igual
al numero de grados de libertad de los tratamientos en la Andeva finalmente en
Contrast type elegimos Regresión lo cual nos genera una matriz que se debe llenar
con los coeficientes ortogonales de cada contraste o comparación que se muestra al
final de resultados. Luego de hacer clic en Ok dos veces aceptando los contrastes
elegidos y para ejecutar el análisis de varianza hacemos clic en Further ouput y
luego en Residual plots para obtener los gráficos que se muestran a continuación y
observar la condición de normalidad.
Discusión del supuesto de normalidad:
Ambos gráficos muestran que los errores siguen distribución normal aceptable para
continuar con el análisis de varianza que se muestra a continuación.
***** Analysis of variance *****

Variate: Rend
Source of variation d.f. s.s. m.s. v.r. F. pr.
var 3 4197.6 1399.2 7.34 0.005
A-B 1 2762.8 2762.8 14.49 0.002
B-C 1 658.8 658.8 3.46 0.088
B-D 1 44.0 44.0 0.23 0.640
Residual 12 2287.9 190.7
Total 15 6485.4
***** Tables of contrasts *****

Variate: Rend
*** var contrasts ***
A-B 35.3 s.e. 9.26 ss.div. 2.22

B-C -18.1 s.e. 9.76 ss.div. 2.00
B-D 5. s.e. 10.5 ss.div. 1.71
29
AB C D
Contrast 1 1 -1 0 0
Contrast 2 0 1 -1 0
Contrast 3 2 1 0 -1
3.2.5 Interpretación del análisis.
El análisis de varianza con varianza homogénea 190.7, muestra que si existe

diferencia altamente significativa entre las variedades. Dichas diferencias son
demostradas mediante la prueba de contrastes incluidas en la Andeva. El primer
contraste indica que existe diferencia altamente significativa entre la nueva variedad
A y la tradicional B. El segundo y tercero indican que no existe diferencia estadística
entre las nuevas variedades C y D respecto de la variedad tradicional B.
3.2.6 Programa de comandos en GenStat.
matrix[rows=!t('A-B','B-C','B-D');columns=4;values=1,-
1,0,0,0,1,-1,0,0,1,0,-1]mycomp
treatmentstructure var+comp(var;3;mycomp)
anova[print=aov,means,contrasts;fprob=yes] Rend
3.3 Ejemplo – 8
Diseño Completamente Aleatorizado
3.3.1 Enunciado
Un experimento fue conducido para estudiar el cómo responde el pasto Taiwán a

varios tratamientos del fertilizante. Cuatro tratamientos fueron incluidos:
A: Estiércol de vaca B: Estiércol de caballo

C: Estiércol de pollo D: Control, es decir ningún fertilizante.
Los datos aparecen abajo. Corresponden a las alturas de una planta (en cm) tres
semanas después de la aplicación.
30
fert! growth …Continuacion …Continuacion

A 32.8 B 29.2 D 28.1
A 33.4 B 32.6 D 30.3
A 31.2 B 31 D 24.2
A 31.6 B 30 D 27.8
A 29.4 B 39.8 D 25.6
A 30.3 C 29.8 D 28.1
A 34.1 C 30.6 D 32.7
A 31.9 C 29.1 D 26.8
A 30.5 C 24.3 D 26.9
A 30.4 C 31.2 D 26.4
B 34.4 C 31.6
B 28.2 C 28.3
B 35.1 C 28.9
B 30.4 C 29.2
B 27.8 C 26.4
Nota:
El comando Units se utiliza para indicar entre corchetes el numero de unidades

experimentales. El comando factor se usa para especificar entre corchetes, la cantidad
de niveles (4), la cantidad de valores (10) en cada uno de los niveles (1...4) y labels
para especificar con que palabras serán identificados los niveles del factor fertilizante
en el manejo de datos en GenStat.
Aquí se presenta el programa para hacer el análisis exploratorio de datos en GenStat,

pero se recomienda usar el menú principal por la cantidad de opciones que este
presenta y que varia de un ejemplo a otro, también considerando la edición de
gráficos.
TABULATE [PRINT=means,variances,minima,maxima;
CLASSIFICATION=fert; MARGINS=no] growth
PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(growth);

SKIP=0; JUSTIFICATION=left
BOXPLOT [TITLE=_tmptext] growth; GROUPS=fert
Salida del analisis:

fert
A 31.56 29.40 34.10 2.260
B 31.85 27.80 39.80 13.758
C 28.94 24.30 31.60 4.907
D 27.69 24.20 32.70 5.765
31
yij = u + ti + eij

H1: µA≠ µB≠ (almenos dos medias son diferentes)
Programa en Genstat para realizar el análisis de varianza y el análisis grafico de los

supuestos del análisis.
Matrix[rows=!t('A-B', '(A+B)/2-C', '(A+B+C)/3-

D');columns=4;values=1,-1,0,0,0.5,0.5,-1,0,1,1,1,-3]mycomp
treatmentstructure fert+comp(fert;3;mycomp)
anova[print=aov,means,contrasts;fprob=yes] growth
DAPLOT fitted,normal,halfnormal,histogram
Nota.- DAPLOT, es la directiva que nos genera los gráficos de residuales que
permiten observar si el análisis cumple con la condición de normalidad
Ambos gráficos muestran que los datos siguen distribución normal aceptable para
continuar con el análisis de varianza que se muestra a continuación.
32
Ambos gráficos muestran que los datos siguen distribución normal aunque algunos
residuos positivos correspondientes a los valores 31 y 39.8 observados en el
tratamientos estiércol de caballo hacen que la curva normal este sesgada a la derecha,
pero que a pesar de ello aceptable para continuar con el análisis de varianza que se
muestra a continuación.

Variate: growth

fert 3 123.154 41.051 6.15 0.002
A-B 1 0.421 0.421 0.06 0.803
(A+B)/2-C 1 50.968 50.968 7.64 0.009
(A+B+C)/3-D 1 71.765 71.765 10.75 0.002
Residual 36 240.222 6.673
Total 39 363.376
***** Tables of contrasts *****
Variate: growth
*** fert contrasts ***
A-B -0.3 s.e. 1.16 ss.div. 5.00
(A+B)/2-C 2.8 s.e. 1.00 ss.div. 6.67
(A+B+C)/3-D 9.3 s.e. 2.83 ss.div. 0.833
33
El análisis de varianza con varianza homogénea 6.673, muestra que si existe

diferencia altamente significativa entre las variedades (ver. F.prb 0.002) quedica que
existe menos del 1% de probabilidad de que la hipótesis nula se cumpla. Dichas
diferencias son demostradas mediante la prueba de contrastes incluidas en la Andeva.
El primer contraste indica que el promedio de plantas del pasto Taiwan en parcelas
que fueron aplicadas con estiércol de vaca o de caballo no presentan diferencia
significativa. El segundo demuestra que la media de altura de plantas en las parcelas
donde se aplico estiércol de vaca y caballo es superior y altamente significativa
comparada con la media de altura de planta donde se aplico estiércol de pollo.
Finalmente, el tercer contraste demuestra que la media de altura de planta de pasto
Taiwán es significativamente superior en parcelas donde se aplico fertilizante
comparada con la media de altura de plantas en parcelas donde no se hizo ninguna
aplicación.
DESCRIBE [SELECTION=mean,min,max,var; GROUPS=fert] growth

PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(growth);
BOXPLOT [TITLE=_tmptext] growth; GROUPS=fert
Matrix[rows=!t('A-B', '(A+B)/2-C', '(A+B+C)/3-
D');columns=4;values=1,-1,0,0,0.5,0.5,-1,0,1,1,1,-3]mycomp
treatmentstructure fert+comp(fert;3;mycomp)
anova[print=aov,means,contrasts;fprob=yes] growth
3.4 Ejemplo – 9
Estructura factorial
3.4.1 Enunciado
Para investigar si la fertilización orgánica y la aplicación de potasio adicional afecto

la producción de pasto se realizo un experimento como un factorial 2*2 con cuatro
replicas de cada uno de los cuatro tratamientos siguientes:
1. ningún abono, ningún potasio adicional.

2. solamente potasio adicional.
3. solamente fertilización orgánica.
4. fertilización orgánica y el potasio adicional.
34
trat! fert! pot! rep! rend

A f1 p1 r1 32
A f1 p1 r2 37
A f1 p1 r3 33
A f1 p1 r4 31
B f1 p2 r1 44
B f1 p2 r2 45
B f1 p2 r3 47
B f1 p2 r4 40
C f2 p1 r1 48
C f2 p1 r2 43
C f2 p1 r3 52
C f2 p1 r4 46
D f2 p2 r1 54
D f2 p2 r2 49
D f2 p2 r3 53
D f2 p2 r4 48
Para el análisis exploratorio de datos se uso el comando TABULATE con las

especificaciones requeridas entre corchetes y al final especificando la variable de
interes que es el rendimiento. Lo cual nos genera una tabla de doble entrada con
medias de rendimiento como resultado del efecto de los niveles de ambos factores.
TABULATE [PRINT=means; CLASSIFICATION=fert,pot; MARGINS=yes]

rend
Mean
pot Np sp Mean
fert
nf 33.25 44.00 38.63
sf 47.25 51.00 49.13
Mean 40.25 47.50 43.88
Discusión
Los promedios muestran que el efecto de la fertilización orgánica genera mayor

rendimiento que cuando se aplica solamente potasio ( 47.25>44). También se puede
decir que el rendimiento en parcelas donde se aplico potasio es ligeramente superior
comparado con el rendimiento de parcelas donde no se aplico ningún fertilizante
(44>33.25). Finalmente, se obtuvo mayor rendimiento promedio en las parcelas donde
se aplicaron ambos fertilizantes (51.0 kg/ha). Para explicar el nivel de significacia de
estas diferencias realizaremos el análisis de varianza según el modelo del diseño
completamente aleatorizado con estructura factorial.
35
yij = u + ti + eij


H1: µA≠ µB (almenos dos sean diferentes)
Supuestos: son necesarios dos supuestos:
1.Los datos son independientes y normalmente distribuidos

2.La varianza de las observaciones en cada grupo de tratamiento es la misma.
Ambos gráficos muestran que los datos siguen distribución normal aunque algunos
residuos negativos correspondientes a los valores 31 y 32 de rendimiento observados
en el tratamiento uno sin ninguna fertilización hacen curva normal este sesgada a la
derecha, pero que a pesar de ello es aceptable para continuar con el análisis de
varianza que se muestra a continuación.
36
Variate: rend
Source of variation d.f. s.s. m.s. v.r. F.pr.

trat 3 700.250 233.417 24.25 <.001
Residual 12 115.500 9.625
Total 15 815.750
***** Tables of means *****
Variate: rend
Grand mean 43.88
trat A B C D
33.25 44.00 47.25 51.00
*** Standard errors of differences of means ***
Table trat
rep. 4
d.f. 12
s.e.d. 2.194
3.4.5 Interpretación del análisis
El análisis de varianza que se muestra arriba correspondiente al modelo del diseño

completamente aleatorizado con varianza constante 9.625, muestra que los promedios
de tratamientos (A,B,C,D), presentan diferencia estadística altamente significativa.
Pero, el análisis no especifica donde están las diferencias, para identificar las
diferencias se requiere especificar la estructura factorial dentro de la andeva como se
observa a continuación y como se observa en el programa de comandos para este
ejercicio.
Variate: rend
Source of variation d.f. s.s. m.s. v.r. F.pr.

fert 1 441.000 441.000 45.82 <.001
pot 1 210.250 210.250 21.84 <.001
fert.pot 1 49.000 49.000 5.09 0.043
Residual 12 115.500 9.625
Total 15 815.750
37
Variate: rend
Grand mean 43.88
fert f1 f2
38.63 49.13
pot p1 p2
40.25 47.50
fert pot p1 p2
f1 33.25 44.00
f2 47.25 51.00
Table fert pot fert

pot
rep. 8 8 4
d.f. 12 12 12
s.e.d. 1.551 1.551 2.194
3.4.5.1 Interpretación del análisis.
E análisis de varianza con estructura factorial (rend = fert + pot + fert*pot), muestra
que promedios de los niveles de fertilización (f1 y f2) presenta diferencia altamente
significativa a favor de las parcelas donde se aplico fertilizacion organica. De igual
manera para los promedios de los niveles de fertilizacion con potasio. Finalmente, los
promedios de la interaccion que se observan al final del análisis presentan diferencia
estadística signifcativa lo que indica que se obtuvo mayor rendimiento 51.0 en
parcelas donde se aplicaron ambos fertilizantes.
3.4.6 Programa de comandos en GenStat
anova[print=aovtable,information,mean;FACT=32; FPROB=yes;
PSE=diff]rend
treatments fert+pot+fert.pot
anova[print=aovtable,information,mean;FACT=32; FPROB=yes;
PSE=diff]rend
38
3.5 Ejemplo - 10.
Estructura factorial más control en bloques completos al azar
En Algunos casos donde la estructura de los tratamientos es esencialmente factorial se

incluye un tratamiento “testigo” o “control”, por ejemplo unidades experimentales no
tratadas, un tratamiento convencional, etc. Para discutir este tema tomemos el
siguiente experimento:
3.5.1 Enunciado
Determinación de la efectividad de un funguicida para el control de la

helmintosporiosis en trigo en la variedad Pailón-CIAT.
Ubicación,
El trabajo se realizo en la estación experimental agrícola de Saavedra (EEAS-CIAT).
La zona presenta precipitación promedio anual de 1298 mm (media de 52 años), de
los cuales al periodo de invierno (Abril-Septiembre) corresponden 470 mm. Con
temperatura media de 24 oC.
Material vegetal, Se utilizo semilla certificada (>90% germinación), variedad Pailón-

CIAT, la cual presenta una reacción moderadamente susceptible (MS) a la
helmintosporiosis y ciclo de 100 días a madurez fisiológica (ANAPO/CIAT, 1995).
Diseño experimental, se utilizo el diseño de bloques completos al azar (BCA), con 4

repeticiones. Unidades experimentales de 8 m2, conformadas pro 8 surcos de 5 metros
de largo, espaciados a 0.2 m. Separación entre parcelas de 0.4 m (surco muerto) y 1
m entre bloques. Area de cosecha: 4 m2.
Tratamientos:
A. Una aplicación con adherente.

B. Una aplicación sin adherente.
C. Dos aplicaciones con adherente.
D. Dos aplicaciones sin adherente.
E. Testigo sin aplicación foliar.
Objetivos:
1. Comparar si el rendimiento de parcelas aplicadas es superior al que se obtiene en

parcelas no aplicadas.
2. Evaluar el rendimiento de trigo según el numero de aplicaciones de fungicida.
3. Evaluar si el uso de adherente en las aplicaciones afecta al rendimiento del trigo.
4. Evaluar si existe incremento en el rendimiento del trigo como resultado de un
efecto combinado de funguicida mas adherente.
39
bloq! fung! Noaplic! Adher! trat! rend

1 1 1 1A 1131
2 1 1 1A 1013
3 1 1 1A 1096
4 1 1 1A 1102
1 1 1 2B 1114
2 1 1 2B 1152
3 1 1 2B 1133
4 1 1 2B 1117
1 1 2 1C 1098
2 1 2 1C 1111
3 1 2 1C 1092
4 1 2 1C 1102
1 1 2 2D 1092
2 1 2 2D 1169
3 1 2 2D 1145
4 1 2 2D 1100
1 2 0 0E 960
2 2 0 0E 996
3 2 0 0E 1073
4 2 0 0E 980
El análisis exploratorio de datos corresponde a los promedios de las combinaciones de

los factores por analizar que están incluidos en la salida de el análisis realizado en
Genstat.
yij = u + bi + ti + eij

bi es el efecto de bloques
hipótesis
1. Ho. El rendimiento en parcelas aplicadas es igual al obtenido en parcelas no apl.

H1. El rendimiento en parcelas apl. es diferente al obtenido en parcelas no apl.
2. Ho. El numero de aplicaciones de aplicaciones de fungicida no afecta al rend.
H1. El rendimiento es diferente según el numero de aplicaciones de fungicida
3. Ho. El uso de adherente en las aplicaciones de fung. Tiene un efecto sobre el rend.
H1. El uso de adherente en las aplicaciones no afecta al rendimiento.
40
4. Ho. El uso de adherente combinado al numero de aplicaciones no afecta el rend.
H1. El uso de adherente combinada al numero de aplicaciones afecta el rend.
Los gráficos de distribución de residuales, muestran que los datos siguen distribución
muy aproximada a la normal con excepción del dato mas bajo correspondiente al
tratamiento E bloque 1 con rendimiento 960 y al tratamiento D bloque 2 con
rendimiento 1169.
Variate: rend

trat 4 42728. 10682. 7.94 0.001
Trat. Vs Cntrl. 1 37455. 37455. 27.84 <.001
Aplicaciones 1 163. 163. 0.12 0.733
Adherente 1 4796. 4796. 3.56 0.079
Aplic.Adher 1 315. 315. 0.23 0.635
Residual 15 20180. 1345.
Total 19 62907.
* MESSAGE: the following units have large residuals.
*units* 2 -72.5 s.e. 31.8

*units* 19 70.7 s.e. 31.8

Variate: rend
Grand mean 1088.8
trat A B C D E
1085.5 1129.0 1100.7 1126.5 1002.2
41
Table trat
rep. 4
d.f. 15
s.e.d. 25.94
El análisis de varianza realizado siguiendo las estructura factorial mas control,

establecido en diseño de bloques al azar muestra que existe diferencia altamente
significativa entre tratamientos. La diferencias entre tratamientos fueron encontradas
en los contrastes que responden a los objetivos en el orden en que fueron planteados.
Existe diferencia altamente significativa en el rendimiento obtenido de parcela donde
se aplico funguicida en comparación de aquellas que no fueron aplicadas, por lo cual
se acepta la hipótesis alternativa. No existe diferencia en rendimiento de parcelas
según numero de aplicaciones de funguicida y adherente al igual que la interacción de
ambos por lo cual para los últimos tres objetivos se acepta la hipótesis nula con un
nivel de confiabilidad del 0.05. Pero también podríamos decir que existe diferencia
mayor rendimiento de parcelas donde se aplico funguicida mas adherente con relación
al rendimiento de parcelas donde no se uso adherente, la confiabilidad de esta
diferencia es al nivel de 0.1.
BUILDCONTRASTS Factor=trat; nrows=4; Matrix=Cont

%WSPREAD Cont
READ _trows_
'Trat. Vs Cntrl' 'Aplicaciones' 'Adherente' 'Aplic.Adher' :
MATRIX [rows=!t(#_trows_);columns=!t(#_tcols_)] Cont
READ Cont
1 1 1 1 -4 1 1 -1 -1 0 1 -1 1 -1 0 1 -1 -1 1 0 :
"General Analysis of Variance."

BLOCK "No Blocking"
TREATMENTS REG(trat;4;Cont)
COVARIATE "No Covariate"
ANOVA [PRINT=aovtable,information,means; FACT=32; FPROB=yes;
PSE=diff] rend
3.6 Ejemplo – 11
Diseño Cuadrado Latino
3.6.1 Enunciado
Se realizo un experimento agrícola para evaluar los efectos de 5 fertilizantes (A, B, C,

D y E) sobre el rendimiento de un variedad de caña de azúcar, el diseño de campo fue
establecido de la forma siguiente:
42
Columna 1 Columna 2 Columna 3 Columna 4 Columna 5
Fila 1 A B C D E
2 B E D A C
3 C D B E A
4 D A E C B
5 E C A B D
Discusión:
Se decidió aleatorizar los tratamientos bajo del diseño cuadrado latino 5x5, por que en
los objetivos del ensayo se quiere establecer si existe algún efecto de aleatorizacion
respecto a filas y columnas y por que las unidades experimentales eran suficientes
para el requerimiento del diseño.
Tratamientos:
A, C: Fertilizantes nuevos que incluyen urea (nitrogero).

E: Fertilizante nuevo sin urea.
B: Fertilizante tradicional que incluye urea.
D: Fertilizante tradicional sin urea.
Objetivos:
a) Comparar rendimiento de fertilizantes nuevos con tradicionales

b) Identificar si los fertilizantes con urea son mas eficientes que los que no
incluyen urea.
c) Identificar los fertilizantes de ambos tipos (con y sin urea) que generan mayor
rendimiento.
trat! fila! colum! rend ….Continuacion

A 1 1 13.7 A 5 3 10.8
B 2 1 10.8 D 1 4 9.8
C 3 1 12 A 2 4 12.3
D 4 1 9.8 E 3 4 11.1
E 5 1 11.9 C 4 4 10.9
B 1 2 10 B 5 4 8.3
E 2 2 11 E 1 5 11
D 3 2 9.9 C 2 5 10.5
A 4 2 11.9 A 3 5 11
C 5 2 10.4 B 4 5 9.1
C 1 3 11.6 D 5 5 9.3
D 2 3 9
B 3 3 9.3
E 4 3 11.6
CLASSIFICATION=trat; MARGINS=yes] rend
43
trat
A 11.94 10.800 13.70 1.3530
B 9.50 8.300 10.80 0.8950
C 11.08 10.400 12.00 0.4870
D 9.56 9.000 9.90 0.1530
E 11.32 11.000 11.90 0.1670
Margin 10.68 8.300 13.70 1.5100
PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(rend);

BOXPLOT [TITLE=_tmptext] rend; GROUPS=trat
Discusión
El análisis tabular y grafico muestran que los fertilizantes A, C y E presentan los

promedios mas altos, con el menor promedio esta el fertilizante B. Sin embargo los
rangos mas largos y por ende con mayor varianza se presentan en los fertilizantes A y
B. El tratamiento A presenta datos mejor distribuidos respecto a la mediana.
yij = u + ri + c j + t k ( ij ) + eij
Donde: el rendimiento se observa en cada intersección de cada i fila y j colum.

ri es el efecto de las filas
cj es el efecto de las columnas
tk(ij) efecto de tratamientos k en fila i y columna j.
44
Hipotesis: Ho: (µA+µc+µe)/3 = (µB+ µD)2
H1: (µA + µc +µe)/3 ≠ (µB+ µD)2
Ho: (µA + µb)/2 = µD

H1: (µA + µb)/2 ≠ µD
Ho: µA =µB
H1: µA ≠ µB
Ho: µe = µD
H1: µe ≠ µD
Los datos siguen distribución normal con excepción de un para de datos que expresan
largos residuales como se puede observar en los extremos del normal plot, estos
residuales corresponden a los datos de rendimientos ubicados en la fila 4, columna 1 y
fila 5 columna 5.
Variate: rend
Source of variation d.f. s.s. m.s. v.r. F pr.
fila stratum 4 2.9280 0.7320 2.94

colum stratum 4 6.3080 1.5770 6.34
fila.colum stratum 4 24.0200 6.0050 24.15 <.001
trat
(uA+uC+uE)/3 Vs(uB+uD) 2 122.0417 22.0417 88.64 <.001
(uA+uB)/2 Vs uD 1 0.1574 0.1574 0.63 0.442
uA Vs uB 1 1.6769 1.6769 6.74 0.023
uE Vs uD 1 0.1440 0.1440 0.58 0.461
Residual 12 2.9840 0.2487
Total 24 36.2400
45
fila 4 colum 1 -0.700 s.e. 0.345
fila 5 colum 5 0.780 s.e. 0.345
Variate: rend
Grand mean 10.680
trat A B C D E
11.940 9.500 11.080 9.560 11.320
Table trat
rep. 5
d.f. 12
s.e.d. 0.3154
El análisis de varianza correspondiente al diseño cuadrado latino 5x5, muestra que no

existe diferencia entre los promedios tanto entre filas como entre columna. Se puede
afirmar que el efecto de estos dos factores no afecto significativamente el efecto de
los fertilizantes sobre el rendimiento. La andeva muestra la comparación atendiendo
por orden con respuesta estadística a los objetivos planteados: Así el primer contraste
muestra que las parcelas aplicadas con fertilizantes nuevos dieron significativamente
mayor rendimiento que en aquellas aplicadas con fertilizantes tradicionales. El
segundo y el cuarto demuestran que no existe diferencia que afecte al rendimiento
cuando se aplican fertilizantes con o sin urea. El tercer contraste muestra que las
parcelas aplicadas con el fertilizante A obtuvieron mayor rendimiento que aquellas
aplicadas con fertilizante B y por ende fue el de mejor performance.
CLASSIFICATION=trat; MARGINS=yes] rend
PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(rend);

BOXPLOT [TITLE=_tmptext] rend; GROUPS=trat
BUILDCONTRASTS Factor=trat; nrows=4; Matrix=Cont
Ver programas en ejemplos 8 y 10 para crear contrastes ortogonales.
3.7 Ejemplo –12
46
Diseño de parcelas divididas
3.7.1 Enunciado
Un experimento diseñado para probar el efecto de tres cultivos de abono vegetal sobre
la producción subsecuente de remolacha azucarera, con dos niveles de fertilización de
nitrógeno, fue planificado con un diseño de parcelas dividida. Al principio se supuso
que la remolacha azucarera respondería en diversas formas a los abonos vegetales,
dependiendo del nivel de fertilidad del nitrógeno; por tanto el objetivo consistió en
comparar precisamente como fuese posible el efecto de los abonos vegetales en cada
nivel de fertilidad. En consecuencia, las parcelas principales tuvieron que ser dos
niveles dos niveles de fertilización de nitrógeno, aplicados a la remolacha de azúcar
en poco tiempo y repetidos tres veces en un proyecto de bloque aleatorio completo.
Las sub-parcelas fueron los abonos vegetales que crecieron durante el otoño y el
invierno anteriores a la siembra de la remolacha azucarera. Los tratamientos de abono
vegetal fueron cebada ( C ), vicia ( V ), cebada y vicia creciendo juntas ( CV ) y
barbecho ( B ). No se permitió que creciera nada en las parcelas en barbecho, antes de
sembrar la remolacha azucarera.
Nitrogeno! Abonos! Bloq! Rend …………Continuacion

0N Ba 1 13.8 120N Ba 1 19.3
0N Ce 1 15.5 120N Ce 1 22.2
0N Vi 1 21 120N Vi 1 25.3
0N CeVi 1 18.9 120N CeVi 1 25.9
0N Ba 2 13.5 120N Ba 2 18
0N Ce 2 15 120N Ce 2 24.2
0N Vi 2 22.7 120N Vi 2 24.8
0N CeVi 2 18.3 120N CeVi 2 26.7
0N Ba 3 13.2 120N Ba 3 20.5
0N Ce 3 15.2 120N Ce 3 25.4
0N Vi 3 22.3 120N Vi 3 28.4
0N CeVi 3 19.6 120N CeVi 3 27.6
47
Nitrogeno 0-N
Abonos
Ba 13.50 13.20 13.80 0.090
Ce 15.23 15.00 15.50 0.063
Vi 22.00 21.00 22.70 0.790
CeVi 18.93 18.30 19.60 0.423
Nitrogeno 120-N
Abonos
Ba 19.27 18.00 20.50 1.563
Ce 23.93 22.20 25.40 2.613
Vi 26.17 24.80 28.40 3.803
CeVi 26.73 25.90 27.60 0.723
PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(Rend);

BOXPLOT [TITLE=_tmptext] Rend; GROUPS=Nitrogeno

BOXPLOT [TITLE=_tmptext] Rend; GROUPS=Abonos
yijk = u + bi + p j + e'ij + qk + ( pq ) jk + eijk
Donde: µ es el efecto de la media general

bi es el efecto de bloques i
pj es el efecto de los tratamientos de la parcela principal (niveles de nitrógeno)
ei error a causa de la aleatorizacion de tratamientos en parcela ppal. Con distribución
normal N(o, σ2)
qk efecto de los tratamientos k distribuidos en las sub-parcelas
(qp)jk interaccion de ambos efectos.
Eijk error a nivel de sub-parcelas
48
Hipotesis:
Ho: Rend. en parcelas sin nitrógeno es estadísticamente igual a las que no tuvieron
H1: Rend. en parcelas sin nitrógeno es estadísticamente diferente a las que no tuvieron
Ho: Rend. de parcelas con vicia es estadísticamente igual a las que no tenían vicia
H1: Rend. de parcelas con vicia es estadísticamente diferente a las que no tenían vicia
Ho: Rend. de pacelas sobre barvecho es estad. Igual a las que tenían cebada
H1: Rend. de pacelas sobre barvecho es estad. diferentes a las que tenían cebada
Ho: Rend. de parc. sobre vicia es estad. igual a las que tenían cebada y vicia.
H1: Rend. de parc. sobre vicia es estad. diferentes a las que tenían cebada y vicia.
Se planten otras tres hipótesis para saber si existe interacción de los abonos vegetales
con el nitrógeno. Ver cuadro de coeficientes ortogonales de los contrastes.
El supuesto de normalidad se cumple de acuerdo con la distribución de los residuales

como se muestra en ambos graficos.
49
Variate: Rend
Bloq stratum 2 7.8658 3.9329 1.56
Bloq.Nitrogeno stratum
Nitrogeno 1 262.0204 262.0204 104.06 0.009
Residual 2 5.0358 2.5179 4.17
Bloq.Nitrogeno.Abonos stratum
Abonos 3 215.2612 71.7537 118.96 <.001
Nitrogeno.Abonos 3 18.6979 6.2326 10.33 0.001
Residual 12 7.2383 0.6032
Total 23 516.1196

Variate: Rend
Grand mean 20.72
Nitrogeno 0N 120N
17.42 24.02
Abonos Ba Ce Vi CeVi
16.38 19.58 24.08 22.83
Nitrogeno Abonos Ba Ce Vi CeVi

0N 13.50 15.23 22.00 18.93
120N 19.27 23.93 26.17 26.73
Table Nitrogeno Abonos Nitrogeno

Abonos
rep. 12 6 3
s.e.d. 0.648 0.448 0.849
d.f. 2 12 5.44
Except when comparing means with the same level(s) of

Nitrogeno 0.634
d.f. 12
50
La parcela principal correspondiente a las dosis de nitrógeno presenta diferencia
altamente significativa, entre sus niveles al igual que la sub-parcela que corresponde
a los niveles de abonos vegetales. Lo importante del análisis esta en la interacción
como se vio en el análisis de estructuras factoriales, aquí también tenemos una
estructura factorial pero aplicada en un diseño de parcelas divididas, donde ambos
factores presentan interacción altamente significativa entre sus niveles. En la mayoría
de los casos la elección de este diseño obedece a una razón logística mas que a una
estrategia con tendencia a buscar precisión debido a que los grados de libertad de los
residuales se reducen según la cantidad de estratos o subparcelas, de esta manera el
cuadrado medio de los residuales o varianza es muy grande dando lugar a
comparaciones poco precisas entre interacciones de niveles.
CLASSIFICATION=Nitrogeno,Abonos; MARGINS=no] Rend

BOXPLOT [TITLE=_tmptext] Rend; GROUPS=Nitrogeno

BOXPLOT [TITLE=_tmptext] Rend; GROUPS=Abonos
"Split-Plot Design."
BLOCK Bloq/Nitrogeno/Abonos
TREATMENTS Nitrogeno*Abonos
PSE=diff] Rend
3.8 Ejemplo – 13
Diseño de parcelas sub-divididas
3.8.1 Enunciado
Para un experimento de control viral de remolacha de azúcar. Las parcelas principales

son fechas de siembra (p1, p2, p3) dispuestas en bloques aleatorios completos (I, II,
III, IV). Las sub-parcelas son rociadas (S1) y no rociadas (S2) para el control de
pulgón. Las sub-sub-parcelas con fechas de cosecha a intervalos de cuatro semanas
(H1, H2, H3). Las producciones de raíz de remolacha es la variable respuesta como
efecto de la interacción de los tres factores.
Objetivo
51
Se busca la intersección de niveles de los tres factores que presenten mejor
incremento en el rendimiento.
3.8.2 Diseño del experimento en GenStat
El diseño de experimento se realizo manipulando el menú Stats, luego haciendo clic

en el submenú Design, de donde se eligió Select Design que produce un recuadro con
todos los diseños por elegir, se elige el primero orthogonal hierarchical design
(randomized block, split-plots-) hacer clic en Ok. Luego de nuevo recuadro elegir
split-split-plot design hacer clic en Ok para confirmar. Responder a la pregunta
(what would you like to call de la block factor?) cambiando el nombre por bloq o
bloques haciendo clic en ok para confirmar. Luego pregunta ¿cuantas son replicas de
bloques? (How many replicates are there of bloq?) en el recuadro Number colocar
el numero de bloques. Luego pregunta ¿como le gustaría llamar al factor parcela
principal? (What would you like to call de la whole-plot factor?) click Ok
directamente. Luego pregunta ¿cuantos factores-tratamientos se incluyen en la parcela
principal? (How many treatment factores are applied to whole-plots?) poner 1 en
el recuadro y hacer clic en Ok. Luego pregunta ¿como le gustaría llamar al
tratamiento-factor? (What would you like to call the treatment-factor?) indicar el
nombre en este caso Fsiembra y hacer clic en Ok para confirmar. Luego pregunta
¿Cuantos niveles tiene el tratamiento Fsiembra? (How many levels does treatment
factor Fsiembra have? en el recuadro Number colocar el numero 3 y hacer clic en Ok.
El mismo procedimiento se repite para sub-parcelas. Finalmente pregunta ¿ quiere
usted imprimir el diseño? (Do you want to print de la design?) hacer clic en yes y
Ok. La ultima pregunta es ¿ quiere Usted revisar el diseño mediante la andeva? (do
you want to check the disign by ANOVA?) hacer clic en yes si lo desea, y clic en
Ok para confirmar.
Lo cual genera el diseño en la siguiente salida que incluye la andeva con grados de
libertad:
*** Treatment combinations on each unit of the design ***

52
Source of variation d.f.
Blocks stratum 3
Blocks.Wplotsstratum
Fsiembra 2
Residual 6
Blocks.Wplots.Subplots stratum
Insectisida 1
Fsiembra.Insectisida 2
Residual 9
Blocks.Wplots.Subplots.Subsubplots stratum
Fcosecha 2
Fsiembra.Fcosecha 4
Insectisida.Fcosecha 2
Fsiembra.Insectisida.Fcosecha 4
Residual 36
Total 71
Luego usando el comando la secuencia de comandos Spread, New, Data in Genstat,

del recuadro Type of spread elegimos Vector (variate, text o factor), luego del
recuadro Available data seleccionamos los factores de interés bloque, Fsiembra,
Insecticida y Fcosecha. Hacemos clic en Ok para confirmar la selección y obtener la
tabla electrónica que incluye la distribución de factores y niveles en la cual debemos
adicionar la columna rendimiento o las variables que serán analizadas.
Esta seria la manera de ingresar los datos en Genstat para analizar la variable
rendimiento de acuerdo al diseño de parcelas sub-divididas observado en el parrafo
anterior.
Blocks! Fsiembra! Insectisida! Fcosecha! Rend …..….Continuacion

1 1 2 1 27.7 3 2 1 1 27.8
1 1 2 2 38 3 2 1 2 31
1 1 2 3 42.1 3 2 1 3 31.2
1 1 1 1 25.7 3 2 2 2 31.5
1 1 1 3 34.6 3 2 2 3 38.9
1 1 1 2 31.8 3 2 2 1 29.5
1 3 1 1 23.4 3 3 1 3 24.3
1 3 1 2 25.3 3 3 1 2 23.7
1 3 1 3 29.8 3 3 1 1 21.2
1 3 2 3 36.6 3 3 2 3 34.8
1 3 2 1 20.8 3 3 2 2 26.5
1 3 2 2 29 3 3 2 1 25.2
53
1 2 1 1 28.9 3 1 1 3 29.1
1 2 1 3 38.4 3 1 1 1 23.8
1 2 1 2 37.5 3 1 1 2 28.7
1 2 2 2 36.9 3 1 2 2 34.6
1 2 2 1 38 3 1 2 1 30.2
1 2 2 3 44.2 3 1 2 3 44.6
2 1 1 2 29.5 4 2 2 1 30.7
2 1 1 1 25.4 4 2 2 3 37.6
2 1 1 3 37.2 4 2 2 2 35.9
2 1 2 1 30.3 4 2 1 2 27.8
2 1 2 2 40.6 4 2 1 3 29.8
2 1 2 3 43.6 4 2 1 1 23.4
2 3 1 1 24.2 4 1 1 2 26.4
2 3 1 2 27.7 4 1 1 3 23.7
2 3 1 3 29.9 4 1 1 1 22
2 3 2 2 32 4 1 2 1 33.2
2 3 2 3 37.8 4 1 2 2 31
2 3 2 1 23 4 1 2 3 42.7
2 2 2 3 41.6 4 3 1 1 20.9
2 2 2 2 31.9 4 3 1 3 23.8
2 2 2 1 31 4 3 1 2 24.3
2 2 1 3 32.5 4 3 2 2 31.2
2 2 1 2 31.5 4 3 2 1 23.1
2 2 1 1 24.7 4 3 2 3 40.2
Discusión del supuesto de normalidad
54
El supuesto de normalidad se cumple, de acuerdo con los graficos de valores
ajustados y normalidad.
3.8.5 Análisis de varianza y promedios
Variate: Rend
Blocks stratum 3 143.456 47.819 2.57
Blocks.Fsiembra stratum
Fsiembra 2 443.689 221.844 11.91 0.008
Residual 6 111.758 18.626 2.14
Blocks.Fsiembra.Insectisida stratum
Insectisida 1 706.880 706.880 81.21 <.001
Fsiembra.Insectisida 2 40.688 20.344 2.34 0.152
Residual 9 78.343 8.705 1.86
Blocks.Fsiembra.Insectisida.*Units* stratum
Fcosecha 2 962.335 481.168 102.80 <.001
Fsiembra.Fcosecha 4 13.110 3.277 0.70 0.597
Insectisida.Fcosecha 2 127.831 63.915 13.66 <.001
Fsiembra.Insectisida.Fcosecha 4 44.019 11.005 2.35 0.072
Residual 36 168.498 4.681
Total 71 2840.606
Blocks 1 Fsiembra 2 2.54 s.e. 1.25
Blocks 2 Fsiembra 1 Insectisida 1 *units* 3

3.51 s.e. 1.53
3.77 s.e. 1.53
-4.13 s.e. 1.53
Variate: Rend
Grand mean 30.94
Fsiembra 1 2 3
55
32.35 33.01 27.45
Insectisida 1 2
27.80 34.07
Fcosecha 1 2 3
26.42 31.01 35.38
Fsiembra Insectisida 1 2
1 28.16 36.55
2 30.37 35.64
3 24.88 30.02
Fsiembra Fcosecha 1 2 3
1 27.29 32.58 37.20
2 29.25 33.00 36.78
3 22.73 27.46 32.15
Insectisida Fcosecha 1 2 3
1 24.28 28.77 30.36
2 28.56 33.26 40.39
Insectisida 1 2
Fsiembra Fcosecha 1 2 3 1 2 3
1 24.23 29.10 31.15 30.35 36.05 43.25
2 26.20 31.95 32.98 32.30 34.05 40.57
3 22.42 25.25 26.95 23.03 29.68 37.35
*** Standard errorsof differences of means ***
Table Fsiembra Insectisida Fcosecha

Fsiembra
Insectisida
rep. 24 36 24 12
s.e.d. 1.246 0.695 0.625 1.509
d.f. 6 9 36 11.28
Fsiembra 1.204
d.f. 9
Table Fsiembra Insectisida Fsiembra

Fcosecha Fcosecha Insectisida
Fcosecha
rep. 8 12 4
s.e.d. 1.527 1.002 1.959
d.f. 13 30.07 27.91
Fsiembra 1.082 1.735
d.f. 36 30.07
Insectisida 0.883
d.f. 36
56
Fsiembra.Insecticida 1.530
d.f. 36
Fsiembra.Fcosecha 1.735
d.f. 30.07
Mas allá, de analizar la diferencia significativa en los diferentes estratos este ejemplo
trata de mostrar, la cantidad de bloques que se requieren para obtener un cuadrado
medio de residuales relativamente bajo - con respecto a la variación total (expresada
en la suma de cuadrados) - correspondientes a la triple interacción que se convierte en
el centro de interés del estudio, 36 grados de libertad en este caso es mas que
suficiente para obtener preescisión en las comparaciones. Pero la exactitud es la
cantidad de grados de libertad requeridos es un tema muy particular que no tratamos
en este capitulo.
"Split-Split-Plot Design."
BLOCK bloq/Fsiembra/Insectisida
TREATMENTS Fsiembra*Fcosecha*Insectisida
PSE=diff] rend
DAPLOT fitted,normal
3.9 Ejemplo 14
Diseño no balanceado
3.9.1 Enunciado
Se considera realizar los resultados de un experimento en el cual se tenia dos tipos de

nuevas vitaminas (A y B) para incrementar el peso(g) en pollos de engorde las cuales
se desean comprar con una vitamina de uso tradicional ( C). Se dispuso de jaulas
especiales donde se colocaron la misma cantidad de pollos de la misma edad y peso
en cada jaula pero antes de iniciar con los tratamientos la cantidad de
pollos por jaula cambio debido a mortandad prematura.
Croquis de campo
Jaula 1 Jaula-2 Jaula-3 Jaula-4
Trat C 1600,1580,1670 1620 1540
Trat A 1760 1520 1720 1660, 1690
Trat B 1510,1490,1590 1650 1670
57
jaulas! vitaminas! peso

1 C 1600
1 C 1580
1 C 1670
3 C 1620
4 C 1540
1 A 1760
2 A 1520
3 A 1720
4 A 1660
4 A 1690
2 B 1510
2 B 1490
2 B 1590
3 B 1650
4 B 1670

Mean
vitaminas A B C Mean
jaulas
1 1760 * 1617 1653
2 1520 1530 * 1528
3 1720 1650 1620 1663
4 1675 1670 1540 1640
Mean 1670 1582 1602 1618
58
model peso
terms jaulas+vitaminas
fit[print=a,e;fprob=yes;tprob=yes]jaulas+vitaminas

Constant 1622.1 21.4 75.85 <.001
jaulas2 -200.0 38.5 -5.20 <.001
jaulas3 -32.6 33.5 -0.98 0.355
jaulas4 -67.9 31.8 -2.13 0.062
vitaminas A 121.6 28.5 4.27 0.002
vitaminas B 100.0 34.4 2.91 0.017
Los parámetros estimados son diferentes son el resultados de la comparación de los

niveles de cada factor con el primer nivel ejemplo: jaula 2 – jaula 1, jaula 3 – jaula 1
etc. de esta manera las comparaciones en el factor jaula se hicieron respecto al nivel
jaula 1, mientras que para el factor vitamina la comparación fue respecto a la vitamina
C.

+ jaulas 3 45623. 15208. 9.35 0.004
+ vitaminas 2 29975. 14987. 9.21 0.007
Residual 9 14642. 1627.
Total 14 90240. 6446.
predict[print=p,se]jaulas,vitaminas
Los errores estándares del resumen de valores predicho son apropiados para la
interpretación de los resultados mas para la predicción de nuevas observaciones.
59
Response variate: peso
vitaminas C A B
Prediction S.e. Prediction S.e. Prediction S.e.
jaulas
1 1622.1 21.4 1743.7 29.4 1722.1 36.7
2 1422.1 36.7 1543.7 29.4 1522.1 21.4
3 1589.5 29.9 1711.1 27.8 1689.5 29.9
4 1554.2 28.8 1675.8 23.1 1654.2 28.8
predict[print=p,se]vitaminas

Prediction S.e.
vitaminas
C 1544.1 21.5
A 1665.7 18.4
B 1644.1 21.5
predict[print=p,se]jaulas

Prediction S.e.
jaulas
1 1696.0 24.0
2 1496.0 24.0
3 1663.3 23.3
4 1628.1 20.5
predict[print=p,se;adjust=equal]vitaminas

Prediction S.e.
vitaminas
C 1547.0 21.5
A 1668.6 18.4
B 1647.0 21.5
rkeep v=mycova
print mycova
mycova
Constant 457.3
jaulas2 -295.8 1479.0
jaulas3 -340.6 739.5 1119.0
60
jaulas4 -319.2 739.5 583.8 1011.9
vitaminas A -202.4 -443.7 -264.7 -350.3 809.6
vitaminas B -147.9 -887.4 -443.7 -443.7 591.6 1183.2
Constant jaulas2 jaulas3 jaulas4 vitaminas A vitaminas B
La directiva rkeep, permite encontrar directamente las varianzas y covarianzas de los

tratamientos que se desea comparar, usando esta información es muy sencillo
encontrar el error típico o estándar de la diferencia de las medias.
Ejemplo, la comparación entre los efectos de las vitaminas A y B se calcula primero

la deferencia de los valores predichos :
Vitamina A – Vitamina B = 1668.6 – 1647 = 21

Luego el s.e dif = Varianza de A + Varianza de B – 2 Cov (AB)
= 809.6 + 1183.2 - 2*(591.6) = 809.6
Asi el valor de “t” calculado es t = A-B/s.e dif = 21/809.6 = 0.025
El cual es inferior en mas de cuatro veces al valor de tabla que se encuentra con 7
grados de libertad y al nivel de 0.005 de confianza.
Del resumen de los parámetros estimados, en la columna de t pr, podemos observar

que las vitaminas A y B tienen efecto significativamente diferentes comparadas con el
efecto de la vitamina C. Luego usando la matriz de varianzas y covarianzas
encontramos que las vitaminas A y B también tienen un efecto diferentes
significativamente. Por lo cual se concluye que las jaulas en las que se utilizo la
vitamina A incremento significativamente el peso o engorde de pollos en
comparación con la vitamina B y es testigo vitamina C.
TABULATE [PRINT=means; CLASSIFICATION=jaulas,vitaminas;

MARGINS=yes] peso
PRINT [CHANNEL=_tmptext; SQUASH=yes]'Boxplot for',!p(peso);

BOXPLOT [TITLE=_tmptext] peso; GROUPS=vitaminas
model peso
terms jaulas+vitaminas
fit[print=a,e;fprob=yes;tprob=yes]jaulas+vitaminas
predict[print=p,se]jaulas,vitaminas
predict[print=p,se]vitaminas
predict[print=p,se]jaulas
rkeep v=mycova
print mycova
4 Analisis de datos - M.Sc
61
4.1 Ejemplo – 15
4.1.1 Enunciado
Un veterinario solicita ayuda para analizar los datos de su experimento en el cual se

investiga la preferencia de cuatro tipos de alimentos para pavos, el explica que
dispuso de 12 cajas conteniendo 5 hembras y 5 machos lo que fueron usados en el
estudio para el consumo de las 4 distintas dietas. La cantidad de alimento consumido
por los pavos en una caja es la variable respuesta que se debe analizar, se conoce que
los machos comen mas que las hembras. Desafortunadamente, algunos de los pavos
murieron en los primeros dos días de iniciado el estudio y no pudieron ser
reemplazados. En la tabla de abajo se muestra la cantidad de alimento consumido por
caja (sin incluir los dos primeros días), entre paréntesis se muestra el numero de pavos
machos y hembras respectivamente.
Trat A 40 (5,5) 44(5,5) 41(5,5)

Trat B 34 (5,4) 28(4,5) 38(5,5)
Trat C 31(5,4) 34(5,5) 24(3,5)
Trata D 33(4,4) 40(5,5) 36(5,5)
El investigador solicita comprender la forma mas simple para comparar la diferencia

entre tratamientos.
Dietas! Machos Hembras Consumo

A 5 5 40
A 5 5 44
A 5 5 41
B 5 4 34
B 4 5 28
B 5 5 38
C 5 4 31
C 5 5 34
C 3 5 24
D 4 4 33
D 5 5 40
D 5 5 36
62

Dietas
A 41.67 40.00 44.00 4.33
B 33.33 28.00 38.00 25.33
C 29.67 24.00 34.00 26.33
D 36.33 33.00 40.00 12.33
La distribución de datos de la la variable respuesta no es normal en los absoluto pero

asumimos que es lo suficiente como para continuar con el análisis de varianza.
Discusión
La variable respuesta el la cantidad de alimento que esta afectada por tres factores:
1. La dietas A, B, C y D. Que serian los tratamientos que afectan la respuesta.
2. El total de numero de pavos por caja no es el mismo en todas las cajas.
3. el numero de machos y hembras no es igual en cada caja.
63
Estos tres factores seran tomados en cuenta para analizar los datos considerando un
modelo lineal que pordria ser el siguiente.
Consumo = (No. Machos)x1 + (No.Hembras)x2 + Dietas

Constant 8.4 10.7 0.79 0.462
Machos 5.13 1.16 4.40 0.005
Hembras 1.52 1.65 0.92 0.391
Dietas B -6.12 2.02 -3.03 0.023
Dietas C -8.08 2.14 -3.78 0.009
Dietas D -3.12 2.02 -1.55 0.173
Los parámetros estimados para las dietas B, C y D son comparados con la Dieta A.
Asi podemos ver le error estándar, valor de t y la probabilidad para cada comparación
que nos dice que unicamente las diferencia entre las dietas B y C respecto de A es
significativa .

+ Machos 1 219.429 219.429 41.01 <.001
+ Hembras 1 26.694 26.694 4.99 0.067
+ Dietas 3 90.024 30.008 5.61 0.036
Residual 6 32.103 5.351
Total 11 368.250 33.477
Discusión:
Los parámetros estimados no dicen que el consumo esta afectado básicamente por los
pavos machos, siendo el efecto de la Hembras no significativo.
Con estos resultados, una opción es sacar el factor hembras del modelo. Reorganizar
el modelo tomando como respuesta el consumo por pavo y como variables
independiente la proporción de machos sobre el total de pavos mas las dietas. Esto
facilitara al investigador entender la relación del siguiente modelo .
Consumo/pavo = (No pavos machos/total pavos)X1 + Dietas
model Consporpav
terms Machprop+Dietas
fit[print=a,e;fprob=yes;tprob=yes]Machprop+Dietas
64

Constant 2.42 10.7 75 3.12 0.017
Machprop 3.49 1.53 2.29 0.056
Dietas B -0.604 0.190 -3.17 0.016
Dietas C -0.804 0.193 -4.16 0.004
Dietas D -0.258 0.190 -1.36 0.216
La interpretacion de los parametros de arriba es la misma que la del analisis previo

unicamente la comparacion de las dietas (D-A) es no significativa con relacion al
resto.

+ Machprop 1 0.51616 0.51616 9.52 0.018
+ Dietas 3 1.12229 0.37410 6.90 0.017
Residual 7 0.37963 0.05423
Total 11 2.01807 0.18346
Discusion
En el Nuevo analisis vemos que los factores que explican las variaciones de la
variable respuesta son altamente significativos por tanto si hay diferencia en la
preferencia de las dietas como se puede observar en los resultados de valores
estimados.
predict[print=p,se;adjust=equal]Dietas
Response variate: Consporpav

Prediction S.e.
Dietas
A 4.146 0.135
B 3.543 0.135
C 3.342 0.137
D 3.888 0.135
Discusión
Se calcula de manera los valores predichos por el modelo para realizar futuras
comparaciones entre dietas o grupo de diestas que el investigador considere
necesarias.
rkeep v=mycova
print mycova
mycova
65
Constant 0.6006
Machprop -1.1650 2.3299
Dietas B -0.0181 0.0000 0.0362
Dietas C -0.0450 0.0539 0.0181 0.0374
Dietas D -0.0181 0.0000 0.0181 0.0181 0.0362
Constant Machprop Dietas B Dietas C Dietas D
La directiva rkeep, permite encontrar directamente las varianzas y covarianzas de los

niveles de factores. Esto nos permite disponer de información para hacer calculos del
error estándar para la comparación de dietas que se consideren necesarias:
Ej: Se desea comparar si las dietas D y C son diferentes estadísticamente:

Valor de t = (D-C)/s.e dif
D-C = 0.546
s.e.dif = VD + VC – 2 Cov(DC) = 0.0362 + 0.0374 – 2(0.0181)=0.0374
luego t calculado = 0.546/0.0374= 14.6 que siendo mayor al t de tabla con 7 gl al

nivel de 0.05 es 2.36. Por definición las diferencias entre dietas son altamente
significativas.
El análisis permite tener concerteza la idea de de las preferencias de dietas por la

proporcion de pavos machos cuanto afecta las dietas consumidas preferentemente por
los pavos machos, viendo los parámetros estimados de la regresión la dieta A tiene
mayor preferencia sobre B y C pero no con respecto a D, de la comparación entre D y
C, deducimos que existe diferencia significativa a favor de la dieta D.
model Consumo
terms Machos+Hembras+Dietas
fit[print=a,e;fprob=yes;tprob=yes]Machos+Hembras+Dietas
model Consporpav
terms Machprop+Dietas
fit[print=a,e;fprob=yes;tprob=yes]Machprop+Dietas
rkeep v=mycova
print mycova
5 Medidas repetidas
Un supuesto en regresión y análisis de varianza es que las observaciones son

independientes. Una situación donde esto es normalmente falso es cuando cuando se
toman medidas de la misma unidad experimental (plot, plant, etc.) en funcion del
tiempo. A esto se llama “medidas repetidas” de datos y existe muchos enfoques para
el análisis de este tipo de datos. La ayuda de Genstat describe estos enfoques.
66
Un metodo de analizar tales datos es usar regresión para ajustar un apropiada
respuesta (con respecto del tiempo) para los datos de cada unidad separadamente y
luego para analizar los parámetros estimados en forma individual.
Tipicos ejemplos donde este metodo es apropiado son:
-desarrollo linear, donde una tasa de desarrollo o crecimiento es estimada como la

pendiente de la regresión linear para cada unidad.
-area de infestacion por enfermedades, donde para el 50 de area infestada es estimada

como un parámetro M de una curva logística.
Este enfoque puede se llevado acabo en un proceso de dos etapas, primero ajustar
todas las respuestas individuales, luego introducir los valores de los parámetros en un
subsecuente análisis de varianza.
5.1 Ejemplo - 16
5.1.1 Enunciado.
Se estudia la eficiencia de tres métodos para aislar un hongo particular comparando la

tasa de crecimiento diametral (mm/dia) en cajas petrix, se decide replicar en 5 cajas
petrix el aislamiento por método. Luego de establecido el estudio se toman
mediciones de diámetro de crecimiento por caja petrix a partir del dia 3 y continuando
hasta el dia 8.
dia c11 C12 C13 C14 C15 C21 C22 C23 C24 C25 C31 C32 c33 C34 C35
3 3.7 3.9 3.9 3 3.6 3.4 3.2 3.6 2.6 3.1 2.4 2.3 2.2 3.2 2.2
4 5 5.6 5 3.7 4.6 4.5 3.9 5.2 3.8 3.8 3.5 3.2 2.8 3.9 2.6
5 6.1 6.5 5.8 4.3 5.7 5.6 4.7 6.3 3.9 5.3 3.7 4.2 3.4 5.2 3.7
6 7.5 7.3 7.3 5.6 6.7 6.2 5.5 7.7 5.3 6.1 4.9 5.2 4.2 6.3 3.8
7 8.3 9.1 8 6.2 8.1 7.4 6.7 8.6 6.2 6.9 6.1 5.3 4.7 7.3 5
8 9.8 10.8 9.5 7.2 9.2 9 7.7 10 6.7 8.4 7 6.4 5.8 7.9 5.3
Nota. En las columnas el primer numero después de la c (caja petrix) indica el numero de aislamiento,
el segundo indica la repetición.
Aclaración.-se tiene tres factores que afectan la variable respuesta (medición del
diámetro del hongo por caja), los factores son: repetición, el tiempo (días) y los
tratamientos (métodos de aislamientos).
5.1.2 Método 1 de análisis
1. Si los datos se organizaran como en la tabla de arriba se puede analizar los datos
haciendo regresiones individuales tomando como variable respuesta los diámetros
tomados de las repeticiones que están incluidas en los tres aislamientos y por días.
Con este método se elimina el factor tiempo el cual afecta al supuesto de

independencia de las mediciones.
67
2. En Gesntat se utilizaría el siguiente menú: (Stat, Regresión Análisis, Linear, y
eligiendo Simple Linear Regresión).
Asi la salida de la primera regresión seria:

Response variate: d1
Fitted terms: Constant, dia

Regression 1 24.96057 24.96057 1076.33 <.001
Residual 4 0.09276 0.02319
Total 5 25.05333 5.01067
Percentagevariance accounted for99.5


Constant 0.165 0.2 10 0.79 0.476
día 1.1943 0.0364 32.81 <.001
La tasa de desarrollo en el día uno en función de los aislamientos es 1.1943.
Precediendo de igual manera con las restantes 14 mediciones se obtienen las tasas
individuales que pueden ser reordenadas en una nueva tabla de entrada, como se
muestra abajo. Esta tiene 15 filas con tres columnas, dos factores Aislamiento y
numero de caja petrix, (5 cajas petrix por aislamiento).
Aislam! PetrixNo! Pendientes

1 1 1.1943
1 2 1.3086
1 3 1.1
1 4 0.8514
1 5 1.1286
2 1 1.0657
2 2 0.9057
2 3 1.2457
2 4 0.8314
2 5 1.0457
3 1 0.9143
3 2 0.7943
3 3 0.7
3 4 0.9943
3 5 0.6514
Variate: Pendientes
68
Aislam 2 0.24379 0.12189 4.90 0.028
Met1 vs (Met2+Met3)/2 1 0.13565 0.13565 5.46 0.038
Met2 vs Met3 1 0.10814 0.10814 4.35 0.059
Residual 12 0.29831 0.02486
Total 14 0.54210
Variate: Pendientes
Grand mean 0.982
Aislam 1 2 3
1.117 1.019 0.811
Table Aislam
rep. 5
d.f. 12
s.e.d. 0.0997
Discussion:
El analizas de varianza de arriba muestra que el método 1 presenta diferencia

significativa respecto de los otros dos. Lo que indica que las cajas petrix establecidas
con el método uno incrementaron el diámetro de desarrollo del hongo con mayor
velocidad 1.117 mm/dia en comparación con los otros dos métodos que entre si no
presentan diferencia al nivel de 0.05.
5.1.3 Método 2 mediante regresiones
Otra alternativa que permite realizar las regresiones en el metodo 1 llevarlas acabo de
forma simultanea.
los diámetros de todas las cajas petrix son introducidos en una hoja electrónica de
Genstat en una larga columna con 90 observaciones (6 días por 15 cajas petric por
método).,
Luego de tener la hoja electrónica lista, usar los siguientes comandos Stats,
Regresión Análisis de la lista de regresión. Hacer clic en Opciones, y de-seleccionar
la opción Estimate Constant Term. Hacer clic en Ok para confirmar. Entrar
diámetro como variable respuesta y método cajas/dias en Model to be Fitted. Luego
hacer clic en Ok para confirmar.
Hacer clic en Save. Seleccionar Estimates e introducir el nombre Pendiente en el
recuadro adyacente. También seleccione la opción, Display in Spreadsheet. Clic Ok.
Mediante este procedimiento se gravara los parametros estimados (ambos constantes
y pendientes) dentro de una columna llamada pendiente.
69
La hoja electrónica resultante, se muestra arriba y tiene 30 filas y la primeras 15
contienes las constantes y el resto las tasas de crecimiento o desarrollo de cada
regresión. Se deberá borrar las constantes así la columna queda con 15 filas
correspondiente a las tasas de crecimientos esto se hace usando el siguiente menú
Spread, Delete y Selected rows).
En la nueva hoja electrónica creada, deberá introducirse el factor método para poder
hacer el análisis de varianza similar al método anterior.
5.1.4 Metodo 3. Usando Excel
Un tercer metodo para calcular la tasa de desarrollo (pendiente) es usando la funcion

SLOPE en Excel. La sintaxis general de esta funcion es:
SLOPE(known_y’s, known_x’s)
En este caso y’s son los diametros de cada replica por metodo de aislamiento x’s son
el numero de dias que se realizaron las mediciones. Como se observa en siguiente
cuadro:
70
Luego del calculo de las tasas de desarrollo que se muestran en la columna 3, es muy
sencillo importar las tres primeras columnas al Genstat y proceder igual que en el
metodo1.
6 Comparación de regresiones
Cuando se han tomado los datos para una regresión lineal de diferentes muestras o
tratamientos, usualmente interesa investigar si hay efecto de los tratamientos en los
parámetros de la regresión (la pendiente y el intercepto). Hay tres resultados posibles.
• Una línea simple sin tomar en cuenta los tratamientos

• Líneas paralelas donde los tratamientos afectan el intercepto pero no la
pendiente
• Líneas individuales con deferencias de pendiente e intercepto.
Esta serie de regresiones pueden ser directamente ajustadas en Genstat usando un

factor para definir la forma de agrupación de los tratamientos, digamos fact, al mismo
tiempo que la variable dependiente “y” y la variable independiente “x”.
La serie de regresiones pueden ser obtenidas usando Simple Linear Rgression with
Groups de la lista del menú de Regresión. Una vez que el modelo apropiado se ha
determinado será mas fácil usar General Linear Regression para obtener las
ecuaciones de una manera mas apropiada, como se ilustra a continuación.
6.1 Ejemplo – 17 Cuando la distribución es normal
6.1.1 Enunciado
71
Los datos corresponde al numero de hojas en plantas de coliflor, que serán
relacionadas con los grados de temperatura acumulados (grados acumulados por día).
Hay siete pares de valores para cada variedad del experimento. Los análisis evaluaran
si la relación (lineal) entre el numero de hojas y la temperatura acumulada díaria entre
las variedades.
Variedad! hojas temp

Var1 3.8 4.5
Var1 6.2 7.5
Var1 7.2 9.5
Var1 8.7 10.5
Var1 10.2 13
Var1 13.5 16
Var1 15 18
Var2 6 4.5
Var2 8.5 8
Var2 9.1 9.5
Var2 12 11.5
Var2 12.6 13
Var2 13.3 14
Var2 15.2 16.5
72
6.1.4 Modelos y análisis
Para el análisis usamos el menu principal Stats, luego Linear Regresión

seleccionando Simple Linear Regresión with Groups del menu. Presionar Options
del menu de Regression y luego selccione Accumulated, finalmente Ok.
6.1.4.1 Una solo línea de regresión

este primer modelo con una sola variable independiente (temperatura acumulada)
genera una regresión lineal simple.
Response variate: hojas

Fitted terms: Constant, temp

Regression 1 152.07 152.069 119.58 <.001
Residual 12 15.26 1.272
Total 13 167.33 12.871

+ temp 1 152.069 152.069 119.58 <.001
Residual 12 15.260 1.272
Total 13 167.329 12.871
6.1.4.2 líneas paralelas
esto se consigue agregando al modelo temp + variedad como variables

independientes.

Fitted terms: Constant + temp + variedaded

Regression 2 165.532 82.7660 506.57 <.001
Residual 11 1.797 0.1634
Total 13 167.329 12.8715
73

+ temp 1 152.0694 152.0694 930.74 <.001
+ variedad 1 13.4626 13.4626 82.40 <.001
Residual 11 1.7972 0.1634
Total 13 167.3293 12.8715
6.1.4.3 Líneas separadas
finalmente agregamos la interacción años.temp, es decir los términos que explican

la respuesta son: Constante + temp + variedad + temp.variedad, que corresponde a
ajustar líneas separadas para cada año.

Fitted terms: Constant + temp + year + temp.variedad

Regression 3 165.676 55.2255 334.12 <.001
Residual 10 1.653 0.1653
Total 13 167.329 12.8715

+ temp 1 152.0694 152.0694 920.04 <.001
+ variedad 1 13.4626 13.4626 81.45 <.001
+ temp.variedad 1 0.1444 0.1444 0.87 0.372
Residual 10 1.6529 0.1653
Total 13 167.3293 12.8715
6.1.5 Interpretación
Del primer modelo vemos que el termino temp es importante y que el cuadrado
medio del residuo es 1.272. el segundo modelo expuesto en el inciso ( b)), muestra
la salida resultante de agregar el termino variedad es decir líneas paralelas, el
termino adicional es significativo y el cuadrado medio del error (variaza) ha
bajado a 0.163. En el tercer modelo presentado en el inciso ( c ) muestra que las
líneas separadas no mejoran el modelo siendo no significativo y que el cuadrado
medio del residuo no aumento en gran medida 0.165, por lo cual escogemos el
modelo de líneas paralelas, es decir con el arreglo temp + variedad.
74
6.1.6 Grafico del modelo elegido
Para obtener los detalles y el grafico del modelo ajustado regresamos al menu de
regresión y ajustamos directamente el modelo, usando General linear Regresión
como se muestra en la siguiente figura. El modelo ajustado puede examinarse
gráficamente seleccionando Further options y Fitted model con temp como
Expalnatory variate y variedad como el Grouping factor.
Finalmente como Genstat muestra los coeficientes del modelo ajustado. Por
defecto se obtine la siguiente salida:

Constant -0.010 0.337 -0.03 0.978
Variedad Var2 1.962 0.216 9.08 <.001
temp 0.8186 0.0266 30.81 <.001
Seleccionando Options en el menu de Resgression y eliminando la seleccion

Estimante Constant nos da como resultado la siguiente salida.

Variedad Var1 -0.010 0.337 -0.03 0.978
Variedad Var2 1.953 0.330 5.92 <.001
temp 0.8186 0.0266 30.81 <.001
75
De esta ultima salida se obtienen directamente las ecuaciones:
Variedad 1: No hojas = -0.01 + 0.8186*temp

Variedad 2 : No hojas = 1.953 + 0.8186*temp
Si se requiere el modelo para lineas separadas, entonces el resultado

predeterminado del modelo ajustado como variedad + temp + temp.variedad, la
salida es como sigue.

Constant -0.249 0.425 -0.59 0.570
Variedad Var2 2.525 0.640 3.94 0.003
temp 0.8398 0.0351 23.95 <.001
temp.Variedad Var2 -0.0506 0.0542 -0.93 0.372
Mientras que el resultado sin la constante y para el modelo ajustado como

variedad + temp.variedad

Variedad Var1 -0.249 0.425 -0.59 0.570
Variedad Var2 2.276 0.479 4.75 <.001
temp.Variedad Var1 0.8398 0.0351 23.95 <.001
temp.Variedad Var2 0.7892 0.0413 19.12 <.001
Este ultimo resultado genera nuevamente las siguientes ecuaciones:

6.1.7 Conclusiones
El grafico del modelo expresa la distribución de los datos presentados en la

relacion del analsisi exploratorio para ambas variedades, la presicion del mismo se
expresa con el tamño de la varianza homogénea.

La variedad dos muestra el mismo incrento del numero de hojas por unidad de
temperatura lo que esta condicionado por la pendiente 0.8186. Pero por las
características de la variedad presenta mayor numero de hojas que la variedad uno
lo que se manifiesta en la diferencia de constantes en las ecuaciones.
76
6.2 Ejemplo – 18 Cuando la distribución es Binomial
Usando el mismo enunciado anterior, aquí se trata de analizar los datos registrados
para un determinado numero de plantas infestadas con mancha temprana Alternaria
sp. Encontradas en un total que varia entre 6 y 9 platas de las 2 variedades replicadas
para cada año.
A la tabla de datos creada para el caso de distribución normal, agregamos la nueva

información que corresponde a dos columnas la primera con el (total) de plantas
tomadas al azar para evaluar la presencia del hongo y la segunda para registrar el
numero de plantas infestadas con Alternaria sp (Plenfer) y otra que el total de plantas
donde se evaluó la infestacion (totalpl). Dando lugar a la nueva tabla.
Variedad! hojas temp total Plenfer

Var1 3.8 4.5 6 0
Var1 6.2 7.5 6 0
Var1 7.2 9.5 7 2
Var1 8.7 10.5 7 3
Var1 10.2 13 8 3
Var1 13.5 16 8 5
Var1 15 18 9 6
Var2 6 4.5 6 0
Var2 8.5 8 6 0
Var2 9.1 9.5 7 1
Var2 12 11.5 7 3
Var2 12.6 13 8 8
Var2 13.3 14 8 8
Var2 15.2 16.5 9 9
77
6.2.3.1 Una solo línea de regresión,
este primer modelo con una sola variable independiente (Temperatura) genera una
regresión lineal simple.
*** Accumulated analysis of deviance ***
Change mean deviance approx

d.f. deviance deviance ratio chi pr
+ temp 1 44.501 44.501 44.50 <.001
Residual 12 30.682 2.557
Total 13 75.183 5.783
6.2.3.2 líneas paralelas
Esto se consigue agregando al modelo tem + variedad como variables independientes.
78

+ temp 1 44.501 44.501 44.50 <.001
+ Variedad 1 7.886 7.886 7.89 0.005
Residual 11 22.796 2.072
Total 13 75.183 5.783
6.2.3.3 Líneas separadas
finalmente agregamos la interacción variedad.temp, es decir los términos que explican

la respuesta son: Constante temp + variedad + temp.variedad, que corresponde a
ajustar líneas separadas para cada variedad.

+ temp 1 44.5011 44.5011 44.50 <.001
+ Variedad 1 7.8858 7.8858 7.89 0.005
+ temp.Variedad 1 16.1944 16.1944 16.19 <.001
Residual 10 6.6014 0.6601
Total 13 75.1828 5.7833
Del primer modelo vemos que el termino temp es altamente significativo en la

relación y el cuadrado medio del residuo es 2.557. el segundo modelo expuesto en
el inciso ( b) líneas paralelas, muestra la salida resultante de agregar el termino
variedad el cual también es altamente significativo con cuadrado medio del error
(variaza) levemente mas bajado a 2.072. En el tercer modelo presentado en el
inciso ( c ) las líneas separadas, muestra que el efecto de la interacción es
altamente significativa y el cuadrado medio del residuo bajo considerablemente
0.6601, por lo cual escogemos el modelo de líneas separadas, es decir con el
arreglo temp + variedad + temp.variedad.
79
Al igual que en el caso anterior 19.1, En el cuadro de dialogo Generalized linear
models, Ajustamos el modelo introduciendo en el sub menu model to be fitted el
modelo variedad + temp.variedad y antes de ejecutarlo, seleccionamos el menu
Options y eliminamos la selección Estimate Constant para obtener los siguientes
parámetros estimados para cada una de la variedades con constantes pendientes
diferentes al ser líneas separadas.

antilog of
estimate s.e. t(*) t pr. estimate
Variedad Var1 -3.97 1.20 -3.32 <0.001 0.01885
Variedad Var2 -17.59 5.88 -2.99 0.003 0.230E-07
temp.VariedadVar1 0.2755 0.0880 3.13 0.002 1.317
temp.VariedadVar2 1.562 0.507 3.08 0.002 4.768
logit (p) = ln (p/1-p) = ŷ
Variedad 1 logit (p) = -3.97 + 0.2755*Temp.

Variedad 2 logit (p) = -17.59 + 1.562*Temp.
6.2.6 Conclusión
Asi para una temperatura de 12 grados acumulados al dia, el numero esperado de

plantas enfermas para la variedad uno seria plantan enfermas = anti ln {ln (0.01885)
80
+ln(1.317)*(10.6) = 1. Mientras que para la variedad dos serian 3. y podriamos
concluir que el incremento de la temperatura afecta incrementando el numero de
plantas enfermas de las variedades pero tambien que la variedad 2 es
exponencialmente susceptible.
6.3 Ejemplo – 19 Cuando los datos siguen la distribución de Poisson
Continuando con el enunciado el ejemplo 19.1 para distribución normal, aquí el

objetivo es analizar si los datos registrados para la presencia de una enfermedad
radicular causada por el hongo Fusarium sp. Fue afectada por la temperatura y/o
alguna de las variedades presento cierta resistencia. Los datos fueron tomados del
total plantas (22-25) de cada unidad experimetal.
6.3.1 Entrada de datos en Genstat
A la tabla del ejemplo anterior agregamos una columna con la información señalada.
Variedad! hojas temp total Plenfer Fusarium

Var1 3.8 4.5 6 0 1
Var1 6.2 7.5 6 0 1
Var1 7.2 9.5 7 2 2
Var1 8.7 10.5 7 3 2
Var1 10.2 13 8 3 3
Var1 13.5 16 8 5 4
Var1 15 18 9 6 5
Var2 6 4.5 6 0 2
Var2 8.5 8 6 0 6
Var2 9.1 9.5 7 1 9
Var2 12 11.5 7 3 11
Var2 12.6 13 8 8 15
Var2 13.3 14 8 8 18
Var2 15.2 16.5 9 9 21
81
a) Una sola linea de regresión,

+ temp 1 23.170 23.170 23.17 <.001
Residual 12 52.671 4.389
Total 13 75.841 5.834
6.3.3.1 Lineas paralelas

+ temp 1 23.1699 23.1699 23.17 <.001
+ Variedad 1 50.5497 50.5497 50.55 <.001
Residual 11 2.1217 0.1929
Total 13 75.8413 5.8339
6.3.3.2 Lineas separadas,

+ temp 1 23.1699 23.1699 23.17 <.001
+ Variedad 1 50.5497 50.5497 50.55 <.001
+ temp.Variedad 1 0.2686 0.2686 0.27 0.604
Residual 10 1.8531 0.1853
Total 13 75.8413 5.8339
Del primer modelo vemos que el termino temp es importante y que el cuadrado
medio del residuo es 4.389. el segundo modelo expuesto en el inciso ( b), muestra
la salida resultante de agregar el termino variedad es decir líneas paralelas, el
termino adicional es significativo y el cuadrado medio del error (variaza) ha
bajado considerablemente a 0.1929. En el tercer modelo presentado en el inciso (
c ) muestra que las líneas separadas no mejoran el modelo siendo no significativo
y que el cuadrado medio del residuo no aumento en gran medida 0.1853, por lo
82
cual escogemos el modelo de líneas paralelas, es decir con el arreglo temp +
variedad, procediendo al igual que en el primer caso cuando analizamos datos con
distribución normal.
mean deviance approx

Regresión 2 73.720 36.8598 36.86 <.001
Residual 11 2.122 0.1929
Total 13 75.841 5.8339
antilog of
estimate s.e. t(*) t pr. stimate
Variedad Var1 -0.985 0.478 -2.06 0.039 0.3736
Variedad Var2 0.642 0.397 1.62 0.106 1.901
temp 0.1518 0.0296 5.12 <.001 1.164
logit (p) = ln (p/1-p) = ŷ
83
Variedad 1 logit (p) = -.985 + 0.2755*Temp.
Variedad 2 logit (p) = 0.642 + 1.562*Temp.
6.3.6 Conclusión
Los cual se interpreta diciendo que el numero de plantas infestadas en 0.1518 ves
o las veces del resultado ln (1.164) por cada unidad de temperatura que se
incremente para cada variedad en particular. Asi para 12 grados de temperatura el
numero de plantas infestadas para la variedad uno se calcula:
Variedad 1 No Pl infestadas = anti ln {ln(0.3736) + ln(1.164)*12 }=2

Variedad 2 No Pl infestadas= anti ln { ln(1.901) + ln(1.164)*12 }= 11
Lo cual esta de acuerdo con los datos exploratorios que demuestran una respuesta
natural de mayor susceptibilidad de la variedad dos que se incrementa
logaritmicamente en forma paralela a la variedad uno como efecto del incremento
de la temperatura.
6.4 Ejemplo – 20
7 Estructura Binomial
Como parte de un largo estudio sobre los efectos de varios químicos sobre la
germinación de semillas bajo viarios regímenes de temperatura, cuatro diferentes
concentraciones de un químico fueron usadas para tratamiento de semillas
almacenadas a cuatro niveles de temperatura. Para cada una de las 16
combinaciones 4 recipientes con 50 semillas fueron almacenados y el numero de
semillas contenidas en las 64 unidades experimentales fueron probados bajo
condiciones estándares. En la tabla de abajo se muestra el numero de semillas
germinadas en cada recipiente. Si se asume que cada una de las 50 semillas
germinan independientemente y que no existe ninguna diferencia en la tasa de
germinación entre recipientes que son tratados idénticamente, luego una
distribución binomial mas una relación logística puede ser esperada como un
modelo apropiado. Una secuencia de modelos es ajustada para evaluar la relativa
importancia de los efectos de los niveles de concentración y temperatura y su
interacción. Note que no hay boque para las 4 repeticiones.
84
7.1.1 Datos a introducir
Concentración
Temp! Rep Agua 0.1 1 10
T1 1 9 13 21 40
2 9 12 23 32
3 3 14 24 43
4 7 15 27 34
T2 1 19 33 43 48
2 30 32 40 48
3 21 30 37 49
4 29 26 41 48
T3 1 7 1 8 3
2 7 2 10 4
3 2 4 6 8
4 5 4 7 5
T4 1 4 13 16 13
2 9 6 13 18
3 3 15 18 11
4 7 7 19 16
7.1.2 Análisis exploratorio
G erm inacio n co n T em p eratura -1 G erm inacio n co n T em p eratura -2
60 60
40 40
20
20
0
0
0 2 4 6
0 2 4 6
C o ncentracio n
C o ncentracio n
G erm inacio n co n T em p eratura -3

Germinacion con Temperatura -4
15 20
10 15
10
5 5
0 0
0 2 4 6 0 2 4 6
C o ncentracio n Concentracion
Mean
Conc agua 0.1 1.0 10
Temp
T1 7.00 13.50 23.75 37.25
T2 24.75 30.25 40.25 48.25
T3 5.25 2.75 7.75 5.00
T4 5.75 10.25 16.50 14.50
85
Usando el menu principal Stats, luego del submenú Regresión análisis elegimos
Generalized linear models. Del cuadro de dialogo para Análisis, elegimos
Modelling of binomial proportions (e.g. by logists). En el recuadro Number(s) of
subjects introducimos el total de semillas por recipiente (50). En el recuadro de
Number of successes introducimos la columna que representa el numero de plantas
germinadas. En el recuadro Model to be fitted la variable independiente. Luego para
adicionar mas factores, inicialmente hacemos clic en el submenú Change model en el
recuadro Terms introduciremos los términos en el orden de interés.
Considerando solo temperatura como variable independiente

+ Temp 3 763.688 254.563 254.56 <.001
Residual 60 430.114 7.169
Total 63 1193.801 18.949
Considerando Temperatura y Concertación como las variables independientes

paralelas.

+ Temp 3 763.688 254.563 254.56 <.001
+ Conc 3 282.008 94.003 94.00 <.001
Residual 57 148.105 2.598
Total 63 1193.801 18.949
Adicionando un termino al modelo anterior correspondiente a la interacción de ambas

variables.

+ Temp 3 763.688 254.563 254.56 <.001
+ Conc 3 282.008 94.003 94.00 <.001
+ Temp.Conc 9 92.464 10.274 10.27 <.001
Residual 48 55.641 1.159
Total 63 1193.801 18.949
Resumen de las desvianzas para cada uno de los modelos ajustados.
86
Modelo Desvianza Grados de libertad
Media general 1193.8 63

Media + Temp 430.1 60
Media + Conc 980.1 60
Media + Temp + Conc 148.1 57
Media + Temp + Con. + Temp.Conc 55.6 48
Obviamente la desvianza mas pequeña corresponde al modelo mejor ajustado para el

cual calculamos los parámetros estimados.
antilog of
Constant -1.815 0.204 -8.91 <.001 0.1628
Temp T2 1.795 0.248 7.24 <.001 6.021
Temp T3 -0.328 0.308 -1.06 0.287 0.7207
Temp T4 -0.225 0.301 -0.75 0.454 0.7982
Conc 0.1 0.821 0.259 3.17 0.002 2.272
Conc 1 1.715 0.248 6.91 <.001 5.558
Conc 10 2.887 0.26 11.09 <.001 17.95
Temp T2 .Conc 0.1 -0.374 0.328 -1.14 0.254 0.6878
Temp T2 .Conc 1.0 -0.277 0.337 -0.82 0.41 0.7578
Temp T2 .Conc 10 0.449 0.485 0.93 0.354 1.567
Temp T3 .Conc 0.1 -1.522 0.465 -3.27 0.001 0.2184
Temp T3 .Conc 1.0 -1.268 0.391 -3.24 0.001 0.2813
Temp T3 .Conc 10 -2.942 0.42 -7 <.001 0.05277
Temp T4 .Conc 0.1 -0.135 0.383 -0.35 0.724 0.8734
Temp T4 .Conc 1.0 -0.383 0.365 -1.05 0.295 0.682
Temp T4 .Conc 10 -1.742 0.376 -4.64 <.001 0.1751
Asi el modelo que es :
logit (pij) = log (pij/(1-pij))= Media + Temp + Con. + Temp.Conc
Por ejemplo para T2, C2 y su interacción seria:
Logit (pij) = -1.815 + 1.795 ln ( T2) + 0.821ln(Conc 0.1) – 0.374[ln(T2)*ln(Conc

0.1)]
Agregando un pseudofactor con dos niveles para comparar dos grupos de niveles de
temperatura (T1 + T2) vs (T3 + T4), la primera agrupación por presentar el mayor
incremento de plantas germinadas mientras en los dos últimos niveles presentaron los
incrementos mas bajos.
87
+ pseudoF 1 554.586 554.586 554.59 <.001
+ Temp 2 209.101 104.551 104.55 <.001
+ Conc 3 282.008 94.003 94.00 <.001
+ Temp.Conc 9 92.464 10.274 10.27 <.001
Residual 48 55.641 1.159
Total 63 1193.801 18.949
La principal fuente de interacción seria la ausencia de un incremento en la respuesta

(plantas germinadas) a los niveles del químico con temperatura a nivel 3 como se
observa en el grafico y promedio en la sección del análisis exploratorio. Para el resto
de los regímenes de temperatura en interacción con el químico utilizado el numero de
plantas germinadas aumenta en relación al incremento de la concentración. Los
mayores incrementos de plantas germinadas se observan en los niveles T1 y T2 de
temperatura, mientras que los mas bajos corresponden a los niveles T3 y T4. cuya
diferencia entre ambos grupos de acuerdo al ultimo análisis de desvianza realizado
incluyendo el pseudo factor muestra que es altamente significativa.
8 Regresión logística
8.1 Ejemplo 21
8.1.1 Enunciado
Se evalua la sobrevivencia de estacas de yuca (Manihot sculenta) mediante prueba

de germinación para dos épocas de siembra Primavera tardía y Verano, con dos
tamaños de tallo ( largo y corto), después de tres semanas se realiza el conteo de las
estacas germinadas, se desea conocer en que medida los factores de época de siembra
y tamaño de la estacas están relacionados con la sobrevivencia de las estacas.
8.1.2 Introducción de datos
Epoca tamano Sbrev No pl

Primaver largo viva 156
Primaver corto viva 107
Primaver largo muerta 84
Primaver corto muerta 133
Verano largo viva 84
Verano corto viva 31
Verano largo muerta 156
Verano corto muerta 209
88
Primaver Verano Grand Total

Sbrev. corto largo corto largo
muerta 133 84 209 156 582
viva 107 156 31 84 378
Grand Total 240 240 240 240 960
Los principios expuestos en capitulos anteriores para tables de doble entrada pueden
ser extendidos para tables de mayors dimenciones. En este ejemplo se muestra una
tabla con tres variables categóricas: La epoca de siembra, el tamaño y la
sobrevivencia.
Los datos como respuesta a estas tres variables estan representados por
Yijk , i(epocas0=1, 2....E. j(tamaños)=1, 2,.... T. K(sobrev.)=1,2... S.
El modelo completo puede ser escrito como sigue:
Log Uijk = m + Ei + Tj + Sk + (ET)ij + (ES)ik + (TS)jk + (ETS)ijk
Donde:
Uijk = media gral. como resultado del efecto de todos los términos de miembro izq.
Ei, Tj, y Sk = efectos individuales de cada factor en orden jerarquico.
(ET)ij, (ES)ik, (TS)jk y (ETS)ijk = Interacciones de acuerdo al orden jerarquico.
El procedimiento de análisis en Genstat es muy similar que para los modelos no

lineares vistos anteriormente, iniciamos con Stats de la barra del menu principal,
luego del submenú Regresión análisis elegimos Generalized linear models. Del
cuadro de dialogo para Análisis, elegimos Log-linear modelling. En el recuadro
Response variates introducimos Numero de plantas germinadas. En el recuadro de
Number of successes introducimos la columna que representa el numero de plantas
germinadas. En el recuadro Model to be fitted la variable independiente empesando
en el orden jerarquico Epocas. Luego para adicionar mas factores, inicialmente
hacemos clic en el submenú Change model en el recuadro Terms introduciremos los
términos en el orden de interés como se muestra en la fuente de variación del análisis
abajo.
89
Empezando con el factor Epoca

+ Epoca 1 0.00 0.00 0.00 1.000
Residual 6 194.70 32.45
Total 7 194.70 27.81
Adicionando factores individuales en el orden que se muestra en la fuente de

variacion del analisis de desvianczas y comparando los residuales de las desvianzas
medias y la significancia para elegir el modelo que minimice los residuales y presente
diferencia estadística significativa.

+ Epoca 1 0.00 0.00 0.00 1.000
+ Tamano 1 0.00 0.00 0.00 *
+ Sobrev 1 43.68 43.68 43.68 <.001
Residual 4 151.02 37.75
Total 7 194.70 27.81
Adicionando las interacciones en el orden jerarquico sugerido.

+ Epoca 1 0.000 0.000 0.00 1.000
+ Tamano 1 0.000 0.000 0.00 *
+ Sobrev 1 43.682 43.682 43.68 <.001
+ Epoca.Tamano 1 0.000 0.000 0.00 *
+ Epoca.Sobrev 1 97.579 97.579 97.58 <.001
+ Tamano.Sobrev 1 51.147 51.147 51.15 <.001
Residual 1 2.294 2.294
Total 7 194.702 27.815
8.1.5 Discusion
Los análisis anteriores nos permiten elejir el modelo que explica la mayor variavilidad
de la media general 194.702. el ultimo análisis de desvianzas presenta el residual mas
bajo 2.294 que seria lo que no explica el modelo, pero que es el mas bajo en
comparación con los modelos anteriores que al igual que este presenta diferencia
estadística altamente significativa. Estas son las razones para elegir este modelo que
90
considera la sobrevivencia como factor individual y las interacciones con los otros dos
factores.
En este nuevo análisis de desvianzas resumimos las distribución de las desvianzas

entre los terminos del modelo que se observan el la fuente de variación (change)

d.f. deviance deviance ratio chipr
+ Sobrev 1 43.682 43.682 43.68 <.001
+ Sobrev.Epoca 2 97.579 48.789 48.79 <.001
+ Sobrev.Tamano 2 45.837 22.918 22.92 <.001
Residual 2 7.604 3.802
Total 7 194.702 27.815
antilog of
Constant 5.1179 0.0730 70.14 <.001 167.0
Sobrev muerta -0.624 0.111 -5.61 <.001 0.5359
Sobrev viva.Epoca Verano -0.827 0.112 -7.40 <.001 0.4373
Sobrev muerta.Epoca Verano 0.5200 0.0857 6.07 <.001 1.682
Sobrev viva.Tamano corto -0.553 0.107 -5.18 <.001 0.5750
Sobrev muerta .Tamano corto 0.3542 0.0842 4.21 <.001 1.425
La interacción de los factores Epoca y tamaño no afecta la sobrevivencia de las

estacas de yuca. Unicamente la interaccion de sobrevivencia con los factores de epoca
y tamaño muestran ser altamente significativa y explican la sobrevivencia de las
estacas mediante pruebas de germinación. De la probabilidades de observadas mayor
numero de estacas sobreviven plantando en Primavera tardía y tallos largos.
8.2 Ejemplo 22
8.2.1 Enunciado
Se estudia la relación de independencia entre dos especies de cítricos sobre la

cantidad de éxito y fracaso en plantas injertadas, el injerto de dos variedades de
naranja (A y B) sobre un pie de injerto resistente a gomosis.
91
var! injerto! Nopla

A Ex 45
A Fr 60
B Ex 20
B Fr 95
TABULATE [PRINT=totals;CLASSIFICATION=var,injerto;MARGINS=yes]
Nopla
Total
injerto Ex Fr Total
var
A 45.00 60.00 105.00
B 20.00 95.00 115.00
Total 65.00 155.00 220.00
Para probar si existe una relación de dependencia entre las variedades y la respuesta
en el injerto bastaria con hacer una prueba de chi-cuadrado en Genstat usando los
siguientes comandos: Stats, Statistical test y luego elegir Contingency table. Hacer
clic en Create table luego dar nombre a la tabla y especificar el numero de filias y
columnas 2x2. e ingresar los valores. Finalmente hacer clic en Ok para confirmar.
La salida es como sigue:
CHISQUARE [method=pearson] table
Pearson chi-square value is 27.07 with 1 df.
Probability level (under null hypothesis) p < 0.001
Los valores esperados Eij son calculados de la siguiente forma:
Eij = Nx(Fi/N)x(Cj/N) F=Total en las filas y C=totales en columnas
Simplificando Eij =(FixCj)/N ej. E11= (105x120)/200=63
Luego el calculo de Chi-cuadrado
92
X2 = Sumatoria{(valor Obs. – valor esperado)2/valor esperado}
X2 = (18)2 (1/63 + 1/42 + 1/ 57 + 1/38)= 27.7 valor obtenido en salida de Genstat.
esta probabilidad nos indica que la respuesta del los niveles categoricos de ijerto
(éxito/fracaso) responden altamente significativa al efecto de los dos niveles
categóricos de la variedad (A/B).
8.3 Ejemplo 23
8.3.1 Enunciado
Si a los datos del ejercicio anterior agregamos una factor llamado localidad (L1 y L2)
a nuestro estudio como es muy normal en investigación agrícola, nuestros datos en
Genstat estarian de la siguiente manera:
var! !Loc injerto! Nopla

A L1 Ex 25
A L1 Fr 10
A L2 Ex 20
A L2 Fr 50
B L1 Ex 60
B L1 Fr 5
B L2 Ex 15
B L2 Fr 15
Note que los valores de éxito y fracaso de ambas variedades se reparten por
localidades
Los totales para cada factor serian;
Variedades Localidades Injertos
A 105 1 100 Ex 120

B 95 2 100 Fr 80
Totales 200 200 200
93
8.3.4 Discusión del análisis
El calculo para los valores esperados ahora es mas tedioso así para el primer valor de
nuestros datos seria:
200x(105/200)x(100/200)x(120/200)=31.5
en términos formales seria:
EAL1IEx = Nx(VA/N)x(L1/N)x(IEx/N)
Finalmente nuestro Chi-cuadrado seria X2 = 103.72
Para calcular los efectos por separado talvez tendríamos que organizar tablas
individuales o si queremos ver la interacción de efectos y se complica mas aun si
tenemos la necesidad de seguir agregando factores.
8.3.5 Modelo
Si aplicamos logaritmo a la formula de arriba tendríamos la siguiente formula que
explicaria como la respuesta de cada valor se ve afectado por cada uno de las niveles
categóricos:
Ln (EAL1IEx ) = Ln (VA ) + Ln (L1 ) + Ln (IE) - 2Ln (N )
Si incluimos la interaccion tendríamos
Ln (EAL1IEx ) = Ln (VA ) + Ln (L1 ) + Ln (IE) + ln(LI)1VA - 3Ln (N )
Este mismo modelo se realiza en Genstat valanceando con la constante el termino que
aqui reduce en 2 o 3 veces Ln(N) al miembro izquierdo de la ecuación.
Usando el mismo proceso en el manejo del menu que en el ejercicio anterior aquí
obtenemos el modelo completo y observamos la desviación media del residual y la
significancia básicamente en la respuesta y las interacciones de los factores.
94
8.3.6 Análisis de desvianza

+ var 1 0.5002 0.5002 0.50 0.479
+ Loc 1 0.0000 0.0000 0.00 *
+ injerto 1 8.0542 8.0542 8.05 0.005
+ var.Loc 1 25.0965 25.0965 25.10 <.001
+ var.injerto 1 28.0099 28.0099 28.01 <.001
+ Loc.injerto 1 37.9418 37.9418 37.94 <.001
+ var.Loc.injerto 1 0.7730 0.7730 0.77 0.379
Residual 1 0.7730 0.7730
Total 7 100.3755 14.3394
Asi el modelo que explica la variabilidad en la respuesta vendría dado por el Éxito o
fracaso de injertar mas las 3 dobles interacciones que presentan significancia, el
análisis final de desvianza es como sigue.

+ injerto 1 8.0542 8.0542 8.05 0.005
+ var.Loc 3 25.5967 8.5322 8.53 <.001
+ injerto.var 1 28.0099 28.0099 28.01 <.001
+ injerto.Loc 1 37.9418 37.9418 37.94 <.001
Residual 1 0.7730 0.7730
Total 7 100.3755 14.3394
Los parámetros estimados son:
antilog of
Constant 3.266 0.188 17.34 <.001 26.19
injerto Fr -1.090 0.330 -3.30 <.001 0.3362
varA.Loc L2 -0.331 0.275 -1.20 0.229 0.7180
var B .Loc L1 0.809 0.223 3.63 <.001 2.245
var B .Loc L2 -0.481 0.314 -1.53 0.126 0.6182
injerto Fr .var B -1.161 0.357 -3.25 0.001 0.3132
injerto Fr .Loc L2 2.091 0.361 5.79 <.001 8.096
95
La cantidad de plantas injertadas son estadísticamente superiores con ralacion en la
que no se tubo éxito. La interacción entre variedad y localidad esta generada
básicamente por la diferencia entre lo totales de la cantidad de plantas de la variedad
B en la localidad 1 que es estadísticamente diferente del total de la variedad A en
localidad 1. Finalmente podemos afirmar que se obtuvo mayor éxito injertando con la
variedad A efectuados en la localidad 1.
8.4 Ejemplo 24
8.4.1 Enunciado
Los datos en este ejemplo son la frecuencia de ocurrencia de diferentes números de

corderos que nacieron vivos de hembras de tres diferentes razas en tres fincas
diferentes.

fincas! razas! cor_vivos! NoCorderos ……..Continuacion
1 A 0 10 2 B 2 56
1 A 1 21 2 B 3+ 1
1 A 2 96 2 C 0 1
1 A 3+ 23 2 C 1 5
1 B 0 4 2 C 2 20
1 B 1 6 2 C 3+ 2
1 B 2 28 3 A 0 22
1 B 3+ 8 3 A 1 95
1 C 0 6 3 A 2 103
1 C 1 7 3 A 3+ 4
1 C 2 58 3 B 0 18
1 C 3+ 7 3 B 1 49
2 A 0 8 3 B 2 62
2 A 1 19 3 B 3+ 0
2 A 2 44 3 C 0 4
2 A 3+ 1 3 C 1 12
2 B 0 5 3 C 2 16
2 B 1 17 3 C 3+ 2
96
cor_vivos 0 1 2 3+
Fincas razas
1 A 10 21 96 23
B 4 6 28 8
C 6 7 58 7
2 A 8 19 44 1
B 5 17 56 1
C 1 5 20 2
3 A 22 95 103 4
B 18 49 62 0
C 4 12 16 2

+ fincas 2 78.452 39.226 39.23 <.001
+ razas 2 171.664 85.832 85.83 <.001
+ cor_vivos 3 552.434 184.145 184.14 <.001
+ fincas.razas 4 75.036 18.759 18.76 <.001
+ fincas.cor_vivos 6 112.394 18.732 18.73 <.001
+ razas.cor_vivos 6 4.265 0.711 0.71 0.641
Residual 12 14.580 1.215
Total 35 1008.825 28.824
8.4.5 Discusión:
Claramente la interaccion razas por corderos vivos es no significativa entonces el

modelo que deberiamos usar excluye esta interaccion. Dando lugar al modelo
siguiente donde los grados de libertad del residual (18) es muy similar a la desvianza
18.84, que es otro indicador de que nuestro modelo provee un aceptable ajuste de llos
datos.
97

+ fincas 2 78.452 39.226 39.23 <.001
+ razas 2 171.664 85.832 85.83 <.001
+ cor_vivos 3 552.434 184.145 184.14 <.001
+ fincas.razas 4 75.036 18.759 18.76 <.001
+ fincas.cor_vivos 6 112.394 18.732 18.73 <.001
Residual 18 18.845 1.047
Total 35 1008.825 28.824
Parámetros estimados para el modelo

antilog of
estimate s.e. t(*) t. pr estimate
Constant 2.393 0.23 10.39 <.001 10.95
fincas 2 -0.665 0.364 -1.82 0.068 0.5143
fincas 3 0.844 0.279 3.03 0.002 2.326
razas B -1.182 0.169 -7.01 <.001 0.3067
razas C -0.654 0.14 -4.68 <.001 0.52
cor_vivios 1 0.531 0.282 1.88 0.06 1.7
cor_vivios 2 2.208 0.236 9.37 <.001 9.1
cor_vivios 3+ 0.642 0.276 2.32 0.02 1.9
fincas 2 .razas B 1.275 0.234 5.44 <.001 3.578
fincas 2 .razas C -0.291 0.263 -1.11 0.269 0.7479
fincas 3 .razas B 0.63 0.202 3.13 0.002 1.878
fincas 3 .razas C -1.231 0.231 -5.33 <.001 0.2919
fincas 2 .cor_vivios 1 0.544 0.419 1.3 0.194 1.723
fincas 2 .cor_vivios 2 -0.06 0.368 -0.16 0.871 0.9419
fincas 2 .cor_vivios 3+ -1.895 0.631 -3 0.003 0.1504
fincas 3 .cor_vivios 1 0.735 0.329 2.23 0.026 2.086
fincas 3 .cor_vivios 2 -0.794 0.289 -2.74 0.006 0.452
fincas 3 .cor_vivios 3+ -2.634 0.515 -5.11 <.001 0.07177
8.4.6 Discusión
Para efectos de interpretación del modelo, necesitamos una tabla que explique la
interacción fincas por corderos vivos, ya que la interacción precedente es
independiente de corderos vivos, aunque se pueden presentar ambas tablas que
expliquen ambas interacciones. la siguiente tabla muestra la interacción finca vs
corderos vivos
TABULATE [PRINT=means;CLASSIFICATION=fincas,cor_vivios;
MARGINS=no] NoCorderos
Mean
cor_vivos 0 1 2 3+
fincas
98
1 6.67 11.33 60.67 12.67
2 4.67 13.67 40.00 1.33
3 14.67 52.00 60.33 2.00
Adicionalmente podemos agregar la tabla de doble entrada para explicar lo que

sucede con la interacción finca vs. Raza como sigue
TABULATE [PRINT=means; CLASSIFICATION=fincas,razas;MARGINS=no]

NoCorderos
Mean
razas A B C
fincas
1 37.50 11.50 19.50
2 18.00 19.75 7.00
3 56.00 32.25 8.50
La principal conclusión en base al modelo y principalmente el origen de la interacción

finca vs. Corderos vivos es que la finca 1 produce mas múltiples nacimientos y que la
finca 3 es la que menos produce.
99

Aplicacion de Modelos Lineales y Lineales Generalizados

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Aplicacion de Modelos Lineales y Lineales Generalizados

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDAD DE READING

“APLICACION DE MODELOS LINEALES y MODELOS LINEALES

Reading, 27 de Agosto de 2002

1.1.2 Entrada de datos en GenStat

1.1.3 Análisis exploratorio de datos

1.1.4 Gráfico de la relación

El supuesto de relación lineal entre P suelo y P planta parece razonable.

Yi variable respuesta con in valores

1.1.5.1 Los supuestos para el análisis de varianza

1. La variable independiente se mide sin error.

2. El valor verdadero de la variable respuesta y esta linealmente relacionado con x, sin

El primero esta determinado por el diseño del experimento y en este caso es

El segundo fue aceptado cuando hicimos el gráfico de P planta contra P suelo y

Esta secuencia produce los siguientes comandos y salida

"Simple Linear Regression"

***** Regression Analysis *****

*** Summary of analysis ***

d.f. s.s. m.s. v.r. F pr.

Percentage variance accounted for 59.8 = [1-(114.3/284)*100]

*** Estimates of parameters ***

estimate s.e. t(7) t pr.

El análisis de regresión puede hacerse en Genstat usando el menú Stats, Regression

Interpretación de los resultados

La suma de cuadrados medios es el resultado de dividir la suma de cuadrados entre

Genstat también puede producir el gráfico de la línea de regresión y los valores

Que produce el gráfico

1.1.6 El error típico de la pendiente

El error típico de la pendiente nos de la medida de la precisión de b. Esta dado por

Usando este resultado y la información b sigue una distribución de t de Student con

1.417 ± (2.36) x (0.395) = (0.485, 2.349).

Por ejemplo, si el fósforo inorgánico en el suelo fuera X0 = 20 ppm el contenido

y = 61.58 + 1.417 * 20 = 89.92

Dado que el valor predicho (y ) es un estimado es necesario tener una medida de su

Esta precisión se mide a través del error típico de la predicción.

1.1.8 Predicciones para un valor medio y de un valor individual

La predicción del valor medio esperado para un grupo de observaciones tomadas a un

(89.21-4.51*2.36 , 89.21+4.51*2.36) = (78.56, 99.85)

1.1.9 Predicciones para un valor individual

La predicción para un valor individual se hace de la misma forma, es decir usando el

Sin embargo el error típico se calcula como:

Ŷ = 61.58 + 1.417 * 20 = 89.92

"Simple Linear Regression"

RCHECK [RMETHOD=deviance; GRAPHICS=high] residual; composite

predict P_suelo; levels=20

print 'predicciones medias'

print 'predicciones individuales'

PREDICT[Prediction=iypred; se=ietipico; scope=new]P_suelo;

Comentarios sobre el programa:

La directiva VARIATE, especifica el numero de datos y el nombre de la variable. La

***** Regression Analysis *****

Response variate: P_planta

d.f. s.s. m.s. v.r. F pr.

Percentage variance accounted for 59.8

*** Estimates of parameters ***

estimate s.e. t(7) t pr.

*** Predictions from regression model ***

These predictions are estimated mean values.

Variate Fixed value Source of value

The standard errors are appropriate for interpretation of the predictions as

Response variate: P_planta

*** Predictions from regression model ***

Variate Fixed value Source of value

The standard errors are appropriate for interpretation of the predictions as

Response variate: P_planta

* Regression Analysis *

* Summary of analysis *

* Estimates of parameters *

(89.21-4.512.36 , 89.21+4.512.36) = (78.56, 99.85)

* Regression Analysis *

* Estimates of parameters *

* Predictions from regression model *

* Predictions from regression model *

* Summary of analysis *

* Estimates of parameters *

* Regression Analysis *

* Summary of analysis *

* Estimates of parameters *

Ganancia de peso i = constante + b1alimentoi + b2descansoi + b3*

* Regression Analysis *

* Estimates of parameters *

M2: y = a + b1x1 + b2x2,RSS2