Documente Academic
Documente Profesional
Documente Cultură
CONTENIDO
Pg.
CONTENIDO ........................................................................................................................ i
CAPITULO I. INTRODUCCIN AL DISEO DE EXPERIMENTOS ........................... 3
1.1 Conceptos De Mtodos Estadsticos Para La Investigacin............................................... 3
1.2 Diseos experimentales. ................................................................................................. 29
1.3 Conceptos bsicos del Diseo Experimental ................................................................... 31
1.3. Utilizacin de los mtodos estadsticos en la experimentacin. ...................................... 35
1.4. Importancia del anlisis de varianza. ............................................................................. 36
1.5 Clasificacin y seleccin de los diseos experimentales ................................................. 38
1.6. Aplicacin de paquetes Estadisticos .............................................................................. 39
CAPITULO II. CONCEPTOS DE PROBABILIDAD.......................................................... 40
2.1. Probabilidad y sus axiomas ........................................................................................... 40
2.2. Funciones de la probabilidad ......................................................................................... 43
2.3. Variable aleatoria y distribucin de probabilidades. ....................................................... 46
2.4. Mtodos de estimacin de parmetros ........................................................................... 49
2.5. Mtodo de mxima verosimilitud .................................................................................. 50
2.6. Distribucin de probabilidades de variables aleatorias continuas. .................................. 50
CAPITULO III PRUEBAS DE RANGO MULTIPLE ........................................................ 74
3.1. Introduccin .................................................................................................................. 74
3.2. Prueba de Rangos Mltiples de Tukey HSD .................................................................. 74
3.3. Diferencia Minima Significativa de Fisher o (LSD) ....................................................... 78
3.4. Prueba de Rangos Mltiples de Duncan ......................................................................... 79
3.5. Puebla de Student-Newman-Keuls (SNK) ..................................................................... 80
3.6. Prueba de Comparacin de Dunnet ................................................................................ 81
3.7. Transformacin de datos ............................................................................................... 81
CAPITULO IV DISEO COMPLETAMENTE AL AZAR (DCA) ................................... 83
4.1. Caractersticas principales ............................................................................................. 83
4.2 Modelo estadstico Lineal............................................................................................... 83
4.3 Esquema del diseo Completamente al Azar .................................................................. 83
4.4. Estimaciones ................................................................................................................. 84
4.5 Suma de cuadrados......................................................................................................... 84
4.6 Grados de libertad .......................................................................................................... 84
4.7 Cuadrado medio esperado .............................................................................................. 84
4.8 Anlisis de varianza ....................................................................................................... 84
4.9. Prueba estadstica de hiptesis ....................................................................................... 85
4.10. Ventajas del Diseo Completamente al Azar ............................................................... 85
4.11. Desventajas del Diseo Completamente al Azar .......................................................... 86
4.12. Usos del Diseo Completamente al Azar ..................................................................... 86
4.13. Problemas de aplicacin .............................................................................................. 86
CAPITULO V DISEO EN BLOQUE COMPLETO AL AZAR (DBCA) ......................... 91
5.1. Definicin ..................................................................................................................... 91
5.2. Caractersticas: .............................................................................................................. 91
5.3. Modelo estadstico lineal ............................................................................................... 91
CAPITULO VI DISEO DE CUADRADO LATINO (DCL) ............................................. 96
6.1 Caractersticas: ............................................................................................................... 96
6.2 Modelo estadstico Lineal............................................................................................... 97
CAPITULO VII EXPERIMENTOS FACTORIALES ....................................................... 103
7.1 Introduccin ................................................................................................................. 103
7.2 Definiciones bsicos..................................................................................................... 103
ii
Que es estadstica?
Dos comunes usos de la palabra:
1. Estadstica Descriptiva: resmenes numricos y grficos de conjuntos de datos
2. Estadstica Inferencial: la determinacin de la probabilidad de lo posible (Davis 2002, p. 11)
Ejemplos:
Descriptiva Los errores de transformacin para 14 puntos de control GPS que van desde 3.63 a 8.36 m
con una media aritmtica de 5.145
Inferencial El error medio para un conjunto de puntos GPS ajustados por este procedimiento de
georeferenciacin se sita entre 4.274 y 6.015 m; esta afirmacin tiene un 5% de probabilidad de ser
incorrecto.
Que es anlisis estadstico?
Este trmino se refiere a un amplio rango de tcnicas para. . .
1. (Describir)
2. Explorar
3. Entender
4. Probar
5. Predecir
. . . basados en muestras de datos colectados de poblaciones, usando algunas estrategias de muestreo.
Poblaciones y muestras
Poblacin: un conjunto de elementos (individuals)
* Finito vs. Infinito
Muestra: un subconjunto de elementos tomada de una poblacin
* Representativa vs. sesgada (biased)
Hacemos inferencias acerca de una poblacin a partir de una muestra tomada de esta.
En algunas situaciones podemos examinar la poblacin entera; entonces no hay inferencia alguna
desde una muestra. Ejemplo: todos los pixels en una imagen.
Paso 2: Entender
Si hay un proceso fundamental del cual la data muestreada es una muestra representativa . . .
. . . entonces los datos nos permiten inferir la naturaleza del proceso
Ejemplo: la distribucin de metales pesados en suelo es el resultado de:
* Material madre
* Contaminantes transportados por viento, agua, o humanos
* Transformaciones en el suelo desde la deposicin
* Movimiento de materiales dentro y a travs del suelo
*...
Resumir el entendimiento con un modelo
Paso 3: Probar
Un siguiente paso es probar, en algn sentido, una afirmacin acerca de la naturaleza.
Ej. Contaminacin de Suelo en este rea es causada por inundacin de ros; contaminantes se originan
aguas arriba en reas industriales.
El modelo puede ser plausible! evidencia de causalidad
Con que confianza podemos afirmar que nuestra comprensin (modelo) es correcto?
Nada puede ser probado absolutamente; estadstica nos permite acumular evidencia
Podemos determinar estrategias de muestreo para lograr un nivel de confianza dado
suposiciones fundamentales no pueden ser proveable, nicamente- plausible
Paso 4: Predecir
El modelo puede ser aplicado para entidades no-muestreadas en la poblacin fundamental.
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola
En orden del contenido de informacin (menor a mayor), estas variables pueden ser:
1. Nominal
2. Ordinal
3. Intervalar
4. Razon
Variable Nominal
Valores son de un conjunto de clases con ordenacin no natural
Ejemplo: Usos de suelo (agricultura, bosque, residencial . . . )
Puede determinar igualdad, pero no rango
Estadsticos muestrales significativos: moda (clase con ms observaciones); distribucin de frecuencia
(cuantas observaciones en cada clase)
Nmeros pueden ser usados para designar las clases pero estos son arbitrarios y no tienen significado
numrico. (la primera clase puede ser mejor la tercera); ordenando esto por conveniencia (ej.
alfabtico)
R: factores desordenados
Variable Ordinal
Valores son de un conjunto de clases naturalmente ordenados/organizados con unidades de
medicin no significantes
Ejemplo: grado estructural de suelo (0 = falto de estructura, 1 = muy endeble, 2 = endeble, 3 = medio,
4 = fuerte, 5= muy fuerte )
N.b . Esta ordenacin es una parte intrnseca de la definicin de clase
Puede determinar rango (mas grande, menor que)
Estadsticos muestrales significativos: moda; distribucin de frecuencia
Nmeros se pueden usar para designar las clases; su orden es significativo, pero no los intervalos
entre clases adyacentes no estn definidos (ej. el intervalo de 1 a 2 vs. el de 2 a 3)
R: factores ordenados
Variable Intervalar
Valores son medidos en una escala continua con unidades de medicin bien-definidas pero no hay
origen natural de la escala, i.e. el cero es arbitrario, as que las diferencias son significativas pero no
ratios
Ejemplo: Temperatura en C.
Es dos veces tan caliente como hoy es sin sentido, aun cuando Hoy es 20C y ayer fue 10C
puede ser verdad.
* (Para distinguir esto, probar la misma declaracin con temperaturas Farenheit)
Estadsticos significativos: cuantiles, media, varianza
No continuos en el estricto sentido matemtico (puesto que la computadora puede slo representar
nmeros racionales)
Inferencia Estadstica
Usando la muestra para inferir hechos acerca de la poblacin fundamental del cual (esperamos) sea
representativa
Ejemplo: valor verdadero de una media poblacional, estimado de la media muestral y su error
estndar
* intervalos de confianza: tienen una probabilidad conocida de contener el valor verdadero
* Para una muestra de una variable normalmente-distribuida, 95% probabilidad (a=0.05):
x 1.96 s x x 1.96 s x
* El error estandar es estimado de la varianza muestral:
sx
sx2
n
x ta 0.05, n 1 s x x ta 0.05,n 1 s x
De tablas t ; t z cuando n
ta 0.05 ,10
Situacin verdadera
Hiptesis verdadera
Hiptesis falsa
Aceptar hiptesis
No error
Error tipo II
Rechazar hiptesis
Error tipo I
No error
Preguntas de la Investigacin
Cuales son las preguntas de la investigacin, son supuestos que son respondidas con la ayuda de estos
datos?
10
Modelamiento Espacial
Si los datos son colectados en puntos conocidos en el espacio geogrfico, ello puede ser posible modelar
esto.
Modela la estructura espacial
* Modelos locales (dependencia espacial)
* Modelos globales (tendencias geogrficas, caracterstica predictores espaciales)
* Modelos mixtos
Prediccin
Valores en puntos o bloques
Valores resumen (e.g. promedios regionales)
Incertidumbre de predicciones
11
Enunciado:
155 muestras tomadas sobre un soporte de 10x10 m de la parte superior 0-20 cm de suelos aluviales en
un sector 5x2 km de la planicie de inundacin de un rea en particular llamada Ilpa. Las variables que se
toman en cuenta son:
id nmero de punto
este, norte coordenadas E y N en coordenadas UTM, en metros
cadmio concentracin en el suelo, en mg kg-1
cobre concentracin en el suelo, en mg kg-1
plomo() concentracin en el suelo, en mg kg-1
zinc concentracin en el suelo, en mg kg-1
elev elevacin sobre nivel de referencia local, en metros
om materia orgnica, perdida de material en ignicion, en porcentaje
ffreq clase de frecuencia de inundacin, 1: anual, 2: 2-5 aos, 3: cada 5 aos
suelo clase de suelo, codificado
lime ha sido la tierra aqui limed? 0 1 = F V
usosuelo uso de terreno, codificado
dist.m distancia del canal principal Ro Ilpa, en metros
12
3. Distribuciones
4. Normalidad, transformaciones
summary(ilpa)
attach(ilpa)
plot(este,norte)
stem(cadmio)
boxplot(cadmio)
boxplot(cadmio, horizontal = T)
points(mean(cadmio),1, pch=20, cex=2, col="blue")
hist(cadmio) #automatic bin selection
hist(cadmio, n=16) #specifica el numero de bins
hist(cadmio, breaks=seq(0,20, by=1)) #especifica breakpoints
stem(cadmio)
sx
s x2
CV
sx
x
> sd(cadmio)
[1] 3.523746
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola
13
> sqrt(var(cadmio))
[1] 3.523746
> round((sqrt(var(cadmio))/mean(cadmio))*100,0)
[1] 109
Precaucin
Los cuantiles, incluyendo la mediana, son siempre significativos
La media y varianza son matemticamente significativos, a menos que la muestra sea
aproximadamente normal
Esto implica una poblacin (unimodal)
> quantile(cadmio, probs=seq(0, 1, .1))
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
0.20 0.20 0.64 1.20 1.56 2.10 2.64 3.10 5.64 8.26 18.10
se
sx
n
sx
Note que el incremento de la muestra incrementa la precisin del estimado (pero como
n , no n)
> sd(cadmio)/sqrt(length(cadmio))
[1] 0.2830341
14
La Distribucin Normal
Surge naturalmente en muchos procesos: una variable que puede ser modelada como una suma de
muchas pequeas contribuciones, cada una con la misma distribucin de errores (teorema de lmite
central)
Fcil manipulacin matemtica
Ajusta muchas distribuciones observadas de errores o efectos aleatorios
Algunos procedimientos estadsticos requieren que una variable sea al menos aproximadamente
distribuido normalmente.
Nota: Aun si una variable misma no est distribuida normalmente, su media puede ser, desde que las
desviaciones de la media pueden ser la suma de muchos errores pequeos.
Funcin de Densidad de Probabilidad (pdf) con media , desviacin estndar
f ( x)
1 x 2
exp
2
2
1
f ( x) 1
15
F ( z)
f ( x)
> rnorm(8, 1.6, .2) #8 variable normal con media 1.6, var .2
[1] 1.771682 1.910130 1.518092 1.712963 1.365242 1.837332 1.777395
1.749878
> qnorm(seq(0.80,0.95, by=.05),1.6,.2) #z-values para esta probs.
[1] 1.768324 1.807287 1.856310 1.928971
Estandarizacin
Toda variable distribuida normalmente puede ser directamente comparada por estandarizacin:
sustraendo , dividiendo por .
normal Estandarizado: todas las variables tienen la misma escala y desviacin:
= 0, = 1
f ( x)
x2
1
exp
2
2
Evaluando la Normalidad
Grafica
* Histogramas
* Graficas Cuantil-Cuantil QQplots (grafica probabilidad normal)
Numerical
* Varios tests incluyendo Kolmogorov-Smirnov, Anderson-Darling, Shapiro-Wilk
* Todos estos funcionan para comparar la distribucin observada con la distribucin normal terica
teniendo parmetros estimados de lo observado, y calculando la probabilidad que lo observado es
una realizacin del terico.
> qqnorm(cadmio); qqline(cadmio)
> shapiro.test(cadmio)
16
summary(log(cadmio))
stem(log(cadmio))
hist(log(cadmio))
hist(log(cadmio), n=20)
boxplot(log(cadmio), horizontal=T)
points(mean(log(cadmio)),1, pch=20, cex=2, col="blue")
qqnorm(log(cadmio), main="Q-Q plot for log(cadmio ppm)")
17
> qqline(log(cadmio))
> shapiro.test(log(cadmio))
plot(plomo,zinc)
abline(v=mean(plomo)); abline(h=mean(zinc))
lim<-c(min(min(plomo,zinc)), max(max(plomo,zinc)))
plot(plomo, zinc, xlim=lim, ylim=lim)
abline(v=mean(plomo)); abline(h=mean(zinc))
plot(log(plomo), log(zinc))
abline(v=mean(log(plomo))); abline(h=mean(log(zinc)))
plot(log(plomo), log(zinc), xlim=log(lim), ylim=log(lim))
abline(v=mean(log(plomo))); abline(h=mean(log(zinc)))
sdze<-function(x) { (x-mean(x))/sd(x) }
plot(sdze(plomo), sdze(zinc)); abline(h=0);abline(v=0)
plot(sdze(log(plomo)), sdze(log(zinc))); abline(h=0); abline(v=0)
18
Cov ( X , Y ) E( X X )(Y Y )
Cov ( X , Y ) XY
El coeficiente correlacin terico: covarianza normalizada por desviaciones estndar poblacional;
rango [1. . .1]:
XY
Cov ( X , Y )
X Y
XY
XY
X Y
s xy
rxy
rxy
1 n
( xi x ) ( yi y )
n 1 i 1
s xy
sx s y
(x x) ( y y)
( x x ) ( y y)
i
sx
Muestral estima
poblacional
xy
poblacional
19
sample estimates:
cor
0.9546913
Regresin
Un termino general para modelar la distribucion de una variable (respuesta o dependiente) desde
(sobre) otra (la predictora o independiente)
Esto logico solo si tenemos unas razones a priori (no-estadisticas) a creer en una relacin causal
Correlacion: no hace suposiciones acerca de la causalidad; ambas variables tienen el mismo status
lgico
Regresion: asume que una variable es la predictora y la otra la respuesta
20
Modelo: y = 0+1x+
0: intercepcion, constante cambio de x a y
1: pendiente, cambio en y para un cambio equivalente en x
: error, o mejor, variacin no explicada
Los parmetros 0 y 1 son seleccionados para minimizar en alguna medida resumen de sobre todos
los puntos de muestreo
Dado el modelo de ajuste, podemos predecir en los puntos de datos originales: y i ; estos son llamados
los valores ajustados.
Entonces podemos calcular las desviaciones del ajuste a partir de los valores medidos:
Pendiente:
s XY
s 2X
Tenga en cuenta la forma similar con covarianza, excepto aqu estandarizamos slo por la predictora,
por lo que la regresin de x sobre y da una pendiente diferente de la de y sobre x.
Intercepto: Para hacer que las medias ajustadas y muestrales coincidan:
0 y 1 x
21
( yi y )2 ( yi y )2 ( yi yi )2
i 1
i 1
i 1
22
Modelo Altamente-significativo, pero contenido de material organica explica solo cerca del 35% de la
variabilidad de log(Cd).
Diagnostico de la Regresion
Objetivo: para ver si la regresin representa verdaderamente la presunta relacin
Objetivo: para ver si los mtodos de clculo son adecuados
Principal herramienta: graficar de valores residuales estandarizados vs. valores ajustados
23
Podemos ver problemas en las concentraciones de metales bajos. Esto es probablemente un artefacto
de la precisin de la medicin en estos niveles (cerca o por debajo del lmite de deteccin).
Estos son casi todos en clase de frecuencia de inundacin 3 (rara vez inundada)
24
Mucho ms alto R2 y mejores diagnsticos. An as, hay un montn de diseminacin en cualquier valor
de la predictora (materia organica).
25
ANOVA Categorico
Modela la respuesta por una variable categorica (nominal); variables ordinales son tratadas como
nominales
Modelo: y 0 j x ; where each observation x is multiplied by the betaj corresponding to the
class to which it belongs (of n classes)
The j represent the deviations of each class mean from the grand mean
EDA Categorico
>
boxplot(cadmio
~
ffreq,xlab="Clase
inundacion",ylab="Cadmio (ppm)")
de
frecuencia
de
Ejemplo ANOVA
> m<-lm(log(cadmio) ~ ffreq)
> summary(m)
Residuals:
Min 1Q Median 3Q Max
-1.8512 -0.7968 -0.1960 0.7331 1.9354
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.32743 0.09351 14.196 < 2e-16 ***
ffreq2 -1.95451 0.15506 -12.605 < 2e-16 ***
ffreq3 -1.08566 0.20168 -5.383 2.72e-07 ***
Residual standard error: 0.857 on 152 degrees of freedom
Multiple R-Squared: 0.5169, Adjusted R-squared: 0.5105
F-statistic: 81.31 on 2 and 152 DF, p-value: < 2.2e-16
26
Cov( X , Y )
1 n
( xi x )( yi y )
n 1 i 1
rXY
Cov( X , Y )
s X sY
27
Correlacin No-paramtrica
La solucion aqui es usar un metodo tal como correlacion de Spearman, el cual correlaciona los rangos,
no los valores; por tanto la distribucion (diferencias entre valores) no tiene influencia.
Desde nmeros a rangos:
> n<-10
> (x<-rnorm(n, 20, 4))
[1] 15.1179 23.7801 21.2801 21.5191 23.0096 18.5065 19.1448 24.9254
29.3211
[10] 14.1453
> (ix<-(sort(x, index=T)$ix))
[1] 10 1 6 7 3 4 5 2 8 9
Si cambiamos el mayor de ellos en cualquier valor grande, el rango no cambia:
> x[ix[n]]<-120; x
[1] 15.1179 23.7801 21.2801 21.5191 23.0096 18.5065 19.1448 24.9254
[9] 120.0000 14.1453
> (ix<-(sort(x, index=T)$ix))
[1] 10 1 6 7 3 4 5 2 8 9
28
El coeficiente de Pearson (parametrico) es completamente cambiado por un par de valor alto, mientras
que el de Spearman no se ve afectada.
29
Un Diseo Experimental. Es una prueba o serie de pruebas en las cuales existen cambios deliberados
en las variables de entrada de un proceso o sistema, de tal manera que sea posible observar e identificar
las causas de los cambios que se producen en la respuesta de salida.
Un proceso suele visualizarse como una Caja Negra en donde existe una transformacin de lo que entra
al proceso, y que se observa en las salidas que produce.
Este proceso puede ser una combinacin de mquinas, mtodos, personas y otros recursos que
transforman las entradas (a menudo un material) en las salidas que tienen una o ms respuestas
observables. Algunas de las variables del proceso digamos X1, X2.,Xn son controlables, mientras que
otras como
1. Determinar cules variables tienen mayor influencia en la respuesta o variable dependiente ( Y).
2. Determinar el mejor valor de las (X) que influyen en (Y), de modo que (Y) tenga casi siempre un
valor cercano al valor nominal deseado.
3. Determinar el mejor valor de las (X) que influyen en (Y), de modo que la variabilidad de (Y) sea
pequea.
4. Determinar el mejor valor de las (Z) que influyen en (Y), de modo que se minimicen los efectos de
las variables incontrolables Z1, Z2,.., Zn.
30
Factor. Es un tipo particular de tratamiento, que vara segn el deseo del investigador. Son factores por
ejemplo, Temperatura, humedad, tipos de suelos, etc.
Niveles del factor. Son diversas categoras de un factor. (Por ejemplo, los niveles de temperatura son
20C, 30C, etc.). Un factor Cuantitativo tiene niveles asociados con puntos ordenados en alguna escala
de medicin, como temperatura; mientras que los niveles de un factor cualitativo representan distintas
categoras o clasificaciones, como tipo de suelo, que no se puede acomodar conforme a alguna
magnitud. Por ejemplo, si en un experimento se estudia la influencia de la velocidad y la temperatura, y
se decide probar cada una en dos niveles, entonces cada combinacin de niveles (velocidad,
temperatura) es un tratamiento. En este caso habra cuatro tratamientos, como se muestra en la tabla 1.1.
Es necesario probar cada tratamiento y obtener el correspondiente valor de y.
31
De acuerdo con estas definiciones, en el caso de experimentar con un solo factor, cada nivel es un
tratamiento.
Rplica. La obtencin de rplicas permite obtener una estimacin del error experimental as como
calcular una respuesta ms precisa el efecto a estudio. Entre mayor sea el nmero de repeticiones para
cada experimento, mejor ser el resultado obtenido.
Unidad experimental. Es la unidad del material experimental que recibe la aplicacin de un simple
tratamiento, en el que se mide y se analiza la variable que se investiga. En el experimento de
laboratorio, la unidad experimental ser una placa petri, un tubo de ensayo, etc.; en el invernadero ser
una bandeja, una maceta, etc.; en el campo ser una parcela, en el campo de la zootecnia ser un animal,
etc. para aclarar mejor se caracteriza por:
Es el material experimental unitario que recibe la aplicacin de un tratamiento.
Es la entidad fsica o el sujeto expuesto al tratamiento independientemente de las otras unidades. La
unidad experimental una vez expuesta al tratamiento constituye una sola rplica del tratamiento.
Es el objeto o espacio al cual se aplica el tratamiento y donde se mide y analiza la variable que se
investiga.
Es el elemento que se est estudiando.
Figura 1.3: Variable dependiente resistencia del concreto, donde los factores relacin agua/cemento
tiene 4 niveles y relacin cemento/arena tiene 5 niveles; el nmero de tratamientos es igual a 4*5 = 20
tratamientos.
32
Unidad muestral: Es una fraccin de la unidad experimental que se utiliza para medir el efecto de un
tratamiento.
Error experimental: Es una medida de variacin que existe entre dos o ms unidades experimentales,
que han recibido la aplicacin de un mismo tratamiento de manera idntica e independiente.
Factores controlables: Son aquellos parmetros o caractersticas del producto o proceso, para los
cuales se prueban distintas variables o valores con el fin de estudiar cmo influyen sobre los resultados.
Factores incontrolables: Son aquellos parmetros o caractersticas del producto o proceso, que es
imposible de controlar al momento de desarrollar el experimento.
Variabilidad natural: es la variacin entre las unidades experimentales, que el experimentador no
puede controlar ni eliminar.
Variable dependiente: es la variable que se desea examinar o estudiar en un experimento. (Variable
Respuesta).
Hiptesis:
Es una suposicin o conjetura que se plantea el investigador de una realidad desconocida.
Es el supuesto que se hace sobre el valor de un parmetro (constante que caracteriza a una poblacin)
el cual puede ser validado mediante una prueba estadstica
Tratamiento: Es un conjunto particular de condiciones experimentales definidas por el investigador; y
son el conjunto de circunstancias creadas por el experimento, en respuesta a la hiptesis de
investigacin y son el centro de la misma.
Tipos de tratamientos. A continuacin se presentan ejemplos de tratamientos en algunas reas, tales
como:
1) Experimentaciones Agrcolas, un tratamiento puede referirse a:
Marca de Fertilizante.
Cantidad de Fertilizante.
Variedad de Semilla.
de tratamientos.
etc.
Tipo de Alimento
33
etc.
etc.
Edad
Sexo
Grado de Educacin
Estatura
etc.
6) En una investigacin de los efectos de varios Factores en la eficiencia del lavado de ropa en casa,
los tratamientos pueden ser varias combinaciones:
Tipo de Detergente
Tipo de Lavadora
etc.
La cantidad de Electrolito
etc.
Es muy importante que cuando se elijan los tratamientos, stos deben dar respuesta a una hiptesis de
investigacin. La hiptesis de investigacin establece un conjunto de circunstancias y sus
consecuencias. Los tratamientos deben ser una creacin de las circunstancias para el experimento. As,
es necesario identificar los tratamientos con el papel que cada uno tiene en la evaluacin de la hiptesis
34
de investigacin. Por lo tanto, el investigador debe asegurarse que los tratamientos elegidos concuerden
con la hiptesis de investigacin.
35
las tcnicas estadsticas en la experimentacin requiere que el investigador considere los siguientes
puntos:
a) Uso del conocimiento no estadstico del problema.
Se debe tomar en cuenta que los investigadores conocen a fondo su campo de especialidad; ya sea
porque tienen una considerable experiencia prctica o una formacin acadmica. Muchas veces se puede
utilizar una gran cantidad de teora para explicar las relaciones que hay entre los factores y la variable
respuesta. Este tipo de conocimiento no estadstico se debe tomar en cuenta para elegir los factores y las
respuestas, tambin al decidir el nmero de rplicas que se quieren realizar, al analizar los datos, etc. Es
por tanto que la estadstica no puede sustituir el hecho de reflexionar sobre el problema.
b) Mantener el Diseo y el Anlisis tan simple como sea posible.
Casi siempre, lo ms adecuado son los mtodos de diseo y anlisis estadstico ms simples. Por lo
tanto, es recomendable el uso de tcnicas estadsticas poco complejas y muy refinadas. Si se realiza el
diseo cuidadosamente y correctamente, el anlisis se espera que sea relativamente sencillo. Sin
embargo, es poco probable que aun la estadstica ms compleja y elegante corrija la situacin si se ha
actuado indebidamente en la elaboracin del diseo.
c) Reconocer la diferencia entre la significacin prctica y estadstica.
No hay seguridad de que una diferencia sea suficientemente grande, desde el punto de vista prctico, por
el slo hecho de que dos condiciones experimentales producen respuestas medias, estadsticamente
diferentes. Por ejemplo, un ingeniero puede determinar que una modificacin en el sistema de inyeccin
de gasolina de un automvil mejora el rendimiento medio en un 0.1mi/gal. ste es un resultado
estadsticamente significativo. Sin embargo, esta diferencia es demasiado pequea desde el punto de
vista prctico si el costo de la modificacin es de 1,000 dlares.
d) Usualmente los experimentos son iterativos.
En las primeras etapas de un estudio no es conveniente disear experimentos demasiado extensos; ya
que slo se requiere que se conozcan los factores importantes, los intervalos en que estos factores van a
ser investigados, el nmero apropiado de niveles para cada factor y las unidades de medicin adecuadas
a cada factor y la respuesta. Por lo general, al principio de un experimento no se est en capacidad de
definir estos aspectos, pero es posible conocerlos a medida que se avanza la experimentacin. Esto
favorece al empleo del enfoque iterativo o secuencial; pero por regla general, la mayora de los
experimentos son iterativos.
36
Cuadro 01. En el siguiente cuadro se presentan las diferentes situaciones que se pueden dar con la
hiptesis nula(Ho).
Decisin
Ho es cierta
Ho es falsa
Aceptar Ho
Decisin Correcta
Error tipo II ()
Rechazar Ho
Error tipo I ()
Decisin Correcta
La utilizacin del anlisis de varianza justifica la disminucin de la probabilidad de cometer el error tipo
I en el experimento.
Por ejemplo: Supongamos que se desea probar la igualdad de cinco medias usando la prueba de
hiptesis mltiple.
Las hiptesis a probar son: 12 345
Ho: 1= 2= 3=4=5
Ha: 12 2 3 34 45
12 345
14 25
15 34
Como se puede observar el nmero de comparaciones es Ha, es:
=10
! !
37
Por lo tanto, el procedimiento apropiado para probar la igualdad de varias medias es el Anlisis de
Varianza. Probablemente esta es la tcnica ms til en el campo de la inferencia estadstica.
38
39
40
El evento A definido como A = 4 {S: 3c/4 S < c} es un simple evento, ya que esto corresponde a un
simple punto muestral (para esta discretizacion). Por otro lado, el evento B se define como B = 1 + 2
{S: 0 S < c/2} es un evento compuesto, porque esto comprende la coleccin de dos eventos simpes,
es decir A1 = 1 {S: 0 S < c/4} y A2 = 2 {S: c/4 S < 2c/4}. Otros eventos posibles son
mostrados por los diagramas de torta.
Ejemplo 2.3. Almacenamiento de Reservorio. Dado {S: 0 S < c} el espacio muestral continuo
asociado al volumen de agua almacenado en un reservorio multipropsito en un cierto tiempo.
Because mitigation of the downstream flood hazard is usually one of the objectives for construction of a
reservoir, a portion of its capacity must be left empty at the beginning of the flood season. Dado w < c
denote the residual reservoir capacity available for flood control storage. At the beginning of the flood
season, the reservoir manager must investigate the event A {S: 0 S c w}, which corresponds to
the availability of sufficient flood storage in the reservoir (ver Fig. 2.1.1). El complemento de A es el
evento Ac {S: c w < S < c} el cual significa que el reservorio tiene capacidad residual insuficiente
para cumplir con la reserva de control de inundaciones. Tanto A y Ac son eventos compuestos en
relacion a Fig. 2.1.2.
Fig. 2.1.2 (a) Almacenamiento de Reservorio es representado por cuatro estados, 1, 2, 3, y 4. (b)
Los anchos de los rectngulos en el extremo derecho son proporcionales a las frecuencias relativas de
estos estados. (c) Los eventos indicados en el texto estan representados por rectangulos at the center on
the right with areas proportional to the relative frequencies of these events. (d) los diagramas de torta
41
muestran todos los posibles eventos (sombreados) y tambin el estado vaco (no sombreado). Por
ejemplo, A = A4 significa que 3c/4 S < c en Ejemplo 2.2.
Ejemplo 2.4.- Se est tratando de determinar el riesgo de inundacin en las reas bajas de un rio
importante y encuentra que, de las observaciones de avenidas que se tienen para los ltimos 150 aos (n
= 150), han registrado una inundacin en la ubicacin de inters durante 20 de esos aos (nA = 20). El
evento de inters es A = una inundacin ocurre en las reas bajas del ro XXX. La probabilidad de
este evento es determinado como
n = 150 (150 aos de registro)
nA = 20 (20 aos de inundacin registrado)
P( A)
nA 20
0.1333...
n 150
i.e., esta es una inundacin en la ubicacin de inters aproximadamente 13 de entre 100 aos.
42
Se dice que dos eventos son mutuamente excluyentes cuando no pueden ocurrir simultneamente. Por
ejemplo, el evento
A: V > 500 000 m3
y el evento
B: V < 10 000 m3
Son mutuamente excluyentes. Si la frecuencia del evento A es v1 y la del evento B es v2, entonces la
frecuencia de la unin de los dos es v = v1 + v2; por lo tanto, la probabilidad de C = AUB es:
P(C) = P(AUB) = P(A) + P(B)
Que es el tercer axioma de la teora de la probabilidad.
La ley de probabilidades que describe el comportamiento estadstico de una variable aleatoria - que en el
caso mencionado anteriormente es el volumen de escurrimiento mensual - se puede representar de varias
maneras, entre las que cabe mencionar la funcin masa de probabilidad discreta, la funcin de
distribucin de probabilidad acumulada, la funcin de densidad de probabilidad y la funcin de
distribucin de probabilidad. A continuacin se har un breve recordatorio de estas funciones y sus
propiedades.
P ( A B ) P ( A) P ( A' ) 1
P ( A B ) P ( A) P ( B ) P ( A B )
43
P ( A B ) P ( A ). P ( B / A )
Y para eventos independientes, P (B/A) = P (b), se tiene:
P ( A B ) P ( A ). P ( B )
P ( A)
P ( A / Bi ).P ( Bi )
i 1
P ( B / A) P ( A B ) / P ( A)
Podemos escribir para eventos independientes:
1. P ( A ). P ( Bj / A ) P ( Bj ). P ( A / Bj )
2. P ( A )
P ( A / Bi ) . P ( Bi )
(Prob. Condicional)
(Prob. Total)
i 1
Dividiendo (1) entre (2) se obtiene finalmente la formula conocida como la regla de Bayes:
44
P ( Bj / A )
P ( A / Bi ) . P ( Bi )
i 1
n Pr n(n 1)............(3).(2).(1) n!
Donde: n! es denominado factorial de n.
Como ejemplo tomemos las permutaciones tomadas dos a dos de las letras a, b, c, d: 4P2=n!/(nr)!=4!/2!=12. Estos son: ab, ba, ac, ca, ad, da, bc, cb, bd, db, cd, dc.
2.2.6. Combinaciones
Si se esta interesado solamente en los objetos seleccionados, cuando entre n se eligen r, sin tener en
cuenta su ordenacin, entonces a la seleccin no ordenada se le llama combinacin.
n
n!
(n Pr)/ r!
(n r)!r!
r
El factorial de n, (n!), puede aproximarse mediante la formula de Stirling:
n! 2 .en .nn1/ 2
El error de aproximacin es menor del 1% para n=10 y el porcentaje de error decrece al aumentar el
valor de n.
Como ejemplo podemos citar el nmero de combinaciones de dos letras seleccionadas de entre las
cuatro siguientes: a, b, c, d:
4
4!
6
2 ( 2 )!. 2!
45
e1, e2 , e3 ,..............,en
Experimentos realizados
X1, X 2 , X3 ,..............,Xn
f (0) 1 / 4
f (1) 1 / 2
f (2) 1 / 4
Para juzgar, como se distribuye una variable aleatoria, es decir como cambia su probabilidad cuando
cambia la variable, es til representar la funcin de densidad por medio de un grafico.
2.3.4. Variable aleatoria continua (V. A. C.)
Una variable aleatoria es continua si puede tomar cualquier valor dentro del campo de los nmeros
reales.
2.3.5. Funcin de densidad y funcin de distribucin de la V. A. C.
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola
46
Una funcin de densidad de una variable aleatoria continua X, es una funcin F(x) que cumple las
siguientes propiedades:
f(x)
1.
f ( x) 0
2.
f (x).d(x) 1
3.
f ( x )dx P (a X b )
a
dF ( x )
f ( x)
dx
F ( x)
f ( x ).dx
M n E( X n ) X n . f ( X ).dX
E( X ) X . f ( X ).dX
media
. aritemtica
47
En la prctica se escoge, siempre que es posible, la media como origen de la variable X para el clculo
de los otros momentos. Estos momentos se llaman momentos centrados y se escriben de la siguiente
forma:
= [ ( )] = (
) = ( )
M
4
3M
M
2
2M
4 M 3M 1 6M
.M
3
1
3M
4
1
E (x )2 M
M 12
var iancia
M 32
M
33/ 2
3
M2
M2
M
M
4
2
2
4
4
f ( X , 1 , 2 ,....., m )
F ( X ,1,2 ,.....,m )
Normalmente no se conocen todos los valores de la variable aleatoria para calcular un parmetro
de
la poblacin, sin
48
Pero adems:
M 12 E ( x ) 2 E ( x ) 2
E ( x)2 M
e . x
(x )2
x!
E(x) :
2
e . x . x 2
x!
E ( x) 2 e
E ( x)2 e
e . x . x
( x 1 )!
x .1
( x 1)!
x
( x 1 )!
e . x .( x 1 1 )
( x 1 )!
x .( x 1)
( x 1)!
x.
( x 2 )!
Como x es una V. A. D. podemos expandir el segundo miembro como una serie de Taylor:
E( x) e (
1 2
0!
1!
3
2!
...........) e (
2
0!
3 4
1!
2!
...........)
E ( x ) 2 ( e . e . 2 ) (1
1!
2
2!
3
3!
E ( x ) 2 e . e e . 2 e 2
Por lo tanto
( 2 ) (2 )
49
x1, x2 ,.....,xn
y su funcin de probabilidad
Los parmetros son desconocidos por lo tanto la estimacin de estos se realizan teniendo presente que
deben maximizar la funcin de verosimilitud. Esto es posible tomando la derivada parcial de L ( i ),
Respecto a cada e igualando a cero.
f ( x)
Los parmetros
e ( x 1 )
/( 2 22
2. . 22
Para
22 2 (Variancia)
Por esta razn la distribucin normal se expresa generalmente como:
50
2
2
e ( x ) /( 2
f (x)
2 . .
Para
cero.
Si una variable aleatoria X tiene distribucin normal con media
y la variancia
a b
y variancia
y adems y=a+bx,
2 b 2 . 2 .
Z (x ) /
y tiene
f (z)
2
1
ez /2
2 . .
Para:
f ( z ) P ( z z0 )
2
1
e t / 2 dt
2
2 1
f ( x ) 1 /( a )
Para
a x
f ( x ) 1 /( x a ) /( a )
Para
a x
51
2 ( a ) 2 / 12
E ( x) ( a ) / 2
a xS 3
xS 3
f ( x ) .e .t dt 1 e x
f ( x ) .e . x
Para X>0
>0
E ( x)
Var ( x) 2
x 1e x /
F ( x)
.r ( )
; Para X>0
F(x)=0; para x 0.
La funcin gamma de
52
r ( ) ( 1)! ; Si
=1, 2, 3,.
r ( 1) ( ) ; Si
>0.
(1) ( 2) 1
(1 / 2)
( )
( 1)
; Si
<0.
E ( x ) .
Var ( x ) 2 . 2 ;
g 2/
1 y
. 1 / 1 .
Los estimadores para los parmetros de la distribucin gamma por el mtodo de momentos son:
2
S2
x
2
S
x =media aritmtica
S 2 =Varianza muestral
son:
Ln( ) ( ) Ln ( x / x g )
. x
Donde:
53
x g ( xi )1 / n ( x1 .x 2 .x3 ...........x n .) 1 / n
i 1
( x)
d
.Ln ( ( x))
dx
Thom (1958) propuso una relacin aproximada para el estimador del parmetro
, basado en la
1 1
Donde:
4y
4y
3
y Ln x Ln x
= termino de correccin
0.2
0.034
1.0
0.009
1.8
0.004
0.3
0.029
1.1
0.008
1.9
0.003
0.4
0.025
1.2
0.007
2.2
0.003
0.5
0.021
1.3
0.006
2.9
0.002
0.6
0.017
1.4
0.006
3.1
0.002
0.7
0.014
1.5
0.005
3.2
0.001
0.8
0.012
1.6
0.005
5.5
0.001
0.9
0.011
1.7
0.004
5.6
0.000
a 5.6
en funcin de
comprendido
54
4y
3
1 1
en un primer momento que
correspondiente al valor
sea igual a
para estimar
y para
4y
se tiene que
, de la tabla,
x
.
Greenwood y Durand (1960) presentaron la siguiente relacin para los estimadores de mxima
probabilidad.
( 0 . 5000876
Para
Para 0 . 5772
0 . 1648852
y 0 . 5772
y 0 . 0544274
) / y
8 . 898919
9 . 05995 y 0 . 9775373
y
y ( 17 . 79726
11 . 968477
y y2)
Donde: y Ln x Lnx
Las expresiones anteriores tienen un ligero sesgo asinttico, para pequeas muestras, este puede ser
apreciable.
Bowman y Shenton (1968) presentaron la siguiente relacin aproximada para estimar el sesgo en el
parmetro
E ( ) ( 3 0 . 677
0 . 111
0 . 032
) /( n 3 )
Para n 4 y 4
Donde:
E ( )
= sesgo de
N = tamao de muestra.
Bowman y Shenton (1968) sugieren que el sesgo en
55
E ( )
3
( n 3 )
; Con: E ( )
; n4
n
n
y variancia
y2 .
f ( y)
1
e
2 X y
1 Y y
2 y
Para
Como Y= Ln X
dy
dx
entonces.
dy
dx
f ( y)
1
2 X
1
x
X>0
1 LnX
2
y
Para X>0
y la variancia de
y2 .
y
y2 .
Y=Ln X tiene distribucin normal, mientras que X tiene distribucin log-normal. Los parmetros
y
y2
y y S y2
/n
mediante la transformacin
Yi LnX i
S y2 ( Y i 2 n Y ) /( n 1)
S y2
1
X
Ln
2
C v2 1
S y2 Ln(Cv2 1)
56
Cv
Cv S x / X
Brakensiek (1958), propuso las siguientes relaciones para obtener la media y variancia de la distribucin
log normal.
x E( X ) e
1
( y 2y )
2
Var ( X ) x2 .(e
C e 1
- coeficiente de variacin
g 3Cv Cv3
-coeficiente de asimetra
2y
2y
1)
1/ 2
Las tablas de distribucin normal estndar pueden ser usados para evaluar la distribucin log normal.
Como f(x)=f(y)/x : pero f(y) es una distribucin normal tenemos:
f ( x)
f ( z)
X . y
Donde:
Z (y y )/ y
x0 , tal que: Y Ln ( x x0 )
1
2
f (x)
.e
( x y 0 ). 2 y
Para
x x0
x0 = parmetro de posicin.
x0 :
57
x x0 H
X=variable aleatoria con distribucin log-normal de 3 parmetros.
H= variable aleatoria con distribucin log-normal de 2 parmetros.
x 0 =parmetro de Posicin.
E ( x) x x0 E ( H ) x0 H
E ( x x ) 2 x2 H2
x E ( x) x0 e
y2
x2 Var ( x ) ( e
1
( y 2y )
2
1).e
( 2 y 2y )
g (e
Y de forma aproximada puede ser:
2y
1).(e
2)
g 0.52 4.85 y2
x1, x2 , x3 ,........xn
F(y) PY
( Y0) P(X1 Y0).P(X2 Y0).............P(Xn Y0) P(X Y0)
F ( y)
dF ( y )
n 1
nP ( X Y0 P ( X Y0 )
dy
58
Gumbel (1958), estudio la aplicacin para datos de descargas diarias. La funcin de densidad de
probabilidad para la distribucin de valores extremos tipo I es:
f (x)
Para
e ( X ) / a e
(X ) /a
X ; ;a 0
El signo (+) se aplica para valores mnimos y el signo (-) se aplica para valores mximos.
El parmetro
El parmetro
E ( x ) 0.577a
(Mximo)
E ( x ) 0.577a
(Mnimo)
Var ( x ) 1.645a 2
(Para ambos)
Y (x ) /a
f ( y ) e ( Y e
f ( y ) e e
f ( y) 1 e e
- (mximo)
y
- (mnimo)
f ( y ) min 1 F ( Y ) max
59
son:
S
,
1.283
x 0.45( S )
x 0.45( S )
- mximo
-mnimo
a x ( X i e x / a ) / e x / a
i
e
aLn (
xi / a
no tienen solucin explicita, por lo que es necesario una solucin por mtodos numricos. Segn
Donde: X 0;
a, 0
F ( x) 1 e ( X / )
La media y la variancia de la distribucin son:
E ( x ) (1 1 / a )
Var ( x ) 2 2 (1 2 / a ) 2 (1 1 / a )
60
(1 3 / a ) 3 (1 2 / a ) (1 1 / a ) 2 3 (1 1 / a )
(1 2 / a ) (1 1 / a )
3/ 2
a ,
i 1
i 1
a
( xi Lnxi Lnxi )
i 1
Simultneamente para
n / xi
, tenemos: ( ) 1/ a
Tenemos que:
F ( y) 1 e y
E ( x ) ( ) (1 1 / a )
var( x ) ( ) 2 (1 2 / a ) 2 (1 1 / a )
. A(a )
.B (a )
61
Donde:
A(a ) = 1 (1 1 / a ) (a )
B (a ) = (1 2 / a ) 2 (1 1 / a )
Los valores de 1/ a ,
1 / 2
Cuadro. Valores de 1/ a ,
A(a )
B (a )
A(a )
B (a )
-1.000
0.02
0.446
40.005
2.000
1.00
0.000
1.000
-0.971
0.03
0.444
26.987
2.309
1.10
-0.040
0.867
-0.917
0.04
0.442
20.481
2.640
1.20
-0.077
0.752
-0.867
0.05
0.439
16.576
2.996
1.30
-0.109
0.652
-0.638
0.10
0.425
8.737
3.382
1.40
-0.136
0.563
-0.254
0.20
0.389
4.755
3.802
1.50
-0.160
0.486
0.069
0.30
0.346
3.370
4.262
1.60
-0.180
0.418
0.359
0.40
0.297
2.634
4.767
1.70
-0.196
0.359
0.631
0.50
0.246
2.159
5.323
1.80
-0.208
0.308
0.896
0.60
0.193
1.815
5.938
1.90
-0.217
0.308
1.160
0.70
0.142
1.549
6.619
2.00
-0.224
0.224
1.430
0.80
0.092
1.334
7.374
2.10
-0.227
0.190
1.708
0.90
0.044
1.154
8.214
2.20
-0.229
0.161
4.2.3
1/
1/
Distribucin beta
Funcin de densidad:
xa 1 (1 x) 1
f ( x)
Para: 0 x 1 , a , 0
B (a )
Funcin beta= B(a , )
a 1
x
0
(1 x) 1dx
B (a , )
a ,
(a )
62
E ( x)
Var ( x ) 2
a .
(a )
a .
(a 1)(a ) 2
Karl Pearson (1953), propuso que la distribucin de frecuencias puede ser representados por la siguiente
funcin de densidad:
x
( t a ) /( 0 1t 2t
f ( x) e
..................)dt
La distribucin Pearson tipo III, tiene gran aplicacin en hidrologa especialmente en el anlisis de
caudales mximos (picos), su funcin de densidad se puede escribir como:
( x x 0 ) 1 e ( x x 0 ) /
f (x)
( )
Para: x
x
0
y (x x0 ) /
Variable reducida:
f ( y)
por lo que:
e Y
( )
P ( Y Y 0 ) F (Y )
e Y
dY
( )
E ( x ) x 0 .
Media
E (x )2
Variancia
g 2/
2 .
Sesgo
63
o Z=Ln(x-xo)
f (x)
Y 0 ) 1 e ( LnX
( )
( LnX
( Z Z 0 ) 1 e ( Z Z 0 ) /
f (z)
( )
Z0
Y0 ) /
Donde Z=Ln(X)
=Parmetro de posicin.
=Parmetro de escala
=Parmetro de forma.
x .z x 0
x ez
x x0 e z
E ( z ) z 0 .
E (z 2 )2
g 2/
2
2
2 .
Media
Variancia
Sesgo
64
( )=
De la ecuacin
= 1 , se tiene:
(0)
Por lo tanto: a =
( 0)
5 125
=
=1
0
3
3
125
( )=
3
125
( )=
125
Entonces:
a) F(2) = P(X 2) =
8
125
65
9
1
8
64
61
125 125
d) P(X 6) = 1 P(X 6) = 1 1 = 0
e) P(X = 2.5) = 0
Ejemplo 2. Los gastos mximos anuales registrados en la estacin hidromtrica Las Perlas en el ro
Coatzacoalcos se muestran en el cuadro siguiente.
a)
Cul es la probabilidad de que, en un ao cualquiera, el gasto sea mayor o igual a 7 500 m3/s?
b)
Se planea construir cerca de este sitio un bordo para proteccin contra inundaciones. Cul debe ser
1954
1955
1956
1957
1958
1959
1960
x (m3/s)
2230
3220
2246
1804
2737
2070
3682
Ao
1961
1962
1963
1964
1965
1966
1967
x (m3/s)
4240
2367
7061
2489
2350
3706
2675
Ao
1968
1969
1970
1971
1972
1973
1974
x (m3/s)
6267
5971
4744
6000
4060
6900
5565
Ao
1975
1976
1977
1978
x (m3/s)
3130
2414
1796
7430
Solucin
La media y desviacin estndar de los datos son respectivamente:
25
xi
X=
i 1
= 3 886 m3/s
25
( xi x)
S=
I 1
n 1
= 1 825.9 m3/s
66
= x = 3886 m3/s
= S = 1825.9 m3/s
a) Para x = 7500 m3/s, la variable estandarizada z es
z=
7500 3886
1.98
1825.9
T=
1
1
P ( X x) 1 P( X x)
Por lo tanto:
P (X x) =
T 1
T
F (x) = P (X x) =
59
= 0.9833
60
67
Solucin
La media y desviacin estndar de los datos, son estimadores de las media y desviacin estndar de la
poblacin, son.
25
a
i 1
ln xi
8.162
25
1/2
25 (ln xi 8.162)2
25
i1
0.451
z=
T 1
se tiene:
T
F (z) = F(x) = 0.9833
De la tabla de la distribucin normal estndar acumulada o resolviendo la ecuacin por tanteo, para este
valor de F(z) se obtiene
z = 2.13
Despejando x de la ecuacin
=
ln
= exp(
+ )
68
25
) /
xi38863 / 25
(1825.9)
i 1
1.258
Entonces
1 = 2 2 =
a1 =
2 2
1.258
= 2.526
1825.91 1148.8
2.526
1148.8
69
De la ecuacin
( )= (
/ )=
(2 /2 )
y = 14.1 = 7.05
Y de
sy
sy
10
0.4952
0.9496
60
0.5521
1.1747
15
0.5128
1.0206
65
0.5535
1.1803
20
0.5236
1.0628
70
0.5548
1.1854
25
0.5309
1.0914
75
0.5559
1.1898
30
0.5362
1.1124
80
0.5569
1.1938
35
0.5403
1.1285
85
0.5578
1.1974
40
0.5436
1.1413
90
0.5586
1.2007
45
0.5463
1.1518
95
0.5593
1.2037
50
0.5485
1.1607
100
0.5600
1.2065
55
0.5504
1.1682
Solucin
Para 25 aos de registro, del cuadro anterior se tiene:
y = 0.5309; y = 1.0914
Por lo tanto, de las ecuaciones
=
a = 1.0914 = 0.000598 (m3/s)-1
1825.91
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola
70
9.38 y 9.54:
F(x) = T 1 = 0.9833 = e-e
T
Despejando x:
x = = 1 ln.ln
0.9833
T 1
= 2997.8 -
1
ln ln
0.000548
9827.1 m3/s.
Ejemplo 9.6. Resolver el ejemplo 9.2 usando una funcin de distribucin de probabilidad para dos
poblaciones. Suponiendo que ambas tienen una funcin de distribucin Gumbel.
Solucin.
En la tabla 9.7 se muestran los gastos mximos anuales ordenados de mayor a menor.
Supngase que los siete primeros gastos fueron producidos por una tormenta ciclnica. De este modo,
Nn = 18, NT = 25 y:
p = 18 = 0.72
25
71
T (aos)
X (m3/S)
T (aos)
X (m3/S)
26
7430
14
1.86
3130
13
7061
15
1.73
2737
8.67
6900
16
1.63
2675
6.50
6267
17
1.53
2489
5.20
6000
18
1.44
2414
4.33
5971
19
1.37
2367
3.71
5565
20
1.30
2350
3.25
4744
21
1.24
2246
2.89
4240
22
1.18
2230
10
2.60
4060
23
1.13
2070
11
2.36
3706
24
1.08
1804
12
2.17
3682
25
1.04
1796
13
2.00
3220
Los parmetros a1, a2, 1 y 2 son, entonces, de acuerdo con las ecuaciones 9.58 y 9.59:
a1 = 1.05 = 0.000503 (m3/s)-1
2089.2
a2 = 0.94 = 0.00149 (m3/s)-l
630.6
1 = 2712.6 -
0.52
= 1678.8 m3 /s
0.000503
(9.64)
72
F(X)
9000
0.9710
10000
0.9840
9800
0.9822
9900
0.9831
X = 9900 m3/s
73
X i X j q (a , r , GL )
MSE
n
(1)
X i X j q (a , r , GL)
MSE 1 1
2 ni n j
(2)
Donde: ec. (2) cuando n de cada grupo son iguales y ec (2) cuando n de cada grupo es distinto
74
Ejemplos de aplicacin
Se tiene las influencias de las drogas A, B y C en la produccin de clulas. Realizar la prueba de Tukey.
A
24.15
24.6
25.1
22.55
22.65
26.85
40.2
63.2
79.6
59.1
64.6
102.45
B
36.3
44.1
39.15
49.9
50.35
50.6
31.7
69.25
138.6
72.95
80.05
90.3
C
19.35
21.9
31.1
15.4
18.3
27.1
22.15
22.15
22.75
66.7
19.35
37.85
grupo 3
12
324.1
27.00833333
193.5494697
ANLISIS DE VARIANZA
Origen de las
Suma de Grados de Promedio de
variaciones
cuadrados
libertad
los cuadrados
Entre grupos
7688.63514
2
3844.317569
Dentro de los grupos
20117.7138
33
609.6276894
Total
27806.3489
Valor crtico
para F
0.0048 3.28491765
Probabilidad
F
6.31
35
Con este anlisis podemos concluir que si existe diferencia significativa, entre alguno o algunos de los
grupos, ante lo cual relizaremos el anlisis mediante Tukey, para saber entre cuales.
qa
MSE
n
3.3600
609.6277
12
HSD
23.9486
75
En la siguiente tabla calcularemos la diferencia de las medias entre cada uno de los grupos, y hallaremos
cul de las diferencias es mayor que la HSD.
A
B
C
B
C
-16.5166667 19.2458333
16.5166667
35.7625
-19.2458333 -35.7625
76
77
1 1
X i X j t (a / 2, GL ) MSE
ni n j
(1)
Donde:
2 MSE
t0.01,
n
v,
significativa. Esta prueba es apropiada si la comparacin de medias grandes con pequeas en un grupo
de v tratamientos medios; es decir, que sin tener efectos diferentes en los tratamientos habr variabilidad
entre los promedios debido exclusivamente a la variabilidad comn: Pues cuanto mayor sea el nmero
de tratamientos, habr rechazos indebidos en las comparaciones extremas, ya que en ellas el tc seria
mayor que el t0.05.
Problemas de aplicacin
Probando con el modelo Bonferroni
78
79
realizar comparaciones mltiples de medias; para realizar esta prueba no es necesario realizar
previamente la prueba F y que sta resulte significativa; sin embargo, es recomendable efectuar esta
prueba despus que la prueba F haya resultado significativa, a fin de evitar contradicciones entre ambas
pruebas. Las caractersticas son las siguientes: El nmero de tratamientos de comparaciones con t
t (t 1)
El Fc en el anlisis de variancia puede ser significativo o no. Tiene el
2
tratamientos es
inconveniente cuando se cuenta con un alto nmero de tratamientos dado que el nivel de significacin
se
modifica
formula:
xi x j
en
funcin
de
xi x j qa (r , GLerror )
ellos.
Para
su
aplicacin
se
utiliza
la
siguiente
MSE
n
qa (r , GLerror )
Ejemplos de aplicacin
xi x j qa (r , GLerror )
xi x j
MSE
n
qa (r , GLerror )
Keuls)
MSE = cuadrado medio del error
x[1] min
r=2
x[3]
x[ 2]
r=3
x[5]
x[ 4]
r=4
r=5
x[6] max
r=6
80
pueden
convertirse
en
homocedsticas
(variancias
homogneas)
mediante
una
81
los nmeros observados son pequeos (de 2 a 10), se prefiere la transformacin (y+0.5)1/2, en especial
cuando algunos de los nmeros observados son cero.
Coeficiente de variabilidad Es una medida de variabilidad relativa (sin unidades de medida) cuyo uso
es para cuantificar en trminos porcentuales la variabilidad de las unidades experimentales frente a la
aplicacin de un determinado tratamiento. En experimentacin no controlada (condiciones de campo) se
considera que un coeficiente de variabilidad mayor a 35% es elevado por lo que se debe tener especial
cuidado en las interpretaciones y conclusiones; en condiciones controladas (laboratorio) se considera
un coeficiente de variabilidad mayor como elevado. La expresin estimada del coeficiente de
variabilidad es:
82
Yij i ij
i = 1,, t;
t = nmero de tratamientos
j = 1,,n;
n = nmero de repeticiones por tratamiento
Donde:
= es el efecto medio
Y11
Y21
Y31
Yt1
Y12
Y22
Y32
Yt2
Y13
Y23
Y33
Yt3
total
83
Y2n
Y3n
Ytn
Total
Y1.
Y2.
Y3.
Yt
media
Y
Y
4.4. Estimaciones
La tcnica para hacer el anlisis de varianza, mediante los mnimos cuadrados, no permite hallar
aquellos estimadores que nos aseguraran una suma de cuadrados del error mnimo.
..
.
..
84
Es una tcnica matemtica que nos permite descomponer una fuente de variacin total en sus
componentes atribuibles a fuentes de variacin conocida. La tabla nos muestra el anlisis generalizado
para el diseo completo al Azar.
Tabla 4.2.
Anlisis de varianza del Diseo Completamente al Azar (DCA)
F. de. V.
(G.L.)
( S.C.)
( C. M.)
MODELO
MODELO II
I
TRATAMIENTOS
ERROR
( t-1)
t(n-1)
..
.
.
TOTAL
(tn-1)
..
=0
Ha:
Para ellos se usa la prueba estadstica de F, porque la suma de cuadrados de las fuentes de variacin se
atribuyen como variables c2 (Chi-cuadrado no central), las cuales son independientes entre s, resultado
basado en el Teorema de Cochran el cual dice: Que cada fuente de variacin del diseo experimental
corresponde a una estructura algebraica que recibe el nombre de forma cuadrtica, la cual se distribuye
como una c2 y entre las fuentes de variacin.
Una prueba de F es la relacin de dos c2 (Chi cuadrados) independientes divididos cada uno en sus
respectivos grados de libertad.
c
=
( 1)
Llamada F de Snedecor (lo que se halla en las tablas) tabulares. La prueba de F exige que sean dos c2
centrales o dos c2 no centrales.
85
GL
SC
Tratamientos
Error
14
703.546875
Total
16
938.000000
CM
Fc
Ft
P>F
Sig.
0.132
50.253349
86
105
89
93
104
89
95
p3
p3
p3
p3
83
89
80
94
Source
Model
Error
Corrected Total
Source
p
Pr > F
0.1335
Pr>F
0.1335
87
3.70139
Ejemplo 02. Se realizan tres pruebas de la resistencia a la compresin en seis muestras de concreto. La
fuerza que fractura cada muestra de forma cilndrica, medida en kilogramos, est dada en la siguiente
tabla:
Muestra
Prueba 1
Prueba 2
Prueba 3
A
110
105
145
B
125
130
136
C
98
107
142
D
95
92
148
E
104
96
129
F
115
121
130
SC
3641.444444
2001.666667
5643.111111
data flores;
input D$ R@@;
datalines;
d1
110
d2
105
d3
d1
125
d2
130
d3
d1
98
d2
107
d3
d1
95
d2
92
d3
d1
104
d2
96
d3
d1
115
d2
121
d3
proc print;
proc anova;
class D;
model R=D;
means D/tukey alpha=0.05;
run;
CM
1820.722222
133.444444
Fc
13.64
Ft
P>F
0.0004
Sig.
**
145
136
142
148
129
130
88
d1
d2
d3
d1
d2
d3
d1
d2
d3
d1
d2
d3
d1
d2
d3
125
130
136
98
107
142
95
92
148
104
96
129
115
121
130
Sum of
Squares
Mean Square
F
3641.444444
1820.722222
2001.666667
133.444444
5643.111111
Coeff Var
Root MSE
R Mean
9.771273
11.55182
118.2222
DF
Anova SS
Mean Square
F
2
3641.444444
1820.722222
DF
2
15
17
R-Square
0.645290
Source
D
Value
13.64
Pr > F
0.0004
Value
13.64
Pr > F
0.0004
175
200
225
150
125
125
d2
d2
d2
d2
d2
d2
75
75
100
75
75
50
d3
d3
d3
d3
d3
d3
75
50
75
75
50
75
data eduardo;
input x$ y@@;
datalines;
89
225
225
250
250
200
150
200
150
150
200
V2
V2
V2
V2
V2
V2
V2
V2
V2
V2
125
150
150
150
150
75
125
100
100
125
DATA CEBADA;
DO TRAT='A', 'B' ,'C' ,'D';
DO REP=1 TO 5;
INPUT DATO @@;
OUTPUT;
END;
END;
CARDS;
730
730
730
740
740
740
680
690
690
710
710
720
;
PROC ANOVA;
CLASS TRAT;
MODEL DATO=TRAT;
MEANS TRAT/DUNCAN ALPHA=0.05;
RUN;
125
125
175
125
175
150
150
750
740
690
720
750
750
700
730
90
5.2. Caractersticas:
1. Las unidades experimentales son heterogneas.
2. Las unidades homogneas estn agrupadas formando los bloques.
3. En cada bloque se tiene un nmero de unidades igual al numero de Tratamientos (bloques completos)
4. Los tratamientos estn distribuidos al azar en cada bloque.
5. El nmero de repeticiones es igual al nmero de bloques.
91
.Representacin simblica de los datos en un diseo en Bloque Completo Al Azar con t tratamientos y
r repeticiones
Tratamientos
Repeticiones
i= 1, , t
Y11
Y12
Y1j
Y21
Y22
Yi1
t
Total
j = 1, 2, 3, , r
r
Total
Media
Y1r
Y1.
Y2j
Y2r
Y2.
Yi2
Yij
Yir
Yi.
Yt1
Yt2
Ytj
Ytr
Yt .
Yt.
Y.t
Y.3
Y.r
Y..
Media
Y.j
Tabla 5.2
Anlisis de Varianza generalizado para un Diseo en Bloque Completo Aleatorio
Grados
Fuentes de
de
Suma de
Cuadrados
E ( CM )
Variacion
Libertad
Cuadrados
Medios
Modelo I
Modelo II
+
Bloques
( r- 1)
..
( 1)
+t
+
Tratamiento
s
Error
(t-1)
..
( 1)
( 1)( 1)
(r-1)(t-1)
..
Total
(rt 1)
92
Ejemplo 01.- Se dise un experimento para estudiar el rendimiento de cuatro (04) detergentes
diferentes. Las siguientes lecturas de blancura se obtuvieron con un equipo especialmente diseada
para 12 cargas de lavado distribuidas en tres (03) modelos de lavadoras:
Detergente
Lavadora 1
Lavadora 2
Lavadora 3
Detergente A
45
43
51
Detergente B
47
46
52
Detergente C
48
50
55
Detergente D
42
32
49
Considerando los detergentes como tratamientos y las lavadoras como bloques, efectuar el anlisis de
variancia y su prueba con un nivel de significacin de 0.01 si existen diferencias entre los detergentes o
entre las lavadoras. Adems, efectuar la prueba de Rango Mltiple de Duncan a la probabilidad de 0.01.
data experimento;
input lavadoras detergent rendto;
cards;
1
1
45
1
2
47
1
3
48
1
4
42
2
1
43
2
2
46
2
3
50
2
4
37
3
1
51
3
2
52
3
3
55
3
4
49
proc print;
proc anova;
class lavadoras detergent;
model rendto= lavadoras detergent;
means detergent/Duncan alpha=0.01;
run;
RESULTADO DE SAS
Obs
1
2
3
4
5
6
7
lavadoras
1
1
1
1
2
2
2
detergent
1
2
3
4
1
2
3
rendto
45
47
48
42
43
46
50
93
2
3
3
3
3
4
1
2
3
4
37
51
52
55
49
Mean
51.000
48.333
46.333
42.667
N
3
3
3
3
detergent
3
2
1
4
1
2
3
4
1
2
3
4
1
2
3
4
10
9
11
10
12
11
12
13
15
15
16
15
94
D
1
11
D
2
10
D
3
10
D
4
11
;
PROC PRINT;
PROC ANOVA;
CLASS TRAT REP;
MODEL Y=TRAT REP;
MEANS TRAT REP;
DATA PAPA2;
SET PAPA;
IF TRAT='A' THEN N=0; /*SENTENCIAS QUE
*/
ELSE IF TRAT='B' THEN N=50; /* RECODIFICAN A */
ELSE IF TRAT='C' THEN N=100; /*TRATAMIENTOS PARA */
ELSE IF TRAT='D' THEN N=150; /*EFECTUAR LA REGRESION */
GLM;
CLASSES TRAT REP;
MODEL R=REP N N*N N*N*N;
RUN;
PROC GLM;
MODEL R=N N*N/P;
RUN;
95
6.1 Caractersticas:
1. Las U.E. se distribuyen en grupos , bajo dos criterios de homogeneidad dentro de la fila y dentro de la
columna y heterogeneidad en otra forma.
2. En cada fila y en cada columna, el nmero de unidades es igual al nmero de tratamientos.
3. Los tratamientos son asignados al azar en las unidades experimentales dentro de cada fila y dentro de
cada columna.
4. El nmero de filas = nmero de columnas = nmero de tratamientos.
5. Los anlisis estadsticos T-student, Duncan, Tuckey y en pruebas de contraste se procede como el
diseo completo al azar y el diseo de bloques. La desviacin estandar de la diferencia de promedios y
la desviacin estandar del promedio, estn en funcin del cuadrado medio del error experimental.
El nombre de cuadrado Latino se debe a R.A. Fisher [The Arrangement of Field Experiments, J.
Ministry Agric., 33: 503-513 (1926)]. Las primeras Aplicaciones fueron en el campo agronmico,
especialmente en los casos de suelos con tendencias en fertilidad en dos direcciones.
Formacin de cuadrados latinos
Suponga 4 tratamientos A,B,C y D, con estos tratamientos se pueden formar 4 cuadros diferentes
llamadas tpicas o estandar (en la primera fila y en la primera columna se tiene la misma distribucin).
Este diseo presenta las siguientes caractersticas:
La disposicin de las variantes del experimento sobre el terreno se hace en dos direcciones
perpendiculares recprocas y esto es lo que lo diferencia del bloque al azar.
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola
96
En este las variantes se agrupan adems de bloques en columnas lo que es un nuevo elemento en ste
diseo.
Se puede utilizar en experimentos agrotcnicos, as como de seleccin de variedades, pero no es
recomendable en experimentos donde se utilice la mecanizacin.
Elimina la variabilidad de la fertilidad del suelo en dos direcciones.
En este diseo el nmero de filas y columnas y de tratamientos son iguales.
Presenta la dificultad de que el mismo no se puede estudiar un nmero grande de variante o tratamiento.
COLUMNAS
C2
C3
C4
H1
H2
H3
H4
HILERAS
C1
Ventajas
1. Disminuyen los efectos de dos fuentes de variabilidad de las unidades experimentales en los
promedios de los tratamientos y en el error experimental.
2. El anlisis de variancia es simple, aun cuando es ligeramente ms complicado que el DBCA.
3. En el caso de que se pierden todas las unidades experimentales de un mismo tratamiento, el
resto de tratamientos siguen ajustados a las caractersticas del cuadrado latino. Si se pierde
ntegramente un bloque o columna, el diseo queda ajustado al DBCA.
4. Cuando los bloques y las columnas estn relacionados con variaciones definidas de dos criterios
de clasificacin, ellos pueden ser considerados como tratamientos.
Desventajas
1. Como el nmero de tratamientos depende del nmero de bloques y columnas y por consiguiente
el nmero de unidades experimentales, esto le resta flexibilidad al diseo para su uso. Es por
esto que no es recomendable para mayor nmero de tratamientos.
2. A igualdad de numero de tratamientos y repeticiones, este diseo tiene menos grados de libertad
para el error experimental.
3. El error experimental tiende a incrementarse al aumentar el ancho de los bloques y el largo de
las columnas, como consecuencia principalmente del aumento del nmero de tratamientos.
97
i= 1,2,,t
j= 1,2,,t
k= 1,2,,t
Donde:
Yijk= Es la variable de respuesta de la unidad experimental
= media de la poblacin
= es el verdadero del i esimo tratamiento
Hj= es el verdadero efecto de la j-sima fila
Ck= Efecto de la k-esima columna
= error experimental
Ejemplo 01.- Aplicar el Diseo de cuadrado latino, para comparar tres mtodos de soldadura
(A, B y C), para conductores elctricos, con tres diferentes operadores y utilizando tres diversos
fundentes para soldar y el experimento es de dos repeticiones:
REPT I
OPE 1
OPE 2
OPE 3
REPT II
FUND 1
FUND 2
FUND 3
FUND 1
FUND 2
FUND 3
14
16.5
11
10
16.5
13
9.5
17
15
12
12
14
11
12
13.5
13.5
18
11.5
Analice como cuadrado latino a la probabilidad de 0.01 y efectuar la prueba de rango mltiple
de Duncan.
DATA CUADRADO;
INPUT REPET HILERA COLUM TRAT RDTO;
CARDS;
98
1
1
1
1
14.00
1
1
2
2
16.50
1
1
3
3
11.00
1
2
1
3
9.50
1
2
2
1
17.00
1
2
3
2
15.00
1
3
1
2
11.00
1
3
2
3
12.00
1
3
3
1
13.50
2
1
1
3
10.00
2
1
2
2
16.50
2
1
3
1
13.00
2
2
1
1
12.00
2
2
2
3
12.00
2
2
3
2
14.00
2
3
1
2
13.50
2
3
2
1
18.00
2
3
3
3
11.50
PROC PRINT;
PROC GLM;
CLASS REPET HILERA COLUM TRAT;
MODEL RDTO= REPET HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/DUNCAN;
TITLE 'DISEO DE CUADRADO LATINO';
RUN;
RESULTADO DE SAS
DISEO DE CUADRADO LATINO
REPET
HILERA
COLUM
TRAT
RDTO
1
1
1
1
14.0
1
1
2
2
16.5
1
1
3
3
11.0
1
2
1
3
9.5
1
2
2
1
17.0
1
2
3
2
15.0
1
3
1
2
11.0
1
3
2
3
12.0
1
3
3
1
13.5
2
1
1
3
10.0
2
1
2
2
16.5
2
1
3
1
13.0
2
2
1
1
12.0
2
2
2
3
12.0
2
2
3
2
14.0
2
3
1
2
13.5
2
3
2
1
18.0
2
3
3
3
11.5
Class Level Information
Class
Levels
Values
REPET
2
1 2
HILERA
3
1 2 3
COLUM
3
1 2 3
TRAT
3
1 2 3
Number of observations
18
Dependent Variable: RDTO
Sum of
DF
Squares
Mean Square
F
7
90.7222222
12.9603175
10
13.7777778
1.3777778
17
104.5000000
R-Square
Coeff Var
Root MSE
RDTO Mean
0.868155
8.803408
1.173788
13.33333
DF
Type I SS
Mean Square
F
1
0.05555556
0.05555556
2
0.25000000
0.12500000
2
41.33333333
20.66666667
2
49.08333333
24.54166667
DF
Type III SS
Mean Square
F
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Source
Model
Error
Corrected Total
Source
REPET
HILERA
COLUM
TRAT
Source
Value
9.41
Pr > F
0.0010
Value
0.04
0.09
15.00
17.81
Value
Pr > F
0.8449
0.9140
0.0010
0.0005
Pr > F
99
REPET
HILERA
COLUM
TRAT
1
0.05555556
0.05555556
0.04
0.8449
2
0.25000000
0.12500000
0.09
0.9140
2
41.33333333
20.66666667
15.00
0.0010
2
49.08333333
24.54166667
17.81
0.0005
Duncan's Multiple Range Test for RDTO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error
Alpha
0.05
Error Degrees of Freedom
10
Error Mean Square
1.377778
Number of Means
2
3
Critical Range
1.510
1.578
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
HILERA
A
13.5000
6
1
A
13.2500
6
2
A
13.2500
6
3
Duncan's Multiple Range Test for RDTO
NOTE: This test controls the Type I comparisonwise error rate, not the
experimentwise error
Alpha
0.05
Error Degrees of Freedom
10
Error Mean Square
1.377778
Number of Means
2
3
Critical Range
1.510
1.578
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
COLUM
A
15.3333
6
2
B
13.0000
6
3
B
11.6667
6
1
Duncan's Multiple Range Test for RDTO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error
Alpha
0.05
Error Degrees of Freedom
10
Error Mean Square
1.377778
Number of Means
2
3
Critical Range
1.510
1.578
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
TRAT
A
14.5833
6
1
A
14.4167
6
2
B
11.0000
6
3
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
4
3
1
5
1
2
3
4
5
6
5
3
1
2
6
4
2011
1886
812
1596
1262
2143
2242
2229
2066
1898
1624
1885
1089
1879
1343
1245
PROC PRINT;
PROC GLM;
CLASS HILERA COLUM TRAT;
MODEL RDTO= HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/DUNCAN;
TITLE 'DISEO DE CUADRADO LATINO';
RUN;
DATA EXAMEN;
INPUT REPET$HILERA$ COLUM$ TRAT$ RDTO @@;
DATALINES
;
I
H1 C1 A
16.00
I
H1 C2 B
17.50
I
H1 C3 C
14.00
I
H1 C4 D
14.00
I
H2 C1 D
19.00
I
H2 C2 A
17.00
I
H2 C3 B
18.00
I
H2 C4 C
14.10
I
H3 C1 C
12.00
I
H3 C2 D
18.00
I
H3 C3 A
16.00
I
H3 C4 B
19.00
I
H4 C1 B
20.00
I
H4 C2 C
15.00
I
H4 C3 D
13.00
I
H4 C4 A
22.00
PROC PRINT;
PROC ANOVA;
CLASS HILERA COLUM TRAT;
MODEL RDTO= HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/TUKEY ALPHA=0.05;
TITLE 'DISEO DE CUADRADO LATINO';
RUN;
DO FILA = 1 TO 4;
DO COLUM = 1 TO 4;
INPUT VARIED $ RDTO;
OUTPUT;
END;
CARDS;
B2
D2
A6
C8
A7
C5
D7
D5
B4
C9
A 10
C6
A9
D5
B5
;
PROC PRINT; RUN;
PROC GLM;
CLASS FILA COLUM VARIED;
MODEL RDTO=FILA COLUM VARIED;
MEANS FILA COLUM VARIED/DUNCA; RUN;
b) Factor. Es un tipo particular de tratamiento, que vara segn el deseo del investigador. Son
factores por ejemplo, la temperatura, el nitrgeno, el peso, la densidad, las concentraciones
qumicas, variedad de semilla, etc.
c) Factores cualitativos, Son aquellos en los cuales los niveles definen o expresan una
modalidad particular de las caractersticas del factor; cada nivel tiene un inters intrnseco o
independiente de los otros niveles. Estos factores responden a las caractersticas de las
variables cualitativas. Ejemplo :
d) Factores cuantitativos: Son aquellos cuyos valores corresponden a cantidades numricas,
es decir valores inherentes a una variable cuantitativa.
Ej: Supongamos que en una experiencia se prueba fertilizar con diferentes dosis de Nitrgeno
N: 0-10-20-30 Kg/ha.
e) Niveles. Son los varios valores que se asignan al factor en estudio. ejemplos:
Niveles del factor temperatura: 0 oC, 50oC, 100C, 150C, etc.
Niveles de nitrgeno: 40, 80, 120, 160 Kg/ha.
f) Respuesta. Es el resultado de una unidad experimental. As, el rendimiento de maz, altura
de planta. Generalmente se miden muchas variables en el mismo experimento.
g) Efecto. Es la medida de cambio en la respuesta, producido por el cambio en el nivel del
factor. As, cuando el factor que se estudia tiene dos niveles, el efecto es la diferencia entre
el promedio de las respuestas de todas las unidades con el primer nivel del factor y el
promedio de las respuestas de las que llevan el segundo nivel del mismo factor. Cuando se
estudian mas de dos niveles, las diferencias entre promedios de respuesta pueden ser
expresadas de varias maneras, esto es, efecto lineal, efecto cuadrtico, efecto cubico, etc.
h) Notacin. Se usa para reconocer factores y niveles; As:
Cuando se tiene dos niveles de factor A y dos niveles de factor B, se tendr el factorial 2n,
donde n = numero de factores tomados a dos niveles, es decir 2x2 2 2.
Cuando se tiene dos factores con tres nivelescada uno, se denotara: 3n, donde n = a los
factores tomados a tres niveles, es decir 32 3x3.
Los factores que se usan en el experimento se denotan con letras maysculas; as: A, B y C.
Los niveles se denotaran con letras minsculas y subscritos: N: no, n1, n2, A: ao, a1, a2.
La combinacin de los tratamientos esta dada por el producto de los niveles; as: ao no, a1 no,
etc.
i) Interaccin. Ostle (1974), define a la interaccin, como la respuesta diferencia a un factor
en combinacin con niveles variables de un segundo factor aplicado simultneamente. Es
+(
) +
) = efecto de la interaccin del i-esimo nivel del factor A con el j-esimo nivel del factor B
= error experimental
2
...
.
.
.
Total AB:
Promedio:
11.
12.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1b.
21.
22.
2b.
a1.
a2.
.
.
.
ab.
Total A:
Promedio:
1..
2..
a..
.1.
.2.
.b.
Total B:
Promedio:
Total
General
Prom:
F. de V.
GL
SC
Tratamiento (t-1)
Y ij .2
I 1
j1
(a-1)
Y i .2.
I 1
(a-1)(b-1)
Y . . 2.
abn
SCtrat-(SCA+SCB)
ab(n-1)
Y
i 1
Total
Y . .2.
abn
Y . 2j .
j1
Error
(b-1)
A*B
Y . . 2.
abn
CM
(abn-1)
2
ijk
j 1 k 1
b
j1
I 1 j 1
i1
Y i j2k
k 1
2
ij .
Fc
SCtratam
(t 1)
CM tratam
CM error
SC A
( a 1)
C M A
C M error
SC B
(b 1)
C M B
C M error
S C A xB
( a 1)(b 1)
C M
C M
Ft
Sig.
AxB
error
S C err or
a b ( n 1)
Y . . 2.
abn
Factorial 23
Cuando el factorial de tres factores esta asociado a un diseo completamente al azar que implica n
unidades experimentales por combinacin de tratamientos, el modelo estadstico es:
G.L.
(t-1)
SC
a
Y
i 1
j 1 k 1
(a-1)
2
i ...
y2
....
abcn
y . 2. . .
a b c n
b c n
b
2
. j ..
Y
j 1
a cn
C
2
ijk .
i 1
CM
(c-1)
2
....
y
ab cn
Y . .2k
k 1
abn
y .2. . .
abcn
SCtratam.
(t 1)
SC ( A)
( a 1)
Fc
Ft
Sig.
CMtratam
CM error
C M
C M
( A )
error
SC( B )
CM ( B )
(b 1)
CM error
SC( C )
CM
(c 1)
CM
(C )
er r o r
(a-1)(b-1)
i 1
j 1
cn
AxC
(a-1)(c1)
S C ( A xB )
y .2. . .
abcn
c
2
i . k ..
Y
i 1 k 1
bn
BxC
(b-1)(c1)
2
....
y
abcn
2
ij ..
j 1 k 1
an
AxBxC
( a 1)( b 1)
2
....
y
a bcn
(a-1)(b1)(c-1)
SC ( AxBxC )
Error
abc(n-1)
SCtotal SCtratam.
Total
Abcn-1
ijkl
i 1 j 1 k 1
C M ( AxB )
CM
er ror
SC( AxC )
CM ( AxC )
(a 1)(c 1)
CM error
SC( BxC )
CM ( BxC )
(b 1)( c 1)
CM error
SC( AxBxC )
CM ( AxBxC )
( a 1)(b 1)(c 1)
CM error
SCtotal SCtratam.
abc n 1
y....2
abcn
SC( AxBxC) SCtratam SC( A) SC(B) SC(C) SC( AxB) SC( AxC) SC(BxC)
TABLA 5.4.
Analisis de varianza generalizado del factorial de dos factores en un DBCA
Problema de aplicacin
Un bao qumico de cido sulfrico caliente se emplea para remover el oxido de la superficie de un metal
antes de ser niquelado, se requiere determinar qu factores adems de la concentracin del cido
sulfrico podra afectar a la conductividad elctrica del bao. Se cree que la concentracin de sal y la
temperatura del bao podran afectar la conductividad elctrica; por ello se planea un experimento que
determine los efectos individuales y conjuntos de estas tres variables ejercen sobre la conductividad
elctrica del bao. Con el fin de cubrir los niveles de concentraciones y las temperaturas comnmente
encontradas, se decide usar los siguientes niveles de los tres factores:
Factor
A. Concentracin de cido
(%)
B. Concentracin de sal (%)
C. Temperatura (oF)
Nivel
1
0
Nivel
2
6
Nivel
3
12
0
80
10
100
20
Nivel
4
18
DATA FACTORIAL;
INPUT REP A B C CE;
CARDS;
1
1
1
1
1
1
1
2
1
1
2
1
1
1
2
2
1
1
3
1
1
1
3
2
1
2
1
1
1
2
1
2
1
2
2
1
1
2
2
2
1
2
3
1
1
2
3
2
1
3
1
1
1
3
1
2
1
3
2
1
1
3
2
2
1
3
3
1
1
3
3
2
1
4
1
1
1
4
1
2
1
4
2
1
1
4
2
2
1
4
3
1
1
4
3
2
2
1
1
1
2
1
1
2
2
1
2
1
2
1
2
2
0.99
1.15
0.97
0.87
0.95
0.91
1.00
1.12
0.99
0.96
0.97
0.94
1.24
1.12
1.15
1.11
1.03
1.12
1.24
1.32
1.14
1.20
1.02
1.02
0.93
0.99
0.91
0.86
108
2
1
3
1
0.86
2
1
3
2
0.85
2
2
1
1
1.17
2
2
1
2
1.13
2
2
2
1
1.04
2
2
2
2
0.98
2
2
3
1
0.95
2
2
3
2
0.99
2
3
1
1
1.22
2
3
1
2
1.15
2
3
2
1
0.95
2
3
2
2
0.95
2
3
3
1
1.01
2
3
3
2
0.96
2
4
1
1
1.20
2
4
1
2
1.24
2
4
2
1
1.10
2
4
2
2
1.19
2
4
3
1
1.01
2
4
3
2
1.00
PROC PRINT;
PROC ANOVA;
CLASS REP A B C;
MODEL CE= REP A B C A*B A*C B*C A*B*C;
MEANS A B C A*B A*C B*C A*B*C/DUNCAN;
RUN;
RESULTADO DE MULTIFACTORIAL
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
REP
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
The SAS
A
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3
4
4
4
4
4
4
1
1
1
1
1
1
2
2
2
2
2
2
3
3
3
B
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
2
3
3
1
1
2
C
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
CE
0.99
1.15
0.97
0.87
0.95
0.91
1.00
1.12
0.99
0.96
0.97
0.94
1.24
1.12
1.15
1.11
1.03
1.12
1.24
1.32
1.14
1.20
1.02
1.02
0.93
0.99
0.91
0.86
0.86
0.85
1.17
1.13
1.04
0.98
0.95
0.99
1.22
1.15
0.95
109
2
3
2
2
0.95
2
3
3
1
1.01
2
3
3
2
0.96
2
4
1
1
1.20
2
4
1
2
1.24
2
4
2
1
1.10
2
4
2
2
1.19
2
4
3
1
1.01
2
4
3
2
1
The ANOVA Procedure
Class Level Information
Class
Levels
Values
REP
2
1 2
A
4
1 2 3 4
B
3
1 2 3
C
2
1 2
Number of observations
48
Dependent Variable: CE
Sum of
Squares
Mean Square
F Value
Pr > F
0.58765000
0.02448542
7.53
<.0001
0.07474792
0.00324991
0.66239792
R-Square
Coeff Var
Root MSE
CE Mean
0.887156
5.454221
0.057008
1.045208
Source
DF
Anova SS
Mean Square
F Value
Pr > F
REP
1
0.01650208
0.01650208
5.08
0.0341
A
3
0.27503958
0.09167986
28.21
<.0001
B
2
0.22621667
0.11310833
34.80
<.0001
C
1
0.00016875
0.00016875
0.05
0.8218
A*B
6
0.02881667
0.00480278
1.48
0.2297
A*C
3
0.00850625
0.00283542
0.87
0.4697
B*C
2
0.00420000
0.00210000
0.65
0.5333
A*B*C
6
0.02820000
0.00470000
1.45
0.2404
Duncan's Multiple Range Test for CE
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error
rate.
Alpha
0.05
Error Degrees of Freedom
23
Error Mean Square
0.00325
Number of Means
2
3
4
Critical Range
.04814
.05056
.05211
Means with the same letter are not significantly different.
Duncan Grouping
Mean
N
A
A
1.14000
12
4
B
1.08417
12
3
C
1.02000
12
2
D
0.93667
12
1
Source
Model
Error
Corrected Total
DF
24
23
47
110
Level of
A
1
1
1
2
2
2
3
3
3
4
4
4
Level of
B
1
2
3
1
2
3
1
2
3
1
2
3
N
4
4
4
4
4
4
4
4
4
4
4
4
--------------CE------------Mean
Std Dev
1.01500000
0.09433981
0.90250000
0.04991660
0.89250000
0.04645787
1.10500000
0.07325754
0.99250000
0.03403430
0.96250000
0.02217356
1.18250000
0.05678908
1.04000000
0.10519823
1.03000000
0.06683313
1.25000000
0.05033223
1.15750000
0.04645787
1.01250000
0.00957427
Level of
A
1
1
2
2
3
3
4
4
Level of
C
1
2
1
2
1
2
1
2
N
6
6
6
6
6
6
6
6
--------------CE------------Mean
Std Dev
0.93500000
0.04636809
0.93833333
0.11565754
1.02000000
0.07949843
1.02000000
0.08318654
1.10000000
0.12000000
1.06833333
0.08886319
1.11833333
0.09347014
1.16166667
0.12624051
Level of
B
1
1
2
2
3
3
Level of
Level
A
B
1
1
1
1
1
2
1
2
1
3
1
3
2
1
2
1
2
2
2
2
2
3
2
3
3
1
3
1
3
2
3
2
3
3
3
3
4
1
4
1
4
2
4
2
4
3
4
3
Level of
C
1
2
1
2
1
2
of
Level
C
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
N
8
8
8
8
8
8
of
-------------CE------------Mean
Std Dev
1.12375000
0.12816702
1.15250000
0.09617692
1.03125000
0.09062284
1.01500000
0.13490738
0.97500000
0.05606119
0.97375000
0.08034524
--------------CE------------N
Mean
Std Dev
2
0.96000000
0.04242641
2
1.07000000
0.11313708
2
0.94000000
0.04242641
2
0.86500000
0.00707107
2
0.90500000
0.06363961
2
0.88000000
0.04242641
2
1.08500000
0.12020815
2
1.12500000
0.00707107
2
1.01500000
0.03535534
2
0.97000000
0.01414214
2
0.96000000
0.01414214
2
0.96500000
0.03535534
2
1.23000000
0.01414214
2
1.13500000
0.02121320
2
1.05000000
0.14142136
2
1.03000000
0.11313708
2
1.02000000
0.01414214
2
1.04000000
0.11313708
2
1.22000000
0.02828427
2
1.28000000
0.05656854
2
1.12000000
0.02828427
2
1.19500000
0.00707107
2
1.01500000
0.00707107
2
1.01000000
0.01414214
111
Mtodo estadstico
Intervalar
Intervalar
Intervalar
Nominal u ordinal
Intervalar
Nominal e intervalar
Nominal (dicotmica)
Nominal e intervalar
Regresin logstica
112
Cuando iniciamos un problema de regresin con una variable dependiente el cual necesitamos para
predecir desde una o ms variables independientes. Las variables independientes son valores o
caractersticas las cuales se miran o son relacionadas fsicamente a la variable dependiente. Luego
necesitamos un modelo el cual describa la manera en el cual las variables independientes estn
relacionadas a la variable dependiente. El modelo deber estar de acuerdo con los principios fsicos
conocidos, pero su forma exacta puede ser fijada por los datos usados.
Usando una variable dependiente, Y, y variables independientes, X y Z, las ecuaciones y grficos de
algunos de los ms comunes modelos de regresin son mostrados en la figura 10.2. Relaciones
Conjuntas, aquellas en las cuales incluye una variable que es producto de otras dos variables. El producto
de dos variables es llamado un trmino de interaccin.
y 0 1 x
y 0 1 x 2 x 2
y 0 1 x 2 x 2 3 x 3
yy0011 xx2 2 zz
y 0 1 x 2 z 2 x z
113
Note que a pesar que dos de los grficos en la figura 10.2 son curvadas, todas las ecuaciones de los
modelos son en forma lineal. Esta linealidad de la ecuacin del modelo es un requerimiento para la
solucin directa de mnimos cuadrados. La linealidad puede a veces ser lograda por transformacin de
variables.
Fluctuaciones en las variables medidas (dependiente) pueden ser a menudo ser atribuidas (en parte) a
otras variables (independiente). El ANOVA identifica probablemente las variables independientes. Los
mtodos de Regresin cuantifican la relacin entre las variables dependientes e independientes.
y 0 1 x
La mejor lnea que ajuste estos puntos puede ser:
y 0 1 x
Donde
i yi yi
El Problema es determinar
sean mnimos
i 1
y
i 1
y i y i ( 0 1 xi )
i 1
0, 1 , tenemos
2 yi ( 0 1 xi )(1) 0
i 1
n
2 yi ( 0 1 xi )( xi ) 0
i 1
Reordenando:
114
yi 0 n 1 x i )
i 1
i 1
x y
i
i 1
0 xi 1 xi2
i 1
i 1
mtodo de mnimos cuadrados. Se sigue el mismo procedimiento para encontrar las ecuaciones normales
para regresin curvilnea, y regresin lineal mltiple.
datos dados en la tabla 10.2. Esta tabla tambin muestra clculos de medias, productos cruz y cuadrados.
Los productos cruz individuales y cuadrados no requieren ser apuntados; la suma de productos cruz, o
cuadrados, pueden ser acumulados sobre un calculador de escritorio. Tales clculos son ordinariamente
chequeados por repeticin de la operacin. Los coeficientes 0 y 1 en la ecuacin de regresin, y el error
estndar de estimacin son calculados como se muestra abajo.
Ejemplo 1. Se tienen los datos de precipitacin y escorrenta anual de una cuenca, se desea conocer la
correlacin entre estas dos variables.
XY
X
X Y
N
X 2
XY N X Y
X NX
2
(1,801)(1,799)
18
1.325
2
1,801
189,291
18
192,042
Coeficiente de regresin
0 Y 1X 99.94(1.325)(100.06) 32.6
Interseccin
Entonces
Y 0 1 X 32.6 1.32X
o
Y Y 1 ( X X ) 99 .94 (1 .325 )( X 100 .06 )
Y 32 .6 1 .32 X
115
s x2
X2
18012
189291
N 1
18
17
sx2 534.76
Variancia de X.
Y
Y N
s 2y
N 1
197373
18
Variancia de Y.
N 1 2
17
s y b 2 s x2
1033 .71 (1.325) 2 (534 .76) 100 .8
N 2
16
s yx 10.0
r
17992
17
s y2 1033.71
s y x
Y2
15625
4489
4624
5041
13924
20736
28561
19044
10404
8281
15625
7569
7056
3364
6241
15376
3844
7569
197373.0
1 s x
sy
(1.325)
23.13
0.95
32.15
Coeficiente de correlacin
116
175
150
125
100
75
50
70
80
90
100
110
120
130
140
150
Precipitacion Anual, Laguna Saytococha, % de la media
160
Figura 10.3: Ploteo de datos de la tabla 10.2 mostrando lnea de regresin calculada.
sb2
s y2. x
(x
100 .8
0 .011
189291 (1801) 2 / 18
t n 2
De la tabla de t,
sb
1.325 0
12.6
0.105
117
Modelos de Regresin y clculos son mas fcilmente calculados con ayuda de software especializado en
estadstica o libreras de software general.
X
0.5
2.0
3.0
4.0
7.0
Y
0.413
2.1453
1.9466
3.0742
3.759
X
0.98011
I(X^2)
-0.06414
y ( x ) 0.0370729
+ 0.980111 x - 0.641417 x 2
Graficando esta ecuacin sobre los ejes, tal como fueron medidos.
plot(X, Y,pch=20,main="Relacion Absorcion del
Suelo",xlab="X",ylab="Y")
lines(X,ajustesuelo$fit,col="red",lwd=2)
118
2.0
0.5
1.0
1.5
2.5
3.0
3.5
Y 1X
.........
Donde:
Y = es la variable dependiente
119
Y 1
Y 1
X 3e ( 4X
Y 1 2X
3X
2
3
Y1 1 X
1 .1
Y2 1X
2 .1
Yn 1X
n .1
......
2 .2
......
n .2
......
1 .2
1.p
2. p
n.p
Donde:
Yi
jX
ij
j 1
..
. .
.
.
. .
Y
n X n,1 X n, 2 ..................... X n,P n
Cuando el modelo se escribe en forma matricial, es fcil observar que la matriz de la variable
dependiente. Y Es de nx1, elementos.
La matriz de las variables independientes X tiene nxp en elementos y la matriz de los parmetros
desconocidos
, es de orden px1.
120
El modelo discutido en el capitulo anterior Y a . X , viene a ser un caso especial del modelo de
regresin lineal mltiple con
1 .1
1, X
X ,1 a ,
1 .2
donde:
e i2
ei Yi Yi Yi ( j . X ij )
j 1
Notacin:
e =Matriz de errores.
Y=Matriz de la variable dependiente=
Yi
Xi
=inversa de X
e1 =inversa de e
Y
=inversa de Y
Entonces
2
i
( e ' )(
e )
( Y
)'.(
X 'Y X ' X .
Estas ecuaciones se conocen como las ecuaciones normales y la solucin se obtiene multiplicando por
( X' X)1
(X ' X )1 X 'Y (X ' X )1( X' X )
121
y est conformado
por la suma de cuadrados y productos de las variables independientes. Draper y Smith (1966)
demostraron que la suma de cuadrados total puede escribirse de la siguiente forma matricial:
2
(Y 'Y ) 1 nY 2 ( ' X 'Y nY ) (Y 'Y ' X 'Y )
1)
nY
2)
2
Y 'Y ' X 'Y (Y X ) e' e ei2 (Yi Yi ) =suma de cuadrados residual.
3)
R2
2
suma .de.cuadrdos .de.la .regresion ( ' X 'Y n.Y )
2
suma .de.cuadrados .de.la .media
(Y ' Y nY )
Var( ) 2 S2 Donde:
S 2 ei2 /(n p) (Yi Yi )2 /(n p)
122
FUENTE
GRADOS
LIBERTAD
DE SUMA
CUADRADOS
Media
Regresin
p-1
Residual
n-p
Total
n.Y
DE CUADRADO
MEDIO
ESPERADO
2
2
Y 'Y
Diametro
8.3
8.6
8.8
10.5
10.7
10.8
11
11
11.1
11.2
11.3
11.4
11.4
11.7
12
12.9
Altura
70
65
63
72
81
83
66
75
80
75
79
76
76
69
75
74
Volumen Diametro
Altura
Volumen
10.3
12.9
85
33.8
10.3
13.3
86
27.4
10.2
13.7
71
25.7
16.4
13.8
64
24.9
18.8
14
78
34.5
19.7
14.2
80
31.7
15.6
14.5
74
36.3
18.2
16
72
38.3
22.6
16.3
77
42.6
19.9
17.3
81
55.4
24.2
17.5
82
55.7
21
17.9
80
58.3
21.4
18
80
51.5
21.3
18
80
51
19.1
20.6
87
77
22.2
123
variables
+ diametro,data=arbol)
plot(ajustearbol, lwd=2)
Grfico matricial de correlacin de variables:
Correlacion de las variables
70
75
80
85
16
18
20
65
80
85
10
12
14
diametro
10 20 30 40 50 60 70
65
70
75
altura
volumen
10
12
14
16
18
20
10
20
30
40
50
60
70
3Q
2.2003
Max
8.4847
Coefficients:
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola
124
125
Standardized residuals
5
0
-5
Residuals
31
31
Falta Linealidad
2
-1
10
Residuals vs Fitted
18
18
10
20
30
40
50
60
70
-2
Falta Homocedasticidad
Fitted values
Theoretical Quantiles
Residuals vs Leverage
Scale-Location
1.5
31
2
1
0
1.0
Cook's distance
-2
0.5
0.5
3
-1
Standardized residuals
31
18
0.0
Standardized residuals
-1
18
0.5
10
20
30
40
50
60
70
0.00
0.05
0.10
Fitted values
0.15
0.20
Leverage
Estos grficos controlan las bases de suposicin para el clsico modelo ANOVA normalmente
distribuido, independiente y de error constante.
La homocedasticidad (varianza del error es constante) es muy importante (i.e. error en el modelo es
constante e independiente de los niveles del factor). El QQplot comprueba la distribucin normal. Los
datos atipicos pueden ser detectados en el grafico de distancia de Cook.
18
1.5
31
0.4
2.5
0.2
0.4
Cook's distance
0.6
31
0.2
Cook's distance
0.6
Cook's distance
18
0.0
0.0
0.5
10
15
20
25
30
Obs. number
0
0
0.05
0.1
0.15
0.2
Leverage
126
Transformacin
Call:
lm(formula = log(volumen) ~ log(altura) + log(diametro), data =
arbol)
Residuals:
Min
1Q
-0.168561 -0.048488
Median
0.002431
3Q
0.063637
Max
0.129223
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
-6.63162
0.79979 -8.292 5.06e-09 ***
log(altura)
1.11712
0.20444
5.464 7.81e-06 ***
log(diametro) 1.98265
0.07501 26.432 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.08139 on 28 degrees of freedom
Multiple R-squared: 0.9777,
Adjusted R-squared: 0.9761
F-statistic: 613.2 on 2 and 28 DF, p-value: < 2.2e-16
Analysis of Variance Table
Response: log(volumen)
Df Sum Sq Mean Sq F value
Pr(>F)
log(altura)
1 3.4957 3.4957 527.76 < 2.2e-16 ***
log(diametro) 1 4.6275 4.6275 698.63 < 2.2e-16 ***
127
Residuals
28 0.1855 0.0066
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Diagnosis (modelo transformado)
1
0
-1
Standardized residuals
-0.10
0.00
Residuals
0.10
Residuals vs Fitted
16
-0.20
3.0
3.5
4.0
16
18 15
-2
-1
Fitted values
Theoretical Quantiles
Scale-Location
Residuals vs Leverage
18
15
0.5
11
-1
17
-2
0.5
1.0
Standardized residuals
16
Standardized residuals
1.5
2.5
-2
18
15
0.5
0.0
18
Cook's distance
2.5
3.0
3.5
4.0
Fitted values
0.00
0.05
0.10
0.15
0.20
0.25
Leverage
Interpretacin
Se comprueba grficamente que la distribucin de los residuos es compatible con las hiptesis de
normalidad y homocedasticidad.
El volumen est muy relacionada con la altura y el dimetro del rbol (R2= 97.8%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
es compatible con la ecuacin vol=k Alt Diam2
La varianza residual es 0.006623, es decir sR=0.081 que indica que el error relativo del modelo en la
prediccin del volumen es del 8.1%.
128
BIBLIOGRAFIA
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
Alfaro, R. Apuntes del Curso de Estadstica y Probabilidades, FIA UNA PUNO, 2008.
Alvarado P., L.; Agurto M., H. (2009). Estadstica para Administracin y Economa con
Aplicaciones en Excel, Editorial San Marcos.
Anderson, M.J. and Whitcomb, P.J. (2000). DOE Simplified: Practical Tools for Effective
Experimentation. Portland, Oregon, USA, Productivity Inc.
Barton, R. (1999). Graphical Methods for the Design of Experiments. NY, USA, SpringerVerlag.
Benjamin, J. R. and C. A. Cornell, (2010), Probability, Statistics, and Decision for Civil
Engineers, 2ed., McGraw-Hill, New York.
Box, G.E.P., Hunter, W.G. and Hunter, J.S. (1978). Statistics for Experimenters. NY, John
Wiley.
CHOW VEN TE 1964, Handbook of Applied Hydrology. McGraw Hill Book Company New
York USA
Dean, A. and Voss, D.T. (1999). Design and Analysis of Experiments. USA, Springer Verlag.
G. HOEL PAUL 1976, Introduccin a la Estadstica Matemtica. Edit. ARIEL Barcelona.
Helsel, D. R. and R. M. Hirsch, (2002), Statistical Methods in Water Resources, U.S.
Geological Survey, Techniques of Water-Resources Investigations Book 4, Chapter A3.
HOLMAN, J. P. Mtodos Experimentales para Ingenieros. Mc GRAW-HILL, Cuarta Edicin.
Impreso en Mxico.
Kottegoda, N. T. and R. Rosso, (2008), Applied Statistics for Civil and Environmental
Engineers, Wiley-Blackwell Publishing, UK.
LITTLE, T. M. y HILLS, F. J. 1991. Mtodos Estadsticos para la Investigacin en la
Agricultura. Editorial Trillas. Impreso en Mxico.
Lochner, R.H. and Matar, J.E. (1990). Designing for Quality- An Introduction to the Best of
Taguchi and Western Methods of Experimental Design. London, UK, Chapman and Hall
Publishers.
MARTINEZ, G. A. Diseos Experimentales (Mtodos y Elementos de Teora). Editorial
Trilla. Primera Edicin. Impreso en Mxico.
Mejia Marcacuzco, A. (1991), Mtodos Estadsticos en Hidrologa, UNALM, Concytec, Lima
Peru.
Mendiburu Delgado, Felipe de; 2008. Anlisis Estadstico con R, Centro Internacional de la
Papa-Universidad Nacional Agraria, Lima http://tarwi.lamolina.edu.pe/~fmendiburu/
Montgomery, D.C. (2001). Design and Analysis of Experiments. USA, John Wiley and Sons.
Snedecor, G.W. and Cochran, WG. Statistical methods. Iowa State University Press, Ames,
Iowa, 7th edition, 1980.
129
ANEXOS
TABLAS ESTADISTICAS
130
131
132
Tabla 3: distribucin c2
133
134
135
136
137
138
139