Documente Academic
Documente Profesional
Documente Cultură
I) Definiciones claves
- Un valor p < 0,05 indica que en menos de 5 veces de cada 100 que repitiéramos el mismo estudio,
nuestro resultado se debería al AZAR.
- Cuanto mayor sea la p (p > 0,1) más fuerte y segura será la evidencia a favor de la hipótesis nula
(igualdad).
- La hipótesis nula (H0) es que las diversas medias poblacionales son mutuamente iguales.
- El supuesto en el que se basa el uso del análisis de varianza es que las diversas medias
muestrales se obtuvieron de poblaciones con distribución normal y con la misma varianza σ 2
Descripción:
El análisis de varianza o ANOVA (del inglés ANalysis Of VAriance) es una técnica paramétrica
utilizada cuando hay más de dos grupos independientes. Se trata de un método para comparar
medias, no varianzas como su nombre podría sugerir. Su hipótesis nula (H0) establece la igualdad
entre las medias de los a grupos o poblaciones (μ1 = μ2 =…=μa), mientras que la hipótesis
alternativa (H1) establece que al menos una de las medias es distinta. El análisis se completa
cuando se acepta la hipótesis H0, es decir, no hay diferencias entre grupos. En cambio, cuando se
rechaza H0, se sabe que hay diferencias entre grupos, pero para conocer en concreto cuáles son
esas diferencias es necesario continuar con los procedimientos de separación de medias y
contrastes.
El razonamiento básico que sirve de fundamento al análisis de varianza fue originalmente
desarrollado por el experto en estadística inglés Ronald Fisher, en honor de quien la distribución F
lleva ese nombre
¿Qué significa en términos estadísticos que una prueba sea sensible a normalidad u homogeneidad
de varianza?.
Significa que si realizamos una ANOVA con datos que presentan varianzas heterogéneas o falta de
normalidad, no podemos estar seguro en el Error tipo 1, es decir, rechazar la hipótesis nula cuando
es verdadera o cierta.
Ventajas:
-Sencillo de usar.
-Sirve para probar si un grupo de datos proviene de la misma población.
-Puede comparar tres o más poblaciones.
-Realizar este modelo equivale a un análisis de varianza de una sola vía.
-No requiere supuesto de normalidad.
-No requiere supuesto de varianzas iguales (homogeneidad de varianzas).
Desventajas:
Hipótesis:
H0: Las funciones de distribución de cada muestra son idénticas (tienen igual mediana)
Procedimiento:
2) En caso de empates se asigna a cada una de las observaciones empatadas el rango promedio de
todas ellas.
3) Se suman entonces, los rangos de las observaciones procedentes del i-ésimo tratamiento,
Donde :
n= n° total de observaciones
Decisión:
Cuando los tamaños muestrales 𝑛𝑖 son razonablemente grandes (𝑛𝑖 > 5), H tiene una distribución
aprox. 𝑋 2 con k-1 grados de libertad bajo la hipótesis nula.
Ventajas:
Supuestos:
-Las observaciones dentro de cada bloque pueden ranguearse (rango) en orden de magnitud.
Hipótesis:
H0: Las “t” tratamientos tienen los mismos efectos
Dócima:
𝑡
2
12
𝑋𝑓= ∑ 𝑟𝑖2 − 3𝑏(𝑡 + 1)
𝑏𝑡(𝑡 + 1)
𝑖=1
Dónde:
t=n° de tratamientos
Decisión:
2 2
Rechazar 𝐻0 , sí 𝑋𝑓= > 𝑋(𝑡−1)(1−𝛼)
La elección del diseño depende de la habilidad del investigador para identificar y controlar las
fuentes de variación (Localidad, bloques, tratamientos, etc.)
El modelo estadístico de éste diseño tiene la forma: Respuesta= efecto medio ensayo +
efecto tratamiento + error
Ventajas:
Desventajas:
µ = Es una constante común en todos los tratamientos, y corresponde al efecto medio del ensayo.
El error se distribuye eij ~N (0, 𝜎 2 ). eij es la parte de la variable de 𝑌𝑖𝑗 no explicada por µ ni por ƫi, y
que se distribuye del mismo modo ( aunque independientemente) para cada observación, se
distribuye normal con media cero y varianza constante eij ~N (0, 𝜎 2 ).Esta es la condición de
homocedasticidad, y es fundamental en el análisis de varianza.
“Si mediante los contrastes estadísticos adecuados la variación producida por cierto factor es
significativamente mayor que la producida por el error experimental podemos aceptar la hipótesis de
que los distintos niveles del factor actúan de forma distinta.
Hipótesis para éste diseño es:
Es decir, H0 las medias entre los tratamientos son iguales y H1 las medias de los tratamientos son
distintos.
Las tablas del análisis de varianza con igual número de observaciones (Tabla 8) y distinto número de
observaciones por tratamiento son (Tabla x):
Decisión:
1.- Según el P-Valor
Se rechaza la hipótesis H0 si P-valor < 𝛼
Los diseños en bloques, al igual que el DAS, pueden ser completos, cuando el número de observaciones es
igual en todos los tratamientos, e incompletos cuando existe un número diferente de observaciones por
tratamiento.
Ventajas:
Mayor precisión que el diseño completo al azar, por agrupar las unidades en bloques,
cuando existe variabilidad del suelo.
No hay restricción en el número de tratamientos o de bloques
Si por alguna razón los datos se pierden, estos datos se eliminan sin complicar el análisis
estadístico. Incluso se puede eliminar el bloque completo.
Desventajas:
Cuando la variación entre unidades experimentales dentro del bloque es grande, aumentará
el valor de este componente.
Se recomienda como máximo un tamaño de bloque de 2.500 m2
Yij i j ij
Dónde:
Yij = Es la variable respuesta, corresponde al K-ésima observación en el j-ésimo bloque del i-ésimo
tratamiento.
µ= Promedio experimental
ƫi= Efecto del i-ésimo tratamiento
βj = Efecto de la repetición (bloque), o del j-ésimo bloque
eijk= Efecto del error, de la k-esima observación en el j-ésimo bloque del i-ésimo tratamiento. El error
se distribuye eij ~N (0, 𝜎 2 ).
El nuevo término βj, que corresponde a la variabilidad atribuida al bloque, con lo que el término eijk
corresponde a la variabilidad no explicada, entonces prueba más eficiente.
Hipótesis
En éste caso existirán 2 hipótesis:
Es decir, H0 las medias entre los tratamientos son iguales y H1 las medias de los tratamientos son
distintos, o por lo menos para alguno de ellos.
Grados P-valor
Suma de cuadrados Cuadrados Cociente
Fuente de variación de
(SC) medios (CM) F
libertad (gl)
Entre grupos de
k
Tk2 T 2 SCA CMA
tratamientos (A)
K–1 SCA CMA
K 1
F
CME
k 1 N k N
Entre grupos de 1 j
T2
SCB T j2
SCB CMB
tratamientos J–1 CMB F
o bloques (B) K j 1 N J 1 CME
Error de muestreo SSE
N–K SCE SCT SCA SCB CME
J 1K 1
(E)
j k
T2
Total (T) N–1 SCT X 2
j 1 k 1 N
En éste diseño aleatorizado por bloques disponemos de dos valores de F para contrastar: uno
relativo a la influencia del tratamiento y otro a la influencia del bloque; aunque de entrada se supone
que el bloque sí que influye en la variable medida y precisamente por eso acudimos a éste tipo de
diseño.
Decisión:
1.- Según el P-Valor
Se rechaza la hipótesis H0 si P-valor < 𝛼
Respuesta = efecto medio +efecto factor 1+efecto factor 2+efecto factor 1x efecto factor 2+ error.
La generalización de los modelos factoriales para 3 o más factores es relativamente sencillo desde
el punto de vista estadísctico, pero en su aspecto práctico tiene el inconveniente de que al aumentar
el número de factores aumenta rápidamente el número de observaciones para estimar el modelo.
Además se generan interacciones difíciles de abordar cuando no se tiene la expertise necesaria.
Ventajas:
Permiten detectar la existencia de efectos interacción entre los diferentes factores
tratamiento.
Es una estrategia más eficiente que la estrategia clásica de examinar la influencia de un
factor manteniendo constante el resto de los factores.
Desventajas:
Modelo estadístico
γijk = Es la variable respuesta, corresponde al k-ésima observación en el j-ésimo nivel del factor B
por el i-esimo nivel del Factor A..
µ = Media Población.
ƫi = Efecto de i-ésimo nivel del Factor A
βj = Es el efecto de j-ésima nivel del factor B
ƫβij = Efecto AxB, interacción, del efecto del i-ésimo nivel del factor A por el j-ésimo nivel factor B.
eijk= Efecto del error, de la k-esima observación en el j-ésimo nivel del factor A por el i-ésimo nivel
del factor A. El error se distribuye eijk ~N (0, 𝜎 2 ).
Hipótesis
Factor 2:
Es decir, H0 las medias entre los tratamientos son iguales y H1 las medias de los tratamientos son
distintos, o por lo menos para alguno de ellos.
Grados
Fuente de Suma de cuadrados Cuadrados
de Cociente F
variación (SC) medios (CM)
libertad (gl)
CMA
Entre grupos de K–1 k
Tk2 T 2 CMA
SCA F
tratamientos (A) SCA K 1 CME
k 1 n j N
Entre grupos de
CMB
tratamientos j
T2 T j2 CMB
SCB F
J–1 SCB J 1 CME
j 1 nK N
o bloques (B)
Interacción
(entre) (J – 1) CMI
CSI
F
2
1 j k n T2 SMI
SCI X SCA SCB
n j 1 k 1 i 1
J 1K 1 CME
Factores (K – 1) N
(A y B)(I)
SSE
Error de muestreo CME
(E)
JK(n – 1) JK n 1
SCE SCT SCA SCB SCI
n j k
T2
Total (T) N–1 SCT X 2
i 1 j 1 k 1 N
Decisión:
1.- Según el P-Valor
Se rechaza la hipótesis H0 si P-valor < 𝛼
Modelo estadístico
µ = Media Población.
ƫi = Efecto de i-ésimo nivel del Factor A
βj = Es el efecto de j-ésima nivel del factor B
δk = Es el efecto de j-ésima nivel del factor C
ƫβij =Es la interacción, del efecto del i-ésimo nivel del factor A por el j-ésimo nivel del factor B.
ƫδik = Es la interacción, del efecto del i-ésimo nivel del factor A por el k-ésimo nivel del factor C.
βδjk= Es la interacción, del efecto del j-ésimo nivel del factor B por el k-ésimo nivel del factor C.
ƫβδijk = Es la interacción, del efecto del i-ésimo nivel del factor A por el j-ésimo nivel factor B por el k-
ésimo nivel del factor C.
eijk= Efecto del error, error aleatorio de la I-ésima de la k-esima observación en el j-ésimo nivel del
factor C por el i-ésimo nivel del factor A. El error se distribuye eijk ~N (0, 𝜎 2 ).
Donde i = 1,…, a; j = 1,…, b; K =1,…, c: i =1,…, (n=número de observaciones).
Hipótesis
Factor 2:
H1:µ δi≠µ δj
Interacción 1 H0: µƫ1β1= µƫ1B2=… µƫaβb
Interacción 2 H0: µƫ1δ1= µƫ1δ2=… µƫaδc
H1:µƫiδj≠µƫiδj
Es decir, H0 las medias entre los tratamientos son iguales y H1 las medias de los tratamientos son
distintos, o por lo menos para alguno de ellos.
Grados
Fuente de Suma de cuadrados Cuadrados
de Cociente F
variación (SC) medios (CM)
libertad (gl)
CMA
a– 1 k
Tk2 T 2 CMA
SCA F
Factor (A) SCA K 1 CME
k 1 n j N
CMB
j
T2 T j2 CMB
SCB F
Factor (B) b–1 SCB J 1 CME
j 1 nK N
i
Ti 2 T 2 CMC
Factor (c) (c-1) SCC CMB
SCB F
K 1 n K N i 1 CME
Interacción
(entre) (a – 1) CMI
CSI
F
2
1 j k n T2 SMI
SCI X SCA SCB
n j 1 k 1 i 1
J 1K 1 CME
Factores (b – 1) N
(A y B)(I)
(a-1)(b-1)(c- M5=S7/(a-1)(b-
ABC S7* F= M7/CME
1) 1)(c-1)
SSE
Error de muestreo CME
(E)
abc(n – 1) JK n 1
SCE SCT SCA SCB SCI
n j k
T2
Total (T) Abcn- 1 SCT X 2
i 1 j 1 k 1 N
*formulas abreviadas.
Decisión:
1.- Según el P-Valor
Se rechaza la hipótesis H0 si P-valor < 𝛼
Principio básico es el siguiente: Las parcelas o unidades completas, a las cuales se les aplican
niveles de uno o más factores se dividen en subparcelas o subunidades a las cuales se les aplican
niveles de uno o más factores adicionales. De éste modo cada unidad completa se convierte en un
bloque para los tratamientos de subunidades.
Por ejemplo, considérese un experimento para probar el factor A con cuatro niveles en tres bloques
de un diseño de bloques al azar (DBA). Un segundo factor B, con dos niveles, puede superponerse
mediante la división de cada unidad del factor A en dos subunidades, y asignando los dos
tratamientos B a esas subunidades. Aquí las dos unidades A son las unidades completas (parcela
principal) y las unidades B son las subunidades (parcelas secundarias).
Aquí la aleatorización es en dos etapas. Primero aleatorizamos niveles del factor A en las unidades
completas; luego aleatorizamos niveles del factor B en las subunidades.
Modelos Estadísticos:
1) Diseño de Parcelas Divididas en un Diseño Completo al Azar. Dado que en este diseño la
aleatorización se realiza en dos etapas, el modelo aditivo lineal tendrá dos fuentes de error, una
desde las unidades completas y otra desde las subunidades.
En el caso de que los niveles del factor que va en las unidades completas se distribuyen
según un diseño completo al azar, el modelo aditivo lineal estará dado por:
Yijk = µ + αi +γij+βk+(σβ)ik+εijk
Dónde:
Yijk es el valor o rendimiento observado con el i-ésimo nivel del factor A, j-ésima repetición, y k-
ésimo nivel del factor B.
µ es el efecto de la media general.
αi es el efecto del i-ésimo nivel del factor A.
γij es el efecto del error experimental en parcelas (Error A).
βk es el efecto del K-ésimo nivel del factor B.
(σβ)ik es el efecto de la interacción del i-ésimo nivel del factor A y el k-ésimo nivel del factor B.
εijk es el efecto del error experimental en subparcelas (Error B).
Modelos: Diseño de Parcelas Divididas en un Diseño Completo al Azar
FactorA\FactorA>Bloque
FactorA>Bloque
FactorB
FactorB*FactorA
Dónde:
ρj es el efecto del j-ésimo bloque
j= 1,…r (r = número bloques)
Supuestos: Se asume que tanto γij y εijk están normal e independientemente distribuidos con
media cero y varianza igual a 1.
Hipótesis:
Las hipótesis son, en términos de los efectos de los niveles de los factores las siguientes:
Para el efecto de A:
Ho: αi =0
H1: αi≠0 para al menos alguna i
Para el efecto de B:
Ho: βk =0
H1: βk i≠0 para al menos alguna k
Para el efecto de la interacción AB:
Ho: (σβ) ik =0
H1: (σβ) ik i≠0 para al menos alguna i,k
Decisión:
1.- Según el P-Valor
Se rechaza la hipótesis H0 si P-valor < 𝛼
Bloque\FactorA*Bloque
FactorA\FactorA*Bloque
FactorA*Bloque
FactorB
FactorB*FactorA