Sunteți pe pagina 1din 30

UNIVERSIDAD NACIONAL DE INGENIERÍA

Facultad de Ingeniería Económica, Estadística y Ciencias Sociales


Escuela Profesional de Ingeniería Estadística

ESTADÍSTICA III

Profesor: Ing. Jorge Mejía


E-mail: jmejiap@uni.pe
Contenido

SESIÓN 1

Análisis de Varianza
De un Factor

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Suponga que se desea comparar “a” tratamientos o niveles diferentes de un solo factor.
La respuesta observada (Y) de cada uno de los a tratamientos es una variable aleatoria.
Luego, se obtiene el siguiente cuadro de datos:

𝒚𝒊𝒋 : representa la observación j-ésima tomada bajo el nivel del factor o tratamiento i.
En general hay n observaciones bajo el tratamiento i-ésimo.

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Modelos estadísticos lineales: Modelo de análisis de varianza simple o de un solo factor
Modelo de las
medias
donde:
𝒚𝒊𝒋 : observación ij-ésima,
𝝁𝒊 : media del nivel del factor o tratamiento i-ésimo
𝒆𝒊𝒋 : componente del error aleatorio (incorpora todas las demás fuentes de variabilidad
del experimento, incluyendo la variabilidad de factores no controlados).

Los errores tienen media cero, de tal modo que:

Una forma de escribir el modelo es:


De esta manera el modelo de los datos queda definido:
donde: Modelo de los
μ: media global efectos
𝝉𝒊 : efecto del tratamiento i-ésimo
μ es una constante, los efectos de los tratamientos representan desviaciones de esa
constante cuando se aplican los tratamientos específicos
UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía
Análisis de Varianza de un Factor
Objetivos

 Probar las hipótesis acerca de la media de los tratamientos y estimarlas.

Suposiciones
 Los errores del modelo son variables aleatorias que siguen una distribución normal e
independiente con media cero y varianza 𝜎 2 . Es decir: 𝒆𝒊𝒋 ~𝑵(𝟎, 𝝈𝟐 )

 Varianza constante para todos los niveles del factor. Esto implica que las
observaciones

 Observaciones son mutuamente independientes.


De acuerdo con el tipo de efecto que se desea analizar se presentan dos tipos de modelos:

 Modelo de efectos fijos (Modelo I)


 Modelo de efectos Aleatorios (Modelo II)

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
MODELO DE EFECTOS FIJOS
Sean:

𝒚𝒊. : Total de observaciones bajo el tratamiento i-ésimo


𝒚𝒊. ∶ Promedio de las observaciones bajo el tratamiento i-ésimo
𝒚.. ∶ Gran total de todas las observaciones
𝒚.. ∶ Gran promedio de todas las observaciones
𝑵 = 𝒂𝒏 : Es el número total de observaciones.
El sub índice punto implica la operación suma sobre el sub índice que reemplaza

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
MODELO DE EFECTOS FIJOS
El interés se encuentra en probar la igualdad de las a medias de los tratamientos, es decir:

Las hipótesis apropiadas son:

De:

Se tiene:

Los efectos de los tratamientos o factores pueden considerarse como desviaciones de la


media global. Por consiguiente una forma equivalente de escribir las hipótesis anteriores es
en términos de los efectos de los tratamientos es:

El procedimiento apropiado para probar la igualdad de medias de los a tratamientos es el


análisis de varianza.
UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía
Análisis de Varianza de un Factor
Descomposición de la Suma de Cuadrados Total

El termino producto cruzado es cero debido a :


Por los tanto se tiene:

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Descomposición de la Suma de Cuadrados Total

donde:
: Suma de cuadrados debido a los tratamientos (entre tratamientos)

: Suma de cuadrados debido al error (dentro de los tratamientos)


: Suma de cuadrados total

A las cantidades:

Se les llama cuadrados medios.

Se demuestra que:

De manera similar se demuestra que:

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Análisis Estadístico
Los valores calculados anteriormente se pueden presentar en la siguiente tabla (ANOVA)

Entonces, bajo el supuesto de que los errores son variables aleatorias independientes
distribuidas normalmente con media cero y varianza común y bajo la Ho se puede
demostrar que:
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 /(𝑎 − 1) 𝑀𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
𝐹𝑜 = = ~𝐹(α, 𝑎−1,𝑁−𝑎)
𝑆𝑆𝐸 /(𝑁 − 𝑎) 𝑀𝑆𝐸
Es el estadístico para probar de que no ha diferencias en las medias de los tratamientos

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Análisis Estadístico

Ho debe rechazarse y concluirse que hay diferencia en las medias de los tratamientos si:

De manera alternativa puede usarse el enfoque del valor de P para tomar una decisión.

Formulas para calcular las suma de cuadrados:

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Ejemplo:
Un ingeniero de desarrollo de productos Le interesa determinar si el peso porcentual de
algodón en una fibra sintética afecta la resistencia a la tensión, para ello ha llevado a cabo
un experimento completamente aleatorizado con cinco niveles de peso porcentual de
algodón y cinco replicas.

i. Identificar el factor, los niveles del factor y la variable respuesta.


ii. Construir el modelo
iii. Calcular la suma de cuadrado total, de los tratamientos y del error.
iv. Calcular los cuadrados medios del total, de los tratamientos y del error.
v. Plantear la hipótesis nula y alternativa.
vi. Realizar el análisis de varianza, a que conclusión llega.

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Estimación de los parámetros del modelo
Sea el modelo con un solo factor:

Estimador de la media global :


Estimador de los efectos de los tratamientos:

Estimación de un Intervalo de confianza de la media del tratamiento i-ésimo:


La media del tratamiento i-ésimo es:
Un estimador puntual de 𝜇𝑖 seria:
Un intervalo de confianza de 100(1-α) por ciento para la media del tratamiento i-
ésimo es:

Un intervalo de confianza de 100(1-α) por ciento para la diferencia de medias de dos


tratamientos cualesquiera esta dada por:

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Estimación de los parámetros del modelo

Ejemplo

Para los datos del ejemplo de la resistencia a la tensión del experimento del peso
porcentual de algodón, obtener:

a. La estimación de la media global


b. La estimación de los efectos de los tratamientos
c. Un intervalo de confianza de 95% para la media del tratamiento 4 (30% de algodón)

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Datos no balanceados
Cuando el número de observaciones que se hacen dentro de cada tratamiento es
diferente, se le llama diseño no balanceado.
Se aplicará el análisis de varianza descrito anteriormente, haciendo ligeras modificaciones
en las formulas de las sumas de cuadrados.
Sea que se hagan 𝑛𝑖 observaciones bajo el tratamiento i (i=1,2,…,a) y que
Las formulas para calcular manualmente la 𝑺𝑺𝑻 y 𝑺𝑺𝑻𝒓𝒂𝒕𝒂𝒎𝒊𝒆𝒏𝒕𝒐𝒔 queda así:

No se requieren mas cambios en el análisis de varianza.

Ventajas de elegir un diseño balanceado:

 El estadístico de prueba es relativamente insensible a las observaciones pequeñas del supuesto


de la igualdad de las varianzas de los a tratamientos cuando los tamaños de las muestras son
iguales. No siendo el caso cuando los tamaños de las muestras son diferentes.
 La potencia de la prueba se maximiza cuando las muestras tienen el mismo tamaño.

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Verificación de los Supuestos del modelo

Las violaciones de los supuestos básicos y la adecuación del modelo pueden investigarse
con facilidad mediante el examen de los residuales.

El residual de la observación j-ésima en el tratamiento i-ésimo se define como:

donde es una estimación de la observación 𝑦𝑖𝑗 correspondiente, el cual se obtiene así:

Si el modelo es adecuado, los residuales deberán estar si estructura (no deben presentar
patrones obvios).

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Verificación de la adecuación del modelo: Supuesto de Normalidad
• Histograma de los residuales
Si se satisface el supuesto de NID(0,𝜎 2 ) para los errores, esta gráfica deberá aparecer como una
muestra de una distribución normal con centro en cero.

• Gráfica de probabilidad Normal de los residuales


Si la distribución de los errores es normal, esta gráfica tendrá la apariencia de una línea recta.

En general, las desviaciones moderadas de la normalidad no son motivo de gran


preocupación en el análisis de varianza de efectos fijos.
UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía
Análisis de Varianza de un Factor
Verificación de la adecuación del modelo: Supuesto de Normalidad
Una anomalía muy común que suele presentarse en las gráficas de probabilidad normal es un residual
que es mucho mas grande que cualquier otro. A un residual así se le llama con frecuencia punto
atípico. La presencia de uno o mas puntos atípicos puede introducir serias distorsiones en el análisis de
varianza.
Pueden hacerse una verificación aproximada de puntos atípicos examinando los residuales
estandarizados:

Si los errores Є𝒊𝒋 son N(0,𝝈𝟐 ), los residuales estandarizados deben ser aproximadamente normales
con media cero y varianza unitaria. Por lo tanto, cerca del 68% de los residuales deben estar incluidos
dentro de los limites ±1, cerca del 95% de ellos deben estar incluidos dentro de ±2, y virtualmente
todos ellos deben estar incluidos dentro de ±3. Un residual mayor que 3 o 4 desviaciones estándar a
partir de cero es un punto atípico potencial.

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Verificación de la adecuación del modelo: Supuesto de Normalidad
 Gráfica de los residuales en secuencia del tiempo

La gráfica de los residuales en el orden temporal de la recolección de los datos es útil para detectar
correlaciones entre los residuales.
Una tendencia a tener corridas de residuales positivos y negativos indica una correlación positiva, el
cual implica que el supuesto de independencia de los errores a sido violado. La aleatorización
adecuada del experimento es un paso importante para conseguir la independencia.

Una gráfica de los residuales contra el tiempo que muestra una mayor dispersión en uno de sus
extremos que en el otro (el cual implica una varianza no constante) es un problema potencialmente
serio.

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Verificación de la adecuación del modelo: Supuesto de Normalidad
 Gráfica de los residuales contra los valores ajustados

Si el modelo es correcto y se satisface los supuestos, los residuales deberán estar sin estructura; no
deberán estar relacionado con ninguna otra variable, incluyendo la respuesta predicha.
Esta gráfica (residuales vs valores ajustados) no deberá mostrar ningún patrón obvio.

Un defecto que se observa en ocasiones en esta gráfica (residuales vs valores ajustados) es la varianza
no constante, el cual se da cuando la varianza de las observaciones se incrementa cuando la magnitud
de la observación se incrementa. En este caso los residuos se harían mayores conforme 𝑦𝑖𝑗 se hace mas
grande, en ese caso la gráfica de los residuales contra 𝑦𝑖𝑗 se vería como un embudo o un megáfono con
la boca hacia afuera. El enfoque usual para abordar el
problema de una varianza no constante,
consiste en aplicar una transformación
para estabilizar la varianza, para correr
después el análisis de varianza en los
datos transformados. En este enfoque,
deberá tenerse presente que las
conclusiones del análisis de varianza se
aplican a las poblaciones
transformadas.

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Verificación de la adecuación del modelo: Supuesto de Homogeneidad de varianza

Prueba de Bartllet
Hipótesis: H 0 : 12   22    t2
H a : Al menos dos  i2 son diferentes
Nivel de significancia: α
Estadístico de Prueba:

La prueba de Barttel
Varianza muestral de la población i-ésima
es muy sensible al
supuesto de
Criterio de Decisión: Rechazar Ho Normalidad

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Verificación de la adecuación del modelo: Supuesto de Homogeneidad de varianza
Prueba de Levene
• Es una alternativa a la prueba de Barttlet.
• Menos sensible que la prueba de Bartlett al incumplimiento del supuesto de normalidad.
• Si se tiene una fuerte evidencia que sus datos provienen de una distribución normal o casi normal,
entonces la prueba de Bartlett es mejor.
• Utiliza la desviación absoluta de las observaciones yij de cada tratamiento de la mediana de los
tratamientos.

• La prueba evalúa si la media de estas desviaciones es igual o no para todos los tratamientos.
Cuando las desviaciones medias son iguales, las varianzas de las observaciones de todos los
tratamientos serán iguales.
• El estadístico de prueba es simplemente el estadístico F ANOVA usual para probar la igualdad de
las medias que se aplica a las desviaciones absolutas
Hipótesis: H 0 : 12   22    t2
H a : Al menos dos  i2 son diferentes
Sea W el estadístico de prueba de Levene

Criterio de Decisión: Si W > 𝐹(1−𝛼,𝑎−1,𝑁−𝑎) Rechazar Ho


UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía
Análisis de Varianza de un Factor
Verificación de la adecuación del modelo

Ejemplo

Para el ejemplo de la resistencia a la tensión del experimento del peso porcentual de


algodón:
a. Verificar el supuesto de normalidad
b. Realizar la prueba de Bartlett
c. Realizar la prueba de Levene

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Pruebas de Comparaciones múltiples
Suponga que nos interesa comparar todos los pares de a medias de tratamientos y que las
hipótesis nulas que quieren probarse son: 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 para todo i ≠ j

Prueba de Tukey
Suponga que después del análisis de varianza en el que se ha rechazado la hipótesis nula de
la igualdad de las medias de los tratamientos, quieren probarse todas las comparaciones de
las medias por pares: 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 , 𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗 para todo i ≠ j
El procedimiento de Tukey hace uso de la distribución del estadístico del rango
estudentizado.

Para tamaño de muestras iguales:


Para tamaños de muestra no son iguales:

La prueba de Tukey declara que dos medias son significativamente diferentes si el valor
absoluto de sus diferencias muestrales excede a 𝑻𝜶
Es obtenido mediante tabla
Es el número de grados de libertad asociado con
UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía
Análisis de Varianza de un Factor
El método de la diferencia significativa mínima (LSD) de Fisher

Se utiliza el estadístico F para probar 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 para todo i ≠ j

Suponiendo una hipótesis alternativa de dos colas, los pares de medias 𝜇𝑖 y 𝜇𝑗 serán
significativamente diferentes si:

A: se le llama diferencia significativa mínima.


Si el diseño es balanceado el LSD queda así:

Para usar el procedimiento LSD de Fisher, comparar la diferencia observada entre cada
par de promedios con la LSD correspondiente, es decir:
Si: se concluye que las medias poblacionales 𝝁𝒊 𝒚 𝝁𝒋 difieren
UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía
Análisis de Varianza de un Factor
Prueba del rango múltiple de Duncan

Utilizado para comparar todos los pares de medias.


Cuando los tamaños de muestras son iguales:
Los a promedios de los tratamientos se arreglan en orden ascendente, y el error estándar
de cada promedio se determina de la siguiente manera:

Para tamaños de muestra desiguales, se sustituye el n anterior con la media armónica 𝒏𝒉


del {𝑛𝑖 }, donde:

Observe que si 𝑛1 = 𝑛2 = ⋯ = 𝑛𝑎 , 𝑛ℎ = 𝑛
En la tabla de Duncan de los rangos significativos se obtienen los valores 𝒓𝜶 𝒑, 𝒇 para
𝑝 = 2,3, … . , 𝑎, donde α es el nivel de significación y 𝑓 es el numero de grados de libertad
del error. Estos rangos se convierten en un conjunto de 𝑎 − 1 rangos mínimos de
significación (por ejemplo, 𝑅𝑝 ) para 𝑝 = 2,3, … . , 𝑎 calculando:
para 𝑝 = 2,3, … . , 𝑎

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Prueba del rango múltiple de Duncan

• Se prueba las diferencias observadas entre las medias, empezando con la mas grande
contra la menor, la cual se compararía con el rango mínimo de significación 𝑅𝑎 .
• Después se calcula la diferencia de la mayor y la segunda menor y se compara con el
rango mínimo de significación 𝑅𝑎−1 .
• Estas comparaciones se continúan hasta que todas las medias se han comparado con
la media mayor.
• Por último se calcula la diferencia entre la segunda media mayor y la menor y se
compara con el rango mínimo de significación 𝑅𝑎−1 .
• Este proceso continua hasta que se han considerado las diferencias entre todos los
𝑎 𝑎−1
pares de medias posibles.
2
• Si una diferencia observada es mayor que el rango de significación mínima
correspondiente, se concluye que el par de medias en cuestión es significativamente
diferente.
• Para evitar contradicciones, ninguna de las diferencias entre un par de medias se
considera significativa si dos medias en cuestión se localizan entre otras dos medias
que no difieren significativamente

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Comparación de medias de tratamientos con un control: Prueba de Dunnett

En muchos de los experimentos, uno de los tratamientos es un control.


Útil cuando nos interesa comparar cada una de las medias de los 𝑎 − 1 tratamientos
restantes con el control. Por lo tanto solo es necesario hacer 𝑎 − 1 comparaciones.
Supongamos que el tratamiento 𝑎 es el control y que se quieren probar las hipótesis:

Para 𝑖 = 1,2, … , 𝑎 − 1

El procedimiento de Dunnett es una modificación de la prueba 𝑡 común. Para cada


hipótesis se calculan las diferencias observadas en las medias muestrales.

La hipótesis nula 𝐻𝑜 : 𝜇𝑖 = 𝜇𝑎 se rechaza utilizando un índice α de error tipo I si

donde la constante 𝒅𝒂 𝒂 − 𝟏, 𝒇 se da en tabla (Pueden hacerse pruebas tanto de una


como de dos colas). Observar que α es el nivel de significación conjunto asociado con las
𝑎 − 1 pruebas

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


Análisis de Varianza de un Factor
Pruebas de Comparaciones múltiples

Ejemplos:

Para el ejemplo del experimento del peso porcentual de algodón, realice:

a. La prueba de Tukey.
b. La prueba LSD de Fisher
c. La prueba del Rango múltiple de Duncan
d. La prueba de comparación de medias de tratamientos con un control de Dunnett.

UNI - FIEECS – Estadística III Profesor: Ing. Jorge Mejía


¡Muchas Gracias!

S-ar putea să vă placă și