5 A1 Analisis de Varianza

Estadística y Probabilidad
Dra. Sara Adelina Arana López
ESTADISTICA Y PROBABILIDAD
ANALISIS DE VARIANZA
x11 , x12 , x13 , xk 1
x21 , x22 , x23 , x2 k
...............................
xn1 , xn 2 , xn3 , xnk
T1 .. T2 .. T3 .. T .1..
Dra. SARA ADELINA ARANA LOPEZ
LIMA, 2019
INTRODUC CION
El análisis de la varianza (ANOVA) es un método estadístico, de gran utilidad tanto en

la industria, para el control de procesos, como en el laboratorio de análisis, para el
control de métodos analíticos. Los ejemplos de aplicación son múltiples, pudiéndose
agrupar, según el objetivo que persiguen, en dos principalmente: la comparación de
múltiples columnas de datos y la estimación de los componentes de variación de un
proceso.
En múltiples ocasiones el analista o investigador se enfrenta al problema de determinar

si dos o más grupos son iguales, si dos o más cursos de acción arrojan resultados
similares o si dos o más conjuntos de observaciones son parecidos. Pensemos por
ejemplo en el caso de determinar si dos niveles de renta producen consumos iguales o
diferentes de un determinado producto, si las notas de dos grupos en una asignatura
son similares, si tres muestras de análisis químico de una sustancia son iguales, o si los
municipios de cuatro provincias colindantes tienen el mismo nivel de paro
Una aproximación simple sería comparar las medias de estos grupos y ver si las medias
aritméticas de la variable estudiada son parecidas o diferentes. Pero tal aproximación
no es válida ya que la dispersión de las observaciones influirá en la posibilidad de
comparar los promedios o medias de cada grupo. Así, supongamos que tenemos una
variable X (consumo) y dos grupos (nivel de renta alto y medio) y que tenemos dos
resultados distintos correspondientes a dos provincias
Es evidente que la conclusión de que con renta alta el consumo es mayor que con renta
media es más rotundo en la provincia B que en la A. En la provincia A existen familias
de renta media con un consumo superior a otras familias de renta alta aunque en
promedio X 21  X 11 . Esta situación no se produce en la provincia B donde todas las
observaciones de renta alta son superiores a las de renta media. En consecuencia la

dispersión deberá tenerse en cuenta para realizar una comparación de medias o de
grupos y esto es lo que se pretende con el Análisis de la Varianza. El Análisis de la
Varianza puede contemplarse como un caso especial de la modelización econométrica,
donde el conjunto de variables explicativas son variables ficticias y la variable
dependiente es de tipo continuo. En tales situaciones la estimación del modelo significa
la realización de un análisis de la varianza clásica (ANOVA), de amplia tradición en los
estudios y diseños experimentales. Una ampliación a este planteamiento es cuando se
dispone de una variable de control que nos permite corregir el resultado del experimento
mediante el análisis de la covariación con la variable a estudiar. Esta problemática es
un caso de un análisis de la covarianza
Ejemplo: Pretendemos medir la influencia que tiene en la venta de un producto de

alimentación, la posición en que se exhibe al público dentro del establecimiento. Las
posiciones establecidas son:
 ALTA: por encima de los ojos.
 MEDIA: nivel de los ojos.
 BAJA: por debajo del nivel de los ojos.
Para la realización del experimento se han seleccionado 12 autoservicios de

dimensiones similares. Los autoservicios se agrupan en tres conjuntos de cuatro
elementos cada uno, procediendo de forma aleatoria en su asignación. Con ello
suponemos que los tres conjuntos son de características similares, colocándose el
producto en cada uno de ellos, de una de las formas anteriormente descritas y
registrando sus ventas durante veinte días. Las ventas resultantes, en unidades, quedan
recogidas en el cuadro I. Se pretende responder a las siguientes preguntas:
1º¿Tiene alguna influencia el posicionamiento del producto en la venta del mismo?.
2º¿Qué posicionamiento es más eficaz?
3º¿Son estadísticamente significativas las diferencias obtenidas?
ANALISIS DE VARIANZA
El análisis de varianza se utiliza para contrastar hipótesis relativas a las diferencias de

las medias de más de dos poblacionales, este procedimiento exige que se analicen las
varianzas de las muestras estudiadas (de allí el termino análisis de varianza). El
procedimiento consiste en analizar si un tratamiento en particular aplicado a la población
tendrá un efecto significativo sobre la media. Surge y es muy importante en el campo de

la agricultura, donde se usa el término tratamiento para analizar varias parcelas de tierra
con diferentes fertilizantes y anotar el rendimiento medio en las cosechas del producto.
Actualmente el termino tratamiento se emplea, en sentido amplio, para referirse al
tratamiento de clientes con distintas presentaciones publicitarias y detectar las
diferencias posteriores de sus compras medias, al tratamiento de tres grupos con tres
tipos diferentes de programas de formación para observar ls diferencias que aparecen
en los niveles medios de productividad o a cualquier otra situación en que se dese
comprar medias
DISEÑO COMPLETAMENTE ALEATORIZADO
Las unidades experimentales son asignadas completamente al azar a los diversos

tratamientos. Todas las unidades elegidas al azar para el estudio tienen la misma
probabilidad de ser asignadas a un tratamiento
MODELO A EFECTOS FIJOS
Se fijas o eligen tratamientos específicos antes de emprender el estudio
MODELO A EFECTOS ALEATORIOS
Los niveles (tratamientos) usados en el estudio se eligen al azar de una población de

niveles posibles
CARACTERISTICAS PARA APLICAR UN ANALISIS DE VARIANZA
1. Todas las poblaciones implicadas son normales

2. Todas las poblaciones tienen varianzas iguales
3. Las muestras se eligen de manera independiente
EFECTO DEL TRATAMIENTO

Como las distintas muestras son sometidas a tratamientos diferentes, la variación
intramuestral puede ser causada por los diferentes efectos del tratamiento.
RELACION F USADO EN EL ANOVA

La relación F utilizada en el análisis de varianza es la que existe en la variación

intermuestral y la variación intramuestral
RELACION F
Cuando las medias poblacionales son diferentes existe un efecto de tratamiento y las
desviaciones intermuestrales pueden ser grandes comparadas con las desviaciones
debido al error dentro de una muestra. Por lo tanto el valor de F, que es una relación
entre la variación debida al tratamiento y la variación debido al error, aumentara.
PROCEDIMIENTO
1. Descripción de los datos
Tratamientos
1 2 3 ……. K
x11 , x12 , x13 , xk 1
x21 , x22 , x23 , x2 k
...............................
xn1 , xn 2 , xn3 , xnk
T .. T2 .. T3 .. T .1..
Total : T .1 1 T ..2 T .3 T. K T ...
Medias: X .1 X .2 X .3 X .K X ..
2. Supuestos
Junto con las suposiciones que fundamenta el análisis, se presenta el modelo
de cada diseño estudiado.
El modelo es una representación simbólica de un valor representativo del

conjunto de datos:
El modelo del ANOVA unilateral es:
xij     j   ij
i= 1, 2,3,…, nj j= 1,2,…, k
a. La media de la población representa todas las k –medias poblacionales y

se le conoce como la gran media
b.  j : representa la diferencia entre la media de la j-ésima población y la gran
media. Se le conoce como efecto del tratamiento

c.  ij : representa la cantidad en que difieren una medición individual de la
media poblacional a la que pertenece. Se le conoce como termino de error
3. Hipótesis
H 0 : 1   2  ...   k
H A : no todas las Muestras son iguales
Si las medias de las poblaciones son iguales, y el efecto de cada tratamiento es

igual a cero, alternativamente, las hipótesis pueden escribirse como sigue:
H0 :  j  0 , j  1,2,.....k
H A : no todas las  j  0
4. Estadística de prueba
Es el cálculo de la razón de las varianzas (R.V.), son las mismas
5. Distribución de la estadística de prueba

La RV sigue una distribución F, cuando la Ho es verdadera y se cumplen las
suposiciones.
6. Regla de decisión
Es rechazar la Ho, si el valor calculado para R.V. es mayor o igual que el valor
critico de F con un nivel alfa 
7. Calculo de la estadística de prueba

El resultado de los cálculos aritméticos se resume en una tabla llamada análisis
de varianza (ANOVA), facilita la evaluación de los resultados del análisis
Se definió el análisis de varianza cono un proceso por el que la variación total
representa el conjunto de datos
Sumas de cuadrados
a. Sumas de cuadrados para el total
b. Suma de cuadrados entre de los grupos
c. Suma de cuadrados dentro grupos
Grados de libertad
a. Grados de libertad para el total : n-1
b. Grados de libertad entre grupos (muestras) : k - 1
c. Grados de libertad dentro de los grupos n- k
Cuadrados medios
a. Cuadrados medios entre grupos : CME = SCE/k-1
b. Cuadrado medio dentro de los grupos : CMD = SCD/n – k
Razón de la Varianza: F = R.V.

F = CME/CMD
8. Decisión estadística
Comparar la R.V. Calculada con el valor crítico de F (se obtiene en la tabla) con
los grados de libertad ( k – 1)/(n – k)
Si R.V. Es mayor o igual al valor crítico de F la hipótesis nula se rechaza.
R.V .  Ftabla
9. Conclusión
Si se rechaza se concluye que no todas las medias son iguales.
10. Cálculo del valor p
EJEMPLO
El gerente de una empresa industrial quiere determinar si tres programas de formación

ejercen efectos distintos sobre la productividad de los empleados. Estos programas son
los tratamientos que el análisis de varianza puede analizar. Eligen a 14 empleados y se
les asigna al azar a uno de los tres programas. Al terminar la formación, cada empleado
realiza un examen para determinar su competencia, a 4 empleados se les imparte el
primer programa, a los grupos de 5 empleados cada grupo, los otros dos programas.
Los grupos serán tratados como muestras separadas y utilizadas para extraer la
inferencia sobre las poblaciones de empleados que pudieran pasar por los programas
de formación respectiva. Las puntuaciones de los empleados en el examen posterior a
la formación se muestran a continuación
Tratamientos
Programa 1 Programa 2 Programa
85 80 82
72 84 80
83 81 85
80 78 90
…. 82 88
Total : 320 405 425 T ..  1150
n: 4 5 5 n.. = 14
Medias: 80 81 85 X ..  82.14
ANALISIS DE REGRESION: VARIABLES
CUALITATIVAS INDEPENDIENTES
INTRODUCCION
El estudio de análisis de regresión lineal y regresión múltiple es el de obtener una

ecuación o modelo en base a variables cuantitativas las que se pueda emplear para
hacer predicciones y estimaciones en relación a una(s) variable(s) dependiente (s) a
partir del conocimiento de alguna(s) otra(s) variables individual(s) denominada variables
independiente, predictoras o explicativa. Es interesante conocer que todas las variables
que se incluyen en modelo de regresión no son solamente variables cuantitativas , un
modelo también incluye a aquellas variables que de origen son cualitativas (nivel
socioeconómico, segmentación de mercado, niveles de ingreso, grado de instrucción,
genero, estado civil, grupo racial ) las que pasan por un proceso de categorización para
ser incluidas en este tipo de predicciones.
Para incorporar una variable cualitativa independiente en el modelo de regresión
múltiple, esta se cuantifica, esto se logra mediante el uso de las variables imaginarias o
ficticias, o el uso de la escala de licker.
VARIABLES IMAGINARIAS O FICTICIAS
Se pueden encontrar muchas variables que pueden modificar el valor de la variable

dependiente. Existen variables para explicar los niveles de renta, los estudio muestran
que el género y la geografía tiene poder explicativo, es decir que un hombre que haya
cursado los mismos años de enseñanza y formación que una mujer no tendrá la misma
renta, un docente de educación secundaria que trabaja en la región de la costa no
ganara igual que un profesor que labora en la sierra, esto muestra que el sexo y la
geografía son variables explicativas de gran utilidad para predecir la renta de una
persona, pero estas variables no son numéricas y no se pueden incluir directamente en
el modelo de regresión múltiple.
Una variable ficticia o imaginaria solo toma un numero finito de valores para identificar
las diferentes categorías de una variable cualitativa, también se les conoce con el
nombre de indicativas y solo cuando se trata de dos valores se les llama dicotómicas
(como 0,1).
Cuando la variable tiene K categorías es necesario definir K – 1 variables imaginarias,

para codificar adecuadamente todas las categorías. Esta condición es aplicable para
toda regresión múltiple que contenga una constante de intercepción
Aplicativo
El gerente de una cadena de almacenes desea estudiar la relación entre gastos medios
de sus clientes y las variables que podrían explicar el nivel de dic hos gastos, elige la
renta como variable explicativa, pero también considera el sexo de sus clientes, que
podría representar un papel en la explicación en sus gastos. Renta y gastos en soles y
sexo.
Observación Gasto (Y) Renta (X1) Sexo

Miles de Miles de (X2)
soles soles
1 51 40 1
2 30 25 0
3 32 27 0
4 45 32 1
5 51 45 1
6 31 29 0
7 50 42 1
8 47 38 1
9 45 30 0
10 39 29 1
11 50 41 1
12 35 23 1
13 40 36 0
14 45 42 0
15 50 48 0
Solución
Haciendo uso del programa SPSS
Yˆ  b0  b1 X 1  b2 X 2
Yˆ  12.21X 1  0.791  5.11X 2
los valores de p para ambos casos 0.000 y 0.000
El uso de la variable ficticio sexo dará lugar a dos rectas de regresión, una para hombres
y otra para mujeres. Las rectas tienen l misma pendiente, pero diferentes ordenadas en
el origen. Es decir la ecuación da lugar a dos rectas de regresión paralelas, que inician
con valores diferentes.
Como se ha codificado a hombres con cero, la ecuación será:
Yˆ  b0  b1 X 1  b2 X 2
Yˆ  12.21X 1  0.791  5.11(0) 2
Yˆ  12.21X  0.791
1
La recta tiene una ordenada en el origen 12.21 y la pendiente de 0.791 X1
COMPROBACIÓN DE LA NORMALIDAD
Los residuos deben de tener distribución normal.

Las observaciones originales también, pero cada grupo con media diferente, por ello es
preciso estimar el modelo para descontar a cada observación su media y obtener
valores con la misma distribución.
Herramientas de comprobación:
 Histograma de residuos
 Gráfico de probabilidad normal (Q-Q plot)
 Contrastes formales (Kolmogorov-Smirnov)
GRAFICO PROBABILIDATICA NORMAL
Es un gráfico X-Y de los residuos frente a los percentiles de la distribución normal La

idea básica es que cuando los residuos tienen distribución normal, los puntos deben
formar aproximadamente una línea recta
Procedimiento
1. Ordenar los residuos de menor a mayor  (1) ,   ( 2) ,  . . .   ( n )

2. Calcular los percentiles de la distribución normal
 i  0.5 
Yi    X Sˆ R ,
1
 i  1,2, . . . , n
 n 
3. Representar :  i  , Yi
En el proceso de estimación se ha supuesto que los distintos tratamientos tienen la

misma varianza
Herramientas
 Gráficos de residuos:
 Frente a valores previstos
 Frente a tratamientos (o factor,etc.)
 Contrastes formales:
 Bartlett, Cochran, Hartley, Levene
RESIDUOS - VALORES PREVISTOS
En este modelo los valores previstos corresponden a la media del tratamiento

 Los puntos deben aparecer dispuestos al azar en una banda horizontal alrededor
del eje horizontal.
HETEROCEDASTICIDAD:
a veces la dispersión aumenta conforme la media crece.
RESIDUOS POR TRATAMIENTOS
En cada grupo los residuos aparecen esparcidos con dispersión similar y media cero

5 A1 Analisis de Varianza

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

5 A1 Analisis de Varianza

Încărcat de

Drepturi de autor:

Formate disponibile

Estadística y Probabilidad

Dra. Sara Adelina Arana López

x11 , x12 , x13 , xk 1

x21 , x22 , x23 , x2 k

xn1 , xn 2 , xn3 , xnk

Dra. SARA ADELINA ARANA LOPEZ

El análisis de la varianza (ANOVA) es un método estadístico, de gran utilidad tanto en

En múltiples ocasiones el analista o investigador se enfrenta al problema de determinar

observaciones de renta alta son superiores a las de renta media. En consecuencia la

Ejemplo: Pretendemos medir la influencia que tiene en la venta de un producto de

Para la realización del experimento se han seleccionado 12 autoservicios de

El análisis de varianza se utiliza para contrastar hipótesis relativas a las diferencias de

tendrá un efecto significativo sobre la media. Surge y es muy importante en el campo de

DISEÑO COMPLETAMENTE ALEATORIZADO

Las unidades experimentales son asignadas completamente al azar a los diversos

MODELO A EFECTOS FIJOS

Se fijas o eligen tratamientos específicos antes de emprender el estudio

MODELO A EFECTOS ALEATORIOS

Los niveles (tratamientos) usados en el estudio se eligen al azar de una población de

CARACTERISTICAS PARA APLICAR UN ANALISIS DE VARIANZA

1. Todas las poblaciones implicadas son normales

EFECTO DEL TRATAMIENTO

RELACION F USADO EN EL ANOVA

La relación F utilizada en el análisis de varianza es la que existe en la variación

1. Descripción de los datos

x11 , x12 , x13 , xk 1

x21 , x22 , x23 , x2 k

xn1 , xn 2 , xn3 , xnk

El modelo es una representación simbólica de un valor representativo del

a. La media de la población representa todas las k –medias poblacionales y

media. Se le conoce como efecto del tratamiento

media poblacional a la que pertenece. Se le conoce como termino de error

Si las medias de las poblaciones son iguales, y el efecto de cada tratamiento es

5. Distribución de la estadística de prueba

7. Calculo de la estadística de prueba

Razón de la Varianza: F = R.V.

El gerente de una empresa industrial quiere determinar si tres programas de formación

ANALISIS DE REGRESION: VARIABLES

El estudio de análisis de regresión lineal y regresión múltiple es el de obtener una

VARIABLES IMAGINARIAS O FICTICIAS

Se pueden encontrar muchas variables que pueden modificar el valor de la variable

Cuando la variable tiene K categorías es necesario definir K – 1 variables imaginarias,

Observación Gasto (Y) Renta (X1) Sexo

los valores de p para ambos casos 0.000 y 0.000

La recta tiene una ordenada en el origen 12.21 y la pendiente de 0.791 X1

Los residuos deben de tener distribución normal.

GRAFICO PROBABILIDATICA NORMAL

Es un gráfico X-Y de los residuos frente a los percentiles de la distribución normal La

1. Ordenar los residuos de menor a mayor  (1) ,   ( 2) ,  . . .   ( n )

En el proceso de estimación se ha supuesto que los distintos tratamientos tienen la

RESIDUOS - VALORES PREVISTOS

En este modelo los valores previstos corresponden a la media del tratamiento

RESIDUOS POR TRATAMIENTOS

S-ar putea să vă placă și