Sunteți pe pagina 1din 8

Práctica 8.

Análisis de la varianza 1

Práctica 8

ANÁLISIS DE LA VARIANZA

Objetivos:

En esta práctica utilizaremos el paquete SPSS para ilustrar el procedimiento ANOVA


para comparar las medias de dos o más muestras.

Índice:
1. ANOVA de un factor
2. Contraste no paramétrico de Kruskal-Wallis
3. Ejercicios complementarios

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 8. Análisis de la varianza 2

1. ANOVA de un factor.

En este apartado consideraremos la comparación de las medias de dos o más


poblaciones en base a dos o más muestras independientes. Por ejemplo, supongamos
que queremos establecer si existen diferencias entre los niveles medios del ph en las tres
provincias de la Comunidad Valenciana (los datos se encuentran en el archivo
AMBIENTE).

Para poder efectuar el procedimiento ANOVA de un factor, SPSS necesita una columna
en el editor de datos que contenga los valores de la variable cuyas medias en las k
poblaciones se desea comparar, y otra que indique la población o grupo a que pertenece
cada caso. Al seleccionar Analizar/Comparar medias/ANOVA de un factor aparece
la ventana siguiente:

en la que colocaremos la variable ph en dependientes y la variable provin como


factor. Los valores de la variable de factor deben ser enteros y la variable dependiente
debe ser cuantitativa.

En Opciones podemos pedirle al SPSS ciertos estadísticos descriptivos para cada grupo
(número de casos, media, desviación típica, error típico de la media, mínimo, máximo,
intervalo de confianza al 95% para la media) así como un gráfico de las medias de cada
grupo. (Recuerda que con Gráficos/Barras de error puedes obtener un gráfico de los
intervalos de confianza para la media de cada grupo).

El procedimiento ANOVA de un factor requiere que cada grupo sea una muestra
aleatoria independiente procedente de una población normal. El análisis de varianza es
robusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos
(Recuerda que puedes utilizar Gráficos/Diagramas de caja para comprobar
visualmente esta propiedad). Así mismo, los grupos deben proceder de poblaciones con
varianzas iguales. Para contrastar este supuesto, podemos pedir con el botón Opciones
la prueba de Levene de homogeneidad de varianzas.

En el caso que estamos considerando, la prueba de Levene tiene un p-valor de 0.813,


por lo que podemos considerar las varianzas iguales

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 8. Análisis de la varianza 3

Prueba de homogeneidad de varianzas

PH
Estadístico
de Levene gl1 gl2 Sig.
,207 2 297 ,813

El procedimiento proporciona la tabla ANOVA que aparece a continuación:

ANOVA

PH
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos ,319 2 ,160 ,544 ,581
Intra-grupos 87,051 297 ,293
Total 87,370 299

Como el p-valor obtenido es 0.581, no rechazamos la igualdad de medias de la variable


ph en las tres provincias.

Cuando se concluye que existen diferencias entre las medias, las pruebas de rango post
hoc permiten determinar qué medias difieren. La prueba de rango post hoc Student-
Newman-Keuls (pulsa el botón Post Hoc, selecciona S-N-K y especifica el nivel de
significatividad) identifica subconjuntos homogéneos de medias que no se diferencian
entre si. En la tabla de resultados de la prueba S-N-K aparecen en cada columna los
grupos homogéneos. En el caso que estamos estudiando, al no haber rechazado la
hipótesis nula de igualdad de medias, las tres medias se encuentran en el mismo
subconjunto, por lo que hay una sola columna en el apartado de Subconjuntos.

PH
a
Student-Newman-Keuls
Subconju
nto para
alfa = .05
Provincia N 1
VALENCIA 100 5,894974
ALICANTE 100 5,905580
CASTELLON 100 5,968839
Sig. ,599
Se muestran las medias para los grupos
en los subconjuntos homogéneos.
a. Usa el tamaño muestral de la
media armónica = 100,000.

Ejercicio 1:

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 8. Análisis de la varianza 4

Una cierta planta ha sido cultivada con cinco fertilizantes distintos. Se desea estudiar si
el tipo de fertilizante influye en la longitud de la planta, para lo cual se han medido las
longitudes de cinco series de 10 plantas, obteniéndose para cada serie los resultados que
aparecen en el fichero fertilizante. ¿Influye el fertilizante en la longitud de las plantas ?,
o dicho de otra manera, ¿hay evidencia estadística suficiente para afirmar que las
medias son diferentes ?. De ser así, ¿existen tipos de fertilizante que no se diferencien
entre si?

2. Contraste no paramétrico de Kruskal-Wallis


El contraste no paramétrico de Kruskal-Wallis se utiliza para determinar si varias
muestras independientes proceden de la misma población. Vamos a estudiar su
funcionamiento sobre los resultados de un experimento para determinar el efecto de la
hemodiálisis sobre el tamaño del hígado en el que tenemos tres grupos de individuos:
control, pacientes no dializados y pacientes dializados, y la variable de interés es el área
del hígado.

Al seleccionar Analizar / Pruebas no paramétricas / K muestras independientes,


introducir la variable area en Contrastar variables y la variable grupo en Variable
de agrupación y seleccionar H de Kruskal-Wallis en la pantalla siguiente:

Cuando introducimos grupo en el campo Variable de agrupación, aparecen dos


interrogantes (??). Esto permite definir el rango de las categorías de la variable de
agrupación que van a ser consideradas en el contraste. Para definir el rango, hay que
pulsar el botón Definir rangos e introducir valores enteros para el máximo y el mínimo
que se correspondan con las categorías mayor y menor de la variable de agrupación que
se quieran considerar. Se excluyen los casos con valores fuera de los límites. Por
ejemplo, si se indica un valor mínimo de 1 y un valor máximo de 3, únicamente se
utilizarán los grupos (muestras) correspondientes a los valores enteros entre 1 y 3. Se
deben indicar ambos valores y el valor mínimo ha ser menor que el máximo.

El resultado del test aparece en los dos cuadros siguientes. En el primero aparecen los
rangos promedios de las muestras. En el segundo aparece el p-valor, en este caso 0.001.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 8. Análisis de la varianza 5

Rangos

Rango
GRUPO N promedio
AREA Control 7 7,71
Paciente no dializado 7 7,86
Paciente dializado 10 19,10
Total 24

Estadísticos de contrastea,b

AREA
Chi-cuadrado 14,936
gl 2
Sig. asintót. ,001
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: GRUPO

Con el botón Opciones se puede elegir uno o los dos conjuntos de estadísticos de
resumen siguientes: Descriptivos (Muestra la media, la desviación típica, el mínimo, el
máximo y el número de casos no perdidos) y Cuartiles (Muestra los valores
correspondientes a los percentiles 25, 50 y 75).

3. Ejercicios complementarios

1. ( Fichero soja )
Una planta fisiológica investigó el efecto del estrés mecánico en las plantas de soja.
Se repartieron aleatoriamente semillas plantadas en tiestos individuales, en cuatro
grupos de tratamiento con 13 semillas cada uno.
Las semillas de dos grupos fueron “estresadas” mediante 20 minutos de sacudidas
dos veces al día, mientras que dos grupos de control fueron no estresados. Además, las
plantas crecieron tanto con luz baja como con luz moderada. De esta manera, los
tratamientos fueron cuatro:
Tratamiento 1: luz baja, control
Tratamiento 2: luz baja, stress
Tratamiento 3: luz moderada, control
Tratamiento 4: luz moderada, stress
Después de 16 días de crecimiento, se cosecharon las plantas y se midió el área total
de las hojas de cada planta. Los resultados obtenidos para cada tratamiento fueron:
Trat. 1 Trat. 2 Trat. 3 Trat.4
264 235 314 283
200 188 320 312
225 195 320 291
268 205 340 259
215 212 299 216
241 214 268 201

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 8. Análisis de la varianza 6

232 182 345 267


256 215 271 326
229 272 285 241
288 163 309 291
252 230 337 269
288 255 282 282
230 202 273 257
Analizar los datos obtenidos mediante la comparación de las medias de los cuatro
tratamientos. ¿Hay evidencia estadística suficiente para afirmar que las medias son
diferentes ?. En caso afirmativo, indica si hay tratamientos que no pueden ser
diferenciados entre sí.
Calcular un intervalo de confianza al 95% para las medias de los cuatro grupos, ¿son
muy diferentes ? Obtener las gráficas de dichos intervalos.

2. ( Fichero iris )
Las longitudes de los sépalos de tres especies de flores del género Iris son (datos de
R.A. Fisher):
Iris setosa Iris Versicolor Iris Virginica
5.1 7.0 6.3
4.9 6.4 5.8
4.7 6.9 7.1
4.6 5.5 6.3
5.0 6.5 6.5
5.4 5.7 7.6
4.6 6.3 4.9
5.0 4.9 7.3
4.4 6.6 6.7
4.9 5.2 7.2
5.4 5.0 6.5
4.8 5.9 6.4
4.8 6.0 6.8
4.3 6.1 5.7
5.8 5.8 5.8
Estudiar si existen diferencias entre las tres especies respecto a la longitud de los
sépalos, es decir ¿hay evidencia estadística suficiente para afirmar que las medias son
diferentes ?. ¿Existe alguna especie que se diferencie significativamente de las otras?.
Calcular un intervalo de confianza al 95% para las medias de los tres grupos, ¿son
muy diferentes ? Obtener las gráficas de dichos intervalos.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 8. Análisis de la varianza 7

3. ( Fichero plomo )
Las glándulas nasales supraorbitales tienen una importante función en las aves
marinas. Ayudan a excretar cloruro de sodio cuando las condiciones del medio fuerzan
al ave a consumir más sal de lo normal. Se realizó un estudio para determinar el papel
de estas glándulas en la excreción de plomo, un contaminante común del medio.
Se estudian tres grupos de ánades: ánades con alimentación normal, grupo I; ánades
alimentados a la fuerza con una dosis de plomo comercial de perdigones, grupo II; y
ánades alimentados con perdigones de plomo y CaNa2EDTA, grupo III. Se obtuvieron
los siguientes datos sobre la concentración de plomo (en microgramos de plomo por
gramo de tejido) en las glándulas nasales:
I II III
1.4 11.1 5.0
1.0 10.3 8.2
0.9 10.2 4.9
0.7 9.7 3.2
0.5 7.7 4.4
1.2 10.1 3.1
3.4 11.6 5.1
1.3 13.3 2.9
A la vista de los datos, ¿puede afirmarse que hay diferencias significativas en la
concentración media de plomo entre los tres grupos?. ¿Existe alguna pareja de grupos
que sea indistinguible?.

4.
La deficiencia de vitamina A es un conocido problema de salud pública. Se ha
demostrado que añadiendo vegetales de hoja verde a la dieta, se obtiene un aumento de
las concentraciones en suero sanguíneo de vitamina A Se realiza un estudio para
determinar si se obtiene algún beneficio por añadir grasa a la dieta. Un grupo de 30
niños, con similares concentraciones de vitamina A en suero, se divide aleatoriamente
en tres subgrupos. Cada subgrupo recibe diariamente 40 gr. de espinacas, pero el
contenido en grasa varía. Al final del experimento se obtienen los siguientes datos sobre
la concentración en suero de vitamina A:

I II III
(sin grasa) (+5 gr. de grasa) (+10 gr. de grasa)
_____________________________________________
18.1 29.1 26.6
16.5 15.8 16.1
21.0 20.4 18.8
18.7 23.5 25.0
7.4 18.5 21.8
12.4 21.3 15.4
16.1 23.1 19.9
17.9 23.8 15.5
20.1 21.1
11.9 25.5

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 8. Análisis de la varianza 8

Utilizar un test no paramétrico para contrastar la hipótesis de que el contenido de grasa


en la dieta no tiene efecto sobre la concentración de vitamina A en suero al nivel α=0.1.

Ejercicio 5.
La ureasa es una enzima conocida por producir amoniaco en el tracto
gastrointestinal. Se sabe que el amoniaco es nocivo para los pacientes con enfermedades
de hígado. Se realiza un estudio para comparar la concentración de ureasa en los jugos
gástricos de cinco poblaciones: I, controles normales; II, pacientes con obstrucción
extrahepática de la vena porta; III, pacientes con tumores amíbicos de hígado; IV,
pacientes con hepatitis vírica; y V, pacientes con hipertensión idiopática de la vena
porta. Se obtienen los siguientes datos (en mg./mil.):
I II III IV V
261.1 221.9 201.4 600.9 160.6
186.2 188.7 146.1 301.2 135.0
239.1 167.6 96.8 607.9 455.1
243.3 224.9 173.9 283.3 402.3
296.8 178.8 280.8 193.3 457.9
270.5 147.9 100.3 159.4 559.6
_______________________________________________________

Basándose en los datos y en el test de Kruskal-Wallis, ¿se puede pretender al nivel


α=0.05 que estas poblaciones difieren con respecto a la concentración gástrica de
ureasa?

Ejercicio 6.
Se realiza un estudio del contenido de azufre en cinco de los principales yacimientos
de carbón de Texas. Se toman muestras aleatoriamente de cada uno de los yacimientos y
se analizan. Los datos del porcentaje de azufre aparecen en la tabla. Supuestas
normalidades y varianzas iguales, contrastar la igualdad de medias. ¿Qué conclusiones
pueden extraerse de estos datos?.
1 2 3 4 5
1.51 1.69 1.56 1.30 0.73
1.92 0.64 1.22 0.75 0.80
1.08 0.90 1.32 1.26 0.90
2.04 1.41 1.39 0.69 1.24
2.14 1.01 1.33 0.62 0.82
1.76 0.84 1.54 0.90 0.72
1.17 1.28 1.04 1.20 0.57
1.59 2.25 0.32 1.18
1.49 0.54
1.30

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

S-ar putea să vă placă și