Documente Academic
Documente Profesional
Documente Cultură
Resumen
1. Mientras que la enseñanza de la estadística para los ecologistas, los principales autores de este trabajo han notado problemas estadísticos
comunes. Si se seleccionó una muestra aleatoria de su trabajo (incluyendo la Ciencia papeles) producido antes de hacer estos cursos, la mitad
probablemente contienen violaciónes de los supuestos subyacentes de las técnicas estadísticas empleadas.
2. Algunos violaciónes tienen poco impacto en los resultados o conclusiones ecológicos; sin embargo, otros aumentan tipo I o tipo II errores,
potencialmente resultando en conclusiones erróneas ecológicos. La mayoría de estas violaciónes se pueden evitar mediante la aplicación de una
mejor exploración de datos. Estos problemas son especialmente problemáticos en ecología aplicada, donde la gestión y las decisiones políticas son
a menudo en juego.
3. A continuación, ofrecemos un protocolo para la exploración de datos; discutir las herramientas actuales para detectar valores atípicos, la heterogeneidad
de la varianza, colinealidad, la dependencia de las observaciones, los problemas con las interacciones, ceros dobles en el análisis multivariante, la inflación
cero en el modelado lineal generalizado, y el tipo correcto de las relaciones entre las variables dependientes e independientes; y proporcionar consejos
sobre cómo hacer frente a estos problemas que puedan surgir. Nosotros también abordan conceptos erróneos acerca de la normalidad, y brindar
4. evita la exploración de datos tipo I y tipo II errores, entre otros problemas, lo que reduce la posibilidad de llegar a conclusiones
equivocadas ecológicos y recomendaciones pobres. Por tanto, es esencial para una buena qualitymanagement y política basada en
los análisis estadísticos.
Palabras-clave: colinealidad, la exploración de datos, independencia, transformaciones, tipo I y II errores, cero inflación
Las últimas tres décadas se ha producido una enorme expansión de las determinar los resultados y conclusiones fi nales. La heterogeneidad (di ff erences en
herramientas estadísticas disponibles a los ecologistas aplicadas. Una lista corta variación) puede provocar serios problemas en la regresión y análisis de modelos de
de las técnicas disponibles incluye regresión lineal, lineal generalizado de varianza (Fox 2008), y con ciertos métodos multivariantes lineal (Huberty
incluyendo: técnicas más estadísticos basados en la normalidad son robustos frente violación;
Con esta gran cantidad de peligros potenciales, asegurando que el científico no descubre para grandes conjuntos de datos la teoría del límite central implica normalidad aproximada;
una falsa covariable e ff ect (error tipo I), erróneamente despedir un modelo con una para muestras pequeñas el poder de las pruebas es baja; y para grandes conjuntos de datos
covariable en particular (error tipo II) o producen resultados determinados por sólo unos pocos de las pruebas son sensibles a las desviaciones pequeñas (contradiciendo la teoría del límite
en las observaciones influyentes, requiere que exploración de datos detallada ser aplicado central).
protocolo para la exploración de datos que identi fi ca problemas potenciales (Fig. 1). En Todos los gráficos se produjeron utilizando el paquete de software R (R
nuestra experiencia, la exploración de datos puede tomar hasta un 50% del tiempo empleado Development Core Equipo 2008). Todo el código R y los datos utilizados en este
//www.highstat.com.
a priori basado en la comprensión biológica de los investigadores del sistema (Burnham En algunas técnicas estadísticas los resultados están dominados por los valores
y Anderson, 2002). Cuando esa comprensión es muy limitada, la exploración de datos extremos; otras técnicas de los tratan como cualquier otro valor. Por ejemplo, los valores
se puede utilizar como un ejercicio de generación de hipótesis, pero esto es atípicos pueden causar sobredispersión en un GLM Poisson o GLM binomial cuando el
fundamentalmente diferente del proceso que propugnamos en este documento. El uso resultado no es binaria (Hilbe
de los aspectos de una exploración de datos para buscar patrones ( 'dragado de datos') 2007). Por el contrario, en NMDS utilizando el índice de Jaccard (Legendre y Legendre,
puede proporcionar una guía para el trabajo futuro, pero los resultados deben tomarse 1998), las observaciones están esencialmente vistas como presencias y ausencias, por
con mucha cautela y las inferencias acerca de la población más amplia evitado. En lo tanto, una de las demás no lo hace influir en el resultado del análisis de ninguna
cambio, los nuevos datos se deben recoger en base a las hipótesis generadas y las manera especial. En consecuencia, es importante que el investigador entiende cómo una
pruebas independientes realizadas. Cuando la exploración de datos se utiliza de esta técnica particular responde a la presencia de valores atípicos. Por el momento, definimos
manera, tanto el proceso utilizado, y las limitaciones de cualquier inferencias deben ser un valor atípico como una observación que tiene un valor relativamente grande o
A lo largo del trabajo se centrará en el uso de herramientas gráficas (Chat en Una herramienta gráfica que se utiliza normalmente para la detección de valores
campo 1998; Gelman, Pasarica y Dodhia 2002), pero en algunos casos también es atípicos es el diagrama de caja. Se visualiza themedian y la difusión de los datos.
posible aplicar pruebas de normalidad o la homogeneidad. La literatura estadística, Dependiendo del software utilizado, la mediana se presenta típicamente como una línea
sin embargo, advierte contra ciertas pruebas y aboga por herramientas gráficas horizontal con los 25% y 75% cuartiles que forman un cuadro alrededor de la mediana
(Montgomery y Peck 1992; Draper y Smith 1998, Quinn y Keough 2002). que contiene medio de las observaciones. Las líneas se dibujan de las cajas, y cualquier
2009 los autores. compilación de la revista 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3-14
exploración de datos 5
puntos más allá de estas líneas se etiquetan como valores atípicos. Algunos oportunidad, pero ninguno fue. (Ejercicio Auseful es generar, repetidamente, un
investigadores habitualmente (pero erróneamente) eliminar estas observaciones. número equivalente de observaciones al azar de una distribución apropiada, por
Figura 2a muestra un ejemplo de gráfico de un ejemplo utilizando 1295 observaciones ejemplo la distribución Normal, y determinar cómo el número de puntos extremos se
de una variable morfométrico (longitud de las alas de la marisma gorrión caudacutus compara con los datos empíricos.) Cuando la explicación más probable es que las
Ammodramus; Gjerdrum, Elphick y Rubega 2008). Los cables gráfico a creer (tal vez observaciones extremas son los errores de medición (observador), que deben ser
erróneamente, como veremos en un momento) que hay siete valores atípicos. dejados porque su presencia es probable que dominan el análisis. Por ejemplo, se
las observaciones diferían entre los observadores, y se encontró que los dos primeros
Otro, herramienta gráfica muy útil, pero muy descuidado a los valores atípicos Visualizar ejes se determinaron principalmente por los valores atípicos.
este modo información mucho más detallada de un diagrama de caja. Puntos que Hasta el momento, tenemos vagamente de fi ne un 'valor atípico' como una observación
sobresalen en el lado derecho o en el lado de la izquierda, son los valores observados que que sobresale del resto. Un enfoque más riguroso es considerar si las observaciones
son considerablemente más grande, o menor, que la mayoría de las observaciones, y inusuales ejercen influencia indebida en un análisis (por ejemplo, en los parámetros
requieren investigación adicional. Si existen tales observaciones, es importante comprobar estimados). Hacemos una distinción entre las observaciones influyentes en la variable de
los datos en bruto de errores y evaluar si los valores observados son razonables. La figura respuesta y en las covariables. Un ejemplo de esto último es cuando la abundancia de
2B muestra un dotplot Cleveland para los datos de la longitud del ala gorrión; nota que las especies se modelan como una función de la temperatura, con casi todos los valores de
observaciones identificados por el diagrama de caja no son en particular la extrema temperatura entre 15 y 20 C, pero una de 25 C. En general, esto no es un ideal de diseño de
después de todo. La tendencia 'hacia arriba' en la Fig. 2b simplemente surge porque los muestreo debido a que el rango de 20-25 C se muestrea de manera inadecuada. En un
datos en la hoja de cálculo se clasificaron en peso. Hay una observación de una longitud de estudio de campo, sin embargo, puede haber habido una sola oportunidad de probar la
ala de aproximadamente 68 mm que sobresale hacia la izquierda a mitad de camino hasta temperatura más alta. Con una muestra de gran tamaño, tales observaciones pueden ser
el gráfico. Este valor no es considerablemente más grande que los otros valores, sowe no dejados, pero con pequeños conjuntos de datos relativos la consiguiente reducción de
se puede decir sin embargo, que es un valor atípico. tamaño de la muestra pueden ser indeseables, especialmente si otras observaciones tienen
variables morfométricas medidos; en cuenta que algunas variables tienen unos valores
relativamente grandes. Tales valores extremos podrían indicar verdaderos errores de En las técnicas de tipo de regresión, los valores extremos en las variables de respuesta
medición (por ejemplo, algunos fi t las características de 'observador distracción' sensu Morgan son más complicadas de tratar. La transformación de los datos es una opción, pero como
2004, mediante el cual el ojo del observador se señala a un número equivocado en una la variable de respuesta es de interés primordial, es mejor elegir un método estadístico que
escala de medición). Tenga en cuenta que no se debe tratar de argumentar que tales valores utiliza una distribución de probabilidad que permite una mayor variación para grandes
grandes podrían haber ocurrido por casualidad. Si así fuera, entonces los valores intermedios valores medios (por ejemplo, gamma para los datos continuos; Poisson o binomial
deberían también se han generado por negativa para contar los datos), porque haciendo esto nos permite
(un) (si)
65
Wing length (mm)
55 60 sesenta y cinco
Figura 2. ( a) Diagrama de caja de la longitud del ala para 1295 gorriones marisma. La línea en el medio de la caja representa la mediana, y los extremos inferior y superior de la caja son el 25% y el 75% cuartiles
respectivamente. Las líneas indican 1,5 veces el tamaño de la bisagra, que es el 75% menos 25% cuartiles. (Tenga en cuenta que el intervalo definido por estas líneas no es un intervalo de confianza.) Puntos
más allá de estas líneas son (oftenwrongly) considera que los valores atípicos. En algunos casos, puede ser útil para hacer girar el diagrama de caja 90 para que coincida con el diagrama de puntos de Cleveland.
(B) Cleveland gráfica de puntos de los mismos datos. El eje horizontal representa el valor de la longitud del ala, y el eje corresponde verticales a la orden de los datos, como importada desde los datos fi l (en este
caso ordenadas por el peso del ave).
2009 los autores. compilación de la revista 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3-14
6 AF Zuur et al.
Valor de la variable
trabajo con los datos originales. Para los análisis multivariados, este enfoque no es una colinegras nian ( Limosa haemastica), una larga distancia ave costera migratoria, en un
opción debido a que estos métodos no se basan en distribuciones de probabilidad. En fl barro en Argentina (E. Ieno, datos no publicados). Para aplicar un ANOVA de estos
lugar de ello, podemos utilizar una medida di ff Erent de asociación. Por ejemplo, la datos a prueba si las tasas medias de admisión di ff er por sexo, período de tiempo o
distancia euclidiana es bastante sensible a los valores grandes, ya que se basa en el una combinación de estas dos variables (es decir, una interacción), tenemos que
teorema de Pitágoras, mientras que la distancia de cuerda hacia abajo-pesos valores asumir que (i) la variación en las observaciones de los sexos es similar; (Ii) la variación
grandes (Legendre y Legendre, 1998). en las observaciones de los tres períodos de tiempo es similar; y (iii) variación entre
los tres períodos de tiempo dentro de los sexos es similar. En este caso, parece que
Algunos paquetes estadísticos vienen con toda una serie de herramientas de hay un poco menos variación en los datos de invierno para los hombres andmore
diagnóstico para identificar en las observaciones influyentes. Por ejemplo, la estadística de variación en los datos masculinos del verano. Sin embargo, estos pequeños erences
Cook en la regresión lineal (Fox 2008) da información sobre el cambio de los parámetros de di ff en la variación no son algo de qué preocuparse. Los ejemplos más graves de
regresión, ya que cada observación es secuencial, y de forma individual, se omite. El violación se pueden encontrar en Zuur et al. ( 2009a). Fox (2008) muestra que para un
problema con este tipo de herramientas es que cuando hay múltiples valores atípicos '' con simple heterogeneidad regressionmodel lineal degrada seriamente los estimadores de
valores similares, que no serán detectados. Por lo tanto, se debe investigar la presencia de mínimos cuadrados cuando la relación entre el mayor y el menor varianza es 4
tales observaciones utilizando las herramientas gráficas discutidos en este documento, (conservador) o más.
En última instancia, es hasta el ecologista para decidir qué hacer con los valores En los modelos de tipo de regresión, la verificación de la homogeneidad se debe hacer
atípicos. Los valores atípicos en una covariable pueden surgir debido a un mal diseño uso de los residuos del modelo; es decir, mediante el trazado de los residuos frente a los
experimental, en cuyo caso, dejando caer la observación o la transformación de la valores de fi TTED, y haciendo un conjunto similar de boxplots condicionales para los
covarianza son opciones sensatas. Observador y los errores de medición son una residuos. En todos estos gráficos la variación residual debe ser similar. La solución a la
justificación válida para dejar caer observaciones. Sin embargo, los valores extremos heterogeneidad de la varianza es o bien una transformación de la variable de respuesta
de la variable de respuesta pueden requerir una re fi enfoque más definido, sobre todo para estabilizar la varianza, o la aplicación de técnicas estadísticas que no requieren
cuando representan la variación real de la variable que se está midiendo. Tomando homogeneidad (por ejemplo, mínimos cuadrados generalizados; Pinheiro y Bates 2000;
campo o experimento notas detalladas puede ser especialmente útil para documentar Zuur et al. 2009a).
2009 los autores. compilación de la revista 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3-14
exploración de datos 7
Hembra Masculino
·0
0·81
Intake rate
40·6
interesados en saber si los valores medios cambian entre los sexos y 0·00
ni fi separación grupo no puede en un análisis discriminante, sin embargo, la normalidad de como di ff erences entre los meses puede hacerse más pequeño y más di fi culto a
observaciones de una variable en particular dentro de cada grupo es importante (Huberty, detectar.
1994). Sencillo t- pruebas también suponen que las observaciones en cada grupo están
distribuidos normalmente; por lo tanto, histogramas de los datos en bruto de cada grupo
Paso 4: ¿Hay un montón de ceros en los datos?
deben ser examinados.
En la regresión lineal, que en realidad suponemos normalidad de todas las abundancia de aves acuáticas en inundado campos de arroz. Un análisis estadístico
observaciones replicadas en un valor covariable en particular (Fig 6;. Montgomery y Peck posible es tomodel el número de aves como una función del tiempo, la profundidad del
1992), la suposición de que no puede ser veri fi a menos que uno tiene muchas agua, granja, método fi gestión de campo, la temperatura, etc. Debido a que este
repeticiones en cada valor de covarianza muestreado. Sin embargo, la normalidad de los análisis implica el modelado de un recuento, GLM es el análisis apropiado. Figura 7
datos en bruto implica normalidad de los residuos. Por lo tanto, podemos hacer muestra un gráfico que ilustra la frecuencia de la frecuencia se produjo cada valor de
histogramas de los residuos para obtener una impresión de normalidad (Quinn y Keough abundancia total de aves acuáticas. El extremadamente alto número de ceros nos dice
2002; Zuur et al. 2007), a pesar de que no podemos probar completamente el supuesto. que no debemos aplicar un GLM binomial de Poisson ordinaria o negativo ya que
puede ser más complicada de lo que parece. La forma del histograma en la Fig. 5a,
por ejemplo, indica la asimetría, lo que puede sugerir a uno que es necesaria et al. 2009a).
transformación de datos. La figura 5b muestra un histograma de paneles múltiples También se puede analizar los datos para múltiples especies simultáneamente
para la misma variable, excepto que los datos se representan gráficamente por mes; utilizando técnicas multivariantes. Para este tipo de análisis, debemos tener en cuenta lo
esto nos deja ver que la asimetría del histograma original es probablemente causado que significa cuando dos especies son conjuntamente ausente. Este resultado podría
por los cambios de peso gorrión lo largo del tiempo. En estas circunstancias, no sería decir algo importante sobre las características ecológicas de un lugar, por ejemplo, que
aconsejable para transformar los datos contiene las condiciones que son desfavorables para ambas especies. Por extensión,
(un) (si)
100
80
August
60
150
40
20
0
100
100
Frequency
Frequency
July
80
100
que la distribución está sesgada. (B) histogramas para el
80
peso de los gorriones, desglosadas por mes. Nota que el 60
June
0
40
centro de la distribución se está desplazando, y esto está
20
14 16 18 20 22 24 26 28
causando la sesgada distribuidos para los datos agregados 0
Peso (gramos)
que se muestran en (a). 15 20 25
Peso (gramos)
2009 los autores. compilación de la revista 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3-14
8 AF Zuur et al.
RBGU
LESA
Response variable
DUNL
SNIP
LBDO
Grye
LBCU
MATANZA
GREG
SNEG
GBHE
AMBI
covariable FOCHA
UDONU
homogeneidad. Los puntos representan los valores observados y se añade una línea de regresión. NOPI
A cada valor de covarianza, se supone que las observaciones se distribuyen normalmente con la
AMWI
GWTE
misma extensión (homogeneidad). La normalidad y la homogeneidad en cada valor covariable no
GADW
pueden ser veri fi a menos que muchos (> 25) réplicas por valor de covarianza se toman, que es
MALL
raramente el caso en los estudios ecológicos. En la práctica, un histograma de los residuos
combinados se debe hacer, pero esto no proporciona pruebas concluyentes de la normalidad. Las
GADW
GWTE
GREG
NOSH
UNDU
COOT
RBGU
GBHE
SNEG
GRYE
MALL
AMWI
LBDO
DUNL
LBCU
LESA
NOPI
AMBI
SNIP
mismas limitaciones se mantiene si los residuos se trazan los valores fi tted vs. para verificar la
KILL
homogeneidad.
La Fig. 8. A corrgram que muestra la frecuencia con la que los pares de especies de aves
acuáticas ambos tienen abundancia cero. El color y la cantidad que un círculo ha sido llenada
corresponden a la proporción de observaciones con ceros dobles. El funcionamiento diagonal
desde la parte inferior izquierda a la superior derecha representa el porcentaje de observaciones
de una variable igual a cero. siglas de cuatro letras representan di ff Erent especies de aves
acuáticas. La barra superior se refiere a los colores en el gráfico a la proporción de ceros.
0 100 200 300 400 500 600 700
Frequency
responden a especies que tienen más del 80% de sus observaciones en forma conjunta
ecológico de los hábitats es a menudo bastante di ff Erent (por ejemplo Elphick y Oring
La Fig. 7. parcela de frecuencia que muestra el número de observaciones con un cierto número de aves
1998). análisis multivariados alternativos que ignoran dobles ceros se discuten en
acuáticas para los datos de campo de arroz; 718 de 2035 observaciones son iguales a cero. trazado de
Legendre y Legendre (1998) andZuur et al. ( 2007).
datos para especies individuales daría lugar a frecuencias aún más altas de ceros.
los sitios son ecológicamente similares. Por otro lado, si una especie tiene una distribución
muy agrupada, o es simplemente raro, entonces ausencias conjuntas podrían surgir a través Si la pregunta subyacente en un estudio es el que covariables están impulsando la
del azar y no decir nada acerca de la idoneidad de un determinado sitio para una especie, la variable respuesta (s), entonces el mayor problema a superar es a menudo
similitud entre las necesidades de hábitat de las especies o la similitud ecológicas de los colinealidad. Colinealidad es la existencia de correlación entre covariables. Ejemplos
sitios. Una alta frecuencia de ceros, por lo tanto, puede interpretación enormemente comunes son covariables como el peso y la longitud o la profundidad del agua y la
complicada de tales análisis. Independientemente de nuestra actitud frente a las ausencias distancia a la costa. Si se ignora la colinealidad, uno es probable que terminar con
conjuntas, necesitamos saber si hay ceros dobles en los datos. Esto significa que para cada un análisis estadístico confuso en el que nada es significativo, pero donde dejar caer
especie de par, tenemos que calcular la frecuencia con la que ambos tenían abundancia cero una covariable puede hacer que signi fi cante los demás, o incluso cambiar el signo
para la misma observación (por ejemplo, sitio). Nos puede presentar esta información en una de los parámetros estimados. El e ff ect de colinealidad se ilustra en el contexto de
tabla, o utilizar herramientas gráficas avanzadas como un corrgram (Figura 8;. Sarkar 2008). regresión lineal múltiple, pero existen problemas similares en el análisis de la
En nuestro ejemplo de las aves acuáticas, la frecuencia de ceros dobles es muy alta. Todos varianza, mezclado e ff modelos ECTS, RDA, CCA, GLMs o GAMs. La Tabla 1 da
los círculos azules Cor- los resultados de amultiple lineales inwhich regresión
2009 los autores. compilación de la revista 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3-14
Data exploration 9
el número de ammodramus caudacutus capturados en una parcela estudio se modela 10, pero un enfoque más riguroso es utilizar valores tan bajos como 3 como lo
como una función de las covariables que describen la abundancia relativa de diversas hicimos aquí. Alta, o incluso moderada, colinealidad es especialmente problemático
especies de plantas (para más detalles, ver Gjerdrum, Elphick y Rubega 2005; Gjerdrum cuando las señales son débiles ecológicos. En ese caso, incluso un VIF de 2 puede
et al. 2008). La segunda columna de la tabla da la estima PAG- valores de la t- estadísticas causar estimaciones de parámetros nonsigni fi cativos, en comparación con la
para cada parámetro de regresión cuando todas las covariables se incluyen en el situación sin colinealidad. Después de este proceso causó tres variables a análisis
modelo. Tenga en cuenta que sólo una covariable, que para la portada por ciento de la fromour caído: el alto Spartina alterni fl ora, y los de altura de la planta y la densidad
fiebre Juncus gerardii, es débilmente significativo al nivel del 5%. de tallos. Con el problema de colinealidad retira, el
Juncus variable se muestra para ser altamente significativo (Tabla 1). dejando caer
En la regresión lineal, una expresión para las varianzas de los parámetros si j está secuencialmente más términos fi cativos nonsigni uno a la vez da un modelo con sólo el Juncus
dada por (Draper y Smith 1998; Fox 2008): y las variables de arbustos, pero con poco más cambios en PAG- valores, que muestran
las variables colineales cómo caen pueden tener un mayor impacto en PAG- Los valores
r2
Diferencia re si j Þ ¼ 1 que dejar caer nonsigni fi cante covariables.
1 R2j re norte 1 Þ S 2 j
El termino S j depende de los valores de covarianza, norte es el tamaño de la muestra y Otras formas de detectar la colinealidad incluyen diagramas de dispersión por pares
r 2 es la varianza de los residuos, pero estos términos no son relevantes para la que comparan covariables, coe fi cientes de correlación coe o un biplots PCA (ff e Jolli
discusión actual (y por lo tanto su formulación matemática no se da aquí). Es la 2002) aplicado en todas las covariables. Colinealidad también se puede esperar si se
expresión primera que es importante. El termino R j 2 es el R 2 de un regressionmodel utilizan las variables temporales (por ejemplo, mes, año) o espaciales (por ejemplo,
lineal en el que covariable X j se utiliza como variable de respuesta, y todas las otras latitud, longitud) junto con covariables como la temperatura, la precipitación, etc. Por lo
covariables como variables explicativas. Un alto R 2 en tales medios un modelo que la tanto, siempre se debe trazar todas las covariables contra covariables temporales y
mayor parte de la variación en la covariable X j espaciales. La forma más fácil de resolver colinealidad es dejando caer covariables
colineales. La elección de qué covariables a gota se puede basar en las IVFs, o tal vez
se explica por todas las otras variables, lo que significa que hay colinealidad. El mejor, en el sentido común o conocimiento biológico. Una consideración alternativa,
precio que uno paga por esta situación es que los errores estándar de los parámetros especialmente cuando se llevará a cabo los trabajos futuros sobre el tema, es lo fácil
se infla con la raíz cuadrada de 1 / ( 1) R j 2), también llamado factor de la varianza en la covariables alternativa son tomeasure en términos de e ff ORT y cost.Whenever dos
in fl ación (VIF), que el whichmeans PAG- Los valores quedan largermaking itmore di covariables X y Z son colineales, y Z se utiliza en el análisis estadístico, a continuación, la
fi culto para detectar un e ff ect. Este fenómeno se ilustra en la Tabla 1; la tercera discusión biológico en el que el e ff ect de Z se explica debería incluir la mención de la
columna de la tabla da los valores VIF para todas las covariables y muestra que hay colinealidad, y reconocer que bien podría ser X que está impulsando el sistema (cf.
un alto nivel de colinealidad. Una estrategia para abordar este problema es dejar caer Gjerdrum et al. 2008). Para una discusión de colinealidad en combinación con los
secuencialmente la covariable con la más alta VIF, volver a calcular los IVFs y repetir errores de medición en las covariables, véase Carroll et al. ( 2006).
este proceso hasta que todos los IVFs son más pequeños que un umbral
preseleccionado. Montgomery y Peck (1992) utilizaron un valor de
Tabla 1. PAG- valores de la t- estadística para tres modelos de regresión lineal y la varianza en valores de factor de fl ación (VIF) para el modelo completo. En el modelo completo, el número de
gorriones bandas, que es una medida de las aves howmany estaban presentes, se modela como una función de las covariables enumerados en la fi columna primero. En la segunda y tercera
columnas, la PAG- los valores y los valores VIF para el modelo completo se presentan (nota que hay variables se han eliminado aún). En la cuarta columna PAG- values are presented for the model
after collinearity has been removed by sequentially deleting each variable for which the VIF value was highest until all remaining VIFs were below 3. In the last column, only variables with
significant P- values remain, giving the most parsimonious explanation for the number of sparrows in a plot
Covariate P- value (full model) VIF P- value (collinearity removed) P- value (reduced model)
2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14
10 A. F. Zuur et al.
shows a multi-panel scatterplot (also called a pair plot) for the 1295 saltmarsh
Step 6: What are the relationships between Y and X variables?
sparrows for which we have morphological data. Any observation that sticks out
from the black cloud needs further investigation; these may be different species,
Another essential part of data exploration, especially in univariate analysis, is measurement errors, typing mistakes or they may be correct values after all.
plotting the response variable vs. each covariate (Fig. 9). Note that the variable Note that the large wing length observation that we picked up with the Cleveland
for the per cent of tall sedge in a plot (%Tall sedge) should be dropped from any dotplot in Fig. 2b has average values for all other variables, suggesting that it is
analysis as it has only one non-zero value. This result shows that the boxplots indeed something that should be checked. The lower panels in Fig. 10 contain
and Cleveland dotplots should not only be applied on the response variable but Pearson correlation coefficients, which can be influenced by outliers meaning
also on covariates (i.e. we should not have calculated theVIFs with%Tall sedge that outliers can even contribute to collinearity.
included in the previous section). There are no clear patterns in Fig. 9 between
the response and explanatory variables, except perhaps for the amount of Juncus
( see also Table 1). Note that the absence of clear patterns does not mean that
there are no relationships; it just means that there are no clear two-way
relationships. A model with multiple explanatory variables may still provide a
Step 7: Should we consider interactions?
good fit.
Staying with the sparrow morphometric data, suppose that one asks whether the
relationship between wing length and weight changes over the months and
differs between sexes. A common approach to this analysis is to apply a linear
Besides visualizing relationships between variables, scatterplots are also regression model in which weight is the response variable and wing length
useful to detect observations that do not comply with the general pattern (continuous), sex (categorical) and month (categorical)
between two variables. Figure 10
0 2 4 6 8 10 12 20 40 60 80
% Tall sedge % Water % Spartina alterniflora (short) % Spartina alterniflora (tall)
50
40
30
20
10
0
Banded
0 5 10 15 0 5 10 15 20 0 20 40 60 0 20 40 60 80 100
% Distichlis % Bare ground % Other vegetation % Phragmites australis
50
40
30
20
010
0 10 20 30 40 50 0 5 10 15 20 0 2 4 6 8 10 12 0 5 10
% Juncus gerardii % Shrub Height of thatch % Spartina patens
50
40
30
20 Fig. 9. Multi-panel scatterplots between the number of
10
0 banded sparrows and each covariate. A LOESS smoother
0 10 20 30 40 0 2 4 6 8 30 40 50 60 0 20 40 60 80
was added to aid visual interpretation.
Covariates
20 24 28 32 10 12 14 16 10 15 20 25
55 65
Wing chord
20 26 32
0·5
55 60 65 25 30 35 6 8 12 16
2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14
Data exploration 11
Given : month
Sep
Aug
Jul
Jun
May
52 56 60 52 56 60 52 56 60
24
Female
16 18 20 22
Weight (g)
Given : sex
Fig. 11. Coplot for the sparrow data. The lower left panel
shows a scatterplot between wing length and weight for
16 18 20 22 24
Male
males in May, and the upper right panel for females in
September. On each panel, a bivariate linear regression
model was fitted to aid visual interpretation.
52 56 60 52 56 60
are covariates. Results showed that the three-way interaction is significant, elling any spatial or temporal relationships, or by nesting data in a hierarchical
indicating that the relationship between weight and wing length is indeed structure (e.g. nestlings could be nested within nests). Testing for independence,
changing over the months and between sexes. However, there is a problemwith however, is not always easy. In Zuur et al. ( 2009a) a large number of data sets
this analysis. Figure 11 shows the data in a coplot, which is an excellent were analysed in which dependence among observations played a role.
graphical tool to visualize the potential presence of interactions. The graph Examples include the amount of bioluminescence at sites along an oceanic
contains multiple scatterplots of wing length and weight; one for eachmonth and depth gradient, nitrogen isotope ratios in whale teeth as a function of age,
sex combination. Abivariate linear regression line is added to each scatterplot; if pHvalues in Irish rivers, the number of amphibians killed by cars at various
all lines are parallel, then there is probably no significant interaction (although locations along a road, feeding behaviour of different godwits on a beach, the
only the regression analysis can tell us whether this is indeed the case). In our number of disease-causing spores affecting larval honey bees frommultiple hives
example, lines have different slopes, indicating the potential presence of and the number of calls from owl chicks upon arrival of a parent. Another
interactions. In some months, however, the number of observations is very small, commonly encountered situation where non-independence must be addressed is
and there are no data at all frommales in September. A sensible approach would when there is phylogenetic structure (i.e. dependence due to shared ancestry)
be to repeat the analysis for only the June–August period. within a data set.
2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14
12 A. F. Zuur et al.
(a) (b)
C. fuscicollis ACF
C. fuscicollis abundance
400 800
ACF
– 0·4 0·2 0·8
0
5 10 15 20 25 0 2 4 6 8 10 12 Lag
Time (2 weeks)
Fig. 12. ( a) Number of Calidris fuscicollis
(c) (d)
plotted vs. time (1 unit = 2 weeks). (b) Auto-correlation
function for the C. fuscicollis time series showing a
L. dominicanus ACF
significant correlation at time lags of 2 and 4 weeks (1 time
lag = 2 weeks). (c) Number of Larus dominicanus vs. time.
L. dominicanus abundance
5 10 15 20 25 0 2 4 6 8 10 12 Lag
Time (2 weeks)
Hence, it is important to check whether there is dependence in the raw data they are particularly relevant when results are to be used to guide management
before doing the analysis, and also the residuals afterwards. These checks can decisions or public policy because of the repercussions of making a mistake.
be made by plotting the response variable vs. time or spatial coordinates. Any Increasing attention has been paid in recent years to the body of data supporting
clear pattern is a sign of dependence. This approach is more difficult if there is particular management practices (Roberts, Stewart & Pullin 2006; Pullin & Knight
no clear sequence to the observations (e.g. multiple observations on the same 2009), and applied ecologists have become increasingly sophisticated in the
object), but in this case one can include a dependence structure using random statistical methods that they use (e.g. Ellison 2004; Stephens et al. 2005;
effects (Pinheiro & Bates 2000; Fitzmaurice et al. 2004; Brown & Prescott 2006; Robinson & Hamann 2008; Koper & Manseau 2009; Law et al. 2009;
Zuur Sonderegger et al. 2009). But more fundamental questions about the
appropriateness of the underlying data for a given analysis can be just as
et al. 2009a). Figure 12a,c shows a short time series illustrating the observed important to ensuring that the best policies are derived fromecological studies.
abundance of two bird species on a mudflat in Argentina over a 52 week period
(E. Ieno, unpublished data). The first time series shows high numbers of
white-rumped sandpipers Calidris fuscicollis during the first 20 weeks, followed
by zeros (because the species migrates), and then an abundance increase again In this paper, we have discussed a series of pitfalls that can seriously
after 38 weeks. The second time series does not show a clear pattern in the influence the results of an analysis. Some of these problems are well known,
abundance of kelp gulls ( Larus dominicanus). some less so, but even the wellknown assumptions continue to be violated
frequently in the ecological literature. In all cases, the problems can lead to
statistical models that are wrong. Such problems can be avoided only by
A more formal way to assess the presence of temporal dependence is to plot applying a systematic data exploration before embarking on the analysis (Fig. 1).
auto-correlation functions (ACF) for regularly spaced time series, or variograms
for irregularly spaced time series and spatial data (Schabenberger & Pierce
Although we have presented our protocol as a linear sequence, it should be
2002). An ACF calculates the Pearson correlation between a time series and the used flexibly. Not every data set requires each step. For example, some
same time series shifted by k time units. Figures 12b,d show the auto-correlation statistical techniques do not require normality (e.g. PCA), and therefore there is
of the time series in panels (a) and (c). Panel (b) shows a significant no point in making histograms. The best order to apply the steps may also
correlationwith a time lag of k = 1 and k = 2. This means that abundances at time t depend on the specific data set. And for some techniques, assumptions can be
depend on abundances at time t ) 1 and t ) 2, and any of the methods mentioned verified only by applying data explorations steps after the analysis has
above could be applied. For the L. dominicanus time series, there is no beenperformed. For example, in linear regression, normality and homogeneity
significant autocorrelation. should be verified using the residuals produced by the model. Rather than
simplistically following through the protocol, ticking off each point inorder,
wewould encourage users to treat it as a series of questions to be asked of the
data. Once satisfied that each issue has been adequately addressed in a way
that makes biological sense, the data set shouldbe ready for themain analysis.
Discussion
All of the problems described in this paper, and the strategies to address them,
apply throughout ecological research, but
2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14
Data exploration 13
Ecological field data tend to be noisy, field conditions unpredictable and prior Acknowledgements
knowledge often limited. In the applied realm, changes in funding, policy, and
We thank Anatoly Saveliev, and two anonymous reviewers for comments on an earlier draft.
research priorities further complicate matters. This situation is especially so for
long-term studies, where the initial goals often change with circumstances (e.g.
the use of many data sets to examine species responses to climate change). For
References
all these reasons, the idealized situation whereby an ecologist carefully designs
their analysis a priori and then collects data may be compromised or irrelevant. Brockwell, P.J. & Davis, R.A. (2002) Introduction to Time Series and Forecast-
ing, 2nd edn. Springer-Verlag, NewYork. Brown, H. & Prescott, R. (2006) Applied Mixed Models in
Having the analytical flexibility to adjust one’s analyses to such circumstance is
Medicine, 2nd edn.
an important skill for an applied ecologist, but it requires a thorough JohnWiley and Sons, NewYork. Burnham, K.P. & Anderson, D.R. (2002) Model Selection and
CambridgeUniversity Press, Cambridge, UK. Carroll, R.J., Ruppert, D., Stefanski, L.A. & Crainiceanu,
C.M. (2006)
Measurement Error in Nonlinear Models: A Modern Perspective, 2nd edn. Chapman&Hall, Boca Raton,
When problems arise, the best solutions vary. Frequently, however, FL. Chatfield, C. (1998) Problem Solving: A Statistician’s Guide. Chapman & Hall,
ecologists simply transform data to avoid assumption violations. There are three
Boca Raton, FL. Cleveland,W.S. (1993) VisualizingData. Hobart Press, Summit, NJ. Draper, N.R. &
main reasons for a transformation; to reduce the effect of outliers (especially in
Smith, H. (1998) Applied Regression Analysis, 3rd edn. John
covariates), to stabilize the variance and to linearize relationships. However,
using more advanced techniques like GLS and GAMs, heterogeneity and Wiley and Sons, NewYork. Ellison, A.M. (2004) Bayesian inference in ecology. Ecology Letters, 7, 509–
conclusions about long-term trends compared to an appropriate analysis using fields for waterbirds. Journal of Applied Ecology, 35, 95–108. Elphick, C.S. & Oring, L.W. (2003)
Conservation implications of flooding rice
untransformed data; hence it may be best to avoid transforming response
fields on winter waterbird communities. Agriculture, Ecosystems and Environment, 94, 17–29.
variables. If a transformation is used, automatic selection tools such as Mosteller Fitzmaurice, G.M., Laird, N.M. & Ware, J.H. (2004) Applied Longitudinal
and Tukey’s bulging rule (Mosteller & Tukey 1977) should be used with great
Analysis. JohnWiley &Sons, Hoboken, NJ. Fox, J. (2008) Applied Regression Analysis and Generalized
caution because these methods ignore the effects of covariates. Another
Linear Models, 2nd
argument against transformations is the need to subsequently back-transform edn. Sage Publications, CA.
values to make predictions; it may not always be clear how to do this and still be Gelman, A., Pasarica, C. & Dodhia, R. (2002) Let’s practice what we preach:
turning tables into graphs in statistic research. The American Statistician, 56,
able to interpret results on the original scale of the response variable. It is also
121–130.
important to ensure that the transformation actually solves the problem at hand; Gjerdrum, C., Elphick, C.S. & Rubega, M. (2005) What determines nest site
even commonly recommended transformations do not always work. The bottom selection and nesting success in saltmarsh breeding sparrows? Condor, 107,
849–862.
line is that the choice of a specific transformation is a matter of trial and error.
Gjerdrum, C., Elphick, C.S. & Rubega, M.A. (2008) How well can we model
numbers and productivity of saltmarsh sharp-tailed sparrows ( Ammodramus caudacutus) using habitat
features? Auk, 125, 608–617. Harvey, A.C. (1989) Forecasting, Structural Time SeriesModels and the
Kalman
Filter. CambridgeUniversity Press, Cambridge, UK. Hilbe, J.M. (2007) Negative Binomial Regression. Cambridge
University Press,
Cambridge, UK. Hurlbert, S.H. (1984) Pseudoreplication and the design of ecological field
experiments. EcologicalMonographs, 54, 187–211. Jolliffe, I.T. (2002) Principal ComponentAnalysis, 2ndedn.
It is a given fact that data exploration should not be used to define the Springer,NewYork. Koper, N. &Manseau, M. (2009) Generalized estimating equations and gener-
questions that a study sets out to test. Every step of the exploration should be
alized linear mixed-effects models for modelling resources selection. Journal of Applied Ecology, 46, 590–599.
reported, and any outlier removed should be justified and mentioned. Reasons
for data transformations need to be justified based on the exploratory analysis La¨ a¨ ra¨ , E. (2009) Statistics: reasoning on uncertainty, and the insignificance of
(e.g. evidence that model assumptions were violated and that the transformation testing null. Annales Zoologici Fennici, 46, 138–157. Law, R., Illian, J., Burslem, D.F.R.P., Gratzer, G.,
Gunatilleke, C.V.S. &
rectified the situation).
Gunatilleke, I.A.U.N. (2009) Ecological information fromspatial patterns of plants: insights frompoint
process theory. Journal of Ecology, 97, 616–628. Legendre, P. & Legendre, L. (1998) Numerical Ecology. Second
set to test the hypotheses. Such a process, however, is only practical for larger Regression Techniques, 2nd edn.
Sage Publications Inc, ThousandOaks ⁄ Newbury Park, CA. Pinheiro, J. & Bates, D. (2000) Mixed
data sets. Regardless of the specific situation, the routine use and transparent
Effects Models in S and S-Plus. Springer-
reporting of systematic data exploration would improve the quality of ecological Verlag, NewYork.
research and any applied recommendations that it produces. Pullin, A.S. & Knight, T.M. (2009) Doing more good than harm – building an
evidence-based for conservation and environmental management. Biological Conservation, 142, 931–934.
2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14
14 A. F. Zuur et al.
Quinn, G.P. &Keough, M.J. (2002) Experimental Design and Data Analysis for N.J., Saveliev, A.A. & Smith, G. (2009a) Mixed Effects Models and Extensions in Ecology with R. Springer,
Biologists. CambridgeUniversity Press, Cambridge, UK. R Development Core Team (2009) R: A NewYork. Zuur, A.F., Ieno, E.N. & Smith, G.M. (2007) Analysing Ecological Data.
Language and Environment for
Statistical Computing. R Foundation for Statistical Computing, Vienna. ISBN3-900051-07-0. URL Springer, NewYork. Zuur, A.F., Ieno, E.N. &Meesters, E.H.W.G. (2009b) ABeginner’s Guide to R.
http://www.R-project.org.
Roberts, P.D., Stewart, G.B. & Pullin, A.S. (2006) Are review articles a Springer, NewYork.
reliable source of evidence to support conservation and environmental management? A comparison
with medicine. Biological Conservation, 132, Received 13August 2009; accepted 8 October 2009 Handling
409–423. Editor: Robert P. Frecklenton
Robinson, A.P. & Hamann, J.D. (2008) Correcting for spatial autocorre-
lation in sequential sampling. Journal of Applied Ecology, 45, 1221–
1227.
Supporting Information
Sarkar, D. (2008) Lattice: Multivariate Data Visualization with R. Springer,
NewYork. Additional Supporting Information may be found in the online version of this article:
Schabenberger, O. & Pierce, F.J. (2002) Contemporary Statistical Models for
the Plant and Soil Sciences. CRCPress, BocaRaton, FL. Sonderegger, D.L., Wang, H., Clements, W.H.
& Noon, B.R. (2009) Using
SiZer to detect thresholds in ecological data. Frontiers in Ecology and the Environment, 7, 190–195. Appendix S1. Data sets andR code used for analysis.
Stephens, P.A., Buskirk, S.W., Hayward, G.D. & Martı´ nez del Rio, C. (2005)
As a service to our authors and readers, this journal provides support ing information
Information theory and hypothesis testing: a call for pluralism. Journal of Applied Ecology, 42, 4–12.
supplied by the authors. Such materials may be re-organized for online delivery, but are not
ter Braak, C.J.F. & Verdonschot, P.F.M. (1995) Canonical correspondence copy-edited or typeset. Technical support issues arising from supporting information (other
analysis and related multivariate methods in aquatic ecology. Aquatic Science, 57, 225–289. Wood, S.N. thanmissing files) should be addressed to the authors.
(2006) Generalized Additive Models. An Introdcution with R.
Chapman Hall ⁄ CRC, Boca Raton, FL. Zuur, A.F., Ieno, E.N., Walker,
2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14