Sunteți pe pagina 1din 12

Methods in Ecology and Evolution 2010, 1, 3-14 doi: 10.1111 / j.2041-210X.2009.00001.

Un protocolo para la exploración de datos para evitar problemas estadísticos


comunes

Alain F. Zuur * 1,2, Elena N. Ieno 1,2 y Chris S. Elphick 3


1 Highland Estadísticas Ltd, Newburgh, Reino Unido; 2 Oceanlab, Universidad de Aberdeen, Newburgh, Reino Unido; y 3 Departamento de Ecología y Biología

Evolutiva y el Centro de Biología de la Conservación, Universidad de Connecticut, Storrs, CT, EE.UU.

Resumen

1. Mientras que la enseñanza de la estadística para los ecologistas, los principales autores de este trabajo han notado problemas estadísticos

comunes. Si se seleccionó una muestra aleatoria de su trabajo (incluyendo la Ciencia papeles) producido antes de hacer estos cursos, la mitad

probablemente contienen violaciónes de los supuestos subyacentes de las técnicas estadísticas empleadas.

2. Algunos violaciónes tienen poco impacto en los resultados o conclusiones ecológicos; sin embargo, otros aumentan tipo I o tipo II errores,

potencialmente resultando en conclusiones erróneas ecológicos. La mayoría de estas violaciónes se pueden evitar mediante la aplicación de una

mejor exploración de datos. Estos problemas son especialmente problemáticos en ecología aplicada, donde la gestión y las decisiones políticas son

a menudo en juego.

3. A continuación, ofrecemos un protocolo para la exploración de datos; discutir las herramientas actuales para detectar valores atípicos, la heterogeneidad

de la varianza, colinealidad, la dependencia de las observaciones, los problemas con las interacciones, ceros dobles en el análisis multivariante, la inflación

cero en el modelado lineal generalizado, y el tipo correcto de las relaciones entre las variables dependientes e independientes; y proporcionar consejos

sobre cómo hacer frente a estos problemas que puedan surgir. Nosotros también abordan conceptos erróneos acerca de la normalidad, y brindar

asesoramiento sobre las transformaciones de datos.

4. evita la exploración de datos tipo I y tipo II errores, entre otros problemas, lo que reduce la posibilidad de llegar a conclusiones
equivocadas ecológicos y recomendaciones pobres. Por tanto, es esencial para una buena qualitymanagement y política basada en
los análisis estadísticos.

Palabras-clave: colinealidad, la exploración de datos, independencia, transformaciones, tipo I y II errores, cero inflación

Todas las técnicas estadísticas tienen en común el problema de la 'basura adentro,


Introducción
hacia fuera basura'. En algunos métodos, por ejemplo, un solo valor atípico puede

Las últimas tres décadas se ha producido una enorme expansión de las determinar los resultados y conclusiones fi nales. La heterogeneidad (di ff erences en

herramientas estadísticas disponibles a los ecologistas aplicadas. Una lista corta variación) puede provocar serios problemas en la regresión y análisis de modelos de

de las técnicas disponibles incluye regresión lineal, lineal generalizado de varianza (Fox 2008), y con ciertos métodos multivariantes lineal (Huberty

modelado (mixto), aditivo generalizado de modelado (mixto), la regresión y los


árboles de clasi fi cación, análisis de supervivencia, redes neuronales, análisis 1994).
multivariante con todos sus muchos métodos tales como el análisis de Cuando la pregunta subyacente es determinar que covariables están
componentes principales (PCA) , análisis de correspondencia canónica (CCA), impulsando un sistema, entonces el aspecto dif'ıcil mayoría de los análisis es
(no) métrica escalamiento multidimensional (CMBD), varias series de tiempo y probablemente cómo tratar con la colinealidad (correlación entre covariables), que
las técnicas espaciales, etc. Aunque algunas de estas técnicas han existido aumenta errores de tipo II (es decir, falta de rechazar la hipótesis nula cuando es
desde hace algún tiempo, el desarrollo de ordenadores rápidos y software de falso). En el análisis multivariante aplicado a los datos en las comunidades
libre disposición, tales como R (R Development Core Equipo 2009) hace que ecológicas, la presencia de ceros dobles (por ejemplo, dos especies que se están
sea posible aplicar rutinariamente sofisticadas técnicas estadísticas en cualquier conjuntamente ausente en diferentes lugares) contribuye a la similitud en algunas
tipo de datos. En este documento no se trata de estos métodos. técnicas (por ejemplo, PCA), pero no otros. Sin embargo, otras técnicas
multivariables son sensibles a especies con distribuciones agrupadas y baja
abundancia (por ejemplo, CCA). En las técnicas de análisis univariante como
modelos lineales generalizados (GLM) para datos de recuento, cero in fl ación de
la variable de respuesta puede causar estimaciones de los parámetros sesgados
(Cameron y Trivedi 1998). PAG- valores, por ejem-

* Autor de correspondencia. E-mail: highstat@highstat.com Correspondencia sitio:


http://www.respond2articles.com/MEE/

2009 los autores. compilación de la revista 2009 British Ecological Society


4 AF Zuur et al.

PLE en CCA y análisis de redundancia (RDA, ter Braak y Verdonschot 1995), o


la prueba de Mantel (Legendre y Legendre
1998), la correlación temporal o espacial entre las observaciones pueden aumentar los

errores de tipo I (rechazar la hipótesis nula cuando es verdadera).

Lo mismo es con técnicas de tipo de regresión aplicado en observaciones


correlacionados temporal o espacialmente. Uno de los más utilizados, y mal,
técnicas es sin duda de regresión lineal. A menudo, esta técnica está asociado
con patrones lineales y normalidad; Ambos conceptos están a menudo mal
entendido. Linear regresión ismore que capaz de relaciones no lineales fi tting, por
ejemplo, mediante el uso de interacciones o términos cuadráticos (Montgomery y
Peck 1992). El término 'lineal' en la regresión lineal se refiere a la forma en
parámetros se utilizan en el modelo y no al tipo de relaciones que se modela.
Saber si tenemos patrones lineales o no lineales entre la respuesta y las variables
explicativas es crucial para howwe aplican regresión lineal y técnicas
relacionadas. También necesitamos knowwhether los datos están equilibradas
antes de incluir interacciones. Por ejemplo, Zuur, Ieno y Smith (2007) utilizaron el
covariables sexo, la ubicación y el mes para modelar el índice gonadosomático (el
peso de las gónadas en relación con el peso corporal total) de calamar. Sin
embargo, ambos sexos no se midieron en todos los puntos en cada mes debido al
muestreo desequilibrada. De hecho, los datos eran tan desequilibrada que tenía
más sentido para analizar sólo un subconjunto de los datos, y abstenerse de
Figura 1. Protocolo para la exploración de datos.
incluir ciertas interacciones.

LA Un RA (2009) da siete razones para no aplicar pruebas preliminares para la normalidad,

incluyendo: técnicas más estadísticos basados ​en la normalidad son robustos frente violación;

Con esta gran cantidad de peligros potenciales, asegurando que el científico no descubre para grandes conjuntos de datos la teoría del límite central implica normalidad aproximada;

una falsa covariable e ff ect (error tipo I), erróneamente despedir un modelo con una para muestras pequeñas el poder de las pruebas es baja; y para grandes conjuntos de datos

covariable en particular (error tipo II) o producen resultados determinados por sólo unos pocos de las pruebas son sensibles a las desviaciones pequeñas (contradiciendo la teoría del límite

en las observaciones influyentes, requiere que exploración de datos detallada ser aplicado central).

antes de cualquier análisis estadístico. El objetivo de este documento es proporcionar un

protocolo para la exploración de datos que identi fi ca problemas potenciales (Fig. 1). En Todos los gráficos se produjeron utilizando el paquete de software R (R

nuestra experiencia, la exploración de datos puede tomar hasta un 50% del tiempo empleado Development Core Equipo 2008). Todo el código R y los datos utilizados en este

en el análisis. documento están disponibles en el Apéndice S1 (información de apoyo) y fromhttp:

//www.highstat.com.

Aunque la exploración de datos es una parte importante de cualquier análisis, es

importante que sea claramente separada pruebas fromhypothesis. se deben tomar


Paso 1: ¿Hay valores atípicos en Y y X?
decisiones acerca de qué modelos de prueba

a priori basado en la comprensión biológica de los investigadores del sistema (Burnham En algunas técnicas estadísticas los resultados están dominados por los valores

y Anderson, 2002). Cuando esa comprensión es muy limitada, la exploración de datos extremos; otras técnicas de los tratan como cualquier otro valor. Por ejemplo, los valores

se puede utilizar como un ejercicio de generación de hipótesis, pero esto es atípicos pueden causar sobredispersión en un GLM Poisson o GLM binomial cuando el

fundamentalmente diferente del proceso que propugnamos en este documento. El uso resultado no es binaria (Hilbe

de los aspectos de una exploración de datos para buscar patrones ( 'dragado de datos') 2007). Por el contrario, en NMDS utilizando el índice de Jaccard (Legendre y Legendre,

puede proporcionar una guía para el trabajo futuro, pero los resultados deben tomarse 1998), las observaciones están esencialmente vistas como presencias y ausencias, por

con mucha cautela y las inferencias acerca de la población más amplia evitado. En lo tanto, una de las demás no lo hace influir en el resultado del análisis de ninguna

cambio, los nuevos datos se deben recoger en base a las hipótesis generadas y las manera especial. En consecuencia, es importante que el investigador entiende cómo una

pruebas independientes realizadas. Cuando la exploración de datos se utiliza de esta técnica particular responde a la presencia de valores atípicos. Por el momento, definimos

manera, tanto el proceso utilizado, y las limitaciones de cualquier inferencias deben ser un valor atípico como una observación que tiene un valor relativamente grande o

claramente. pequeña en comparación con la mayoría de las observaciones.

A lo largo del trabajo se centrará en el uso de herramientas gráficas (Chat en Una herramienta gráfica que se utiliza normalmente para la detección de valores

campo 1998; Gelman, Pasarica y Dodhia 2002), pero en algunos casos también es atípicos es el diagrama de caja. Se visualiza themedian y la difusión de los datos.

posible aplicar pruebas de normalidad o la homogeneidad. La literatura estadística, Dependiendo del software utilizado, la mediana se presenta típicamente como una línea

sin embargo, advierte contra ciertas pruebas y aboga por herramientas gráficas horizontal con los 25% y 75% cuartiles que forman un cuadro alrededor de la mediana

(Montgomery y Peck 1992; Draper y Smith 1998, Quinn y Keough 2002). que contiene medio de las observaciones. Las líneas se dibujan de las cajas, y cualquier

2009 los autores. compilación de la revista 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3-14
exploración de datos 5

puntos más allá de estas líneas se etiquetan como valores atípicos. Algunos oportunidad, pero ninguno fue. (Ejercicio Auseful es generar, repetidamente, un

investigadores habitualmente (pero erróneamente) eliminar estas observaciones. número equivalente de observaciones al azar de una distribución apropiada, por

Figura 2a muestra un ejemplo de gráfico de un ejemplo utilizando 1295 observaciones ejemplo la distribución Normal, y determinar cómo el número de puntos extremos se

de una variable morfométrico (longitud de las alas de la marisma gorrión caudacutus compara con los datos empíricos.) Cuando la explicación más probable es que las

Ammodramus; Gjerdrum, Elphick y Rubega 2008). Los cables gráfico a creer (tal vez observaciones extremas son los errores de medición (observador), que deben ser

erróneamente, como veremos en un momento) que hay siete valores atípicos. dejados porque su presencia es probable que dominan el análisis. Por ejemplo, se

aplicó un análisis discriminante en el conjunto de datos gorrión completa para ver si

las observaciones diferían entre los observadores, y se encontró que los dos primeros

Otro, herramienta gráfica muy útil, pero muy descuidado a los valores atípicos Visualizar ejes se determinaron principalmente por los valores atípicos.

es la gráfica de puntos Cleveland (Cleveland 1993). Este es un gráfico en el que el número

de fila de una observación se representa frente al valor de observación, proporcionando de

este modo información mucho más detallada de un diagrama de caja. Puntos que Hasta el momento, tenemos vagamente de fi ne un 'valor atípico' como una observación

sobresalen en el lado derecho o en el lado de la izquierda, son los valores observados que que sobresale del resto. Un enfoque más riguroso es considerar si las observaciones

son considerablemente más grande, o menor, que la mayoría de las observaciones, y inusuales ejercen influencia indebida en un análisis (por ejemplo, en los parámetros

requieren investigación adicional. Si existen tales observaciones, es importante comprobar estimados). Hacemos una distinción entre las observaciones influyentes en la variable de

los datos en bruto de errores y evaluar si los valores observados son razonables. La figura respuesta y en las covariables. Un ejemplo de esto último es cuando la abundancia de

2B muestra un dotplot Cleveland para los datos de la longitud del ala gorrión; nota que las especies se modelan como una función de la temperatura, con casi todos los valores de

observaciones identificados por el diagrama de caja no son en particular la extrema temperatura entre 15 y 20 C, pero una de 25 C. En general, esto no es un ideal de diseño de

después de todo. La tendencia 'hacia arriba' en la Fig. 2b simplemente surge porque los muestreo debido a que el rango de 20-25 C se muestrea de manera inadecuada. En un

datos en la hoja de cálculo se clasificaron en peso. Hay una observación de una longitud de estudio de campo, sin embargo, puede haber habido una sola oportunidad de probar la

ala de aproximadamente 68 mm que sobresale hacia la izquierda a mitad de camino hasta temperatura más alta. Con una muestra de gran tamaño, tales observaciones pueden ser

el gráfico. Este valor no es considerablemente más grande que los otros valores, sowe no dejados, pero con pequeños conjuntos de datos relativos la consiguiente reducción de

se puede decir sin embargo, que es un valor atípico. tamaño de la muestra pueden ser indeseables, especialmente si otras observaciones tienen

valores atípicos para otras variables explicativas. Si la omisión de tales observaciones no es

una opción, y luego considerar la transformación de las variables explicativas.

La figura 3 muestra un multi-panel de Cleveland gráfica de puntos para todas las

variables morfométricas medidos; en cuenta que algunas variables tienen unos valores

relativamente grandes. Tales valores extremos podrían indicar verdaderos errores de En las técnicas de tipo de regresión, los valores extremos en las variables de respuesta

medición (por ejemplo, algunos fi t las características de 'observador distracción' sensu Morgan son más complicadas de tratar. La transformación de los datos es una opción, pero como

2004, mediante el cual el ojo del observador se señala a un número equivocado en una la variable de respuesta es de interés primordial, es mejor elegir un método estadístico que

escala de medición). Tenga en cuenta que no se debe tratar de argumentar que tales valores utiliza una distribución de probabilidad que permite una mayor variación para grandes

grandes podrían haber ocurrido por casualidad. Si así fuera, entonces los valores intermedios valores medios (por ejemplo, gamma para los datos continuos; Poisson o binomial

deberían también se han generado por negativa para contar los datos), porque haciendo esto nos permite

(un) (si)
65
Wing length (mm)

Order of the data


60
55

55 60 sesenta y cinco

La longitud del ala (mm)

Figura 2. ( a) Diagrama de caja de la longitud del ala para 1295 gorriones marisma. La línea en el medio de la caja representa la mediana, y los extremos inferior y superior de la caja son el 25% y el 75% cuartiles
respectivamente. Las líneas indican 1,5 veces el tamaño de la bisagra, que es el 75% menos 25% cuartiles. (Tenga en cuenta que el intervalo definido por estas líneas no es un intervalo de confianza.) Puntos
más allá de estas líneas son (oftenwrongly) considera que los valores atípicos. En algunos casos, puede ser útil para hacer girar el diagrama de caja 90 para que coincida con el diagrama de puntos de Cleveland.
(B) Cleveland gráfica de puntos de los mismos datos. El eje horizontal representa el valor de la longitud del ala, y el eje corresponde verticales a la orden de los datos, como importada desde los datos fi l (en este
caso ordenadas por el peso del ave).

2009 los autores. compilación de la revista 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3-14
6 AF Zuur et al.

longitud del culmen Nalospi a la punta del pico Peso


Order of the data from text file

Fig. 3. Multi-panel de Cleveland gráfica de puntos para seis variables


La longitud del ala longitud del tarso longitud de la cabeza
morfométricas tomadas de los datos Sparrow, después de la

clasificación de las observaciones del más pesado al más ligero (por lo

tanto la forma de la gráfica de peso). etiquetas de los ejes fueron

suprimidos para mejorar la presentación visual. Tenga en cuenta que

algunas variables tienen unos valores inusualmente pequeños o

grandes. Las observaciones también se pueden representar, o valores

medios superponen, por subgrupo (por ejemplo, observador o el sexo)

para ver si hay diferencias entre los subconjuntos de los datos.

Valor de la variable

trabajo con los datos originales. Para los análisis multivariados, este enfoque no es una colinegras nian ( Limosa haemastica), una larga distancia ave costera migratoria, en un

opción debido a que estos métodos no se basan en distribuciones de probabilidad. En fl barro en Argentina (E. Ieno, datos no publicados). Para aplicar un ANOVA de estos

lugar de ello, podemos utilizar una medida di ff Erent de asociación. Por ejemplo, la datos a prueba si las tasas medias de admisión di ff er por sexo, período de tiempo o

distancia euclidiana es bastante sensible a los valores grandes, ya que se basa en el una combinación de estas dos variables (es decir, una interacción), tenemos que

teorema de Pitágoras, mientras que la distancia de cuerda hacia abajo-pesos valores asumir que (i) la variación en las observaciones de los sexos es similar; (Ii) la variación

grandes (Legendre y Legendre, 1998). en las observaciones de los tres períodos de tiempo es similar; y (iii) variación entre

los tres períodos de tiempo dentro de los sexos es similar. En este caso, parece que

Algunos paquetes estadísticos vienen con toda una serie de herramientas de hay un poco menos variación en los datos de invierno para los hombres andmore

diagnóstico para identificar en las observaciones influyentes. Por ejemplo, la estadística de variación en los datos masculinos del verano. Sin embargo, estos pequeños erences

Cook en la regresión lineal (Fox 2008) da información sobre el cambio de los parámetros de di ff en la variación no son algo de qué preocuparse. Los ejemplos más graves de

regresión, ya que cada observación es secuencial, y de forma individual, se omite. El violación se pueden encontrar en Zuur et al. ( 2009a). Fox (2008) muestra que para un

problema con este tipo de herramientas es que cuando hay múltiples valores atípicos '' con simple heterogeneidad regressionmodel lineal degrada seriamente los estimadores de

valores similares, que no serán detectados. Por lo tanto, se debe investigar la presencia de mínimos cuadrados cuando la relación entre el mayor y el menor varianza es 4

tales observaciones utilizando las herramientas gráficas discutidos en este documento, (conservador) o más.

antes de la aplicación de un análisis estadístico.

En última instancia, es hasta el ecologista para decidir qué hacer con los valores En los modelos de tipo de regresión, la verificación de la homogeneidad se debe hacer

atípicos. Los valores atípicos en una covariable pueden surgir debido a un mal diseño uso de los residuos del modelo; es decir, mediante el trazado de los residuos frente a los

experimental, en cuyo caso, dejando caer la observación o la transformación de la valores de fi TTED, y haciendo un conjunto similar de boxplots condicionales para los

covarianza son opciones sensatas. Observador y los errores de medición son una residuos. En todos estos gráficos la variación residual debe ser similar. La solución a la

justificación válida para dejar caer observaciones. Sin embargo, los valores extremos heterogeneidad de la varianza es o bien una transformación de la variable de respuesta

de la variable de respuesta pueden requerir una re fi enfoque más definido, sobre todo para estabilizar la varianza, o la aplicación de técnicas estadísticas que no requieren

cuando representan la variación real de la variable que se está midiendo. Tomando homogeneidad (por ejemplo, mínimos cuadrados generalizados; Pinheiro y Bates 2000;

campo o experimento notas detalladas puede ser especialmente útil para documentar Zuur et al. 2009a).

cuando se producen eventos inusuales, y por lo tanto proporcionar información

objetiva con la que volver a examinar los valores atípicos. Independientemente de

cómo se abordó la cuestión, es importante saber si hay valores atípicos y al informe de


Paso 3: ¿Son los datos de una distribución normal?
la forma en que se manejaron; la exploración de datos permite que esto se haga.

Diversas técnicas estadísticas asumen normalidad, y esto ha llevado a muchos de


nuestros participantes en el curso de postgrado a histograma producto después de
histograma de sus datos (por ejemplo, la Fig. 5A). Es importante, sin embargo, para
saber si la técnica estadística que se utilizarán hace suponer la normalidad,
andwhat exactamente se supone que se distribuye normalmente? Por ejemplo, un
Paso 2: ¿Tenemos la homogeneidad de la varianza?
PCA no requiere la normalidad (Jolli ff e 2002). La regresión lineal hace suponer la
La homogeneidad de la varianza es una suposición importante en el análisis de la varianza normalidad, pero es razonablemente robusto frente a violación de la hipótesis
(ANOVA), otros modelos relacionados de regresión y en técnicas multivariantes como el (Fitzmaurice, Laird y Ware 2004). Si desea aplicar una prueba estadística para
análisis discriminante. La figura 4 muestra Diagramas de caja condicionales de las tasas de determinar si hay sig-
consumo de alimentos de Hudso-

2009 los autores. compilación de la revista 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3-14
exploración de datos 7

Hembra Masculino

·0

0·81

Intake rate
40·6

La Fig. 4. Múltiples paneles gráficos de caja condicionales para la


·2·0
búsqueda de alimento godwit datos. Los tres diagramas de caja en

cada corresponden panel de a tres períodos de tiempo. Estamos

interesados ​en saber si los valores medios cambian entre los sexos y 0·00

períodos de tiempo, pero necesidad de asumir que la variación es


Verano Previa a la migración de invierno Verano Previa a la migración de invierno
similar en cada grupo.
período de migración

ni fi separación grupo no puede en un análisis discriminante, sin embargo, la normalidad de como di ff erences entre los meses puede hacerse más pequeño y más di fi culto a

observaciones de una variable en particular dentro de cada grupo es importante (Huberty, detectar.

1994). Sencillo t- pruebas también suponen que las observaciones en cada grupo están

distribuidos normalmente; por lo tanto, histogramas de los datos en bruto de cada grupo
Paso 4: ¿Hay un montón de ceros en los datos?
deben ser examinados.

Elphick y Oring (1998, 2003) investigaron el e ff ECTS de la gestión de la paja sobre la

En la regresión lineal, que en realidad suponemos normalidad de todas las abundancia de aves acuáticas en inundado campos de arroz. Un análisis estadístico

observaciones replicadas en un valor covariable en particular (Fig 6;. Montgomery y Peck posible es tomodel el número de aves como una función del tiempo, la profundidad del

1992), la suposición de que no puede ser veri fi a menos que uno tiene muchas agua, granja, método fi gestión de campo, la temperatura, etc. Debido a que este

repeticiones en cada valor de covarianza muestreado. Sin embargo, la normalidad de los análisis implica el modelado de un recuento, GLM es el análisis apropiado. Figura 7

datos en bruto implica normalidad de los residuos. Por lo tanto, podemos hacer muestra un gráfico que ilustra la frecuencia de la frecuencia se produjo cada valor de

histogramas de los residuos para obtener una impresión de normalidad (Quinn y Keough abundancia total de aves acuáticas. El extremadamente alto número de ceros nos dice

2002; Zuur et al. 2007), a pesar de que no podemos probar completamente el supuesto. que no debemos aplicar un GLM binomial de Poisson ordinaria o negativo ya que

produciría estimaciones de los parámetros sesgados y los errores estándar. En su lugar

se debe considerar cero en GLM inflado (Cameron y Trivedi 1998; Zuur

Aun cuando la hipótesis de normalidad es aparentemente violada, la situación

puede ser más complicada de lo que parece. La forma del histograma en la Fig. 5a,

por ejemplo, indica la asimetría, lo que puede sugerir a uno que es necesaria et al. 2009a).
transformación de datos. La figura 5b muestra un histograma de paneles múltiples También se puede analizar los datos para múltiples especies simultáneamente

para la misma variable, excepto que los datos se representan gráficamente por mes; utilizando técnicas multivariantes. Para este tipo de análisis, debemos tener en cuenta lo

esto nos deja ver que la asimetría del histograma original es probablemente causado que significa cuando dos especies son conjuntamente ausente. Este resultado podría

por los cambios de peso gorrión lo largo del tiempo. En estas circunstancias, no sería decir algo importante sobre las características ecológicas de un lugar, por ejemplo, que

aconsejable para transformar los datos contiene las condiciones que son desfavorables para ambas especies. Por extensión,

(un) (si)
100
80
August

60
150

40
20
0
100

100
Frequency

Frequency

July

80

Fig. 5. ( a) Histograma del peso de 1193 gorriones (sólo el 40 60


50

junio se utilizaron datos de julio y agosto). Tenga en cuenta 020

100
que la distribución está sesgada. (B) histogramas para el
80
peso de los gorriones, desglosadas por mes. Nota que el 60
June
0

40
centro de la distribución se está desplazando, y esto está
20
14 16 18 20 22 24 26 28
causando la sesgada distribuidos para los datos agregados 0
Peso (gramos)
que se muestran en (a). 15 20 25
Peso (gramos)

2009 los autores. compilación de la revista 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3-14
8 AF Zuur et al.

0·5 0·6 0·7 0·8 0·9 1·0

RBGU
LESA
Response variable

DUNL
SNIP
LBDO
Grye
LBCU
MATANZA
GREG
SNEG
GBHE
AMBI
covariable FOCHA
UDONU

La Fig. 6. Visualización de dos suposiciones subyacentes en regresión lineal: normalidad y NOSH

homogeneidad. Los puntos representan los valores observados y se añade una línea de regresión. NOPI

A cada valor de covarianza, se supone que las observaciones se distribuyen normalmente con la
AMWI
GWTE
misma extensión (homogeneidad). La normalidad y la homogeneidad en cada valor covariable no
GADW
pueden ser veri fi a menos que muchos (> 25) réplicas por valor de covarianza se toman, que es
MALL
raramente el caso en los estudios ecológicos. En la práctica, un histograma de los residuos
combinados se debe hacer, pero esto no proporciona pruebas concluyentes de la normalidad. Las

GADW
GWTE

GREG
NOSH
UNDU
COOT

RBGU
GBHE
SNEG

GRYE
MALL

AMWI

LBDO

DUNL
LBCU

LESA
NOPI

AMBI

SNIP
mismas limitaciones se mantiene si los residuos se trazan los valores fi tted vs. para verificar la

KILL
homogeneidad.

La Fig. 8. A corrgram que muestra la frecuencia con la que los pares de especies de aves
acuáticas ambos tienen abundancia cero. El color y la cantidad que un círculo ha sido llenada
corresponden a la proporción de observaciones con ceros dobles. El funcionamiento diagonal
desde la parte inferior izquierda a la superior derecha representa el porcentaje de observaciones
de una variable igual a cero. siglas de cuatro letras representan di ff Erent especies de aves
acuáticas. La barra superior se refiere a los colores en el gráfico a la proporción de ceros.
0 100 200 300 400 500 600 700
Frequency

responden a especies que tienen más del 80% de sus observaciones en forma conjunta

cero. Este resultado es consistente con la biología de las especies estudiadas, la

mayoría de los cuales forman grandes rebaños y han distribuciones altamente


0 4 8 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97
Los valores observados
aglutinadas. A PCA sería etiquetar tales especies como similares, aunque su uso

ecológico de los hábitats es a menudo bastante di ff Erent (por ejemplo Elphick y Oring
La Fig. 7. parcela de frecuencia que muestra el número de observaciones con un cierto número de aves
1998). análisis multivariados alternativos que ignoran dobles ceros se discuten en
acuáticas para los datos de campo de arroz; 718 de 2035 observaciones son iguales a cero. trazado de
Legendre y Legendre (1998) andZuur et al. ( 2007).
datos para especies individuales daría lugar a frecuencias aún más altas de ceros.

Paso 5: ¿Hay colinealidad entre las covariables?


cuando dos sitios ambas tienen los mismos conjuntos ausencias, esto podría significar que

los sitios son ecológicamente similares. Por otro lado, si una especie tiene una distribución

muy agrupada, o es simplemente raro, entonces ausencias conjuntas podrían surgir a través Si la pregunta subyacente en un estudio es el que covariables están impulsando la
del azar y no decir nada acerca de la idoneidad de un determinado sitio para una especie, la variable respuesta (s), entonces el mayor problema a superar es a menudo
similitud entre las necesidades de hábitat de las especies o la similitud ecológicas de los colinealidad. Colinealidad es la existencia de correlación entre covariables. Ejemplos
sitios. Una alta frecuencia de ceros, por lo tanto, puede interpretación enormemente comunes son covariables como el peso y la longitud o la profundidad del agua y la
complicada de tales análisis. Independientemente de nuestra actitud frente a las ausencias distancia a la costa. Si se ignora la colinealidad, uno es probable que terminar con
conjuntas, necesitamos saber si hay ceros dobles en los datos. Esto significa que para cada un análisis estadístico confuso en el que nada es significativo, pero donde dejar caer
especie de par, tenemos que calcular la frecuencia con la que ambos tenían abundancia cero una covariable puede hacer que signi fi cante los demás, o incluso cambiar el signo
para la misma observación (por ejemplo, sitio). Nos puede presentar esta información en una de los parámetros estimados. El e ff ect de colinealidad se ilustra en el contexto de
tabla, o utilizar herramientas gráficas avanzadas como un corrgram (Figura 8;. Sarkar 2008). regresión lineal múltiple, pero existen problemas similares en el análisis de la
En nuestro ejemplo de las aves acuáticas, la frecuencia de ceros dobles es muy alta. Todos varianza, mezclado e ff modelos ECTS, RDA, CCA, GLMs o GAMs. La Tabla 1 da
los círculos azules Cor- los resultados de amultiple lineales inwhich regresión

2009 los autores. compilación de la revista 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3-14
Data exploration 9

el número de ammodramus caudacutus capturados en una parcela estudio se modela 10, pero un enfoque más riguroso es utilizar valores tan bajos como 3 como lo
como una función de las covariables que describen la abundancia relativa de diversas hicimos aquí. Alta, o incluso moderada, colinealidad es especialmente problemático
especies de plantas (para más detalles, ver Gjerdrum, Elphick y Rubega 2005; Gjerdrum cuando las señales son débiles ecológicos. En ese caso, incluso un VIF de 2 puede
et al. 2008). La segunda columna de la tabla da la estima PAG- valores de la t- estadísticas causar estimaciones de parámetros nonsigni fi cativos, en comparación con la
para cada parámetro de regresión cuando todas las covariables se incluyen en el situación sin colinealidad. Después de este proceso causó tres variables a análisis
modelo. Tenga en cuenta que sólo una covariable, que para la portada por ciento de la fromour caído: el alto Spartina alterni fl ora, y los de altura de la planta y la densidad
fiebre Juncus gerardii, es débilmente significativo al nivel del 5%. de tallos. Con el problema de colinealidad retira, el

Juncus variable se muestra para ser altamente significativo (Tabla 1). dejando caer

En la regresión lineal, una expresión para las varianzas de los parámetros si j está secuencialmente más términos fi cativos nonsigni uno a la vez da un modelo con sólo el Juncus

dada por (Draper y Smith 1998; Fox 2008): y las variables de arbustos, pero con poco más cambios en PAG- valores, que muestran

las variables colineales cómo caen pueden tener un mayor impacto en PAG- Los valores
r2
Diferencia re si j Þ ¼ 1 que dejar caer nonsigni fi cante covariables.
1 R2j re norte 1 Þ S 2 j

El termino S j depende de los valores de covarianza, norte es el tamaño de la muestra y Otras formas de detectar la colinealidad incluyen diagramas de dispersión por pares

r 2 es la varianza de los residuos, pero estos términos no son relevantes para la que comparan covariables, coe fi cientes de correlación coe o un biplots PCA (ff e Jolli

discusión actual (y por lo tanto su formulación matemática no se da aquí). Es la 2002) aplicado en todas las covariables. Colinealidad también se puede esperar si se

expresión primera que es importante. El termino R j 2 es el R 2 de un regressionmodel utilizan las variables temporales (por ejemplo, mes, año) o espaciales (por ejemplo,

lineal en el que covariable X j se utiliza como variable de respuesta, y todas las otras latitud, longitud) junto con covariables como la temperatura, la precipitación, etc. Por lo

covariables como variables explicativas. Un alto R 2 en tales medios un modelo que la tanto, siempre se debe trazar todas las covariables contra covariables temporales y

mayor parte de la variación en la covariable X j espaciales. La forma más fácil de resolver colinealidad es dejando caer covariables

colineales. La elección de qué covariables a gota se puede basar en las IVFs, o tal vez

se explica por todas las otras variables, lo que significa que hay colinealidad. El mejor, en el sentido común o conocimiento biológico. Una consideración alternativa,

precio que uno paga por esta situación es que los errores estándar de los parámetros especialmente cuando se llevará a cabo los trabajos futuros sobre el tema, es lo fácil

se infla con la raíz cuadrada de 1 / ( 1) R j 2), también llamado factor de la varianza en la covariables alternativa son tomeasure en términos de e ff ORT y cost.Whenever dos

in fl ación (VIF), que el whichmeans PAG- Los valores quedan largermaking itmore di covariables X y Z son colineales, y Z se utiliza en el análisis estadístico, a continuación, la

fi culto para detectar un e ff ect. Este fenómeno se ilustra en la Tabla 1; la tercera discusión biológico en el que el e ff ect de Z se explica debería incluir la mención de la

columna de la tabla da los valores VIF para todas las covariables y muestra que hay colinealidad, y reconocer que bien podría ser X que está impulsando el sistema (cf.

un alto nivel de colinealidad. Una estrategia para abordar este problema es dejar caer Gjerdrum et al. 2008). Para una discusión de colinealidad en combinación con los

secuencialmente la covariable con la más alta VIF, volver a calcular los IVFs y repetir errores de medición en las covariables, véase Carroll et al. ( 2006).

este proceso hasta que todos los IVFs son más pequeños que un umbral
preseleccionado. Montgomery y Peck (1992) utilizaron un valor de

Tabla 1. PAG- valores de la t- estadística para tres modelos de regresión lineal y la varianza en valores de factor de fl ación (VIF) para el modelo completo. En el modelo completo, el número de
gorriones bandas, que es una medida de las aves howmany estaban presentes, se modela como una función de las covariables enumerados en la fi columna primero. En la segunda y tercera
columnas, la PAG- los valores y los valores VIF para el modelo completo se presentan (nota que hay variables se han eliminado aún). En la cuarta columna PAG- values are presented for the model
after collinearity has been removed by sequentially deleting each variable for which the VIF value was highest until all remaining VIFs were below 3. In the last column, only variables with
significant P- values remain, giving the most parsimonious explanation for the number of sparrows in a plot

Covariate P- value (full model) VIF P- value (collinearity removed) P- value (reduced model)

% Juncus gerardii 0 Æ 0203 44 Æ 9953 0 Æ 0001 0 Æ 00004

% Shrub 0 Æ 9600 2 Æ 7818 0 Æ 0568 0 Æ 0727

Height of thatch 0 Æ 9989 1 Æ 6712 0 Æ 8263

% Spartina patens 0 Æ 0640 159 Æ 3506 0 Æ 3312

% Distichlis spicata 0 Æ 0527 53 Æ 7545 0 Æ 2538

% Bare ground 0 Æ 0666 12 Æ 0586 0 Æ 8908

% Other vegetation 0 Æ 0730 5 Æ 8170 0 Æ 9462

% Phragmites australis 0 Æ 0715 3 Æ 7490 0 Æ 2734

% Tall sedge 0 Æ 2160 4 Æ 4093 0 Æ 4313

% Water 0 Æ 0568 17 Æ 0677 0 Æ 6942

% Spartina alterniflora ( short) 0 Æ 0549 121 Æ 4637 0 Æ 2949

% Spartina alterniflora ( tall) 0 Æ 0960 159 Æ 3828

Maximum vegetation height 0 Æ 2432 6 Æ 1200

Vegetation stem density 0 Æ 7219 3 Æ 2064

2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14
10 A. F. Zuur et al.

shows a multi-panel scatterplot (also called a pair plot) for the 1295 saltmarsh
Step 6: What are the relationships between Y and X variables?
sparrows for which we have morphological data. Any observation that sticks out
from the black cloud needs further investigation; these may be different species,
Another essential part of data exploration, especially in univariate analysis, is measurement errors, typing mistakes or they may be correct values after all.
plotting the response variable vs. each covariate (Fig. 9). Note that the variable Note that the large wing length observation that we picked up with the Cleveland
for the per cent of tall sedge in a plot (%Tall sedge) should be dropped from any dotplot in Fig. 2b has average values for all other variables, suggesting that it is
analysis as it has only one non-zero value. This result shows that the boxplots indeed something that should be checked. The lower panels in Fig. 10 contain
and Cleveland dotplots should not only be applied on the response variable but Pearson correlation coefficients, which can be influenced by outliers meaning
also on covariates (i.e. we should not have calculated theVIFs with%Tall sedge that outliers can even contribute to collinearity.
included in the previous section). There are no clear patterns in Fig. 9 between
the response and explanatory variables, except perhaps for the amount of Juncus
( see also Table 1). Note that the absence of clear patterns does not mean that
there are no relationships; it just means that there are no clear two-way
relationships. A model with multiple explanatory variables may still provide a
Step 7: Should we consider interactions?
good fit.
Staying with the sparrow morphometric data, suppose that one asks whether the
relationship between wing length and weight changes over the months and
differs between sexes. A common approach to this analysis is to apply a linear
Besides visualizing relationships between variables, scatterplots are also regression model in which weight is the response variable and wing length
useful to detect observations that do not comply with the general pattern (continuous), sex (categorical) and month (categorical)
between two variables. Figure 10

Maximum vegetation height Vegetation stem density


50
40
30
20
010

0 2 4 6 8 10 12 20 40 60 80
% Tall sedge % Water % Spartina alterniflora (short) % Spartina alterniflora (tall)
50
40
30
20
10
0
Banded

0 5 10 15 0 5 10 15 20 0 20 40 60 0 20 40 60 80 100
% Distichlis % Bare ground % Other vegetation % Phragmites australis
50
40
30
20
010

0 10 20 30 40 50 0 5 10 15 20 0 2 4 6 8 10 12 0 5 10
% Juncus gerardii % Shrub Height of thatch % Spartina patens
50
40
30
20 Fig. 9. Multi-panel scatterplots between the number of
10
0 banded sparrows and each covariate. A LOESS smoother
0 10 20 30 40 0 2 4 6 8 30 40 50 60 0 20 40 60 80
was added to aid visual interpretation.
Covariates

20 24 28 32 10 12 14 16 10 15 20 25
55 65

Wing chord
20 26 32

0·5 Tarsus length


25 35

0·5 0·5 Head length

0·4 0·7 Culmen length


10 14

0·5

Fig. 10. Multi-panel scatterplot of morphometric data for the


1295 saltmarsh sparrows. The upper ⁄ right panels show
pairwise scatterplots between each variable, and the lower ⁄ left
6 12 18

0·4 0·5 0·7 0·7 Nalospi to bill tip

panels contain Pearson correlation coefficients. The font


size of the correlation coefficient is proportional to its value.
0·6 0·5 0·6 0·6 0·5 Weight Note that there are various outliers.
10 20

55 60 65 25 30 35 6 8 12 16

2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14
Data exploration 11

Given : month
Sep
Aug
Jul
Jun
May

52 56 60 52 56 60 52 56 60

24

Female
16 18 20 22
Weight (g)

Given : sex
Fig. 11. Coplot for the sparrow data. The lower left panel
shows a scatterplot between wing length and weight for

16 18 20 22 24

Male
males in May, and the upper right panel for females in
September. On each panel, a bivariate linear regression
model was fitted to aid visual interpretation.
52 56 60 52 56 60

Wing length (mm)

are covariates. Results showed that the three-way interaction is significant, elling any spatial or temporal relationships, or by nesting data in a hierarchical
indicating that the relationship between weight and wing length is indeed structure (e.g. nestlings could be nested within nests). Testing for independence,
changing over the months and between sexes. However, there is a problemwith however, is not always easy. In Zuur et al. ( 2009a) a large number of data sets
this analysis. Figure 11 shows the data in a coplot, which is an excellent were analysed in which dependence among observations played a role.
graphical tool to visualize the potential presence of interactions. The graph Examples include the amount of bioluminescence at sites along an oceanic
contains multiple scatterplots of wing length and weight; one for eachmonth and depth gradient, nitrogen isotope ratios in whale teeth as a function of age,
sex combination. Abivariate linear regression line is added to each scatterplot; if pHvalues in Irish rivers, the number of amphibians killed by cars at various
all lines are parallel, then there is probably no significant interaction (although locations along a road, feeding behaviour of different godwits on a beach, the
only the regression analysis can tell us whether this is indeed the case). In our number of disease-causing spores affecting larval honey bees frommultiple hives
example, lines have different slopes, indicating the potential presence of and the number of calls from owl chicks upon arrival of a parent. Another
interactions. In some months, however, the number of observations is very small, commonly encountered situation where non-independence must be addressed is
and there are no data at all frommales in September. A sensible approach would when there is phylogenetic structure (i.e. dependence due to shared ancestry)
be to repeat the analysis for only the June–August period. within a data set.

There aremany ways to include a temporal or spatial dependence structure in


a model for analysis. These include using lagged response variables as
Step 8: Are observations of the response variable
covariates (Brockwell & Davis
independent?
2002), mixed effects modelling (Pinheiro&Bates 2000), imposing a residual
A crucial assumption of most statistical techniques is that observations are correlation structure using generalized least squares (Zuur et al. 2009a) or
independent of one another (Hurlbert 1984), meaning that information from any allowing regression parameters to change over time (Harvey 1989). It is also
one observation should not provide information on another after the effects of possible to fit a model with and without a correlation structure, and compare the
other variables have been accounted for. This concept is best explainedwith models using a selection criterion or hypothesis test (Pinheiro & Bates 2000).
examples. The presence of a dependence structure in the raw data may be modelled with a
covariate such as month or temperature, or the inclusion of a smoothing function
The observations from the sparrow abundance data set were taken at of time or a two-dimensional smoother of spatial coordinates (Wood 2006).
multiple locations. If birds at locations close to each other have characteristics Regardless of the method used, the model residuals should not contain any
that are more similar to each other than to birds from locations separated by dependence structure. Quite often a residual correlation structure is caused by
larger distances, then we would violate the independence assumption. Another an important covariate that was not measured. If this is the case, it may not be
example is when multiple individuals of the same family (e.g. all of the young possible to resolve the problem.
from one nest) are sampled; these individuals might be more similar to each
other than random individuals in the population, because they share a similar
genetic makeup and similar parental provisioning history.
When using regression techniques, the independence assumption is rather
important and violation may increase the type I error. For example, Ostrom
When such dependence arises, the statistical model used to analyse the data (1990) showed that ignoring auto-correlation may give P- values that are 400%
needs to account for it. For example, by mod- inflated.

2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14
12 A. F. Zuur et al.

(a) (b)

C. fuscicollis ACF
C. fuscicollis abundance
400 800

ACF
– 0·4 0·2 0·8
0

5 10 15 20 25 0 2 4 6 8 10 12 Lag
Time (2 weeks)
Fig. 12. ( a) Number of Calidris fuscicollis
(c) (d)
plotted vs. time (1 unit = 2 weeks). (b) Auto-correlation
function for the C. fuscicollis time series showing a
L. dominicanus ACF
significant correlation at time lags of 2 and 4 weeks (1 time
lag = 2 weeks). (c) Number of Larus dominicanus vs. time.
L. dominicanus abundance

ACF (d) Auto-correlation function for L. dominicanus showing no


significant correlation. Dotted lines in panels (b) and (d) are c.
– 0·4 0·2 0·8
0 4 8 12

95% confidence bands. The auto-correlation with time lag 0


is, by definition, equal to 1.

5 10 15 20 25 0 2 4 6 8 10 12 Lag

Time (2 weeks)

Hence, it is important to check whether there is dependence in the raw data they are particularly relevant when results are to be used to guide management
before doing the analysis, and also the residuals afterwards. These checks can decisions or public policy because of the repercussions of making a mistake.
be made by plotting the response variable vs. time or spatial coordinates. Any Increasing attention has been paid in recent years to the body of data supporting
clear pattern is a sign of dependence. This approach is more difficult if there is particular management practices (Roberts, Stewart & Pullin 2006; Pullin & Knight
no clear sequence to the observations (e.g. multiple observations on the same 2009), and applied ecologists have become increasingly sophisticated in the
object), but in this case one can include a dependence structure using random statistical methods that they use (e.g. Ellison 2004; Stephens et al. 2005;
effects (Pinheiro & Bates 2000; Fitzmaurice et al. 2004; Brown & Prescott 2006; Robinson & Hamann 2008; Koper & Manseau 2009; Law et al. 2009;
Zuur Sonderegger et al. 2009). But more fundamental questions about the
appropriateness of the underlying data for a given analysis can be just as
et al. 2009a). Figure 12a,c shows a short time series illustrating the observed important to ensuring that the best policies are derived fromecological studies.
abundance of two bird species on a mudflat in Argentina over a 52 week period
(E. Ieno, unpublished data). The first time series shows high numbers of
white-rumped sandpipers Calidris fuscicollis during the first 20 weeks, followed
by zeros (because the species migrates), and then an abundance increase again In this paper, we have discussed a series of pitfalls that can seriously
after 38 weeks. The second time series does not show a clear pattern in the influence the results of an analysis. Some of these problems are well known,
abundance of kelp gulls ( Larus dominicanus). some less so, but even the wellknown assumptions continue to be violated
frequently in the ecological literature. In all cases, the problems can lead to
statistical models that are wrong. Such problems can be avoided only by
A more formal way to assess the presence of temporal dependence is to plot applying a systematic data exploration before embarking on the analysis (Fig. 1).
auto-correlation functions (ACF) for regularly spaced time series, or variograms
for irregularly spaced time series and spatial data (Schabenberger & Pierce
Although we have presented our protocol as a linear sequence, it should be
2002). An ACF calculates the Pearson correlation between a time series and the used flexibly. Not every data set requires each step. For example, some
same time series shifted by k time units. Figures 12b,d show the auto-correlation statistical techniques do not require normality (e.g. PCA), and therefore there is
of the time series in panels (a) and (c). Panel (b) shows a significant no point in making histograms. The best order to apply the steps may also
correlationwith a time lag of k = 1 and k = 2. This means that abundances at time t depend on the specific data set. And for some techniques, assumptions can be
depend on abundances at time t ) 1 and t ) 2, and any of the methods mentioned verified only by applying data explorations steps after the analysis has
above could be applied. For the L. dominicanus time series, there is no beenperformed. For example, in linear regression, normality and homogeneity
significant autocorrelation. should be verified using the residuals produced by the model. Rather than
simplistically following through the protocol, ticking off each point inorder,
wewould encourage users to treat it as a series of questions to be asked of the
data. Once satisfied that each issue has been adequately addressed in a way
that makes biological sense, the data set shouldbe ready for themain analysis.
Discussion

All of the problems described in this paper, and the strategies to address them,
apply throughout ecological research, but

2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14
Data exploration 13

Ecological field data tend to be noisy, field conditions unpredictable and prior Acknowledgements
knowledge often limited. In the applied realm, changes in funding, policy, and
We thank Anatoly Saveliev, and two anonymous reviewers for comments on an earlier draft.
research priorities further complicate matters. This situation is especially so for
long-term studies, where the initial goals often change with circumstances (e.g.
the use of many data sets to examine species responses to climate change). For
References
all these reasons, the idealized situation whereby an ecologist carefully designs
their analysis a priori and then collects data may be compromised or irrelevant. Brockwell, P.J. & Davis, R.A. (2002) Introduction to Time Series and Forecast-
ing, 2nd edn. Springer-Verlag, NewYork. Brown, H. & Prescott, R. (2006) Applied Mixed Models in
Having the analytical flexibility to adjust one’s analyses to such circumstance is
Medicine, 2nd edn.
an important skill for an applied ecologist, but it requires a thorough JohnWiley and Sons, NewYork. Burnham, K.P. & Anderson, D.R. (2002) Model Selection and

understanding of the constraining assumptions imposed by a given data set. Multimodel


Inference. A Practical Information–Theoretic Approach, 2nd edn. Springer, NewYork. Cameron, A.C. &
Trivedi, P.K. (1998) Regression Analysis of Count Data.

CambridgeUniversity Press, Cambridge, UK. Carroll, R.J., Ruppert, D., Stefanski, L.A. & Crainiceanu,
C.M. (2006)
Measurement Error in Nonlinear Models: A Modern Perspective, 2nd edn. Chapman&Hall, Boca Raton,
When problems arise, the best solutions vary. Frequently, however, FL. Chatfield, C. (1998) Problem Solving: A Statistician’s Guide. Chapman & Hall,

ecologists simply transform data to avoid assumption violations. There are three
Boca Raton, FL. Cleveland,W.S. (1993) VisualizingData. Hobart Press, Summit, NJ. Draper, N.R. &
main reasons for a transformation; to reduce the effect of outliers (especially in
Smith, H. (1998) Applied Regression Analysis, 3rd edn. John
covariates), to stabilize the variance and to linearize relationships. However,
using more advanced techniques like GLS and GAMs, heterogeneity and Wiley and Sons, NewYork. Ellison, A.M. (2004) Bayesian inference in ecology. Ecology Letters, 7, 509–

nonlinearity problems can be solved, making transformation less important. Zuur et


520.
al. ( 2009a) showed how the use of a data transformation resulted in different Elphick, C.S. & Oring, L.W. (1998) Winter management of Californian rice

conclusions about long-term trends compared to an appropriate analysis using fields for waterbirds. Journal of Applied Ecology, 35, 95–108. Elphick, C.S. & Oring, L.W. (2003)
Conservation implications of flooding rice
untransformed data; hence it may be best to avoid transforming response
fields on winter waterbird communities. Agriculture, Ecosystems and Environment, 94, 17–29.
variables. If a transformation is used, automatic selection tools such as Mosteller Fitzmaurice, G.M., Laird, N.M. & Ware, J.H. (2004) Applied Longitudinal

and Tukey’s bulging rule (Mosteller & Tukey 1977) should be used with great
Analysis. JohnWiley &Sons, Hoboken, NJ. Fox, J. (2008) Applied Regression Analysis and Generalized
caution because these methods ignore the effects of covariates. Another
Linear Models, 2nd
argument against transformations is the need to subsequently back-transform edn. Sage Publications, CA.

values to make predictions; it may not always be clear how to do this and still be Gelman, A., Pasarica, C. & Dodhia, R. (2002) Let’s practice what we preach:
turning tables into graphs in statistic research. The American Statistician, 56,
able to interpret results on the original scale of the response variable. It is also
121–130.
important to ensure that the transformation actually solves the problem at hand; Gjerdrum, C., Elphick, C.S. & Rubega, M. (2005) What determines nest site

even commonly recommended transformations do not always work. The bottom selection and nesting success in saltmarsh breeding sparrows? Condor, 107,
849–862.
line is that the choice of a specific transformation is a matter of trial and error.
Gjerdrum, C., Elphick, C.S. & Rubega, M.A. (2008) How well can we model
numbers and productivity of saltmarsh sharp-tailed sparrows ( Ammodramus caudacutus) using habitat
features? Auk, 125, 608–617. Harvey, A.C. (1989) Forecasting, Structural Time SeriesModels and the
Kalman
Filter. CambridgeUniversity Press, Cambridge, UK. Hilbe, J.M. (2007) Negative Binomial Regression. Cambridge
University Press,
Cambridge, UK. Hurlbert, S.H. (1984) Pseudoreplication and the design of ecological field

experiments. EcologicalMonographs, 54, 187–211. Jolliffe, I.T. (2002) Principal ComponentAnalysis, 2ndedn.
It is a given fact that data exploration should not be used to define the Springer,NewYork. Koper, N. &Manseau, M. (2009) Generalized estimating equations and gener-

questions that a study sets out to test. Every step of the exploration should be
alized linear mixed-effects models for modelling resources selection. Journal of Applied Ecology, 46, 590–599.
reported, and any outlier removed should be justified and mentioned. Reasons
for data transformations need to be justified based on the exploratory analysis La¨ a¨ ra¨ , E. (2009) Statistics: reasoning on uncertainty, and the insignificance of

(e.g. evidence that model assumptions were violated and that the transformation testing null. Annales Zoologici Fennici, 46, 138–157. Law, R., Illian, J., Burslem, D.F.R.P., Gratzer, G.,
Gunatilleke, C.V.S. &
rectified the situation).
Gunatilleke, I.A.U.N. (2009) Ecological information fromspatial patterns of plants: insights frompoint
process theory. Journal of Ecology, 97, 616–628. Legendre, P. & Legendre, L. (1998) Numerical Ecology. Second

Applying data exploration (e.g. scatterplots to visualize relationships between English


Edition. Elsevier, Amsterdam. Montgomery, D.C. & Peck, E.A. (1992) Introduction to Linear Regression
response and explanatory variables) to create hypotheses and then using the
same data to test these hypotheses should be avoided. If one has limited a priori Analysis. Wiley, NewYork.
Morgan, J.H. (2004) Remarks on the taking and recording of biometric
measurements in bird ringing. The Ring, 26, 71–78. Mosteller, F. & Tukey, J.W. (1977) Data Analysis and
knowledge, then a valid approach is to create two data sets; apply data
Regression: A Second
exploration on the first data set to create hypotheses and use the second data Course in Statistics. AddisonWesley, Reading,MA. Ostrom, C.W. (1990) Time Series Analysis:

set to test the hypotheses. Such a process, however, is only practical for larger Regression Techniques, 2nd edn.
Sage Publications Inc, ThousandOaks ⁄ Newbury Park, CA. Pinheiro, J. & Bates, D. (2000) Mixed
data sets. Regardless of the specific situation, the routine use and transparent
Effects Models in S and S-Plus. Springer-
reporting of systematic data exploration would improve the quality of ecological Verlag, NewYork.

research and any applied recommendations that it produces. Pullin, A.S. & Knight, T.M. (2009) Doing more good than harm – building an
evidence-based for conservation and environmental management. Biological Conservation, 142, 931–934.

2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14
14 A. F. Zuur et al.

Quinn, G.P. &Keough, M.J. (2002) Experimental Design and Data Analysis for N.J., Saveliev, A.A. & Smith, G. (2009a) Mixed Effects Models and Extensions in Ecology with R. Springer,
Biologists. CambridgeUniversity Press, Cambridge, UK. R Development Core Team (2009) R: A NewYork. Zuur, A.F., Ieno, E.N. & Smith, G.M. (2007) Analysing Ecological Data.
Language and Environment for
Statistical Computing. R Foundation for Statistical Computing, Vienna. ISBN3-900051-07-0. URL Springer, NewYork. Zuur, A.F., Ieno, E.N. &Meesters, E.H.W.G. (2009b) ABeginner’s Guide to R.
http://www.R-project.org.
Roberts, P.D., Stewart, G.B. & Pullin, A.S. (2006) Are review articles a Springer, NewYork.
reliable source of evidence to support conservation and environmental management? A comparison
with medicine. Biological Conservation, 132, Received 13August 2009; accepted 8 October 2009 Handling
409–423. Editor: Robert P. Frecklenton
Robinson, A.P. & Hamann, J.D. (2008) Correcting for spatial autocorre-
lation in sequential sampling. Journal of Applied Ecology, 45, 1221–
1227.
Supporting Information
Sarkar, D. (2008) Lattice: Multivariate Data Visualization with R. Springer,
NewYork. Additional Supporting Information may be found in the online version of this article:
Schabenberger, O. & Pierce, F.J. (2002) Contemporary Statistical Models for
the Plant and Soil Sciences. CRCPress, BocaRaton, FL. Sonderegger, D.L., Wang, H., Clements, W.H.
& Noon, B.R. (2009) Using
SiZer to detect thresholds in ecological data. Frontiers in Ecology and the Environment, 7, 190–195. Appendix S1. Data sets andR code used for analysis.

Stephens, P.A., Buskirk, S.W., Hayward, G.D. & Martı´ nez del Rio, C. (2005)
As a service to our authors and readers, this journal provides support ing information
Information theory and hypothesis testing: a call for pluralism. Journal of Applied Ecology, 42, 4–12.
supplied by the authors. Such materials may be re-organized for online delivery, but are not
ter Braak, C.J.F. & Verdonschot, P.F.M. (1995) Canonical correspondence copy-edited or typeset. Technical support issues arising from supporting information (other
analysis and related multivariate methods in aquatic ecology. Aquatic Science, 57, 225–289. Wood, S.N. thanmissing files) should be addressed to the authors.
(2006) Generalized Additive Models. An Introdcution with R.

Chapman Hall ⁄ CRC, Boca Raton, FL. Zuur, A.F., Ieno, E.N., Walker,

2009 The Authors. Journal compilation 2009 British Ecological Society, Methods in Ecology and Evolution, 1, 3–14