Documente Academic
Documente Profesional
Documente Cultură
ndice
Concepto de Nicho Ecolgico Conceptos clave del Nicho ecolgico Crticas al concepto de Nicho Otros conceptos importantes Modelado de Nicho Ecolgico Caractersticas y formatos de los distintos datos necesarios para poder utilizarlos en la modelacin de nichos ecolgicos Georreferenciacin Sistemas de Informacin geogrfica Principales algoritmos para modelado de nichos ecolgicos Maxent Desktop GARP (Genetic Algorithm for Rule-set Production) Pruebas de Solapamiento de Nicho Prueba de Equivalencia Prueba de Similitud Literatura citada y recomendada
3 5 6 7 8 14
14 17 21 21 31 43 45 56 65
Concepto de Nicho Ecolgico Joseph Grinnell: La unidad de distribucin final, en la que cada especie est condicionada por sus limitaciones instintivas y estructurales (1924) (the ultimate distributional unit, within which each species is held by its structural and instinctive limitations (1924)). O sea cada especie tiene sus caractersticas fisiolgicas, morfolgicas y de comportamiento, lo que hace posible que ocupen determinados espacios ofrecidos por la naturaleza (el nicho es una caracterstica del medio no de los organismos). Bajo este concepto existen nichos vacios y vacantes y la exclusin competitiva es la interaccin principal, donde no existe un balance y una especie homloga ecolgicamente puede desplazar a la otra. Los organismos que son equivalentes ecolgicos son parte del sustento de este concepto. Pues al existir nichos similares en distintos lugares estos son ocupados por organismos tambin similares en caractersticas morfolgicas, fisiolgicas y conductuales. Charles Elton: El nicho describe el estatus de un animal en su comunidad, indicando que hace y no solamente como se ve El nicho de un animal es el lugar que ocupa en el ambiente bitico y su relacin con la comida y sus enemigos (naturales).
Pone nfasis de la funcin de una especie dentro de una cadena alimenticia (carnvoros, herbvoros), mientras que las condiciones abiticas no son tomadas en cuenta. Nuevamente bajo este concepto de la comunidad bitica no de los organismos en s. Por lo que el nicho en teora no est restringido a una especie. Por tanto los organismos relacionados como equivalentes ecolgicos seran un indicio de nichos similares, aunque las comunidades estuvieran en lugares muy alejados.
G. Evelyn Hutchinson (1944-58) El termino nicho se define como la suma de todos los factores que actan en un organismo; as el nicho se define como un hyperspacio n-dimensional (1944). Las variables pueden ser fsicas o biolgicas
Bajo este modelo el nicho ecolgico: 1- El nicho es una propiedad de la especie y no del medio ambiente 2- El nicho evoluciona 3- La estructura del nicho se constituye por el desempeo de una especie medido en trminos de adecuacin.
Crticas al concepto de Nicho (enumeradas por Martnez-Meyer) Falta de un adecuada hiptesis nula y rigor estadstico La competencia no es necesariamente el proceso clave en ecologa (complementando esto, creo que en general es difcil demostrar competencia realmente pero esto es algo que los demgrafos saben mejor). Uso ambiguo y confuso del trmino nicho.
Otros conceptos importantes (tener reservas en cuanto a la competencia como proceso que maneja las relaciones entre las especies)
Amplitud de nicho (Niche breath): la variedad de recursos (hbitats) utilizados por la especie. Particin de nicho (Niche partitioning): El grado de uso diferencial de las especies para que coexistan. Solapamiento de nicho (Niche overlap): El uso mutuo de recursos por diferentes especies. Ensamble de nicho (Niche assembly): Colonizacin y organizacin de las especies en un Nuevo o abandonado nicho.
Un concepto reformulado de nicho: Chase and Leibold (2003): The niche of a species is the joint description of the environmental conditions that allow a species to satisfy its minimum requirements so that the birth rate of a local population is equal or greater than its death rate along with the set of per capita impacts of that species on these environmental conditions.
Aunque an hay ciertos problemas tericos que ponen a debate que es lo que realmente se est modelando (It is not an exaggeration to say that no consensus exists about what it is that the different methods model Soberon y Nakamura, 2009).
Fig. 3. Modelado de Nicho ecolgico. Diagrama original de E. Martnez Meyer y A.T. Peterson.
Fig. 4. Modelado del Nicho ecolgico, segn Soberon and Peterson Biodiversity Informatics 2005
Por lo anterior se deriva que: 1. Las especies responden a reglas ecolgicas que determinan su distribucin en el espacio geogrfico (en el modelado analizamos la interaccin entre el espacio ecolgico y el geogrfico). 2. Estas reglas ecolgicas son independientes del espacio geogrfico, por lo que la especie puede ser predicha en lugares donde nunca ha sido
Laboratorio de Evolucin Molecular y Experimental 10
registrada (nicho potencial). Esto es importante ya que este aspecto nos puede llevar a encontrar espacios geogrficos en donde existen especies nuevas que suelen ser especies hermanas de la que ha sido modelada (ver Raxworthy et al. 2003 para un ejemplo con especies de camaleones de Madagascar), lo que nos indica que el nicho ecolgico tiende a ser evolutivamente estable (conservadurismo del nicho). 3. Del prrafo anterior tambin se deriva que cada punto geogrfico se corresponde con slo uno en el espacio ecolgico, pero cada punto en el espacio ecolgico se puede corresponder con ms de un punto en el espacio geogrfico.
Como hemos mencionado existen factores que influyen la distribucin de las especies que en forma general son la cantidad de calor (temperatura), disponibilidad de agua y topografa, y de forma ms particular pueden ser tipos de suelo, evapotranspiracin, calidad de la luz o das con temperaturas bajo cero etc. Las distintas mediciones de estos factores registrados por un cierto tiempo en todo el mundo se han estandarizado para formar capas bioclimticas (Tabla 1). Estas capas nos permitirn analizar el espacio ecolgico de las especies, ya que se pueden obtener los valores bioclimticos correspondientes a cada dato de presencia de alguna especie de inters y usarlos de insumos de un algoritmo de modelacin que nos permitir obtener un modelos de nicho ecolgico. La modelacin de nichos ecolgicos an es un rea en desarrollo, que nos permitir resolver distintas preguntas biolgicas y generar hiptesis de distribucin de especies bajo distintos escenarios geogrficos y temporales, pero tambin tienen limitaciones, por ejemplo: 1- Limitaciones asociadas a la incertidumbre de las capas y envolturas bioclimticas utilizadas (errores arrastrados desde la toma de datos e incertidumbre asociada a la escala utilizada).
Laboratorio de Evolucin Molecular y Experimental 11
2- La incertidumbre asociada a los algoritmos utilizados. 3- No poder modelar las distintas interacciones biticas de las especies o su capacidad de dispersin.
Antes de continuar tenemos que apuntar otros conceptos importantes y que vale distinguir bien ya que son fuente de confusin o debate:
Para J. Sobern, realmente se est trabajando con el nicho Grinelleano en la escala a la que normalmente se modelan los nichos ecolgicos (celdas > 100 km2). Ejemplo: La resolucin espacial de las capas bioclimticas de Worldclim es de: 30 segundos (0.93 x 0.93 = 0.86 km2 en el ecuador) a 2.5, 5 y 10 minutos (18.6 x 18.6 = 344 km2 el ecuador).
En esta escala los factores biticos propios de los nichos definidos por Elton, son menos relevantes que los factores abiticos, es decir la seal est dominada por los factores abiticos y los factores biticos actan como ruido.
Y se entiende que: A) Los procesos eltonianos (Nicho segn Elton) son de muy alta resolucin. Las variables consideradas en este concepto (variables trficas e interacciones ecolgicas) como concentracin de nutrientes, tamao y distribucin de la comida, presas, depredadores, competidores, densidad de mutualistas etc., son variables altamente interactivas.
B) En la escala de modelado de nicho se utilizan las variables scenopoeticas (scenopoetic variable, sensu J. Sobern) que generalmente se entiende como elevacin, orientacin, geologa y clima que son poco interactivas. Puede existir una exclusin competitiva pero esta no afecta al total de la poblacin.
12
C) El nicho Grinelleano es multidimensional (forman un n- hiperespacio dimensional) en el espacio de las variables scenopoeticas.
Tabla 1. Cdigo de las variables bioclimticas obtenidas de WordClim (http://www.worldclim.org/bioclim) BIO1 = Annual Mean Temperature BIO2 = Mean Diurnal Range (Mean of monthly (max temp - min temp)) BIO3 = Isothermality (P2/P7) (* 100) BIO4 = Temperature Seasonality (standard deviation *100) BIO5 = Max Temperature of Warmest Month BIO6 = Min Temperature of Coldest Month BIO7 = Temperature Annual Range (P5-P6) BIO8 = Mean Temperature of Wettest Quarter BIO9 = Mean Temperature of Driest Quarter BIO10 = Mean Temperature of Warmest Quarter BIO11 = Mean Temperature of Coldest Quarter BIO12 = Annual Precipitation BIO13 = Precipitation of Wettest Month BIO14 = Precipitation of Driest Month BIO15 = Precipitation Seasonality (Coefficient of Variation) BIO16 = Precipitation of Wettest Quarter BIO17 = Precipitation of Driest Quarter BIO18 = Precipitation of Warmest Quarter
13
Caractersticas y formatos de los distintos datos necesarios para poder utilizarlos en la modelacin de nichos ecolgicos
Georreferenciacin Antes de abordar algunos de los programas ms importantes para generacin de modelos de nicho ecolgico es necesario indicar cmo es que los datos geogrficos y bioclimticos se manejan y procesan para poder ser ingresados a dichos programas. La informacin sobre las colectas y poblaciones de distintas especies que nos interesa modelara tienen que contar con coordenadas geogrficas, que nos permitan ubicarlas espacialmente y poder posteriormente relacionarlas con los datos medioambientales, ecolgicos o geolgicos, etc., recabados para el sitio o la regin en donde se colecto el organismo. Actualmente cada vez que se realiza una colecta es una regla tomar las coordenadas geogrficas con GPS, sin embargo las colectas ms antiguas slo contenan el nombre de las localidades y si tenemos suerte se cita a cuantos kilmetros se encontraban del poblado o carretera ms importante. Por lo que si se quieren utilizar estos datos es necesario encontrar las coordenadas geogrficas de los puntos de colecta, o sea georreferenciar el punto para obtener las coordenadas, que deben de estar en un formato decimal que es el que la mayora de los programas de modelado aceptan. Este proceso se puede hacer de varias formas, la primera es localizando la localidad en cartas geogrficas de la regin y extrayendo directamente las coordenadas de las cartas, que por estar generalmente en formato de coordenadas geodsicas o geogrficas (grados, minutos y segundos, con latitud referida desde el ecuador y longitud tomando como referencia el meridiano de Greenwich) se tienen que transformar a grados decimales: Grados decimales = grados(.)+(min/60)+(seg/3600)
14
Ests coordenadas se tienen que referir con un signo positivo o negativo de pendiendo de la regin del mundo. Para lo longitud, la convencin es poner un signo negativo a los puntos al oeste del meridiano de Greenwich y positivos los que estn al este. Asimismo para la latitud todos los puntos al norte del ecuador geogrfico se asignan con un valor positivo y todos al sur con un valor negativo, ejemplo: Centro de la Ciudad de Mxico: Lat. 19.4342, Long. -99.1386. Generalmente no se marca el signo positivo ni los smbolos (N) y (W), pues slo se utilizan en coordenadas geogrficas. En realidad este proceso es sencillo pero hay que tener cuidado ya que las coordenadas geogrficas dependen del tipo de proyeccin utilizada y el Datum. Las proyecciones cartogrficas pueden ser cnicas o cilndricas y se refieren a la forma en que la geografa real del globo terrestre se proyecta en un plano, es decir cmo los distintos puntos sobre el rea curva del planeta se corresponden o transforman a una relacin ordenada en un plano (auxilindonos de los meridianos y paralelos que forman una especie de malla). A muy grandes rasgos existen dos grupos de proyecciones: 1. Cilndricas. En que toda la tierra se proyecta a un cilindro imaginario que la rodea y que despus se abrir para formar un plano. Ejem.: proyeccin de Miller, Peter y quiz la ms usada Mercator (de las que se derivan las coordenadas UTM o Universal Transverse Mercator). 2. Cnicas. Que cmo indica el nombre se explican como conos que se ponen sobre la esfera terrestre y en donde se proyectaran los puntos, para luego abrir dicho cono en un plano. Ejem.: proyeccin de Lambert y proyeccin de Albert. En cuanto al Datum o Datum de referencia en nuestro caso, indica a un punto de referencia sobre la superficie de la tierra asociado a un modelo de su forma
Laboratorio de Evolucin Molecular y Experimental 15
(elipsoide de referencia) y a partir del cual toman las coordenadas. Si bien no es el fin de este manual extendernos sobre concepto topogrficos baste decir que, el elipsoide de referencia es una aproximacin terica a la superficie terrestre, dado que la tierra no es una esfera o un elipse uniforme (no es un cuerpo regular) lo cual dificulta hacer distintos clculos de tipo topogrfico. Pero cmo an se tenan dificultades para adaptar los clculos a distintas regiones o pases del globo, se invento el Datum para tratar de aproximar mejor las coordenadas a la realidad local de ciertas reas. De lo cual se puede deducir que existen muchos Datums. Aunque los Datums ms recientes tratan de abarcar mayores reas. Por esta razn una localidad en mapas con Datums diferentes tambin tiene coordenadas diferentes, esto hay que tenerlo en cuanta si queremos transformar coordenadas de un tipo de proyeccin a otra. Para Norteamrica los Datums ms comunes son el NAD27, NAD83 y el WGS84 y para Europa es el ETRS89. Sin embargo el Datum WGS84 (prcticamente igual al NAD83) es un Datum con referencia al centro de la tierra y valido para todo el globo, por lo que es el sistema de referencia mundial actual y el que manejan los dispositivos GPS por default, aunque siempre hay que tener cuidado al tomar las coordenadas con un dispositivo de estos pues hay la posibilidad de tomar datos con distintos Datums y distintas proyecciones (ejemplo con coordenadas UTM) dando variaciones de cientos o miles de metros. Para el caso de Mxico el INEGI, los mapas topogrficos tienen una proyeccin Cnica conforme de Lambert (CCL; conforme se refiere a que no se conservan las reas sino slo los ngulos de la proyeccin) y UTM con Datums NAD27 y ITRF92.
Volviendo a la goerreferenciacin, otra posibilidad es recurrir a los gaceteros geogrficos en red, que son bases de datos que contiene georreferenciadas cientos de localidades, a veces incluyendo datos como altitud, y poblaciones cercanas. Estos gaceteros pueden contener informacin de un solo pas o tener
Laboratorio de Evolucin Molecular y Experimental 16
datos a nivel mundial. Incluso herramientas como Google Earth, son tiles par la bsqueda y georreferenciacin de localidades. Los gaceteros se pueden buscar en la red con el nombre de Gazetters, uno bastante til para Mxico y para otras partes del mundo es el Global Gazetter ver. 2.2 que se puede encontrar en: http://www.fallingrain.com/world Tambin puede consultar la siguiente pgina de internet en donde se citan distintos recursos de georreferenciacin, transformacin de coordenadas y bases de datos: http://www.herpnet.org/Gazetteer/GeorefResources.htm
caractersticas y patrones de distribucin de esos datos, generar y manipular mapas (unirlos, cortarlos etc.), adems de producir informes y tablas con los resultados de dichos anlisis, y transformar y guardar datos geogrficos en distintos formatos de salida, as como manejar las distintas capas bioclimticas. Tampoco es objetivo de este manual hacer un tutorial de ArcView, ya que por ser una herramienta muy utilizada se pueden encontrar varios manuales en la red traducidos o hechos en castellano, por ejemplo en: http://www.ecoatlas.org.ar/descargas_programas.html
Tipos de datos manejados en un SIG Bsicamente un SIG maneja dos tipos de datos los vectoriales y raster. El formato vectorial se compone de pares de coordenadas para cada objeto (vrtices) con los que se construyen vectores. A su vez se tienen distintos formatos que son puntos (feature data que son slo un par de coordenadas), lneas y polgonos. Es decir representa a los objetos mediante puntos, lneas y polgonos. Los formatos vectoriales pueden ser guardados en distintos tipos de archivos: DXF (autocad), CDR (corell draw) o SHP (Shape file para ArcView). Un archivo Shape file se compone por lo menos de tres archivos con las siguientes extensiones: *.shp : Almacena los objetos vectoriales *.shx : Almacena la indexacin del objeto vectorial *.dbf : Almacena los atributos del objeto vectorial Puede contener otros archivos como *.prj usado por ArcGis y que guarda la proyeccin cartogrfica.
18
Ventajas de los modelos vectoriales: 1. 2. 3. Buena presentacin y resolucin. Menor procesamiento. Buen manejo de variables categricas. tamao y por tanto mayor velocidad en el
Desventajas de los modelos vectoriales: 1. 2. 3. Estructura de datos y programas de tratamiento complejos. No es bueno para el manejo de variables continuas. Inexacto en el manejo de objetos bien definidos (problemas con curvas de nivel, isotermas, etc.).
Los datos tipo raster representan a los objetos mediante la estructuracin del espacio en una rejilla compuesta de celdas cuadradas llamadas pixeles a los cuales se le aade un valor (nunca hay pixeles vacios, pueden ser transparentes o de valor cero). Formatos tipo raster pueden ser: 1. Formatos de imagen (Imagen Data y Image Analyst Data) que son raster multibanda (se guardan en una matriz de valores) como *.png, *jpg (por ejemplo tiene tres bandas: rojo, verde y azul), *tif o *gif. 2. Grids (grids data) como los que se utilizan en GARP y que tienen una sola capa (banda): a) Formato Arc/Info Binary Grids: Desarrollado por ESRI (al igual que el Ascii raster format) con extensin *.ADF consiste en grids binarios que se guardan en varios archivos en por lo menos dos directorios (el directorio nombre y el directorio info). Estos archivos son: el dblbnd.adf que contiene informacin de los lmites de las porciones utilizadas del grid; el hdr.adf que es el que contiene el encabezado e
Laboratorio de Evolucin Molecular y Experimental 19
informacin del tamao y nmero de los mosaicos utilizados; el sta.adf que contiene informacin estadstica del raster; vat.adf que tiene datos del valor de atributos en tablas; el prj.adf que tiene la proyeccin y su parmetros; el tic.adf con coordenadas; el w001001.adf que tiene los datos actuales del raster y el w001001x.adf que contiene un ndice de los puntos de cada mosaico contenido en el archivo w001001.adf. b) Ascii raster grid o simplemente Ascii (ESRI ASCII Raster Format): Es ms bien slo un formato para el almacenamiento e intercambio de la informacin entre distintos sistemas que utilizan rasters y su extensin es *.asc. Por lo cual podemos tener mapas en formato Arc/Info Binary Grids y Ascii raster grids. Extensiones como *.grd o *.gri son propias de otros programas de SIG y modelado como el DivaGis.
Ventajas de los modelos raster: 1. lgica. 2. 3. 4. 5. Captura rpida de la informacin. Facilidad de anlisis y simulacin espacial. Representan bien a variables continuas y categricas. Tecnologa barata y es la que usan las imgenes satelitales y modelos de elevacin. Desventajas de los modelos raster: 1. 2. Volumen muy grande de datos, por lo que necesitan gran cantidad de RAM y espacio en disco duro. Menor resolucin o inexactitud derivada del tamao del pixel.
20
Maxent
La idea general de Maxent es estimar una probabilidad de distribucin destino (objetivo, blanco) por medio de encontrar la distribucin de probabilidad de mxima entropa (es decir, que es el ms extendida, o ms cercana a ser uniforme), sujeta a una serie de restricciones que representan nuestra informacin incompleta acerca de la distribucin objetivo. Qu es Maxent? Es un programa que modela la distribucin geogrfica de las especies, utilizando como datos slo los sitios de presencia y las variables bioclimticas asociadas a cada uno de esos puntos de presencia. Para modelar las distribuciones se basa en el principio de Mxima entropa.
21
Algunas ventajas de Maxent: 1- Slo requiere datos de presencia 2- Puede utilizar datos continuos y categricos 3- Algoritmos (deterministas) eficientes que garantizan que se converja en la distribucin de probabilidades propia (mxima entropa). 4- El sobre ajuste se evita. 5- El resultado es continuo, permitiendo distinguir sutiles cambios en la adecuacin (suitability) modelada (para cada especie) en diferentes reas.
Qu es la mxima entropa? La entropa en este contexto es un concepto derivado de la teora de la informacin que nos dice qu tan aleatorio es algo (por ejemplo, una lnea de caracteres: werztxnknlk u otro tipo de seal) o sea es una medida de la aleatoriedad. Es decir en una seal o conjunto de datos, si todos sus elementos son equiprobables cuando aparecen, entonces la entropa es mxima. Aplicando de manera prctica este concepto, se buscara encontrar aquella distribucin de probabilidades que maximice la entropa, dado ciertas restricciones que representan la informacin disponible (informacin incompleta) sobre el fenmeno o tema estudiado. Para explicar mejor este concepto imaginemos que tenemos 3 cajas de manzanas. Ests cajas estn cerradas pero contamos con la nica informacin (informacin parcial) de que en total hay nueve manzanas en esas tres cajas: a) Cul es la manera ms probable en que estn distribuidas las manzanas? R= La distribucin de mxima entropa es la ms probable b) Pero por qu?
Laboratorio de Evolucin Molecular y Experimental 22
R= Segn la frmula de Shannon (1948) la entropa es S=j nj ln(nj) Donde nj es igual al nmero de manzanas en las cajas. Por tanto la distribucin de mxima entropa es (3,3,3). Ejemplo: Caja 1 3 1 0 Caja 2 3 5 1 Caja 3 3 3 8 Entropa -9.9 -11.3 -16.6
Vemos que la mayor entropa se corresponde a tener las tres cajas con tres manzanas cada una (distribucin uniforme y la ms probable).Se puede comprobar fcilmente estos resultados con una calculadora.
Pero podemos poner restricciones en la forma de organizar las manzanas, por ejemplo: Pedimos que adems que la distribucin sea de mxima entropa cumpla con que el nmero de manzanas en la segunda casilla sea de 5. Entonces tenemos:
Caja 1 2 1 4
Caja 2 5 5 5
Caja 3 2 3 0
La distribucin que maximiza la entropa es la primera (2, 5, 2), que es una distribucin ms cercana a la distribucin uniforme y la ms probable bajo estas condiciones
Laboratorio de Evolucin Molecular y Experimental 23
Ahora piense que en lugar de cajas tenemos pixeles (de un rea de estudio) y en lugar de manzanas tenemos presencias de especies, y las restricciones son los valores empricos promedio de las llamadas caractersticas de la informacin disponible; en este caso variables bioclimticas. Es decir, los pixeles del rea de estudio son el espacio de donde la probabilidad de distribucin de Maxent es definida. Los pixeles con presencia de una especie (records) constituyen los puntos de muestreo y las caractersticas son las variables climticas y ecolgicas. La informacin disponible sobre la distribucin de los valores bioclimticos asociados con la presencia de especies, se presenta como un conjunto de valores de variables reales, llamadas "caractersticas", y las restricciones son: que el valor esperado para cada caracterstica debe coincidir con su valor emprico promedio (valor promedio de un conjunto de puntos de muestreo tomado de la distribucin objetivo o de destino). Est sera la forma ms sencilla de tratar de entender el principio bajo el cual funciona Maxent. Claro que en realidad las cosas son un poco ms complicadas como veremos a continuacin. De acuerdo a lo anterior Maxent estima distribuciones que deben de estar de acuerdo con todo lo que se conoce (aunque sea de manera incompleta) de la informacin inferida de las condiciones ambientales de las localidades de ocurrencia y evitar restricciones infundadas. Maxent entonces trata de encontrar la distribucin de probabilidad de mxima entropa (cercana a la uniforme) sujeta a las limitaciones impuestas por la informacin disponible sobre la distribucin observada de las especies y las condiciones ambientales en el rea de estudio. Maxent computa una distribucin de probabilidades basado en las variables ambientales de toda el rea de estudio. Si el rea es muy grande (> 600,000 pixeles) se toma una muestra aleatoria de unos 100,000 pixeles background para representar las condiciones ambientales de la regin.
24
Adems del principio de mxima entropa, Maxent necesita de un algoritmo que le permita encontrar las distribuciones con mayor entropa. Este algoritmo (sequential update algorithm (Dudik et al., 2004). Utiliza iteraciones en donde va dando distintos pesos a las variables utilizadas y va ajustndolas. Es un algoritmo determinstico que segn los autores y distintas pruebas empricas garantiza que converger en la distribucin de probabilidades Maxent. Al terminar el proceso de iteracin Maxente asigna una probabilidad negativa cada pixel del rea total de estudio, que al final deben sumar 1, por lo que se aplica un valor de correccin para hacerlos positivos y que sumen entre todos 100%. Pero como cada pixel presenta valores muy pequeos, Maxent los presenta con un valor que es el resultado de la suma del valor de ese pixel y de todos los dems pixeles con un valor de probabilidad igual. Esos valores pueden ir de 0 a 100 e indican probabilidad de ocurrencia de la especie. El programa se carga con variables o capas bioclimticas en formato ASCII (Que se pueden bajar de la pgina de WorldClim o ser generadas por el usuario) y con datos de presencia con nombre le la especie y coordenadas decimales guardados en archivos de formato CSV (disponible en Excel). Se pueden mantener los valores default como el umbral de convergencia = 10-5 e iteraciones de 500. Que empricamente se han observado que funcionan bien, y que son conservativos pero que permiten al algoritmo llegar cerca de la convergencia, ms adelante tocaremos el tema de los umbrales. El resultado son mapas de probabilidad de distribucin en Ascii y una hoja de resultados en Html con imgenes de los mismos mapas en (*png) y una serie de estadsticos de validacin que tocaremos ms adelante. Los datos se cargan fcilmente por medio de una interfaz grfica como la que se muestra a continuacin (del manual Maxent):
25
Umbral de decisin Para decidir la validacin de un modelo y su interpretacin es deseable distinguir entre reas adecuadas (para la especie) de las inadecuadas, por medio de establecer un umbral de decisin, por arriba del cual el modelo resultante es considerado como una prediccin de presencia. Para el caso de modelos de slo presencia como Maxent y GARP, el umbral se puede encontrar de dos maneras: 1. Se escoge el valor de prediccin ms bajo asociado con algn record de presencia. Este ser el umbral de presencia ms bajo (LPT, por sus siglas en ingls). Y es un umbral conservativo.
26
2. La aproximacin ms liberal. Consiste en aplicar un umbral fijo que refute slo el 10% ms bajo de los posibles valores predichos. Para Maxent se usa un umbral de 10 (T10) y para GARP un umbral de 1 (T1). Estos umbrales se pueden escoger tambin de pruebas preliminares que den valores de LPT ms altos que los umbrales fijados.
Despus de que Maxent ha terminado sus bsquedas, tiene la posibilidad de hacer algunas pruebas estadsticas para determinar la validez estadpsitica de los modelos encontrados. Asimismo muestra que variables son las que han influenciado ms o son las ms importantes para el modelo determinado. Ests ltimas pruebas no las tocaremos a fondo ya que en el manual de Maxent, si estn suficientemente explicadas. Nos avocaremos a citar algunas de las pruebas que no son explicadas con suficiente profundidad en la documentacin existente. Jackknife (Jackknife model testing) Para esta prueba se excluyen las localidades observadas una en cada caso (o corrida). Para cada prediccin un umbral se aplica basado en localidades de entrenamiento (1) y se prueba la habilidad de predecir las localidades excluidas. Entonces se calcula un valor de probabilidad P para cada especie a travs del set de todas las predicciones de jackknife. Tambin por medio de un procedimiento de Jackknife se hace un anlisis en Maxent para estimar que variables son ms importantes para la presencia de la especie.
(1) Nota: subconjunto de puntos que s se utilizaran en el anlisis, pero que sirven para comenzar a entrenar o calentar el modelo iterativo. No confundir con los puntos de prueba que se utilizan para validar el modelo al compararlos con los de entrenamiento, ver ms adelante.
27
Curvas de omisin (Omission) Antes tenemos que hablar de los tipos de errores que hay en las predicciones y en los algoritmos de datos de slo presencia, por lo que la explicacin aplica tambin para GARP.
Presente
Ausente
Entonces a y d son predicciones correctas, pero: b = Es un falso positivo o una sobreprediccin. Llamado error de comisin (commission error). c = Es un falso negativo o subprediccin. Llamado error de omisin (ommission error). Maxent presenta una curva de omisin de datos de prueba (un 25% de puntos aleatorios) contra omisin de datos de entrenamiento. En ests grficas se observa cmo el rea predicha vara con la eleccin de un umbral acumulativo. Se busca que la omisin de prueba se ajuste a la omisin de entrenamiento.
28
Curvas ROC (Receiver operating caracteristic analysis) Este tipo de pruebas fueron implementadas por operadores de radar durante la segunda Guerra mundial, pero han sido trasportadas a muchas reas en donde es necesario caracterizar el rendimiento de un modelo y tomar decisiones. La curva ROC caracteriza el rendimiento de un modelo en todos los posibles umbrales simplemente con un nmero: el rea bajo la curva o (AUC). Las curvas nos permiten comparar tambin el rendimiento entre distintos tratamientos y algoritmos (se han comparado modelos de Maxent y GARP con esta aproximacin, resultando mejor Maxent en la mayora de las pruebas). Su utilizacin primaria fue la de encontrar el punto de corte ptimo y son curvas en las que se presenta la sensibilidad (omisin cero = 100% de sensibilidad) en funcin de los falsos positivos (error de comisin) para distintos puntos de corte (umbrales). Como ya se menciono un parmetro para evaluar la bondad de la prueba es el rea bajo la curva que toma valores entre 1 (prueba perfecta) y 0.5 (prueba intil). Esta rea puede interpretarse como la probabilidad de que ante un par de puntos, uno con presencia y otro sin presencia (de la especie), la prueba los califique correctamente.
Laboratorio de Evolucin Molecular y Experimental 29
En la curva ROC vemos graficados los puntos de prueba y los de entrenamiento. Si los datos de entrenamiento ajustan bien al modelo (p> 0.9), se estar indicando la capacidad del modelo para predecir. Si los datos de prueba son menores (p <= 0.5) y estn debajo de la lnea diagonal, se indica que el modelo es peor que un modelo aleatorio (no es mejor que el azar). Idealmente se busca que las curvas estn en el extremo superior izquierdo lo que indica que no hay ningn error de omisin o 100% de sensibilidad y ningn error de comisin o 100% de especificidad.
30
31
Desktop GARP como Maxent es una aproximacin de aprendizaje de mquina, que desarrolla una serie de reglas condicionales para relacionar las ocurrencias observadas con las variables ambientales. El programa trata, de forma interactiva, de encontrar las correlaciones entre las presencias y ausencias de la especie con los parmetros ambientales, utilizando una serie de reglas diferentes. Cada tipo de regla implementa un mtodo diferente para construir los modelos de prediccin de la especie. Actualmente hay 4 tipos de reglas implementadas: 1. Evoltura bioclimtica (envelope). Lmites superiores o inferiores para cada variable ambiental. 2. Negacin de la envoltura bioclimtica 3. Atmica. Valores especficos o categoras para cada variable 4. Regresin logstica (logit).
32
Las reglas son desarrolladas usando un algoritmo gentico, el cual refina la solucin en una manera evolutiva probando y seleccionando reglas en subconjuntos aleatorios de los datos disponibles. Es implementada para manejar datos de slo presencia, seleccionando localidades de pseudoausencias de manera aleatoria del rea de estudio. Adems utiliza localidades de entrenamiento. Con GARP se busc encontrar un anlisis robusto que produjera resultados confiables bajo una gran variedad de condiciones de operacin o problemas de dominio. Entre todos los sistemas de aprendizaje de mquina se escogi el algoritmo gentico (GA, por sus siglas en ingls) que como otros de su tipo (rboles de decisin, redes neuronales, etc,) estn diseados para analizar datos pobremente estructurados (o dominios pobremente estructurados). El algoritmo GA fue originalmente desarrollado por Holland (1975) y ha sido aplicado a una gran variedad de campos (dominios) como funciones de optimizacin numrica, diseo de sistemas de control adaptativo e inteligencia artificial. Una ventaja de GA en GARP es la capacidad de generar y probar una gran gama de posibles soluciones y modelos (categricos, logsticos etc.). Cmo entender que son las reglas? Antes de continuar es conveniente un pequeo parntesis para tratar de explicar qu es una regla y entender de una manera bsica cmo se calculan y hacen las predicciones. Para este objetivo, GARP antes de utilizar el algoritmo gentico tiene que recabar los datos necesarios sobre distribucin y condiciones medio ambientales y unirlos o ligarlos de alguna forma. Esta forma es por medio de la lgica y la probabilidad. Es decir se llevan a cabo procedimientos de tipo lgico deductivo para asignar y comenzar a tener valores para construir las reglas que ms adelante veremos. Consideremos la figura 9 que esquematiza un rea de estudio, con localidades de muestreo y datos sobre el medio fsico:
33
Fig. 9. Esquema de localidades y coberturas, para ejemplificar la forma bsica del clculo de las probabilidades asociadas a las reglas de uso en GARP.
Primero se define la probabilidad de A, que se denota como P(A) y es igual a la probabilidad de todos los puntos de muestreo en A (estrellitas en la figura). Y se calcula esta probabilidad como P(A) = #A/n, que son las celdas o concretamente los pixeles donde se encuentra la especie. Despus tenemos que ligar la probabilidad de la ocurrencia de una especie con los datos de por ejemplo cobertura vegetal o datos bioclimticos. Para lo cual se utilizan probabilidades condicionales o sea la probabilidad de que un evento A ocurra dado un evento B: P (A|B), Y P(A|B) = P (AB)/P(B).
34
La probabilidad de B se calcula de una manera un tanto similar a la de A (por sus valores en los pixeles) y P(AB) es la interseccin de los eventos A y B, o sea la probabilidad de que los dos eventos ocurran. Y la prediccin se hace de la siguiente manera: dado que si A entonces B, y A es verdad entonces predice B (rea de distribucin predicha). Esta es una manera muy general de calcular las probabilidades, ya que podemos tener diferentes conformaciones lgicas de los conjuntos sealados en la figura anterior y por tanto A puede componerse de muchas proposiciones por el uso de conjunciones y disyunciones (por considerar otros conjuntos de datos como las dems capas bioclimticas). Cuando una prediccin se satisface una porcin del espacio de bsqueda se selecciona. Esto significa que usa la prediccin para seleccionar las porciones de rea de estudio para asignarles presente o ausente. Con este tipo de lgica bsica se construyen los distintos tipos de reglas que veremos ms adelante. Entonces GARP utiliza una gama de modelos para modelar los lmites de las potenciales relaciones entre los datos. Ests modelos tienen las citadas reglas, que son diferentes en tipo para cada modelo, pero que son evaluadas de la misma forma por el programa en cuanto a significancia estadstica y precisin predictiva. GARP selecciona automticamente diferentes reglas para las predicciones en cada celda (pixel), basado en el estimado de precisin de predictividad de cada regla. Quiz lo anterior an no tenga mucho sentido pero extrayendo algunos datos de las primeras versiones de GARP pueda quedar ms claro: La interseccin de lmites (ranges) para todas la variables es una envoltura bioclimtica (profile), nos indica las regiones geogrficas donde el clima es adecuado para la especie, adjuntando percentiles de valores fijados para cada parmetro IF TANN=(23,29]degC AND RANN=(609,1420]mm AND GEO=(6,244]c THEN SP=PRESENT En otras palabras esta regla dice que si la temperatura anual (TANN) cae entre 23 a 29 C, y la precipitacin anual (RANN) cae entre 609 y 1420 mm, y el valor de
Laboratorio de Evolucin Molecular y Experimental 35
categora geolgica (GEO) cae entre los lmites de 6 a 244, entonces se predice que la especie est presente. Una regla en GARP es similar a una regla de envoltura (envelope), excepto que las variables pueden ser irrelevantes. Esto es, una variable es irrelevante si los puntos pueden caer dentro de todo el lmite. Una modificacin que ilustra una regla GARP modificada como lo antes dicho es: IF TANN=(23,29]degC AND GEO=(6,244]c THEN SP=ABSENT Una regla atmica, es una es una conjuncin de categoras o de valores simples de algunas variables. En un lenguaje ms coloquial tenemos: Si la categora geologa tiene un valor 128 y la elevacin (TMNEL) es 300 m.s.n.m. entonces la prediccin dice que la especie es ausente (ejemplo). IF GEO=128c AND TMNEL=300masl THEN SP=ABSENT La regal logit es una adaptacin de la regresin logstica. La regresin logstica es una forma de regresin donde la salida o el resultado puede ser transformado en una probabilidad. Por ejemplo, la regresin logstica da un resultado con una probabilidad p que determina si una regla debe se aplicada cuando p es calculada usando: p= 1/(1-e-y) y y es la suma de la ecuacin lineal en el precedente de la regla, ejem: IF 0.1- GEO 0.1+TMNEL 0.3 THEN SP=ABSENT
36
La capacidad del set de reglas para tener la cobertura del rea analizada y tener un nivel de precisin determinado es diferente por si solas que si se les combina en un solo modelo. La precisin puede ser mayor en alguna de las reglas, pero con el modelo combinado la cobertura es total sin perder demasiada precisin. Es decir la regin predicha por cada una de las reglas por si sola es usualmente menor que el rea total. La precisin predictiva de los modelos compuestos por diferentes grupos de reglas generalmente es equivalente o excede la precisin de los modelos compuestos por una sola regla. Entonces el programa hace uso de las ms altas precisiones en cuanto a las reglas para aplicarlas en diferentes reas para alcanzar el ptimo en toda el rea de estudio. De manera terica los diferentes tipos de modelos y el potencial nmero de variables, imponen un problema de cmo encontrar el grupo de mejores modelos en espacio de bsqueda muy grande. Estudios tericos de DeJong (1975) y de Holland (1975) junto con estudios experimentales de otros autores (ejem. Bethke, 1981) han mostrado que los GAS son eficientes para solucionar problemas en los cuales se involucran muchas variables con mucho ruido y que potencialmente pueden tener muchas soluciones. Las reglas son desarrolladas por un proceso de refinamiento que se incrementa gradualmente por el algoritmo gentico. Cada iteracin se conoce como una generacin, en el cual el conjunto de reglas son probadas, reproducidas y mutadas. La manera en que se hace tiene los siguientes pasos: 1. Inicializa poblaciones de estructuras 2. Seleccin de subgrupos aleatorios de datos 3. Evaluacin de una poblacin (la poblacin actual) 4. Salva las mejores reglas en un archivo 5. Termina la salida o resultado del archivo de reglas, o continua 6. Selecciona nuevas poblaciones, usando el archivo de reglas y generaciones aleatorias.
37
7. Aplica operadores heursticos a la poblacin (para elegir el mejor grupo) 8. Regresa a 2. El algoritmo de GARP comienza imponiendo un grupo de reglas generadas por el programa inicial. El primer paso iterativo en el ciclo de GARP es seleccionar los datos por un muestreo aleatorio de la mitad de los datos disponibles. El segundo paso es evaluar las reglas con los datos de muestreo. Para cada n punto de colecta (presencia) los siguientes valores van incrementando: 1. no el nmero de puntos que se aplica a las reglas. 2. pYs - el nmero de datos con la misma conclusin que la regla. 3. pX Ys el nmero de datos que la regla predice correctamente Los siguientes valores son calculados para evaluar el desempeo de cada regla: 1. Covertura=no/n 2. Probabilidad Prior =pYs/n 3. Probabilidad posterior =pX Ys/no 4. Significancia =(pX Ys no * pYs/n)/ no * pYs *(1- pYs/n)/n En terminologa de algoritmos genticos, cada regla es miembro de una poblacin e implementa un mtodo diferente para construir los modelos de prediccin de una especie. Pero en general tenemos que la composicin de una poblacin cambia con cada generacin t, y los miembros de la poblacin P (t +1) son escogidos de la poblacin P(t) de manera aleatoria por un proceso de seleccin. El procedimiento asegura que el nmero esperado de veces que una estructura es escogida es proporcional al rendimiento de la estructura, relativo al resto de la poblacin. Esto es si xj tiene dos veces el promedio de rendimiento de todas las
38
estructuras en P(t ) entonces xj se espera que aparezca dos veces ms frecuente en la poblacin P( t+1 ). Al final del mecanismo de seleccin, la poblacin P(t+1 ) contiene duplicados exactos de las estructuras seleccionadas en la poblacin P(t ). La variacin es introducida en la reglas de cada nueva poblacin por medio de operadores genticos recombinatorios idealizados, tambin llamados operadores heursticos, que son: 1. Unin 2. Mutacin: a) Mutacin aleatoria. El lmite del nuevo valor est entre un lmite de valores; b) Mutacin incrementada. El nuevo valor se obtiene al sumarle uno al viejo valor. 3. Crossover. Es el ms importante operador recombinatorio. Bajo el operador crossover, dos estructuras en la nueva poblacin intercambian segmentos. Esto puede ser implementado escogiendo dos puntos al azar e intercambiando segmentos entre los puntos. En la mayora de los algoritmos genticos, la recombinacin ocurre en cadenas binarias. En GARP sin embargo la recombinacin acta en valores o lmites de valores de variables, dependiendo del tipo de regla. Por ejemplo dos reglas GARP pueden intercambiar lmites de variables climticas en la recombinacin crossover. Ejemplos: Regla 1: IF TANN=(23,29]degC AND RANN=(10,16]degC THEN SP=PRESENT Regla 2: IF TANN=(35,38]degC AND TMNEL=(19,27]degC THEN SP=PRESENT
Laboratorio de Evolucin Molecular y Experimental 39
Dado las dos reglas de arriba, suponga que el punto de crossover ha sido escogido entre las variables. Y la estructura resultante podra ser: Regla 3: IF TANN=(23,29]degC AND TMNEL=(19,27]degC THEN SP=PRESENT Regla 4: IF TANN=(35,38]degC AND RANN=(10,16]degC THEN SP=PRESENT El operador de mutacin cambia el valor de una variable en un Nuevo valor. Mientras que la mutacin produzca pequeos cambios a las reglas, el crossover introduce nuevas estructuras representativas o combinaciones de variables dentro de la poblacin. Si esta estructura representa un rea de alto desempeo del espacio de bsqueda, se conducir a una nueva exploracin en esta parte del espacio de bsqueda. El algoritmo gentico termina cuando un nmero fijado de generaciones se alcanza o cuando la modificacin o descubrimiento de nuevas reglas es ms baja (o muy baja) que una tasa fijada. El conjunto de reglas con significancia estadstica, es producido una vez que los ajustes han cado por debajo de un porcentaje fijado. Seleccin y validacin de modelos en GARP A continuacin hablaremos un poco de la evaluacin de la adecuacin de cada modelo generado, que no es otra cosa que la utilidad de las reglas. Los criterios que GARP toma para realizar esto, los describiremos brevemente:
40
1. Probabilidad posterior. Escoge las reglas con mayor precisin. 2. Fuerza de seleccin. Se refiere a las reglas que aplican para muchos puntos. 3. Significancia. De las reglas que expresan patrones persistentes en los datos. 4. (De) Espacios ecolgicos. Reglas que incluyen un volumen grande de variables. 5. Inverso de la longitud de la regla. La cual regresa las reglas ms cortas. De manera muy general podemos decir que para hacer estas evaluaciones se escoge una muestra aleatoria de la poblacin, entonces el nmero de veces que una regla es escogida, es una medida proporcional del desempeo o medida de utilidad de la regla. Tambin tenemos que generalmente la probabilidad posterior (probabilidad de ocurrencia despus de que una regla se aplica) se comporta como una variable con distribucin normal. Por tanto se pueden calculara valores de la distribucin Z (Z-scores) para realizar una prueba de significancia. Valores altos de puntuacin (score) indican que es altamente improbable que el resultado, o sea la regla (probabilidad posterior) se producto del azar. Lo anterior slo se refiri a cmo encontramos las reglas ms adecuadas y las calificamos para generar un modelo, pero an falta saber cmo evaluamos todos los modelos de distribucin generados por GARP, lo que se equivalente a escoger el mejor subconjunto de modelos y evaluar su calidad. Lo que hace GARP es escoger un subconjunto de puntos al azar lo que equivale a particionar los datos (tambin se podran incluir nuevos puntos de muestreo o de verificacin). Una parte de los datos servir para hacer los modelos (training data) y la otra servir para probarlos (testing data). A continuacin se calculan los errores de comisin y omisin de cada modelo, esto se hace comparando los puntos de prueba con los modelos generados (recordar la tabla de confusin antes vista para Maxent):
41
Presente
Ausente
b (error de comisin)
c (error de omisin)
Y se grafican los resultados en un el espacio de errores de omisin y comisin Lo anterior queda mejor ejemplificado en las siguiente figura (de autor annimo).
Fig. 10. Grfico del espacio de errores de comisin y omisin (autor annimo).
42
Los errores de comisin son por decirlo as los errores ms tolerados (no hard error), ya que pueden implicar que el rea predicha pueda ser adecuada para la especie pero est ausente por errores o bajo esfuerzo de muestreo, por barreras vicariantes o por competencia. Aunque tambin queda la posibilidad del verdadero error de comisin (true comisin error) por ser el rea predicha no adecuada para la especie. Pero en general se van a preferir aquellos modelos con baja omisin y alta comisin. Ya que aquellos modelos con ningn error de comisin y cero error de omisin son modelos sobre ajustados y no tienen capacidad predictiva. Generalmente en GARP se puede indicar al programa un umbral de tolerancia para los errores de comisin (generalmente es una regla de dedo poner un 50 %) y para los errores de omisin (un 20 %).
filogenticas. Esto ltimo indicara que algn proceso est restringiendo la divergencia entre especies filogenticamente cercanas. Asimismo algunos autores han tratado de desarrollar mtodos para medir que tan parecidos son los nichos entre especies y tratar de probar hiptesis acerca del CFN, por ejemplo Peterson et al. (1999) que desarrollan una prueba de similitud de nicho. Recientemente Warren et al. (2008) desarrollan una serie de pruebas para cuantificar la similitud del nicho ecolgico y comparar la equivalencia contra el conservadurismo del nicho. Pensamos que ests pruebas tienen un buen potencial para el estudio de la cuestin del CFN, adems de que los autores han implementado un programa que entre otras pruebas realiza las pruebas de similitud y equivalencia de nicho, que nos interesan. Este programa se llama ENMtools (Warren et al., 2009) y se puede bajar junto con el manual de instalacin y operacin en: http://enmtools.blogspot.com/ Describiremos brevemente las pruebas antes sealadas haciendo nfasis en algunos detalles sobre su ejecucin que no son explcitos en el artculo y manual sealado. Adems que el programa ENMtools a pesar de ser muy til, an tiene muchos bugs que han tratado de ser corregidos en actualizaciones constantes del programa. Las pruebas citadas se basan en dos conceptos que son la similitud y la equivalencia de nicho. La similitud de nicho se refiere a cmo el modelo de nicho ecolgico de una especie predice a otra especie mejor de lo que se esperara por azar bajo un modelo nulo especfico. La equivalencia de nicho se refiere a si dos modelos de nicho de distintas especies son indistinguibles uno del otro. Sin embargo estas dos definiciones slo califican a dos caso extremos de un continuo, ya que se espera que el grado de conservacin de un nicho ecolgico este situado en cualquier parte entre los dos extremos mencionados.
44
Para evaluar la similitud y la equivalencia Warren et al. (2008) idearon dos medida de solapamiento de nicho (D e I) que luego se sonetearan a distintas pruebas estadsticas para cuantificar la similitud y la equivalencia de nicho. El primer ndice llamado (D) deriva del antiguos ndice de Schoener utilizado en la Ecologa para cuantificar solapamientos de nicho alimenticio y microhabitat. El segundo ndice llamado (I), deriva de la distancia de Hellinger (H) y no deriva de supuestos biolgicas sino solamente se basa en la comparacin de distribuciones de probabilidad. Ambos ndices pueden tomar un valor de 0 que indica no solapamiento hasta 1 que indica que los modelos son idnticos. Sin embargo las complicaciones con las pruebas de similitud y equivalencia derivan de la parte prctica de su ejecucin y un poco menos de los supuestos que las sustentan. Por tal motivo trataremos de explicar el procedimiento a seguir en cada caso, una vez instalado el programa como se ndica en el manual, ya que cmo mencionamos los procedimientos no estn suficientemente explicados y libres de ambigedades.
Prueba de Equivalencia
Para esta prueba y para la de similitud es necesario tener una carpeta donde se tengan juntas las capas bioclimticas, instalado Maxent y los modelos de nicho generados por este programa, de aquellas especies que queremos probar. Adems ENMtools funciona en conjunto con Maxent para analizar conjuntos de datos aleatorios y generar nuevos modelos que sirven para obtener pseudorplicas y as producir distribuciones nulas de los ndices I y D, y poder probar la significancia estadstica de estos ndices sobre los datos observados. Una vez que se abre ENMtools se tiene que decirle al programa en dnde estn las capas bioclimticas y Maxent, para que lo utilice automticamente una vez que comiencen los anlisis, adems de indicar en qu archivo queremos los resultados. Esto se hace en la seccin de opciones:
45
Fig.11. Pantalla de ENMtools, en la pestaa de opciones, en la que se indica al programa dnde estn las capas bioclimticas y Maxent.
La prueba de equivalencia consiste en tomar datos aleatorios de los sitios de ocurrencia de las dos especies a comparar. Con cada uno de estos datos o pseudorplicas se genera modelos de nicho ecolgico (con ayuda de Maxent) y estos se comparan por medio de los ndice de I y D. Segn los autores apoyados en distintas pruebas con muchas especies un nmero de 100 pseudorplicas es suficiente para generar una distribucin nula que pueda refutar la hiptesis nula de que los nichos de dos especie no son estadsticamente diferentes (equivalencia ecolgica) con un nivel de significancia alto. Los ndices I y D calculados para el par de especies en estudio se comparan con la distribucin nula de los valores I y D de las pseudorplicas por medio de percentiles y as determinar los niveles de significancia en los que se puede refutar la hiptesis. El proceso de manera prctica es el siguiente:
46
1 Generar los valores I y D observados. Nos vamos a la pantalla de entrada de ENMtools y en la primera pestaa seleccionamos Niche overlap.
47
2 Ya en la ventana de Niche Overlap, procedemos a cargar los datos de los modelos de prediccin de nicho (en formato ASCII), de las especies de inters y que fueron producidos previamente por Maxent.
48
Se cargan todos los datos que queramos comparar, ya que las comparaciones se de manera pareada para todas las combinaciones.
Fig. 14. Pantalla de ENMtools en la prueba Niche overlap, con los modelos de nicho ecolgico cargados.
49
Una vez que se termina la prueba el archivo de salida es una pgina de Excel, como la que se muestra en seguida:
Fig. 15. Resultados de la prueba de Overlap. Slo se muestran los datos del ndice D observados.
En la figura anterior podemos ver la tabla de los ndices D observados de todas las combinaciones pareadas de las especies introducidas.
50
3 Se realiza la prueba de equivalencia. Para esto vamos a la pestaa de Hypothesis testing y tecleamos la primera opcin Identity test.
51
52
En la ventana de Identity test cargamos los datos de todas las especies en formato *csv, (que se hace en Excel) de las que queramos generar las pseudorplicas, para obtener las distribuciones nulas de los ndice I y D. El nmero mnimo de replicas es 100.
Fig.18. Pantalla de ENMtools indicando cmo se cargan los datos para la prueba de equivalencia.
53
Una vez que se comienza el anlisis se abre automticamente Maxente y comienza a generar cien modelos la pseudorplicas, y para cada una se calculan los ndices D y I. Este proceso es bastante demandante de memoria y disco duro, as que tome sus precausiones, ya que un anlisis como el cargado arriba con especies que se distribuyen en Mxico, norte de Guatemala y Sur de Estados Unidos, puede durar entre un mes a un mes y medio. Claro que el tiempo depende del poder del procesador utilizado, del tamao de las coberturas utilizadas y el nmero de puntos de muestreo. En la siguiente figura vemos los archivos de salida del anlisis de equivalencia.
54
En la siguiente figura vemos los resultados de uno de los archivos arrojados por el anlisis de equivalencia.
Fig.20. Apertura de unos de los archivos de salida de la prueba de equivalencia, que muestra la distribucin nula de los ndices de I y D para las pseudorplicas. En la misma pgina de Excel se muestran las grficas de las distribuciones de las frecuencias de los ndices I y D para compararlos con los ndices I y D observados. Tambin se muestran los percentiles de la distribucin nula de I y D, calculados tambin con Excel para obtener los lmites de confianza a niveles de significancia de 0.05 y 0.01 como prueba de una cola. En este caso se rechaza la hiptesis nula, existen diferencias significativas, para el ndice D= 0.1770 (observado), p<0.01, por las especies son ecolgicamente distintas.
En la misma pgina hemos puestos las grficas de frecuencia de los ndices de I y D, como se indica en el manual de ENMtools y en dnde podemos ver que los valores observados de I y D para estas especies no estn dentro de la distribucin nula construida, por lo que se concluye que son distintos y las especies no son equivalentes. Sin embargo en el manual no se ndica como se establecen los
Laboratorio de Evolucin Molecular y Experimental 55
niveles de significancia para rechazar o no la hiptesis nula. Esto se realiza calculando los percentiles (Warren y Turelli, 2008) aunque los autores no dan ms detalle de este proceder. Pero para distribuciones nulas lo que se hace es calcular el percentil 0.01 y 0.05 que equivalen a p=0.01 y p=0.05. Entonces en nuestro caso calculamos los percentiles de todos los datos de las pesudrplicas para los ndices I y D, y as si nuestro valor observado es menor que el valor de los percentiles 0.01 y 0.05 decidimos que los valores son estadsticamente diferentes, se refuta la hiptesis nula y no existe equivalencia ecolgica.
Prueba de Similitud
Un aspecto que puede ser un tanto confuso al revisar el artculo de Warren et al (2008) es el manejo de la hiptesis nula de similitud, ya que es un poco antiintuitiva cuestin que se arrastra desde el trabajo de Peterson et al. (1999). La hiptesis nula es: la distribucin una especie no aporta ningn dato para predecir la distribucin de otra. Es decir, si la prueba es significativa no indica diferencias significativas entre especies, sino que estas son similares ecolgicamente, y una prueba no significativa indica que las especies no son similares. Aunque no necesariamente si dos especies no son similares indica que son equivalentes o hay conservadurismo del nicho, ya que slo pueda ser un artefacto por nmeros de muestra muy bajos (por ejemplo <5). Adems eta prueba se hace en dos sentidos y se trata como una prueba a dos colas, lo que se traduce como probar si la especie A es similar a la especie B y despus si la especie B es similar a la especie A. La prueba es muy estricta ya que slo considera que dos especies son similares si la prueba tiene valores estadsticos significativos en ambas direcciones. La prueba se basa en usar datos aleatorios para determinar si dos especies son ms o menos similares que lo esperado basado en las diferencias en los datos ambientales de fondo o background (Warren et al, 2009). Bacground se refiere a las rea o pixles en dnde no se ha predicho la especie.
56
El uso de datos externos o background se entiende por qu se quiere saber si una especie tolera o no las mismas condiciones ecolgicas de otra y la nica forma de hacerlo es comparando con un lugar donde hay certeza que las condiciones ecolgicas no son toleradas por una especie, ya que no se distribuye en ese lugar. La prueba tambin calcula distribuciones nulas de los ndices I y D, pero en dos sentidos como se mencion antes, o sea tenemos una distribucin nula de 100 ndices para la especie A vs B y 100 para B vs A. Y slo con valores significativos para ambas direcciones se puede afirmar que una especie comparte similitud ecolgica. La prueba en ENMtools es como sigue: 1 Abrimos Bacground test en la pestaa de Hypothesis testing
Fig. 21. Pantalla de entrada de ENMtools, mostrando en dnde est la entrada para la prueba de similitud Background test.
57
3 Tenemos que tener listos cuatro archivos de dos tipos distintos: dos archivos con formato *csv con las localidades para las especies A y B respectivamente; dos archivos (uno para A y otro para B) con formato *asc (ASCII) en donde se encuentran los datos correspondientes del rea background, de donde se tomaran puntos aleatorios para la prueba. En la figura siguiente se ilustra el concepto de rea de muestreo background.
Fig.22. Ejemplo del rea de background que muestra donde se toman los puntos externos al rea de distribucin predicha para una de las especies comparadas, para usarlas en la prueba de similitud (Warren y Turelli, 2010). Que en nuestro caso se necesita hacer con una mscara.
58
Para tener un archivo background es necesario tener un archivo de prediccin de distribucin de la especie correspondiente y enmascarar las reas en donde se predice la especie. Esto se puede hacer con ArcGis como se ndica en el manual de ENMtools o en Arcview. Una manera til para gnerar el archivo background es abrir en Arcview la prediccin y utilizar la funcin de Reclasificar. Lo que haremos es reclasificar l rea de prediccin para igualarla a cero, equivalente a poner una mscara sobre el rea de prediccin con valores de pixel iguales a -9999 (que se interpretan como ausencia de dato no data), claro que se puede hacer de otras maneras. Tambin recomendamos limitar el rea de background a las mnimas reas alrededor del rea predicha o si la prediccin cae sobre un rea geolgica determinada como una cadena montaosa, solo tomar en cuenta un rea pequea afuera de esa cadena montaosa, o si la prediccin slo cubre un rea determinada de esta cadena montaosa (desierto etc.) tomar tambin slo un poco de rea sobre esa misma cadena montaosa, en donde no se predice la especie. Esto se hace recortando rea en el mismo Arcview, en donde se abre la funcin de Manual grid editor, se escoge el rea a recortar y se corta con la funcin de Clip data set que se encuentra dentro de la pestaa Garp. Si no estn ests pestaas es probable que no estn cargadas las extensiones correspondiente. Las extensiones son pequeos programas escritos en lenguaje Avenue que es el que utiliza Arcview y que uno puede bajar de distintos lugares de la red principalmente la pagina de ESRI. Una vez que se tiene la extensin que se necesita se va a la carpeta que contiene el Progrma Arcview que se llama Esri y se guarda dicha extensin. Luego la extensin se habilita al abrir Arcview, abriendo Files y luego Extensiones y de ah se escoge la extensin que necesitemos.
59
4 Se cargan los archivos de ocurrencia de las especies y las mscaras o reas background. Esto se hace en dos etapas, primero se carga los sitios de ocurrencia de A y la mscara de B y luego, los sitios para B y el rea background para A. El nmero de datos aleatorios a tomar en cada caso del rea background es igual al nmero de datos de ocurrencia de la especie contraria. La forma de cargar los datos se ejemplifica en la siguiente figura.
Fig.23. Pantalla de la prueba de similitud o Background test. Primera fase en dnde se cargan los datos de colecta de una primera especie y la mascara o datos de bacground para la segunda especie.
60
En esta figura vemos como se terminan de cargar los datos, sin olvidar aadir las comparaciones en los dos sentidos A vs B y B vs A, en cada caso utilizando el botn Add this analysis.
Fig. 24. Pantalla de la prueba de similitud, en la segunda fase, cuando se cargan los datos de sitios de ocurrencia y de background en sentido contrario de los datos ya cargados.
61
5 Aqu los anlisis no se pueden hacer en grupo sino se tiene que ir de par en par de especies. El proceso tambin es muy demandante de capacidad de computo y cada anlisis puede durar unos dos o tres das. Una vez que el programa termina nos arroja una serie de archivos como los que vemos en la figura siguiente.
En la figura podemos notar que se producen entre otros dos archivos que dicen BACKGROUND uno para la comparacin de A vs B y otro para la comparacin de B vs A.
62
Cuando abrimos unos de los archivos podemos ver que contienen 100 datos de ndices I y D, los que se comparan con los datos observados de I y D calculados desde un principio. Los autores no dan ms datos de lo que se debe hacer, as que procedemos de una forma similar que lo realizado para la prueba de equivalencia, para la comparacin de las distribuciones nulas, slo que ahora comparamos en los dos sentidos, y para cada par de especies vamos a tener dos valores de significancia para reportar para cada ndice. El reporte de los datos lo podemos ver ejemplificado en la tabla 4.
Fig.26. Uno de los archivos de salida de la prueba de similitud, en donde se muestran los ndices I y D de las pseudorplicas. Adems se calculan tambin los percentiles 0.01 y 0.05, para usarlos como nivel de significancia para la prueba.
63
Apuntes sobre modelacin de nichos ecolgicos Table 4 (Ejemplo). Test of niche equivalency and niche similarity. Results of tests are followed by an assessment of statistical significance (p 0.05 = *; p 0.01 = **; p > 0.05 = ns). The statistical significance in the Backround similarity test from the measured overlap between species pair is given as the first species listed in the column predicting the second and the second species predicting the first. Species Pair Identity test (niche equivalency) I
concolor - d. coahuilensis concolor - d. duranguensis concolor- religiosa concolor - guatemalensis concolor- hickelli concolor - flincklii concolor - mexicana d. coahuilensis - d. duranguensis d. coahuilensis - religiosa d. coahuilensis - guatemalensis d. coahuilensis - hickelli d. coahuilensis - flincklii d. coahuilensis - mexicana d. duranguensis - religiosa d. duranguensis - guatemalensis d. duranguensis - hickelli d. duranguensis - flincklii
Background test (niche similarity) I ** ** ** ** ** ** ** ** ** ** ** ** ** ** ** ** ** 0.517 0.409 0.310 0.329 0.304 0.306 0.406 0.450 0.400 0.497 0.391 0.436 0.535 0.456 0.500 0.424 0.550 ns ns ns * ** ** ns ns ** ns ** ** ns ** ns ** ns ns ** ** ** ** ** ** * ns ns ns ns ns ns ns ns ns D 0.288 0.094 0.011 0.030 0.007 0.008 0.143 0.159 0.120 0.251 0.116 0.168 0.295 0.177 0.253 0.149 0.293 ns * ns ns ** ** ns ns ** ns ** ** ns ** ns ** ns ns ** ** ** ** ** ** * ns ns ns ns ns ns ns ns ns
D ** ** ** ** ** ** ** ** ** ** ** ** ns ** ** ** ** 0.288 0.094 0.011 0.030 0.007 0.008 0.143 0.159 0.120 0.251 0.116 0.168 0.295 0.177 0.253 0.149 0.293
0.517 0.409 0.310 0.329 0.304 0.306 0.406 0.450 0.400 0.497 0.391 0.436 0.535 0.456 0.500 0.424 0.550
64
Graham, C. H., Ron, S. R., Juan, C., Schneider, C. J. y Moritz, C. (2004). ''Integrating phylogenetics and environmental niche models to explore speciation mechanisms in dendrobatid frogs. Evolution 58(8): 1781-1793.
Harmon, J. E. y S. J. Anderson. 2003. The Design and Implementation of Geographic Information System, Editorial: John Wiley & Sons, New Jersey.
Losos, J.B. (2008). Phylogenetic niche conservatism, phylogeneticsignal and the relationship between phylogenetic relatedness and ecological similarity among species. Ecol. Lett., 11, 9951003.
Peterson, A. T., J. Sobern, y V. Snchez-Cordero. 1999. Conservatism of ecological niches in evolutionary time. Science 285:12651267.
Phillips, S. J. y Dudk, M. 2008. Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation. _ Ecography 31: 161_175.
Phillips, S. J. et al. 2006. Maximum entropy modeling of species geographic distributions. _ Ecol. Model. 190: 231_259.
Sobern, J. y M. Nakamura. 2009. Niches and distributional areas: Concepts, methods,and assumptions. PNAS, 17: 19644-19650.
Warren, D. L., R. E. Glor y M. Turelli. 2008. Environmental niche equivalency versus conservatism: Quantitative aproches to niche evolution. Evolution 62: 28682883.
65
Warren, D. L., Glor, R. E. y Turelli, M. 2010. ENMTools: a toolbox for comparative studies of environmental niche models. Ecography 000: 000_000.
66