INTA - Métodos Est. Sensores

Mtodos estadsticos de la evaluacin de la exactitud de productos derivados de sensores remotos
Instituto de Clima y Agua, INTA Castelar
Teresa Boca; Gabriel Rodrguez
INDICE Introduccin.............................................................................................................................................................. 4 Etapas en la determinacin de Precisin Diseo y Anlisis de mapas temticos........................................ 4 1.Diseo de muestreo ......................................................................................................................................... 5 1.1.Ventajas de un buen muestreo. .............................................................................................................. 5 1.2.Principios y consideraciones prcticas .................................................................................................. 6 1.3.Tipos de muestreo.................................................................................................................................... 6 Muestreo aleatorio simple.......................................................................................................................... 7 Muestreo aleatorio sistemtico .................................................................................................................. 7 Muestreo aleatorio estratificado................................................................................................................ 7 Muestreo por Rutas o itinerarios aleatorios............................................................................................ 8 2. Validacin de los resultados......................................................................................................................... 8 2.1. Qu se utiliza como verdad de terreno? ............................................................................................ 8 Muestreo a campo ....................................................................................................................................... 8 Otras imgenes o fotografas que se considere verdad de terreno.................................................... 9 Conocimiento idneo de la zona. ............................................................................................................ 1 0 1 0 2.2. Costos..................................................................................................................................................... 2.3 Cuanta informacin se debe tomar?................................................................................................. 1 0 3. Medidas y tcnicas utilizadas para medir la calidad de los productos generados............................. 1 1 3.1.Tipos de error y referencias.................................................................................................................. 1 1 3.2. Matriz de confusin:.............................................................................................................................. 1 1 3.3. ndices Globales.................................................................................................................................... 1 3 Exactitudglobal........................................................................................................................................ 1 3 Intervalodeconfianzaparalaexactitudglobal....................................................................................... 1 4 ndiceKappa............................................................................................................................................. 1 5 3.4. ndices por clases.................................................................................................................................. 1 5 Exactituddelproductor........................................................................................................................... 1 5 Exactituddeusuario................................................................................................................................. 1 6 1 7 4. Consideraciones finales............................................................................................................................... ANEXO 1: Introduccin al uso de R............................................................................................................... 1 8 ANEXO 2: Algoritmo en R para el clculo de las medidas de calidad de los productos derivados de sensores remotos.............................................................................................................................................. 2 1 Bibliografa .............................................................................................................................................................. 2 4 INDICE de Figuras Figura 1: Etapas de trabajo en la validacin de mapas.................................................................................... 5 Figura 2 Disposicin espacial de las observaciones bajo un muestreo aleatorio......................................... 7 Figura 3 Trabajo de muestreo a campo, profesional de INTA con mapas y GPS........................................ 8 2
Figura 4 Fotografas tomadas in INTA Castelar a 1, 0.5 y 0.25 metros respectivamente.......................... 9 Figura 5 Imagen de la zona de estudio provista desde google maps ............................................................. 9 Figura 6 Formato de los datos a analizar para obtener la matriz de confusin y sus ndices derivados12 Figura 7 Representacin grafica de la matriz de confusin........................................................................... 1 3
INDICE de Tablas Tabla 1 Esquema general de la matriz de informacin................................................................................... 1 2 Tabla 2 Matriz de confusin resultante del ejemplo........................................................................................ 1 3 Tabla 3 Clculo de la exactitud del productor................................................................................................... 1 5 Tabla 4 Errores de omisin.................................................................................................................................. 1 6 Tabla 5 Valores estimados de exactitud del usuario....................................................................................... 1 6 Tabla 6 Errores de comisin................................................................................................................................ 1 6
Mtodos estadsticos de la evaluacin de la exactitud de productos derivados de sensores remotos

Introduccin
A partir del uso de la informacin derivada de sensores remotos se elaboran mapas de variables ambientales, tales como mapas de cobertura, de cultivos, de uso de la tierra, etc. A pesar de su creciente utilizacin, no es muy habitual realizar una validacin del producto y acompaarlo de sus medidas de exactitud. Una de las causas podra ser que no existe entre la bibliografa tcnica muchas descripciones accesibles de cmo obtener tales medidas. Este pequeo manual pretende poner al alcance de aquellos que trabajan en laboratorios de teledeteccin una herramienta para realizarlo.
Etapas en la determinacin de Precisin Diseo y Anlisis de mapas temticos

De forma muy sinttica podemos describir el proceso en las etapas diagramadas en la Figura 1. Primeramente la informacin obtenida del muestreo de campo a travs de un diseo de muestreo apropiado, ser utilizada en la definicin de clases de la imagen bruta, este paso se obvia si se utiliza un mtodo de clasificacin no supervisado. Una vez completado el proceso de clasificacin se obtendr el mapa temtico. Nuevamente a travs de un diseo de muestreo se generar informacin de campo o verdad de terreno que ser contrastada con la informacin del mapa y se lograr la validacin de resultados. De esta forma se calcularn las distintas medidas de exactitud. La interpretacin de las distintas medidas de exactitud nos generar el informe de validacin o de calidad temtica. En este manual nos concentraremos en el diseo de muestro de validacin de resultados, el clculo de las medidas de exactitud y la elaboracin del informe de validacin.
Figura 1: Etapas de trabajo en la validacin de mapas
1. Diseo de muestreo
El objetivo general de un estudio en el rea agropecuaria suele ser, extraer conclusiones acerca de la naturaleza de una poblacin que no puede ser ntegramente estudiada. Las conclusiones obtenidas deben basarse, en la mayora de las situaciones, en solamente una parte de sta o sea una muestra, por lo tanto es importante que esta sea representativa de la poblacin en estudio, por ejemplo, en este caso las caractersticas del rea que se desea mapear. Dado que el trabajo de recoleccin de datos suele ser costoso en esfuerzo, tiempo y dinero, es importante considerar todos los factores que influyen sobre el mismo. De esta forma nos asegurarnos lograr el objetivo perseguido y poder obtener una buena estimacin de la exactitud de los mapas. Un buen diseo de muestreo deberia tener las siguientes caractersticas (Cochran,1977): ser sencillo de aplicar y analizar permitir obtener estimadores estadsticamente confiables incluir todas las fuentes de variabilidad contemplar la distribucin espacial asegurar un protocolo de muestreo probabilstico ser econmicamente factible de realizar
1.1.Ventajas de un buen muestreo.

Si la informacin que buscamos los podemos obtener de manera eficiente a partir de una pequea parte del total de la poblacin, los gastos de recoleccin y tratamiento de la muestra sern menores. Como consecuencia de tener que procesar menos unidades muestrales (puntos de observacin) y analizar menor cantidad de informacin, obtendremos los resultados de forma ms rpida. 5
1.2.Principios y consideraciones prcticas

Objetivo de la medicin: Antes de organizar o seleccionar el mtodo de muestreo, es muy importante tener bien definido el objetivo deseado, ya que este modificar la precisin necesaria y los datos a recolectar. Poblacin a ser muestreada: Definir claramente la misma puede ser simple en muchos casos, pero no en todos. Esta debe coincidir con la poblacin a la cual se quieren referir los resultados. Datos o informacin a colectar: Es importante relevar solo aquella informacin que nos es de utilidad y coincide con el objetivo en estudio de forma de hacer ms eficiente el trabajo. Grado de precisin deseado: Los resultados estarn siempre sujetos a cierta incertidumbre, debido a los errores propios de los mtodos de muestreo. Estos se pueden reducir al aumentar el tamao de muestra (cantidad de observaciones realizadas), u obteniendo instrumental ms preciso. El lmite en el nmero de observaciones muchas veces lo determina el costo. El investigador debe tener en claro el error que puede ser tolerado en las estimaciones para determinar el nmero de muestras a tomar. Mtodos de medicin: Es necesario calibrar y conocer bien el mtodo e instrumental de medicin antes de aplicar el muestreo, para reducir al mnimo los errores de medicin que se puedan controlar. Muchas veces los errores generados por el mal uso de los instrumentos de medicin, o el trabajo sin un protocolo bien organizado puede ser causante de una variabilidad ms alta que la propia de la variable observada. Prueba de entrenamiento Es necesario tener algn grado de conocimiento sobre las caractersticas de la poblacin a muestrear, ya que de esto depende la precisin obtenida, y por ende el nmero de observaciones a realizar. En los casos donde no se cuente con dicha informacin habra que realizar una prueba de entrenamiento a campo antes de aplicar el diseo en la poblacin de referencia. Organizacin del trabajo de campo Es necesario construir un organigrama de trabajo, contemplando los inconvenientes y sus posibles soluciones.
1.3.Tipos de muestreo
Existen diferentes criterios de clasificacin de los tipos de muestreo, aqu solo se describirn los comnmente utilizados en los muestreos a campo para la validacin de mapas. Los mtodos descriptos son aquellos que se basan en el principio de equiprobabilidad, lo que significa que trabajaremos de forma tal que todas las situaciones tengan igual probabilidad de ser observadas. Esto nos asegura la representatividad de la muestra extrada y son, por tanto, los ms recomendables. Entre los tipos de muestreo ms aplicados se encuentran:
Muestreo aleatorio simple

Primeramente se asigna un nmero a cada u.m.1 de la poblacin y luego a travs de algn mtodo (tablas de nmeros aleatorios, un ordenador, etc) se eligen tantas u.m. como sea necesario para completar el tamao de muestra requerido (Figura 2 A). Este procedimiento, atractivo por su simpleza, considera que las unidades experimentales son homogneas y tiene poca o nula utilidad prctica cuando la poblacin que estamos manejando podra llegar a ser heterognea. Existen varios programas que manejan datos espaciales, que nos permiten tirar un nmero n de puntos al azar sobre una imagen, obteniendo de esta forma las coordenadas de las u.m..
Muestreo aleatorio sistemtico

Primeramente se numeran los elementos de la poblacin, aleatoriamente se extrae 1 (i). Partiendo del numero aleatorio (i), las u.m. sern solo aquellas que ocupan los lugares i, i+k, i+2k,...,i+(n-1)k (Figura 2 B). Siendo k el resultado de dividir el tamao de la poblacin por el tamao de la muestra: k=N/n. En los casos en que se dan periodicidades en la poblacin ya podemos introducir una homogeneidad que no se da.
Muestreo aleatorio estratificado

Consiste en considerar categoras tpicas diferentes entre s (estratos) que poseen gran homogeneidad respecto a alguna caracterstica. Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de inters estarn representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple (Figura 2 C). Exige un conocimiento detallado de la poblacin.
Figura 2 Disposicin espacial de las observaciones bajo un muestreo aleatorio A: simple; B: sistemtico y C: estratificado
1 Para seguir con la terminologa ms comn de la bibliografa, llamaremos unidad muestral (u.m.) a cada punto de observacin.
Muestreo por Rutas o itinerarios aleatorios

Consiste en realizar los muestreos sobre itinerarios, que van ligados a la red vial o cualquier terreno por el que se pueda circular y hacer observaciones a distancias prefijadas a los mrgenes. Este mtodo cuenta con numerosos adeptos por la comodidad de verificacin sobre el terreno, a pesar de contar con crticas desfavorables.
2. Validacin de los resultados.

El proceso de validacin consiste en la comparacin entre el valor asignado a un punto dado en el mapa y el valor observado en el mismo punto en el campo o u otra fuente considerada verdad. Los valores estimados de exactitud de clasificacin son determinados para un producto y para la comparacin entre diferentes productos. Antes de describir las distintas medidas de exactitud, veremos algunos criterios generales sobre las caractersticas de la informacin utilizada como verdad de terreno.
2.1. Qu se utiliza como verdad de terreno?
Muestreo a campo
Consiste en verificar de a travs de observacin directa el valor que corresponde a cada sitio. Como se coment en los prrafos anteriores, esta labor debe de estar acompaada de un protocolo de trabajo adecuado y un buen diseo de muestreo previo. Actualmente los avances tecnolgicos tales como los GPS, el acceso a internet satelital, etc facilitan la labor (Figura ). Este procedimiento es el ms adecuado, ya que tenemos total certeza del dato relevado. En muchas ocasiones, el rea de muestreo no es totalmente accesible, por lo que se debe realizar un muestreo siguiendo las rutas o caminos existentes. Esto podra limitar las ventajas propias del mtodo.
Figura 3 Trabajo de muestreo a campo, profesional de INTA con mapas y GPS 8
Otras imgenes o fotografas que se considere verdad de terreno.

Dependiendo de la escala de validacin, estas fotografas han resultado ser de mucha utilidad cuando se trata de zonas de grandes dimensiones, o cuando se trabaja en una regin de difcil acceso. Por ejemplo el Instituto de Clima y Agua (http://climayagua.inta.gob.ar/), del Centro Nacional de Investigaciones Agropecuarias (CNIA) de INTA utiliza un Sistema de Sensores Aerotransportados (SSA) instalados a bordo de un avin Sky Arrow 650 TCNS E.R.A. (Environmental Research Aircraft)
Figura 4 Fotografas tomadas in INTA Castelar a 1, 0.5 y 0.25 metros respectivamente.
Tambin podemos utilizar imgenes de mayor escala como las provistas por Google Maps (http://maps.google.com.ar), que utiliza las imgenes del satlite QuickBird y recorre una rbita polar cada 90 minutos. Estas herramientas son de gran utilidad cuando se est trabajando en el reconocimiento de grandes reas, donde un muestreo a campo se hace poco factible debido al costo que implicara. En un futuro prximo se espera que varios sistemas pticos de alta resolucin sean puestos en funcionamiento, dando por resultado mejores resoluciones, disponibilidad, variedad, y costos de las imgenes. Esto causar un permanente crecimiento en el uso de las imgenes derivadas de sensores remotos.
Figura 5 Imagen de la zona de estudio provista desde google maps 9
Conocimiento idneo de la zona.

Si bien la bibliografa especializada no se extiende mucho sobre esta posibilidad, es sabido que es un procedimiento utilizado muy frecuentemente. En este caso no es posible evaluar el grado del conocimiento necesario, ni de aquel que est en condiciones de hacerlo, pero esto no lo invalida, en especial en aquellos centros e instituciones que estn en contacto directo con productores y tienen gran experiencia acumulada. Tampoco es factible estimar ninguna medida de exactitud.
2.2. Costos
Si bien las imgenes de alta resolucin como las Quickbird, ikonos, spot , o las fotografas areas suelen ser costosas (alrededor de u$a 25/ha), al momento de tomar las decisiones habra que comparar sus costos con los generados a campo considerando el jornal del observador de campo, los gastos de traslado, etc. Por otro lado, al momento de decidir por el uso de una imagen de alta resolucin o una fotografa area hay que considerar adems el costo de interpretacin de las mismas, ya que muchas veces la integracin de las imgenes, como la diferenciacin de los distintas clases a campo, no es evidente y debe realizarse a travs de un experto.
2.3 Cuanta informacin se debe tomar?

Una de las etapas crticas del diseo de muestreo es la determinacin del tamao de muestra. Una muestra ms grande que lo necesario implica utilizar ms recursos mientras que una muestra ms pequea disminuye la utilidad de los resultados. Existen en la bibliografa algunas recetas prcticas, por ejemplo, Congalton (2009) sugiere como una gua general o buena "regla de oro", recoger un mnimo de 50 muestras para cada clase de mapa. Para un mapa con 8 clases debera pensarse en un mnimo de 400 muestras. La estadstica nos da otras herramientas, supongamos que estamos interesados en conocer la proporcin que cubre un cultivo un rea determinada (p). Previo al clculo del tamao de muestra debemos decidir cual queremos que sea la precisin de nuestra estimacin (por ejemplo si decido trabajar con una precisin del 5% y observo un 43% podra confiar que el rea cubierta por cultivo estara entre un 38% y 48%) y el valor de confianza, dado que no se puede asegurar la precisin deseada, debido que trabajamos con una muestra. Generalmente se trabaja con valores de confianza del 95 o el 99%. Podemos suponer que al observar una unidad de muestreo esta tengo o no la clase de inters, asignamos un valor de probabilidad de 50% y entonces utilizar la funcin de distribucin binomial para los clculos, y la formula correspondiente ser:
n=
Donde: Z = valor de la funcin de distribucin Normal acumulada para un rea (1-)/2 d = precisin. Como vemos la formula de n depende de la precisin, la confianza y del valor que queremos estimar (p), que en la mayora de los casos no se conoce. Entonces podemos utilizar el valor p=0.5 propuesto 10
Z 2 p (1 p) 1.96 2 * 0.5 * 0.5 = = 385 d2 0.05 2
anteriormente, dado que maximiza el numerador (p(1-p)) y nos dar el tamao mximo de muestra para obtener nuestro estimador con la precisin y confianza deseada.
3. Medidas y tcnicas utilizadas para medir la calidad de los productos generados

3.1. Tipos de error y referencias
Existen en la bibliografa distintas citas sobre valores de referencia de los ndices de exactitud de los productos derivados de sensores remotos. Entre ellos podemos referirnos al valor utilizado para los mapas de cobertura y ocupacin del suelo por el Servicio Geolgico de los Estados Unidos (Fallas, 2002) que indica que la exactitud global debe ser de al menos un 85% y que las categoras mapeadas deben tener un nivel de exactitud similar. Se pueden cometer distintos tipos de errores que pueden ser clasificados como: De atributo: se refiere a la asignacin errnea de la clase en el mapa. De localizacin: se refiere a la ubicacin errnea de la clase en el mapa. Globales: corresponde a errores de atributo y localizacin simultneamente. Segn las tcnicas que apliquemos podemos clasificarlas en Tcnicas descriptivas: describen la situacin a travs de ndices que resumen la informacin o Matriz de error o de confusin o ndices derivados de la matriz Tcnicas analticas: asignan valores de confianza a los ndices calculados bajo ciertos supuestos. o Intervalos de confianza de los ndices estimados o Pruebas de hiptesis para los ndices estimados Las tcnicas descriptas en este manual para medir el error en la clasificacin generalmente no diferencian entre ambos.
3.2. Matriz de confusin:

La misma es una matriz cuadrada en la que se compara la clasificacin de la imagen con la verdad de terreno. A travs de la matriz de confusin se evala la exactitud de la clasificacin, situando en las filas las clases o categoras de nuestro mapa y en las columnas las mismas clases para la verdad de terreno o campo. Las caractersticas ms destacadas de esta matriz son: Presenta una visin general de las asignaciones, tanto de las clasificaciones correctas (elementos de la diagonal) como de las migraciones o fugas (elementos fuera de la diagonal). Recoge los denominados errores de omisin y de comisin o Errores de comisin: elementos que no perteneciendo a una clase aparecen en ella. o Errores de omisin: elementos que perteneciendo a esa clase no aparecen en ella por estar errneamente incluidos en otra. 11
Tabla 1 Esquema general de la matriz de informacin

CLASES EN EL CAMPO A1 A1 CLASES MAPA A2 . AM Total campo
EXACTITUD PRODUCTOR ERROR OMISIN
A2 a12 a22
AM a1m a2m
Total mapa a.1 a.2
EXACTITUD USUARIO
ERROR COMISION
a11* a21
a.1 / a.. a.2 / a..
1- (a.1 / a..) 1- (a.2 / a..)
am1 a1. a1. / a.. a2. a2.. / a..
amm a2. am. / a.. 1-(am. / a..)
a.m a..
a.m / a..
1- (a.m / a..)
1-(a1. / a..) 1-(a2.. / a..)
*Esta notacin indica en los subndices la posicin dentro de la matriz, por ejemplo en valor con a12 hace referencia al valor correspondiente a la fila 1, columna 2. El . (punto) indica que el valor corresponde a la sumatoria del mismo a lo largo de la fila o columna, por ejemplo: a1. indica los valores de a sumados para toda la columna 1. Para ejemplificar el clculo de los ndices derivados de la matriz de confusin se utilizarn los datos que corresponden a un muestro de validacin de un mapa de cobertura con 10 clases codificadas como 13000, 13200, 21200; 22100; 22200; 22300; 23100; 23200; 41100; 52200 y 71000. Los datos fueron ordenados en 2 columnas, una de valores observados (a campo) y otra de valores clasificados (de mapa). Para los clculos de los siguientes puntos se utiliz el programa de distribucin libre y gratuito R (R, 2011). En el ANEXO 1 se encuentran la descripcin del mismo, nociones bsicas de uso y las sentencias necesarias para realizar los clculos de este manual. Para utilizar el programa descripto en el anexo adjunto, el archivo con los datos de campo y sus correspondientes valores en la imagen pueden armarse en un tabla Excel y guardarse como archivos separado por comas (csv). Este programa admite mltiples formatos de archivo, utilizamos este por ser uno de los ms extendidos y sencillos.
Figura 6 Formato de los datos a analizar para obtener la matriz de confusin y sus ndices derivados
12
Ejemplo de matriz de confusin

Tabla 2 Matriz de confusin resultante del ejemplo
CAMPO 13000 13000 13200 21200 22100 22200 MAPA 22300 23100 23200 41100 52200 71000 suma CAMPO 39 0 10 1 0 0 16 0 0 0 0 74 13200 0 1 0 0 0 0 0 0 0 0 0 1 21200 0 0 33 0 1 0 11 2 0 0 0 47 22100 0 0 0 8 7 0 14 0 0 0 0 29 22200 1 0 11 7 489 1 106 6 0 0 0 621 22300 0 0 0 0 1 11 2 0 0 0 0 14 23100 2 0 32 0 62 0 77 3 0 0 0 176 23200 0 0 1 0 8 0 0 3 0 0 0 4 41100 0 0 1 0 0 0 0 0 0 0 0 1 52200 0 0 0 0 1 2 0 0 0 1 0 4 71000 0 0 0 0 0 0 0 0 0 0 4 4 suma MAPA 42 1 88 16 569 14 226 14 0 1 4 975
Grfico matriz confusin: En la Figura 7 se puede visualizar en forma descriptiva el comportamiento de las distintas clases. Cada color representa en forma horizontal como los valores en la imagen se corresponden a los observados en el campo. Lo ideal seria que solo hubiese rectngulos en la lnea diagonal como sucede con la clase 71000, 52200 y 13200. Las dems clases presentan errores, por ejemplo se clasific como 23100 a clases que correspondan a 13000, 21200, 22100 y 22200.
0 .2 0 .4 0.6 0.8 0.2 0.4 0.6 0.8 0 .2 0.4 0 .6 0 .8 0 .2 0 .4 0.6 0.8 0.2 0 .4 0.6 0 .8
13000
71000
13200
21200
22100
22200
22300
23100
23200
41100
52200
71000
52200
41100
23200
Clases imagen
23100
22300
22200
22100
21200
13200
13000
0.2 0.4 0 .6 0 .8
0 .2 0.4 0.6 0.8
0.2 0.4 0.6 0 .8
0.2 0 .4 0 .6 0.8
0 .2 0.4 0.6 0.8
0 .2 0.4 0 .6 0 .8
C la s e s c a m p o
Figura 7 Representacin grafica de la matriz de confusin
Los errores que se observan en la Figura 7 pueden ser cuantificados mediante distintos ndices.
3.3. ndices Globales
Exactitudglobal
13
Se calcula como el nmero de unidades clasificadas correctamente, sobre el nmero total de unidades consideradas. Se obtiene sumando los elementos de la diagonal divididos por el Total de observaciones. Este ndice tiende a sobrestimar la bondad de la clasificacin. Sus valores se encuentran en el intervalo [0, 1], siendo la clasificacin mejor cuanto ms se acerque a la unidad. Para el ejemplo el valor de Exactitud Global es de = Suma de los valores de la diagonal / nmero de observaciones = (39 + 1 + 33 + 8 + 489 + 11 + 77 + 3 + 0 + 1 + 4)/975=666 /975= 0.68 %
Intervalodeconfianzaparalaexactitudglobal
Si consideramos al valor calculado como estimador de la probabilidad de que cada muestra haya sido correctamente clasificada, adems suponemos que el evento nmero de errores y aciertos sigue una distribucin binomial, y que puede calcularse su funcin de distribucin a travs de una aproximacin a la distribucin Normal, entonces podemos hacer algunas inferencias sobre este estimador. En este caso el intervalo de confianza de (1-) para p esta dado por:
ICp = p z1
2
p (1 p ) 1 + n 1 2n
Si np 5 ; Donde: = error admitido; n = tamao de la muestra; p = proporcin de la poblacin que presenta determinada caracterstica. Z = valor de la funcin normal acumulada para un rea igual a 1- /2 Para su clculo en R (ver anexo Introduccin al uso de R) debemos utilizar la funcin prop.test, cuyos argumentos son, el nmero de aciertos, el nmero total de datos. prop.test( aciertos,n,alternative = "two.sided") 95 percent confidence interval: 0.6474470 0.7070293 IC: { 0.65; 0.70} Existe un 95% de confianza que el intervalo calculado cruce el verdadero valor de la exactitud global de la zona estudiada. La funcin admite el clculo para otros valores de (R, 2011). Prueba de hiptesis para la exactitud global Podemos realizar una prueba de hiptesis
H 0 = p p0 H 1 = p < p0
Hiptesis nula: La exactitud global es mayor o igual al valor de referencia Hiptesis alternativa: La exactitud global es menor al valor de referencia La funcin en R a utilizar para un valor de referencia de 95% seria: prop.test( aciertos,n, p=0.95, alternative = "less") data: aciertos out of n, null probability 0.95 14
X-squared = 1513.470, df = 1, p-value < 2.2e-16 Esto nos dice que no existe evidencia para pensar que la hiptesis nula sea verdadera, se acepta que la exactitud global es menor al valor de referencia.
ndiceKappa
Este estadstico es una medida de la diferencia entre la exactitud lograda en la clasificacin y la chance de lograr lo mismo con una clasificacin correcta con un clasificador aleatorio. Se calcula como:
= K n aii (( ai.a.i ) n 2 i =1 (ai.a.i )
l i =1 i =1 l l
Donde: i = dimensin de la matriz (nmero de clases); aii = nmero de observaciones en la lnea i, columna i; ai. y a.i = total marginal de lnea i y de columna i, n = nmero total de observaciones Clculo en R kappa<- (n*aciertos-prod_marginal)/(n^2-prod_marginal) Para nuestro ejemplo el coeficiente Kappa es de 0.4517478 (ver anexo). Esto muestra cunto ha mejorado la clasificacin respecto a una asignacin aleatoria de N elementos en M grupos. Da idea del porcentaje de acuerdo, una vez que se ha eliminado la parte debida al azar. Su utilidad es relativa, o sea es un ndice til para comparar distintos sistemas o tipos de clasificacin.
3.4. ndices por clases
Exactituddelproductor
Se calcula como la razn entre el nmero de unidades muestreadas que fueron correctamente clasificadas (diagonal) y el nmero de unidades que pertenecen a esa categora (campo). O sea que no fueron asignadas en el mapa a la clase correspondiente. Se utiliza para calcular los errores de omisin.
Tabla 3 Clculo de la exactitud del productor
Clases 13000 13200 21200 22100 22200 22300 23100 23200 41100 52200 71000 Aciertos (diag) Campo Exactitud productor Lmite inferior del IC Lmite superior del IC 39 74 0.53 0.41 0.64 1 1 1 0.05 1 33 47 0.70 0.55 0.82 8 29 0.27 0.13 0.47 489 621 0.79 0.75 0.81 11 14 0.78 0.49 0.94 77 176 0.43 0.36 0.51 3 4 0.75 0.22 0.98 0 1 0 0.00 0.94 1 4 0.25 0.00 0.78 4 4 1 0.4 1
15
El complemento de la exactitud del productor nos da los valores de los errores de omisin.
Tabla 4 Errores de omisin
Clases Error de omisin en % 13000 13200 21200 22100 22200 22300 23100 23200 41100 52200 71000 0.47 0 30 72 21 21 56 25 100 75 0
Como puede verse en la Tabla 4, la clase 41100 no fue considerara en el mapa, tiene un 100% de error, por otro lado la clase 71000 fue perfectamente clasificada en el mapa, o sea todas las unidades de mapa a las que se les asign dicha clase, tena su correspondiente clase en el campo.
Exactituddeusuario
Se calcula como razn entre el nmero de unidades muestreadas que fueron correctamente clasificadas (diagonal) y el nmero total de unidades que forman esa clase en el mapa. O sea nmero de clases asignadas a una categora en el mapa pero que no pertenecen a ella. Se utiliza para calcular los errores de comisin.
Tabla 5 Valores estimados de exactitud del usuario
Clases 13000 13200 21200 22100 22200 22300 23100 23200 41100 52200 71000 Aciertos (diag) Mapa Exactitud usuario Lmite inferior del IC Lmite superior del IC 39 42 0.93 0.79 0.98 1 1 1 0.05 1.00 33 88 0.37 0.27 0.48 8 16 0.5 0.28 0.72 489 569 0.86 0.83 0.89 11 14 0.78 0.48 0.94 77 226 0.34 0.28 0.40 3 14 0.21 0.06 0.51 0 0 0.0 0 1 1 1 1 0.05 1 4 4 1 0.04 1
Tabla 6 Errores de comisin
16
Clases Error de comisin en % 13000 13200 21200 22100 22200 22300 23100 23200 41100 52200 71000 7 0 62 50 14 21 65 78 100 0 0
En la Tabla 6 podemos ver que error se cometi en las asignaciones, por ejemplo la clase 41100 fue asignada a otra (en el Figura 8 se ve que fue asignada a la clase 21200).
4. Consideraciones finales
Si bien pueda parecer dificultoso realizar los diseos de muestreo y los anlisis estadsticos debido a los supuestos en los que se basan, existen hoy en da muchas herramientas que nos facilitan la tarea de validacin. Cuando estos clculos forman parte de la rutina de trabajo de aquellos que elaboran mapas temticos, la exactitud de los productos tiende a aumentar con el tiempo, ya que los ndices obtenidos en un momento dado nos dan un diagnostico de aquellos errores cometidos, y podemos de esta manera hacer ms eficiente cada da nuestro trabajo.
17
ANEXO 1: Introduccin al uso de R

Qu es R? R es un soft libre y gratuito muy flexible. Los procedimientos estadsticos estndar se pueden aplicar con slo utilizar el comando apropiado. Adems, existen multitud de libreras programadas por los usuarios de todo el mundo para llevar a cabo procedimientos ms especficos. En ltima instancia, podemos programar nuestros propios procedimientos y aplicaciones.
Obtencin e instalacin de R El sitio web se encuentra en la direccin: http://www.r-project.org/. Desde este sitio se debe seleccionar el sitio (CRAN mirror) desde donde se desea obtener los archivos del programa. CRAN es el acrnimo de Comprehensive R Archive Network. Existen sitios de descarga en Argentina, Australia, Brasil, Canad, Dinamarca, EEUU, Francia, Hungra, Japn, Sudfrica, Reino Unido, etc. Una vez seleccionado el sitio, se debe seleccionar la versin (Linux, Mac, Windows...). Las actualizaciones son frecuentes cada 3 meses aproximadamente. Despus de seleccionar el CRAN aparecer una ventana dos subdirectorios, uno tiene el archivo del programa (ejecutable) base y el otro el cdigo fuente contrib. Para la instalacin del programa necesitamos el archivo base. Una vez descargado, ejecutar el archivo. Instalar el sistema base y los paquetes recomendados. Se recomienda la instalacin estndar (por default). Instalado R, al abrirlo aparecer la siguiente consola:
Paquetes R consta de un sistema base y de paquetes (packages) o mdulos adicionales que extienden la funcionalidad. La instalacin bsica ya contiene algunos paquetes con funciones y procedimientos para la realizacin de grficos, procedimientos estadsticos y utilidades bsicas para el manejo de datos, como: base, graphics, stats, utils, etc. Existen adems numerosos paquetes adicionales que no son instalados automticamente. Para adicionar estos paquetes una forma es seleccionarlos desde un CRAN e instalarlos individualmente. El archivo se debe guardar en una carpeta especifica en nuestra PC, luego aadirlo desde la consola de R. Para ello, en el men principal de R, abrimos Paquetes e instalamos los paquetes adicionales siguiendo las instrucciones de las pantallas. La instalacin tambin puede hacerse directamente desde R.
Documentacin acerca de R Hay una enorme cantidad de informacin acerca de R en la web, aunque el punto de partida es en CRAN http://cran.r-project.org/. Aqu se encuentran disponibles gran variedad de manuales de R:
18
An introduction to R (de lectura sugerida): introduce al lenguaje R y sobre cmo efectuar grficos y anlisis estadsticos. Existe una traduccin al espaol (Manuals > Contributed). R installation and administration: manual autoexplicatorio para la instalacin y uso de R. R data import/export: describe las facilidades de importacin y exportacin disponibles tanto en R como a travs de paquetes. R: A Language and Environment for Statistical Computing: contiene todos los archivos de ayuda de R y de los paquetes recomendados en formato imprimible. The R language definition: describe cmo trabajan los objetos y los detalles de los procesos de evaluacin de expresiones, tiles cuando se programan funciones R. Writing R extensions: explica cmo crear paquetes propios, escribir archivos de ayuda y usar interfaces en otros lenguajes (C, C + +, Fortran).
Varios de estos manuales estn tambin disponibles en el mismo R: en la barra de Men > Ayuda > Manuales (en pdf). Tambin estn disponibles las respuestas a las preguntas ms frecuentes (Frequently Asked Questions, FAQs) y R News, un boletn informativo que contiene artculos, reseas de libros y noticias de prximos lanzamientos. La parte ms til del sitio, sin embargo, es el motor de bsqueda que permite investigar el contenido de la mayora de los documentos, funciones y archivos de correo electrnico. Ayuda en R Las ayudas incluidas en el programa sobre los distintos comandos y funciones pueden solicitarse de distintas formas: Tecleando help(nombre de comando) se abre una ventana con informacin sobre un comando especifico. Pruebe, por ejemplo tipear el siguiente comando: help(mean). Otro comando muy til es help.search (palabra clave). En este caso obtenemos una lista de los comandos relacionados con la palabra clave. Por ejemplo, al teclear help.search(median) se obtendr una lista de comandos de R relacionados con la mediana. Una forma de obtener ayuda en formato html consiste en teclear help.start(). Para conocer como funciona cualquier funcin de R, tipear en la consola principal el signo ? y el nombre de la funcin. Por ejemplo ? plot nos mostrar como funciona la funcin plot. Para ver una salida estndar de una funcin, slo se debe tipear example(). Por ejemplo, para ver un ejemplo de anlisis de la varianza, tipear example(anova.glm) y se ver la salida generada por la funcin anova.glm. En relacin a los paquetes, en la pgina de cada uno existe informacin acerca de: Versin de R, otros paquetes adicionales necesarios, datos del autor, el cdigo fuente, el archivo del programa y el manual de referencia.
19
Uso de editores externos. RStudio Las sentencias necesarias para la ejecucin de los distintos anlisis deben escribirse en la consola de R, pero existen editores externos que facilitan esta tarea. Uno de ellos es el RStudio. Se trata de un editor de cdigo abierto y libre. Tiene caractersticas interesantes y est especialmente orientado a R. RStudio integra todas las herramientas que se utilizan cuando se trabaja con R en un nico entorno personalizable. Este programa de distribucin gratuita se puede descargar de: http://www.rstudio.org/
20
ANEXO 2: Algoritmo en R para el clculo de las medidas de calidad de los productos derivados de sensores remotos.
# Lectura de datos library(lattice) sanluis<-read.table("http://www.teresaboca.com/r/pampasanluis.csv",header=TRUE, sep=",", na.strings="NA", dec=".") ################################## FUNCION MATRIZ DE CONFUSION ############################# # observado y clasificado son los unicos valores que hay que cambiar en funcion del nombre que tengan en el archivo datos<-mesopotamia # Ac hay que poner el nombre del archivo que se va a analizar names(datos) clases.campo<-factor(datos$OBSERVADO)#; campo<-datos$observado clases.imagen<-factor(datos$CLASIFICADO)#; imagen<-(datos$clasificado) levels(clases.campo) levels(clases.imagen) #########################MATRIZ DE CONFUSIN################################################ class <- c(1:length(imagen)) dat <- data.frame(imagen, campo) m <- max(c(length(unique(imagen)), length(unique(campo)))) for(i in 1:length(class)) {class[i] <- sub(' ','',paste(dat[i,1],dat[i,2])) } dat <- data.frame(imagen, campo, class) mat <- matrix(0, nrow=m, ncol=m) for (i in 1:m){ for (j in 1:m){ mat[i,j] <- sub(' ','',paste(i,j)) }} A <- matrix(0, nrow=(m+1), ncol=(m+1)) for (i in 1:m){ for(j in 1:m){ A[i,j]<- nrow(dat[dat$class==mat[i,j],]) }} for (i in 1:m) {A[(m+1),i]<-sum(A[1:m,i]) A[i,(m+1)]<- sum(A[i,1:m]) A[(m+1),(m+1)] <- sum(A[1:m,(m+1)]) } colnames(A)<-c(levels(factor(datos$OBSERVADO)),"suma clasificado") rownames(A)<-c(levels(factor(datos$OBSERVADO)),"suma observado" ) niveles<-levels(factor(datos$OBSERVADO)) # Este es el resultado de la matriz de confusin A ##################################################################################### # Calculo de la exactitud global n=A[nrow(A),ncol(A)] Am<-A[1:ncol(A)-1,1:ncol(A)-1] # Am es la matriz de datos sin los valores marginales PA<-sum(diag(Am)) /n EXACTITUD_GLOBAL<-PA EXACTITUD_GLOBAL ##################################################################################### #Intervalo de confianza para la exactitud global aciertos= sum(diag(Am)) prop.test( aciertos,n,alternative = "two.sided") ##################################################################################### # Prueba de hipotesis para saber si existen diferencias significativas entre la # exactitud lograda y la esperado de 95%) prop.test( aciertos,n, p=0.90, alternative = "less") ##################################################################################### # Calculo del coeficiente Kappa prod_marginal<-(A[1:nrow(Am),nrow(A)]%*%A[nrow(A),1:nrow(Am)]) kappa<- (n*aciertos-prod_marginal)/(n^2-prod_marginal); kappa
21
###############INDICES POR CATEGORIA################################################ ##################################### Exactitud del PRODUCTOR ######################### Clases_bien <-as.vector(diag(A)[1:ncol(A)-1]) Clases_campo<-as.vector(A[nrow(A),1:ncol(A)-1]) EXACTITUD_PRODUCTOR<- as.vector(Clases_bien /Clases_campo)# en funcion de los errores de omisin EXACTITUD_PRODUCTOR #######################Calculo de los intervalos de confianza de la exactitud del PRODUCTOR para cada clase EXACTITUD_PRODUCTOR<-ifelse(EXACTITUD_PRODUCTOR=="NaN" , 0.001, EXACTITUD_PRODUCTOR) Clases_campo<-ifelse(Clases_campo==0, 0.001, Clases_campo) Clases_bien<-ifelse(Clases_bien==0, 0.001, Clases_bien) clases<-seq(1, length(EXACTITUD_PRODUCTOR), 1) IC<-matrix( 0, nrow=1,ncol=length(EXACTITUD_PRODUCTOR) ) for (i in clases){ tere<-prop.test(Clases_bien[i], Clases_campo[i] ) a<-as.data.frame(tere$conf.int) IC[i]<-a } IC_productor<-as.data.frame(do.call("rbind",IC)) rownames(IC_productor)<-levels(factor(clases.campo)) colnames(IC_productor)<-c("LI", "LS") IC_productor ####################Calculo de errores de omisin ##################################################### Om<-100*(1-EXACTITUD_PRODUCTOR) EO<- data.frame(niveles, Om) EO barchart(Om ~ niveles, ylab = "Errores de Omisin", ylim=c(1, 110)) ############################# Exactitud del usuario ################################################## Clases_mapa<-as.vector(A[1:ncol(A)-1,nrow(A)]) EXACTITUD_USUARIO<- as.vector(Clases_bien/Clases_mapa)# en funcion de los errores de omisin EXACTITUD_USUARIO ########################## Calculo de los intervalos de confianza para cada clase########################### EXACTITUD_USUARIO<-ifelse(EXACTITUD_USUARIO=="NaN" , 0.001, EXACTITUD_USUARIO) Clases_mapa<-ifelse(Clases_mapa==0, 0.001, Clases_mapa) Clases_bien<-ifelse(Clases_bien==0, 0.001, Clases_bien) clases<-seq(1, length(EXACTITUD_USUARIO), 1) # ojo saque un ya que tenia un valor faltante IC<-matrix( 0, nrow=1,ncol=length(EXACTITUD_USUARIO) ) for (i in clases){ test<-prop.test(Clases_bien[i], Clases_mapa[i]) b<-as.data.frame(test$conf.int) IC[i]<-b } IC_usuario<-as.data.frame(do.call("rbind",IC)) rownames(IC_usuario)<-levels(factor(clases.campo)) colnames(IC_usuario)<-c("LI", "LS") IC_usuario ####################Calculo de errores de comision (1- exactitud del usuario #################################### niveles.mapa<-levels(clases.imagen) Com<-100*(1-EXACTITUD_USUARIO) EC<- data.frame(niveles, Com) EC barchart(Com ~ niveles, ylab = "Errores de Comisin", ylim=c(1, 110)) ############################ Secuencia para armar el grafico final######################################### #Calculo de matriz en frecuencias , divido la columna de observados a campo, #dentro de los clasificados , por el total observado para esa categora, P/E si a campo tengo 3 muestras # que son monte y en el mapa asign 2 a monte y una a pastura, monte tendr 2/3 y pastura 1/3 clas<-seq(1:ncol(A)) suma<-A[nrow(A),] Afreq<-Am # Ac hago el calculo de la frecuencia por columna ( for (i in 1:ncol(Am)){ Afreq[,i]<-Am[,i]/suma[i] }
22
# Lo pasa a un vector columna con 49 datos ( 7*7) frecuencia<-as.vector(Afreq[1:nrow(Afreq),1:ncol(Afreq) ]) # Le agrego las clases mapa<-rep(niveles, length(niveles)) campo<-as.character (gl(length(niveles),length(niveles), labels = niveles)) error_freq<-data.frame(frecuencia,mapa, campo) barchart(mapa ~ frecuencia|campo , data=error_freq, stack = TRUE, layout = c(length(niveles), 1), beside=TRUE, col=c(rainbow(length(niveles))),xlim=c(0.01,1), ylab="Clases imagen", xlab= "Clases campo") ################################################################################################
23
Bibliografa
Cochran, W.G. (1977). Sampling Techniques; Third Edition; Wiley. New York. Congalton, R. G., K. Green. (2009). Assessing the Accuracy of Remotely Sensed Data Principles and Practices .Taylor & Francis Group. Boca Raton. Fallas, J. (2002). Normas y Estndares para datos geoespaciales. Laboratorios de Teledeteccin y Sistemas de Informacin Geogrfica. Escuela de Ciencias Ambientales y Programas Regional en Manejo de Vida Silvestre. Universidad Nacional Heredia, Costa Rica. Disponible en http:\\www.una.ac.cr/ambi/telesig. R Development Core Team (2011). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
AGRADECIMIENTOS Este trabajo fue realizado dentro del marco del AERN 294432 en articulacin con el PNECO 1664, agradecemos a los integrantes de ambos proyectos.
24

INTA - Métodos Est. Sensores

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

INTA - Métodos Est. Sensores

Încărcat de

Drepturi de autor:

Formate disponibile

Mtodos estadsticos de la evaluacin de la exactitud de productos derivados de sensores remotos

Instituto de Clima y Agua, INTA Castelar

Teresa Boca; Gabriel Rodrguez

Mtodos estadsticos de la evaluacin de la exactitud de productos derivados de sensores remotos

Etapas en la determinacin de Precisin Diseo y Anlisis de mapas temticos

Figura 1: Etapas de trabajo en la validacin de mapas

1.1.Ventajas de un buen muestreo.

1.2.Principios y consideraciones prcticas

Muestreo aleatorio simple

Muestreo aleatorio sistemtico

Muestreo aleatorio estratificado

Muestreo por Rutas o itinerarios aleatorios

2. Validacin de los resultados.

2.1. Qu se utiliza como verdad de terreno?

Figura 3 Trabajo de muestreo a campo, profesional de INTA con mapas y GPS 8

Otras imgenes o fotografas que se considere verdad de terreno.

Figura 4 Fotografas tomadas in INTA Castelar a 1, 0.5 y 0.25 metros respectivamente.

Figura 5 Imagen de la zona de estudio provista desde google maps 9

Conocimiento idneo de la zona.

2.3 Cuanta informacin se debe tomar?

Z 2 p (1 p) 1.96 2 * 0.5 * 0.5 = = 385 d2 0.05 2

3. Medidas y tcnicas utilizadas para medir la calidad de los productos generados

3.2. Matriz de confusin:

Tabla 1 Esquema general de la matriz de informacin

Total mapa a.1 a.2

a.1 / a.. a.2 / a..

1- (a.1 / a..) 1- (a.2 / a..)

am1 a1. a1. / a.. a2. a2.. / a..

amm a2. am. / a.. 1-(am. / a..)

1-(a1. / a..) 1-(a2.. / a..)

Ejemplo de matriz de confusin

0 .2 0.4 0.6 0.8

0.2 0.4 0.6 0 .8

0 .2 0.4 0.6 0.8

Figura 7 Representacin grafica de la matriz de confusin

3.3. ndices Globales

3.4. ndices por clases

Tabla 6 Errores de comisin

ANEXO 1: Introduccin al uso de R

S-ar putea să vă placă și