Razaprox

Introduccin al o
Razonamiento Aproximado
F. J. D ez Dpto. Inteligencia Articial UNED Primera edicin: Octubre 1998 o Revisin: Noviembre 2005 o
A mi hija Nuria
II
Prefacio
Esta Introduccin al Razonamiento Aproximado est destinada principalmente a los estuo a diantes de Razonamiento y Aprendizaje, asignatura optativa del tercer curso de la Ingenier a Tcnica de Informtica de Sistemas, de la UNED. La redaccin inicial se bas en la tesis e a o o doctoral del autor y en las transparencias del curso de doctorado Razonamiento Aproximado. El cap tulo 4, especialmente en lo relativo a la teor de la conmacin (secs. 4.1.2 y 4.4.1), se a o bas tambin en un documento redactado para esta obra por Enrique Nell, quien ha aportado o e adems referencias bibliogrcas y comentarios muy acertados. a a La primera edicin apareci en octubre de 1998. Desde entonces cada ao hemos publio o n cado una nueva versin corregida y a veces aumentada. En esta labor hemos contado con o la ayuda de Carlos Cabezas, Ildefonso Belln, Flavio Cullar, Ismael Falcn, Jos Antonio o e o e Fernndez, Jos Melgar, Eva Milln, Enrique Nell, David Penas, Lourdes Prez, Jos Rabanea e a e e da, Montserrat Sans, Oscar Sanz y Xavier Torres, quienes nos han sealado un buen nmero n u de erratas. El autor y los lectores de futuras ediciones, especialmente los alumnos que tendrn que a esforzarse por comprender y aprender su contenido, agradecen sinceramente todas las correcciones y sugerencias recibidas hasta la fecha y las que se reciban en el futuro: erratas detectadas, puntos que no estn claros, omisiones importantes, cuestiones que conviene matizar, o a incluso errores conceptuales, que es posible que los haya. Todos los comentarios sern bien a recibidos. En la pgina de Internet http://www.ia.uned.es/~fjdiez/libros/razaprox.html a pondremos informacin actualizada sobre este texto (fe de erratas, versiones actualizadas, o etc.), material complementario y enlaces de inters. e Francisco Javier D Vegas ez UNED, Madrid, noviembre de 2005
III
IV
Indice general
1 Razonamiento aproximado en Inteligencia Articial 1.1 Fuentes de incertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Breve historia del tratamiento de la incertidumbre . . . . . . . . . . . . . . . 1.3 Bibliograf recomendada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 2 Mtodo probabilista clsico e a 2.1 Deniciones bsicas sobre probabilidad . . . . . . . . . . . . . . . a 2.2 Independencia, correlacin y causalidad . . . . . . . . . . . . . . o 2.2.1 Independencia y correlaciones . . . . . . . . . . . . . . . . 2.2.2 Independencia condicional . . . . . . . . . . . . . . . . . . 2.2.3 Representacin grca de dependencias e independencias o a 2.2.4 Diferencia entre causalidad y correlacin . . . . . . . . . . o 2.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Enunciado y demostracin . . . . . . . . . . . . . . . . . . o 2.3.2 Aplicacin del teorema de Bayes . . . . . . . . . . . . . . o 2.4 Mtodo probabilista clsico . . . . . . . . . . . . . . . . . . . . . e a 2.4.1 Forma racional del mtodo probabilista clsico . . . . . . e a 2.4.2 Paso de mensajes en el mtodo probabilista clsico . . . . e a 2.4.3 Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . o 2.5 Bibliograf recomendada . . . . . . . . . . . . . . . . . . . . . . a 3 Redes bayesianas 3.1 Presentacin intuitiva . . . . . . . . . . . . . o 3.2 Denicin formal de red bayesiana . . . . . . o 3.2.1 Estructura de la red. Teor de grafos a 3.2.2 Denicin de red bayesiana . . . . . . o 3.2.3 Factorizacin de la probabilidad . . . o 3.2.4 Semntica de las redes bayesianas . . a 3.3 Propagacin de evidencia en polirboles . . . o a 3.3.1 Deniciones bsicas . . . . . . . . . . a 3.3.2 Computacin de los mensajes . . . . . o 3.3.3 Comentarios . . . . . . . . . . . . . . 3.3.4 Implementacin distribuida . . . . . . o 3.4 La puerta OR/MAX . . . . . . . . . . . . . . V 1 1 3 7 9 9 14 14 15 17 18 20 20 22 27 30 31 32 33 35 35 48 48 51 52 53 55 55 57 59 61 65
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
3.5
3.4.1 La puerta OR binaria . . . . 3.4.2 Denicin de la puerta MAX o 3.4.3 Algoritmo de propagacin . . o 3.4.4 Implementacin distribuida . o 3.4.5 Semntica . . . . . . . . . . . a Bibliograf recomendada . . . . . . a
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
65 66 70 72 74 75 77 77 77 79 81 81 83 83 83 84 87 89 90 92 93 95 96 97 97 100 104 108 120 120 125 127 127 128 132 135 137 140 141 141 143 147
4 Modelo de factores de certeza de MYCIN 4.1 El sistema experto MYCIN . . . . . . . . . . . . . . . . . . 4.1.1 Caracter sticas principales . . . . . . . . . . . . . . . 4.1.2 Motivacin del modelo de factores de certeza . . . . o 4.2 Denicin de los factores de certeza . . . . . . . . . . . . . . o 4.2.1 Factor de certeza de cada regla . . . . . . . . . . . . 4.2.2 Factor de certeza de cada valor . . . . . . . . . . . . 4.3 Propagacin de la evidencia en una red de inferencia . . . . o 4.3.1 Modus ponens incierto . . . . . . . . . . . . . . . . . 4.3.2 Combinacin de reglas convergentes . . . . . . . . . o 4.3.3 Combinacin secuencial de reglas . . . . . . . . . . . o 4.3.4 Combinacin de evidencia en el antecedente . . . . . o 4.4 Problemas del modelo de factores de certeza . . . . . . . . . 4.4.1 Creencia absoluta frente a actualizacin de creencia o 4.4.2 La supuesta modularidad de las reglas . . . . . . . . 4.4.3 Por qu MYCIN funcionaba tan bien? . . . . . . . e 4.5 Bibliograf recomendada . . . . . . . . . . . . . . . . . . . a 5 Lgica difusa o 5.1 Lgica de proposiciones . . . . . . . . . . . . . . . o 5.1.1 Lgica clsica . . . . . . . . . . . . . . . . . o a 5.1.2 Lgicas multivaluadas . . . . . . . . . . . . o 5.1.3 Lgica difusa . . . . . . . . . . . . . . . . . o 5.2 Lgica de predicados . . . . . . . . . . . . . . . . . o 5.2.1 Predicados unitarios . . . . . . . . . . . . . 5.2.2 Modus ponens para predicados . . . . . . . 5.3 Teor de conjuntos . . . . . . . . . . . . . . . . . . a 5.3.1 Conjuntos y predicados . . . . . . . . . . . 5.3.2 Funciones caracter sticas . . . . . . . . . . . 5.3.3 Igualdad de conjuntos . . . . . . . . . . . . 5.3.4 Inclusin de conjuntos . . . . . . . . . . . . o 5.3.5 Composicin de conjuntos: complementario, o 5.3.6 Recapitulacin . . . . . . . . . . . . . . . . o 5.4 Relaciones e inferencia . . . . . . . . . . . . . . . . 5.4.1 Predicados n-arios y relaciones . . . . . . . 5.4.2 Composicin de relaciones . . . . . . . . . . o 5.4.3 Modus ponens difuso . . . . . . . . . . . . . VI
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . unin e interseccin o o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
5.5
Bibliograf recomendada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a
150 151
Bibliograf a
VII
VIII
Indice de guras
2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 4.1 4.2 4.3 4.4 5.1 5.2 Dos variables independientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . Dependencia causal entre dos variables. . . . . . . . . . . . . . . . . . . . . . Dependencia causal entre un nodo padre y dos hijos. . . . . . . . . . . . . . . Dependencia causal de tres variables en cadena. . . . . . . . . . . . . . . . . . Dependencia causal entre dos padres y un hijo. . . . . . . . . . . . . . . . . . Diagrama causal en forma de bucle. . . . . . . . . . . . . . . . . . . . . . . . La correlacin entre nmero de cigeas y nmero de nacimientos no implica o u u n u causalidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La correlacin entre el consumo de teracola y la aparicin de manchas en la o o piel no implica causalidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . La razn de probabilidad RP (X) como funcin de la probabilidad P (+x). . . o o Valor predictivo positivo (prevalencia=01). . . . . . . . . . . . . . . . . . . . Valor predictivo negativo (prevalencia=01). . . . . . . . . . . . . . . . . . . . Mtodo probabilista clsico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . e a El piloto luminoso (L) y la temperatura (T ) son signos de aver (D). . . . . a Paso de mensajes en el mtodo probabilista clsico. . . . . . . . . . . . . . . . e a Nodo X con un hijo Y1 . . . . . . . . . . . . . . . . . . . . . . Nodo X con dos hijos. . . . . . . . . . . . . . . . . . . . . . . Nodo X con dos padres. . . . . . . . . . . . . . . . . . . . . . Nodo X con dos padres y dos hijos. . . . . . . . . . . . . . . Un pequeo polirbol. . . . . . . . . . . . . . . . . . . . . . . n a Un ciclo y dos bucles. . . . . . . . . . . . . . . . . . . . . . . Propagacin de evidencia mediante intercambio de mensajes. o Padres de Yj . . . . . . . . . . . . . . . . . . . . . . . . . . . . Computaciones realizadas en el nodo X. . . . . . . . . . . . . Computacin distribuida de los mensajes y . . . . . . . . . o Ejemplo de puerta MAX. . . . . . . . . . . . . . . . . . . . . Computaciones realizadas en la puerta OR. . . . . . . . . . . Estructura t pica de un sistema basado en Combinacin de reglas convergentes. . . . o Pequea red de inferencia. . . . . . . . . . n Nodo C con dos causas y un efecto. . . . . reglas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 18 18 18 19 19 20 25 26 27 28 30 31 36 39 42 46 49 50 56 58 62 64 68 73 78 84 88 94 130 131
Funcin caracter o stica del conjunto A de nmeros prximos a 0 (=50). . . . u o Funcin A (y): grado de pertenencia al conjunto A de personas altas, en funo cin de la estatura en cent o metros, y. . . . . . . . . . . . . . . . . . . . . . . .
IX
Indice de tablas
3.1 3.2 3.3 3.4 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 5.16 5.17 5.18 5.19 Probabilidad de padecer paludismo, P (+x|u1 , u2 ). Parmetros cu1 . . . . . . . . . . . . . . . . . . . . . a x Parmetros cu2 . . . . . . . . . . . . . . . . . . . . . a x Caso general y puerta OR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 69 69 74 99 100 101 102 103 103 104 106 108 111 114 117 119 120 125 134 136 138 140
Propiedades de la equivalencia de proposiciones. . . . . . . . . . . . . . Tipos de implicacin y doble implicacin. . . . . . . . . . . . . . . . . . o o Valores de verdad para las funciones que denen las conectivas clsicas. a Propiedades de la lgica clsica. . . . . . . . . . . . . . . . . . . . . . . . o a a ley de Morgan. . . . . . . . . . . . . . . . . . . . Demostracin de la 1 o Propiedades de la implicacin de proposiciones clsica. . . . . . . . . . . o a Funciones para la lgica trivaluada de Lukasiewicz. . . . . . . . . . . . . o Funciones para la lgica trivaluada de Kleene. . . . . . . . . . . . . . . . o Propiedades denitorias de la funcin negacin. . . . . . . . . . . . . . . o o Propiedades de las normas triangulares. . . . . . . . . . . . . . . . . . . Propiedades de las conormas triangulares. . . . . . . . . . . . . . . . . . Normas y conormas conjugadas. . . . . . . . . . . . . . . . . . . . . . . Algunas propiedades que cumplen ciertas funciones de implicacin. . . . o Algunas de las funciones de implicacin ms conocidas. . . . . . . . . . o a Propiedades de la implicacin de predicados. . . . . . . . . . . . . . . . o Propiedades de la igualdad de conjuntos. . . . . . . . . . . . . . . . . . . Propiedades de la inclusin entre conjuntos. . . . . . . . . . . . . . . . . o Complementario, unin e interseccin de conjuntos clsicos. . . . . . . . o o a Propiedades de la teor de conjuntos clsica. . . . . . . . . . . . . . . . a a
XI
XII
Cap tulo 1
Razonamiento aproximado en Inteligencia Articial

El tratamiento de la incertidumbre constituye uno de los campos fundamentales de la inteligencia articial, pues afecta en mayor o menor medida a todos los dems. En particular, a una de las propiedades esenciales de los sistemas expertos, y a la vez una de las ms coma plejas, es el tratamiento de la incertidumbre. En este cap tulo enumeramos y clasicamos las fuentes de incertidumbre habituales, tomando como ejemplo el campo de la medicina, con el n de mostrar la importancia del tema. Hacemos tambin un breve resumen de la evolucin e o histrica del razonamiento incierto que, como comentaremos ms adelante, cuando se realiza o a mediante mtodos numricos, suele denominarse razonamiento aproximado. e e
1.1
Fuentes de incertidumbre
Observando la historia de los sistemas expertos, y en particular de los mtodos de razonae miento incierto, se comprueba que casi todos los primeros (cronolgicamente) y muchos de los o ms importantes, se han desarrollado en el campo de la medicina. Si tratamos de averiguar a el porqu, descubrimos que ste es un campo donde se dan todos los tipos de incertidumbre. e e A grandes rasgos, podemos clasicar las fuentes de incertidumbre en tres grupos: deciencias de la informacin, o caracter sticas del mundo real y deciencias del modelo. Veamos algunos ejemplos: Informacin incompleta. En muchos casos la historia cl o nica completa no est dispoa nible, y el paciente es incapaz de recordar todos los s ntomas que ha experimentado y cmo se ha desarrollado la enfermedad. Adems, en otras ocasiones, las limitaciones o a prcticas impiden contar con todos los medios que deber estar disponibles, por lo a an que el mdico debe realizar su diagnstico con la informacin que posee, aunque sta e o o e sea muy limitada. Informacin errnea. En cuanto a la informacin suministrada por el paciente, puede o o o que ste describa incorrectamente sus s e ntomas e incluso que trate de mentir deliberadamente al mdico. Tambin es posible que el diagnstico anterior, contenido en la historia e e o cl nica, haya sido errneo. Y tampoco es extrao que las pruebas de laboratorio den o n
Cap tulo 1. Razonamiento aproximado en Inteligencia Articial falsos positivos y falsos negativos. Por estas razones, el mdico siempre debe mantener e una duda razonable frente toda la informacin disponible. o Informacin imprecisa. Hay muchos datos en medicina que son dif o cilmente cuanticables. Tal es el caso, por ejemplo, de los s ntomas como el dolor o la fatiga. Incluso en un mtodo tan tcnico como la ecocardiograf hay muchas observaciones que en la e e a prctica deben ser cuanticadas subjetivamente, como son el prolapso valvular (ca a da o desplazamiento excesivo de una vlvula al cerrarse) o la aquinesia ventricular (falta a de movimiento de un ventr culo). Mundo real no determinista. A diferencia de las mquinas mecnicas o elctricas, cuyo a a e funcionamiento se rige por leyes deterministas, los profesionales de la medicina comprueban a diario que cada ser humano es un mundo, en que las leyes generales no siempre resultan aplicables. Muchas veces las mismas causas producen efectos diferentes en distintas personas, sin que haya ninguna explicacin aparente. Por ello, el diagnstico o o mdico debe estar siempre abierto a admitir la aleatoriedad y las excepciones. e Modelo incompleto. Por un lado, hay muchos fenmenos mdicos cuya causa an se o e u desconoce. Por otro, es frecuente la falta de acuerdo entre los expertos de un mismo campo. Finalmente, aunque toda esta informacin estuviera disponible, ser imposible, o a por motivos prcticos, incluirla en un sistema experto. a Modelo inexacto. Por ultimo, todo modelo que trate de cuanticar la incertidumbre, por cualquiera de los mtodos que existen, necesita incluir un elevado nmero de parmetros; e u a por ejemplo, en el caso de las redes bayesianas, necesitamos especicar todas las probabilidades a priori y condicionales. Sin embargo, una gran parte de esta informacin no o suele estar disponible, por lo que debe ser estimada de forma subjetiva. Es deseable, por tanto, que el mtodo de razonamiento empleado pueda tener en cuenta las inexactitudes e del modelo.
Hemos escogido el campo de la medicina como ejemplo paradigmtico de dominio incierto, a aunque todas estas fuentes de incertidumbre pueden darse, y de hecho se dan, en cualquier otro campo de las ciencias naturales, la ingenier el derecho, las humanidades. . . y muy a, especialmente en los problemas de reconocimiento del lenguaje natural, tanto hablado como escrito, donde la informacin impl o cita, la polisemia, la ambigedad y la imprecisin, hacen u o imprescindible el tratamiento de la incertidumbre. En realidad, sta es una necesidad que e no slo incumbe a los sistemas expertos y a los problemas de lenguaje natural, sino a todas o las ramas de la inteligencia articial, como el aprendizaje, la visin articial, la robtica, los o o interfaces inteligentes, la recuperacin de informacin, los juegos complejos (no slo los juegos o o o de azar, sino tambin juegos como el ajedrez, donde no se conocen con certeza las preferencias e del contrario), etc., etc. En resumen, el tratamiento de la incertidumbre es, junto con la representacin del conoo cimiento y el aprendizaje, uno de las problemas fundamentales de la inteligencia articial. Por ello no es extrao que casi desde los or n genes de este campo se le haya prestado tanta atencin y hayan surgido tantos mtodos, motivados por los distintos problemas que se han o e ido planteando. Vamos a hablar de ello en la prxima seccin. o o
1.2. Breve historia del tratamiento de la incertidumbre
1.2
Breve historia del tratamiento de la incertidumbre
Los mtodos de razonamiento incierto se clasican en dos grandes grupos: mtodos e e numricos y mtodos cualitativos. Cuando el razonamiento incierto se realiza mediante e e mtodos numricos suele hablarse de razonamiento aproximado (aunque tampoco es una e e cuestin en la que haya acuerdo unnime, pues algunos autores, al hablar de razonamiento o a aproximado, piensan sobre todo en la lgica difusa y en modelos anes, como la teor de la o a posibilidad). Entre los mtodos cualitativos para el tratamiento de la incertidumbre, destacan los e basados en lgicas no montonas, tales como los modelos de razonamiento por defecto (el ms o o a conocido es el de Reiter [52]), los sistemas de suposiciones razonadas (originalmente llamados truth maintenance systems, aunque ser ms correcto denominarlos reason maintenance a a systems) de Doyle [17] y la teor de justicaciones (theory of endorsements) de Cohen y a Grinberg [8, 9]. Estos mtodos consisten en que, cuando no hay informacin suciente, se e o hacen suposiciones, que posteriormente podrn ser corregidas al recibir nueva informacin. a o El problema principal que presentan se debe a su naturaleza cualitativa, por lo que no pueden considerar los distintos grados de certeza o incertidumbre de las hiptesis. Suelen presentar o adems problemas de explosin combinatoria. En consecuencia, se estudian ms por su impora o a tancia terica (fundamentacin de la inteligencia articial) que por las aplicaciones prcticas o o a a que puedan dar lugar. En cuanto a los mtodos numricos, que son los que vamos a estudiar en este texto, el e e primero que surgi fue el tratamiento probabilista. En efecto, ya en el siglo XVIII, Bayes y o Laplace propusieron la probabilidad como una medida de la creencia personal hace 200 aos. n A principios del siglo XX surgen las interpretaciones de la probabilidad como la frecuencia (a largo plazo) asociada a situaciones o experimentos repetibles; en esta l nea, destacan especialmente los trabajos estad sticos de Fisher. A principios de los aos 30, en cambio, debido n sobre todo a los trabajos de L. J. Savage y B. de Finetti, entre otros muchos, se redescubre la probabilidad como medida de la creencia personal. Unos aos ms tarde, se inventan las computadoras y poco despus surge la inteligencia n a e articial (suele tomarse como punto de referencia el ao 1956, en que se celebr la Conferencia n o de Darmouth, aunque otros autores sitan el origen de la inteligencia articial en 1943, el u ao en que se publicaron dos trabajos eminentes [39, 53]). En aquella poca, los ordenadores n e hab superado ampliamente la capacidad de clculo de cualquier ser humano, pero estaban an a muy lejos del denominado comportamiento inteligente. Precisamente por eso la inteligencia articial se centraba en la resolucin de problemas simblicos y se esforzaba en distinguirse o o de los mtodos algor e tmicos dedicados sobre todo al clculo numrico [55]. Esta es una de a e las razones por las que inicialmente no se prest atencin al estudio de la probabilidad como o o rama o al menos como herramienta de la inteligencia articial. Sin embargo, al enfrentarse a problemas de diagnstico mdico, era inevitable tener que o e tratar la incertidumbre, por las razones expuestas en la seccin anterior, y en aquellos aos la o n unica tcnica disponible, aun con todas sus limitaciones, era el mtodo probabilista clsico (a e e a veces llamado Bayes ingenuo, o na Bayes, en ingls); con l se construyeron los primeros ve e e sistemas de diagnstico mdico, como veremos en el prximo cap o e o tulo, que obtuvieron un xito razonable en problemas que hoy nos parecen pequeos en tamao, pero que en aquella e n n poca eran imposibles de abordar de ninguna otra forma. e No obstante, el mtodo probabilista clsico presentaba dos inconvenientes principales: el e a
Cap tulo 1. Razonamiento aproximado en Inteligencia Articial
primero de ellos era la dicultad de obtener las probabilidades condicionales necesarias para construir el modelo. La aplicacin del teorema de Bayes en bruto requer un nmero o a u exponencial de parmetros (cf. sec. 2.4), por lo que se hac necesario introducir hiptesis sima a o plicadoras, que eran bsicamente dos: la exclusividad de los diagnsticos y la independencia a o condicional de los hallazgos. An as el nmero de parmetros segu siendo relativamente u , u a a elevado, sobre todo teniendo en cuenta que raramente hab bases de datos a partir de las a cuales se pudieran obtener las probabilidades objetivas, por lo que en la mayor parte de los casos se hac necesario recurrir a estimaciones subjetivas, poco ables. Adems y ste es a a e el segundo inconveniente grave del modelo las hiptesis eran poco veros o miles, sobre todo la de independencia condicional, sobre la que se escribieron pginas y pginas en los aos a a n 70. Por estos motivos, la mayor parte de los investigadores estaban de acuerdo en que la probabilidad no era un mtodo adecuado para la inteligencia articial [38]. e Por otro lado, el xito obtenido por el sistema experto DENDRAL, considerado por muchos e como el primer sistema experto, mostr las grandes ventajas de la programacin mediante o o reglas (cap. 4). Por ello, los creadores de MYCIN buscaban un mtodo de computacin e o eciente que pudiera adaptarse al razonamiento mediante encadenamiento de reglas. Los problemas mencionados anteriormente y la incapacidad de los mtodos probabilistas para e encajar en este esquema llevaron a los responsables del proyecto a desarrollar un mtodo e propio, consistente en asignar a cada regla un factor de certeza. Este modelo, aunque inspirado lejanamente en el clculo de probabilidades, a travs de la teor de la conrmacin de Carnap, a e a o en la prctica no ten ninguna relacin con la teor de la probabilidad, ni siquiera con su a a o a interpretacin subjetiva. o El xito de MYCIN fue muy grande, pues en un campo tan complejo y tan incierto como e el de las enfermedades infecciosas, fue capaz de conseguir diagnsticos y recomendaciones o teraputicas al menos tan buenos como los de los mejores expertos de su especialidad. Sin e embargo, los propios creadores del modelo estaban insatisfechos con l, y por ello encargaron e a un matemtico, J. B. Adams un estudio, el cual demostr que en el mtodo de combinaa o e cin convergente de reglas hab unas hiptesis impl o a o citas tan fuertes como la independencia condicional exigida por el mtodo probabilista, pero an ms dif e u a ciles de justicar. En los aos siguientes surgieron nuevas cr n ticas cada vez ms fuertes contra la validez del modelo de a factores de certeza (sec. 4.4). Cuando los creadores de MYCIN ten puestos sus ojos en la teor de Dempster-Shafer an a como tabla de salvacin del modelo de factores de certeza (estamos hablando de principios de o los aos 80), ocurri un acontecimiento que cambi completamente el escenario: la aparicin n o o o de las redes bayesianas, un modelo probabilista inspirado en la causalidad, cuya virtud principal consiste en que lleva asociado un modelo grco en que cada nodo representa una variable a y cada enlace representa, generalmente, un mecanismo causal.1 El extraordinario desarrollo experimentado por las redes bayesianas en esa dcada y, a ritmo ms moderado pero conse a tante, en los aos 90, ha permitido construir modelos de diagnstico y algoritmos ecientes n o para problemas de tamao considerable, a veces con cientos de variables, o incluso con miles n
Conviene se alar que sta es una cuestin muy discutida. Ms an, la propia existencia de la causalidad ha n e o a u sido seriamente negada en algunas pocas: los ataques ms conocidos y virulentos son los del joven Bertrand e a Russel, quien luego evolucion hacia una oposicin ms moderada. Recientemente (a partir de 1993) se han o o a publicado varios art culos y algn libro dedicados al estudio de la causalidad y, en particular, a su relacin con u o los modelos grcos probabilistas. Sin embargo, ste es un punto an muy debatido y, a nuestro juicio, an a e u u no se estudiado sucientemente en el papel esencial que desempea la causalidad en las redes bayesianas; ste n e es el tema de un trabajo que tenemos en preparacin (cf. sec. 3.2.4). o
1
1.2. Breve historia del tratamiento de la incertidumbre
de variables en algunos problemas de gentica. Por ello, algunos de los antiguos detractores e del uso de la probabilidad en inteligencia articial son hoy en d defensores entusiastas de a los modelos grcos probabilistas. Prcticamente todas las universidades ms importantes a a a de Estados Unidos y las empresas punteras de la informtica tienen grupos de investigacin a o dedicados a este tema. Microsoft, por ejemplo, cre en 1992 un grupo formado por algunos o de los investigadores ms prestigiosos del rea, los cuales se han organizado recientemente en a a tres subgrupos, especializados en distintos aspectos de la aplicacin de las redes bayesianas o a la informtica; de hecho, la inclusin de estos mtodos y modelos en Windows 95/98 y a o e Oce 97/2000 ha hecho que las redes bayesianas sean la aplicacin de la inteligencia articial o que ha llegado, con diferencia, a mayor nmero de usuarios. Otras empresas l u deres de la informtica, como Digital, Hewlett-Packard, IBM, Intel, Siemens, SRI, etc., cuentan iguala mente con equipos de investigacin en este campo. Tambin en Espaa hay un buen nmero o e n u de investigadores que, aunque muy dispersos por toda la geograf nacional, han empezado a a trabajar de forma coordinada para abordar proyectos de mayor envergadura (se puede obtener ms informacin a travs de las pginas de Internet que indicamos ms adelante); de a o e a a hecho, creemos que, despus de Estados Unidos, Espaa es el pa en que ms universidades e n s a investigan sobre redes bayesianas. En paralelo con esta evolucin histrica de crisis y resurgimiento de la probabilidad, se deo o sarroll la teor de los conjuntos difusos, frecuentemente llamada con cierta impropiedad o a lgica difusa.2 La motivacin inicial no fue el estudio de la incertidumbre, sino el estudio de la o o vaguedad, que es algo diferente. Por ejemplo, si sabemos que Juan mide 178 m., no podemos decir con rotundidad que es alto, pero tampoco podemos decir que no lo es: se trata de una cuestin de grado; en este caso hay vaguedad intr o nseca, pero no hay incertidumbre, con lo que se demuestra que son dos conceptos en principio independientes, aunque existe una cierta relacin en el sentido de que si recibimos una informacin imprecisa (por ejemplo, si nos dicen o o que Juan es alto, pero sin decirnos su estatura exacta) tenemos una cierta incertidumbre. En realidad, la necesidad de tratar la vaguedad surge de una antigua paradoja, que podr amos expresar as una persona que slo tiene un cntimo de euro es sumamente pobre, : o e indudablemente; ahora bien, si a una persona que es sumamente pobre le damos un cntimo, e sigue siendo sumamente pobre; aplicando esta regla repetidamente, llegamos a la conclusin o de que una persona que tiene 10 millones de euros es sumamente pobre. La solucin a esta o paradoja es que el concepto de pobre o sumamente pobre no tiene un l mite completamente denido, sino que a medida que le damos a esa persona un cntimo tras otro, hasta e llegar a los 10 millones de euros (en el supuesto de que tuviramos esa cantidad de dinero), e el grado de pobreza va disminuyendo paulatinamente: no hay un unico cntimo que le haga e pasar de ser pobre a ser rico. Por eso, la brillante idea de Lofti Zadeh considerado como el padre de la lgica difusa, o no slo por haber tenido la idea original, sino tambin por la gran cantidad de l o e neas que ha abierto en el campo desde entonces consiste en permitir que el grado de pertenencia a algunos conjuntos sea un nmero entre 0 y 1, de modo que, por ejemplo, para quien no tiene u ms que dos pesetas, su grado de pertenencia al conjunto de personas pobres es 1, mientras a que para quien tiene 1.500 millones de pesetas es 0; en cambio, para una persona que tiene
2 Hay quienes traducen el adjetivo anglosajn fuzzy logic como borroso, mientras que otros lo traducimos o como difuso. El motivo de preferir expresiones como conjuntos difusos en vez de conjuntos borrosos, es que el hecho de que no tengan una frontera bien denida es una propiedad intr nseca, mientras que el trmino borroso e sugiere que se trata de un fenmeno de observacin. En cualquier caso, conviene que el lector se acostumbre o o a encontrar ambos trminos indistintamente. e
Cap tulo 1. Razonamiento aproximado en Inteligencia Articial
500.000 pesetas ahorradas el grado de pertenencia podr ser 04 o 05 (cf. g. 5.2, en la a pg. 131). Lamentablemente, el punto ms dbil de la lgica difusa es la carencia de una a a e o denicin operativa que permita determinar objetivamente el grado de pertenencia,3 con lo o que toda la teor queda coja desde su nacimiento; esto no ha impedido el extraordinario a desarrollo de la lgica difusa, con miles de art o culos, libros, revistas y congresos dedicados al tema. Al igual que la aplicacin de la teor de la probabilidad a los sistemas expertos y el suro a gimiento del modelo de factores de certeza de MYCIN vinieron motivados por la necesidad de abordar problemas mdicos, la mayor parte de las aplicaciones de la lgica difusa se han e o desarrollado en el campo de la ingenier y la industria, especialmente en Japn, donde el a o control difuso se est utilizando desde hace varios aos en la supervisin de procesos de fabria n o cacin, en el guiado de ferrocarriles, en pequeos electrodomsticos, en cmaras de fotos, etc., o n e a etc. Tambin en este campo es Espaa uno de los pa punteros, tanto por la importancia e n ses de las aportaciones tericas como por las aplicaciones a la medicina, entre las que destaca el o sistema experto MILORD. Los cuatro mtodos que acabamos de comentar corresponden a los cuatro cap e tulos siguientes de este texto: Cap tulo 2: mtodo probabilista clsico e a Cap tulo 3: redes bayesianas Cap tulo 4: modelo de factores de certeza Cap tulo 5: lgica difusa. o Es importante sealar que, mientras las redes bayesianas y la lgica difusa son temas de n o gran actualidad, como lo prueba la intensa labor investigadora que se est realizando en cada a uno de ellos, el mtodo probabilista clsico y el modelo de factores de certeza se consideran e a temas muertos desde el punto de vista de la investigacin, por razones diversas. En cuanto o al mtodo probabilista clsico, se trata en realidad de un caso particular de red bayesiana, e a que en la mayor parte de los problemas reales ha de ser sustituido por una red bayesiana general (un polirbol o una red con bucles). En cuanto a los factores de certeza, Heckerman a demostr en 1986 [26] no slo que el modelo de MYCIN contiene graves incoherencias, sino que o o es imposible construir un modelo coherente de factores de certeza, salvo para casos sumamente simples. Sin embargo, los motivos por los que los vamos a estudiar en este texto no son solamente histricos. Por un lado, el mtodo probabilista clsico, al ser una red bayesiana muy simple, o e a ayuda a entender mejor las redes bayesianas (se trata, por tanto de un motivo pedaggico); o por otro, el mismo hecho de ser una red bayesiana muy simple permite aplicarle mtodos e de aprendizaje que no son vlidos para redes bayesianas generales, con lo que se obtienen a algunas ventajas [37]. En cuanto al modelo de factores de certeza, a pesar de sus graves
Una de las formas propuestas en la literatura, no en aplicaciones prcticas para la asignacin de grados a o de pertenencia consiste en hacer una encuesta, de modo que si el 80% de los encuestado opina que x pertenece al conjunto difuso A, tendr amos A (x) = 0 8. Sin embargo, esta interpretacin del grado de pertenencia o contradice la forma en que se aplican habitualmente las reglas de composicin de conjuntos, mediante normas o y conormas. Dado el carcter introductorio de este texto, no vamos a entrar en tales cr a ticas, que son, por cierto, parte de nuestro trabajo de investigacin en la actualidad. o
3
1.3. Bibliograf recomendada a
inconsistencias se sigue utilizando en muchos de los sistemas expertos de la actualidad; de hecho algunas herramientas comerciales destinadas a construir sistemas expertos, como GoldWorks, lo incorporan de serie pues la unica alternativa que existe para el razona miento aproximado mediante reglas es la lgica difusa, con lo que resulta mucho ms dif o a cil construir el modelo (ya no es tan sencillo como asignar un factor de certeza a cada regla) y aumenta considerablemente el coste computacional del encadenamiento de reglas. Como conclusin, queremos sealar que el debate sobre cul es el mtodo ms adecuado o n a e a para representar la incertidumbre sigue abierto hoy en d Por un lado, est el grupo de los a. a bayesianos (en el que se encuentran los autores de este texto), que deenden algunos de ellos con gran vehemencia que la teor de la probabilidad es el unico mtodo correcto para a e el tratamiento de la incertidumbre. Por otro, estn quienes sealan que los modelos probaa n bilistas, a pesar de sus cualidades, resultan insucientes o inaplicables en muchos problemas del mundo real, por lo que conviene disponer adems de mtodos alternativos. a e Dado el carcter introductorio de esta obra no vamos a entrar aqu en el debate entre los a defensores de una y otra postura, sino que nos limitamos a exponer de forma lo ms objetiva a posible los mtodos ms utilizados, con el n de que el alumno que est a punto de convertirse e a a en Ingeniero Tcnico en Informtica conozca estas herramientas por si algn d le pueden e a u a ser utiles en su labor profesional.
1.3
Bibliograf recomendada a
De momento nos vamos a limitar a recomendar slo un par de libros generales, y al nal de o cada uno de los cap tulos siguientes daremos bibliograf espec a ca. Como libro introductorio de nivel asequible recomendamos el de Krause y Clark [36], que adems de los temas que hemos a mencionado en este cap tulo, incluye otros, como la teor de Dempster-Shafer y algunos a mtodos cualitativos. Como obra de referencia, recomendamos el libro de Shafer y Pearl [56], e en que se recogen, clasicados y comentados, la mayor parte de los art culos ms relevantes a sobre razonamiento aproximado publicados hasta la fecha (aunque, sorprendentemente, no hay ninguno dedicado a la lgica difusa). o
Cap tulo 2
Mtodo probabilista clsico e a

El objetivo central de este cap tulo es estudiar el mtodo probabilista clsico. Para ello, debee a mos introducir primero los conceptos fundamentales sobre probabilidad: variables aleatorias, probabilidades conjunta, marginal y condicionada, etc. (sec. 2.1). Presentaremos despus dos e secciones independientes entre s una dedicada a los conceptos de independencia, correlacin : o y causalidad (2.2) y otra al teorema de Bayes (2.3). Con esta base, podremos por n estudiar el mtodo probabilista clsico en la seccin 2.4. e a o
2.1
Deniciones bsicas sobre probabilidad a
Una exposicin correcta de la teor de la probabilidad debe apoyarse en la teor de conjuntos, o a a concretamente, en la teor de la medida. Sin embargo, dado que en este cap a tulo vamos a tratar solamente con variables discretas, podemos simplicar considerablemente la exposicin o tomando como punto de partida el concepto de variable aleatoria. Variable aleatoria. Es aqulla que toma valores que, a priori, no conocemos con certeza. e En esta denicin, a priori signica antes de conocer el resultado de un acontecimiento, o de un experimento o de una eleccin al azar. Por ejemplo, supongamos que escogemos al o azar una persona dentro de una poblacin; la edad y el sexo que va a tener esa persona son o dos variables aleatorias, porque antes de realizar la eleccin no conocemos su valor. o Para construir un modelo matemtico del mundo real o, ms exactamente, de una a a porcin del mundo real, que llamaremos sistema es necesario seleccionar un conjunto de o variables que lo describan y determinar los posibles valores que tomar cada una de ellas. Los a valores asociados a una variable han de ser exclusivos y exhaustivos. Por ejemplo, a la variable edad podemos asociarle tres valores: menor de 18 aos, de 18 a 65 aos y mayor de 65 n n aos. Estos valores son exclusivos porque son incompatibles entre s una persona menor n : de 18 aos no puede tener de 18 a 65 aos ni ms 65, etc. Son tambin exhaustivos porque n n a e cubren todas las posibilidades. En vez de escoger tres intervalos de edad, podr amos asignar a la variable edad el nmero de aos que tiene la persona; en este caso tendr u n amos una variable numrica. e Es habitual representar cada variable mediante una letra mayscula, a veces acompaada u n por un sub ndice. Por ejemplo, podemos representar la variable edad mediante X1 y la variable sexo mediante X2 . Los valores de las variables suelen representarse con letras minsculas. u 9
10
Cap tulo 2. Mtodo probabilista clsico e a
Por ejemplo, podr amos representar menor de 18 mediante xj , de 18 a 65 mediante xa 1 1 y mayor de 65 mediante xt . (Hemos escogido los super ndices j, a y t como abreviaturas 1 de joven, adulto y tercera edad, respectivamente.) Si en vez de representar un valor concreto de los tres queremos representar un valor genrico de la variable X1 , que puede ser e cualquiera de los anteriores, escribiremos x1 , sin super ndice. Los dos valores de la variable sexo, X2 , que son varn y mujer, pueden representarse mediante xv y xm , respectivao 2 2 mente. Cuando tenemos un conjunto de variables {X1 , . . . , Xn }, lo representaremos mediante X. La n-tupla x = (x1 , . . . , xn ) signica que cada variable Xi toma el correspondiente valor xi . En el ejemplo anterior, el par (xa , xm ) indicar que la persona es una mujer adulta (entre 18 a 1 2 y 65 aos). n En la exposicin de este cap o tulo y de siguiente vamos a suponer que todas las variables son discretas. Nuestro punto de partida para la denicin de probabilidad ser el siguiente: o a Probabilidad conjunta. Dado un conjunto de variables discretas X = {X1 , . . . , Xn }, denimos la probabilidad conjunta como una aplicacin que a cada n-tupla x = (x1 , . . . , xn ) o le asigna un nmero real no negativo de modo que u P () = x
x x1
xn
P (x1 , . . . , xn ) = 1
(2.1)
Recordemos que, segn la notacin que estamos utilizando, P (x1 , . . . , xn ) indica la prou o babilidad de que, para cada i, la variable Xi tome el valor xi . Por ejemplo, P (xa , xm ) indica 1 2 la probabilidad de que la persona escogida por cierto procedimiento aleatorio sea una mujer de entre 18 y 65 aos. n Probabilidad marginal. Dada una distribucin de probabilidad conjunta P (x1 , . . . , xn ), o la probabilidad marginal para un subconjunto de variables X = {X1 , . . . , Xn } X viene dada por P ( ) = P (x1 , . . . , xn ) = x P (x1 , . . . , xn ) (2.2)
xi | Xi X
El sumatorio indica que hay que sumar las probabilidades correspondientes a todos los valores de todas las variables de X que no se encuentran en X . Por tanto, la distribucin o marginal para una variable Xi se obtiene sumando las probabilidades para todas las conguraciones posibles de las dems variables: a P (xi ) =
xj | Xj =Xi
P (x1 , . . . , xn )
(2.3)
Proposicin 2.1 Dada una distribucin de probabilidad conjunta para X, toda distribucin o o o de probabilidad marginal obtenida a partir de ella para un subconjunto X X es a su vez una distribucin conjunta para X . o Demostracin. A partir de la denicin anterior es fcil demostrar que P (x1 , . . . , xn ) es un o o a nmero real no negativo; basta demostrar, por tanto, que la suma es la unidad. En efecto, u tenemos que P ( ) = x
x x1
xn
P (x1 , . . . , xn ) =
xi | Xi X
xi | Xi X
P (x1 , . . . , xn )
2.1. Deniciones bsicas sobre probabilidad a
11
Como las variables son discretas, el nmero de sumandos es nito, por lo que podemos u reordenar los sumatorios de modo que P ( ) = x
x x1
xn
P (x1 , . . . , xn ) = 1
(2.4)
con lo que concluye la demostracin. 2 o Corolario 2.2 La suma de las probabilidades de los valores de cada variable ha de ser la unidad: P (xi ) = 1 (2.5)
xi
Ejemplo 2.3 Supongamos que tenemos una poblacin de 500 personas cuya distribucin por o o edades y sexos es la siguiente: N <18 18-65 >65 TOTAL Varn o 67 122 57 246 Mujer 68 126 60 254 TOTAL 135 248 117 500
Realizamos un experimento que consiste en escoger una persona mediante un procedimiento aleatorio en que cada una de ellas tiene la misma probabilidad de resultar elegida. En este caso, la probabilidad de que la persona tenga cierta edad y cierto sexo es el nmero de u personas de esa edad y ese sexo, dividido por el total de personas en la poblacin: P (x1 , x2 ) = o N (x1 , x2 )/N . Por tanto, la tabla de probabilidad ser la siguiente: a P <18 18-65 >65 TOTAL Varn o P (xj , xv ) = 1 2 P (xa , xv ) = 1 2 P (xt , xv ) = 1 2 P (xv ) = 0 2 0 134 0 244 0 114 492 Mujer P (xj , xm ) = 1 2 P (xa , xm ) = 1 2 P (xt , xm ) = 1 2 P (xm ) = 0 2 0 136 0 252 0 120 508 TOTAL P (xj ) = 0 270 1 P (xa ) = 0 496 1 P (xt ) = 0 234 1 1 000
Las probabilidades marginales se obtienen sumando por las (para X1 ) o por columnas (para X2 ), de acuerdo con la ec. (2.2). Observe que estas probabilidades marginales tambin e se podr haber obtenido a partir de la tabla de la poblacin general. Por ejemplo: P (xj ) = an o 1 N (xj )/N = 135/500 = 0 270. Naturalmente, la suma de las probabilidades de los valores de 1 cada variable es la unidad. 2 Probabilidad condicional. Dados dos subconjuntos disjuntos de variables, X = {X1 , . . . , = {Y1 , . . . , Ym }, y una tupla x (es decir, una asignacin de valores para las Xn } e Y o variables de X) tal que P () > 0, la probabilidad condicional de y dado x, P (|), se x yx dene como P (, y ) x P ( | x) = y (2.6) P () x 2 El motivo de exigir que P () > 0 es que P () = 0 implica que P (, y ) = 0, lo que dar x x x a lugar a una indeterminacin. o
12
Ejemplo 2.4 Continuando con el ejemplo anterior, la probabilidad de que un varn sea o t ) dado que sabemos que es mayor de 65 aos es la probabilidad de ser mayor de 65 aos (x1 n n varn (xv ): P (xt | xv ) = P (xt , xv )/P (xv ) = 0 114/0 492 = 0 23171. Observe que, como era o 2 1 2 1 2 2 de esperar, este resultado coincide con la proporcin de varones mayores de 65 aos dentro del o n t , xv )/N (xv ) = 57/246 = 0 23171. En cambio, la probabilidad de que grupo de varones: N (x1 2 2 una persona mayor de 65 aos sea varn es P (xv | xt ) = P (xt , xv )/P (xt ) = 0 114/0 234 = n o 2 1 1 2 1 0 48718. Se comprueba as que, en general, P (x1 | x2 ) = P (x2 | x1 ). Igualmente, se puede calcular la probabilidad de que una persona mayor de 65 aos sea mujer: P (xm | xt ) = n 2 1 P (xt , xm )/P (xt ) = 0 120/0 234 = 0 51282. Por tanto, P (xv | xt ) + P (xm | xt ) = 0 48718 + 1 2 1 2 1 2 1 0 51282 = 1, como era de esperar, pues toda persona mayor de 65 aos ha de ser o varn o n o mujer, y no hay otra posibilidad. 2 Este resultado se puede generalizar como sigue: Proposicin 2.5 Dados dos subconjuntos disjuntos de variables, X e Y , y una tupla x tal o que P () > 0, se cumple que x , x P ( | x) = 1 y (2.7)
y
Demostracin. Aplicando las deniciones anteriores, o P ( | x) = y

y y
1 P (, y ) x = P () x P () x
P (, y ) = x
y
1 P () = 1 x P () x
(2.8)
2 Observe que esta proposicin es el equivalente de la ecuacin (2.4) para probabilidades o o condicionadas. o Ejercicio 2.6 Como aplicacin de este resultado, comprobar que x2 P (x2 |x1 ) = 1 para todos los valores de x1 en el ejemplo 2.3 (antes lo hemos demostrado slo para xt ). Tambin o e 1 v como para xm . se puede comprobar que x1 P (x1 |x2 ) = 1, tanto para x2 2 Teorema 2.7 (Teorema de la probabilidad total) Dados dos subconjuntos disjuntos de variables, X e Y , se cumple que P () = y
x | P ()>0 x
P ( | x) P () y x
(2.9)
Demostracin. Por la denicin de probabilidad marginal, o o P () = y

x
P (, y ) x
Ahora bien, P () = 0 implica que P (, y ) = 0, por lo que slo es necesario incluir en la suma x x o las tuplas cuya probabilidad es positiva: P () = y
x | P ()>0 x
P (, y ) x
Basta aplicar ahora la denicin de probabilidad condicional para concluir la demostracin. o o 2 Este resultado se puede generalizar como sigue (observe que la proposicin siguiente no o es ms que el teorema de la probabilidad total, con condicionamiento): a
2.1. Deniciones bsicas sobre probabilidad a
13
Proposicin 2.8 Dados tres subconjuntos disjuntos de variables, X, Y y Z, si P () > 0, se o z cumple que P ( | z ) = y P ( | x, z ) P ( | z ) y x (2.10)
x | P ( | z )>0 x
Demostracin. Por la denicin de probabilidad condicional, o o P ( | z ) = y 1 P (, z ) y = P () z P () z P (, y , z ) x

x
Al igual que en el teorema anterior, basta sumar para aquellas tuplas x tales que P ( | z ) > 0, x que son las mismas para las que P (, z ) > 0, pues x P () > 0 = {P ( | z ) = 0 P (, z ) = 0} z x x Por tanto P ( | z ) = y =
x | P ( | z )>0 x
1 P () z
P (, y , z ) = x
x | P ( | z )>0 x x | P ( | z )>0 x
P (, y , z ) x P () z P ( | x, z ) P ( | z ) y x
x P (, y , z ) P (, z ) x = P (, z ) x P () z
x | P ( | z )>0 x
Ejemplo 2.9 (Continuacin del ejemplo 2.3) La probabilidad de ser varn dentro de cada ino o v |xj ) = 0 49630, P (xv |xa ) = 0 49194 y P (xv |xt ) = 0 48718. Aplicando tervalo de edad es P (x2 1 2 1 2 1 el teorema de la probabilidad total, P (xv ) = 2
x1
P (xv |x1 ) P (x1 ) 2
(2.11) (2.12) (2.13)
= 0 49630 0 270 + 0 49194 0 496 + 0 48718 0 243 = 0 134 + 0 244 + 0 114 = 0 492 que es el valor que ya conoc amos. 2
Finalmente, enunciamos una proposicin que se deduce fcilmente de la denicin de o a o probabilidad condicional, pero que nos ser de gran utilidad en este cap a tulo y en el siguiente. Proposicin 2.10 (Factorizacin de la probabilidad conjunta) Dado un conjunto de o o variables X y una particin {X1 , . . . , Xk } de X, se cumple que o
k
P () = x
i=1
P (i | xi+1 , . . . , xk ) x
(2.14)
Demostracin. Por la denicin de probabilidad condicional o o P () = P (1 , . . . , xk ) = P (1 | x2 , . . . , xk ) P (2 , . . . , xk ) x x x x P (2 , . . . , xk ) = P (2 | x3 , . . . , xk ) P (3 , . . . , xk ) x x x . . . P (k1 , xk ) = P (k1 | xk ) P (k ) x x x Basta sustituir cada igualdad en la anterior para concluir la demostracin. 2 o
14
Ejemplo 2.11 Sea X = {A, B, C, D, E}. Para la particin {{A, D}, {C}, {B, E}} tenemos o P (a, b, c, d, e) = P (a, d | b, c, e) P (c | b, e) P (b, e) Del mismo modo, para la particin {{B}, {D}, {C}, {A}, {E}} tenemos o P (a, b, c, d, e) = P (b | a, c, d, e) P (d | a, c, e) P (c | a, e) P (a | e) P (e)
2.2
2.2.1
Independencia, correlacin y causalidad o

Independencia y correlaciones
Valores independientes. Dos valores x e y de dos variables X e Y , respectivamente, son independientes sii P (x, y) = P (x) P (y). Valores correlacionados. Dos valores x e y de dos variables X e Y , respectivamente, estn correlacionados sii no son independientes, es decir, sii P (x, y) = P (x)P (y). Cuando a P (x, y) > P (x)P (y), se dice que hay correlacin positiva. Cuando P (x, y) < P (x)P (y), o se dice que hay correlacin negativa. o Ejemplo 2.12 (Continuacin del ejemplo 2.3) Entre ser varn y ser menor de 18 aos hay o o n correlacin positiva, porque P (xj , xv ) = 0 134 > P (xj ) P (xv ) = 0 270 0 492 = 0 13284, o 2 1 2 1 aunque es una correlacin dbil. Igualmente, hay una dbil correlacin positiva entre ser o e e o t , xm ) = 0 120 > P (xt ) P (xm ) = 0 234 0 508 = 0 118872. mujer y mayor de 65 aos: P (x1 2 n 1 2 En cambio, entre ser varn y mayor de 65 aos hay correlacin negativa, pues P (xt , xv ) = o n o 1 2 0 114 < P (xt ) P (xv ) = 0 234 0 492 = 0 115128. 1 2 Consideramos ahora una tercera variable, X3 , el color de los ojos, de modo que xaz indica 3 ojos azules. Supongamos que la probabilidad de tener los ojos de un cierto color es la misma para cada edad: P (x3 |x1 ) = P (x3 ); entonces, dados dos valores cualesquiera x1 y x3 , han de ser independientes. Del mismo modo, si la probabilidad de tener los ojos de un cierto color es la misma para cada sexo, entonces x2 y x3 han de ser independientes [para todo par (x2 , x3 )]. 2 De los conceptos de independencia y correlacin entre valores podemos pasar a los de o independencia y correlacin entre variables. o Variables independientes. Dos variables X e Y son independientes sii todos los pares de valores x e y son independientes, es decir, sii x, y, Variables correlacionadas. independientes, es decir, sii P (x, y) = P (x) P (y) (2.15)
Dos variables X e Y estn correlacionadas sii no son a x, y, P (x, y) = P (x) P (y) (2.16)
Hemos visto anteriormente que, cuando dos valores estn correlacionados, la correlacin a o ha de ser necesariamente o positiva o negativa. Sin embargo, en el caso de dos variables correlacionadas la cuestin es bastante ms compleja. Intuitivamente, podemos decir que o a
2.2. Independencia, correlacin y causalidad o
15
entre dos variables X e Y hay correlacin positiva cuando los valores altos de una estn o a correlacionados positivamente con los valores altos de la otra y negativamente con los valores bajos de ella; por ejemplo, dentro de la poblacin infantil hay correlacin positiva entre la edad o o y la estatura. Por tanto, la primera condicin para poder hablar del signo de la correlacin o o entre dos variables es que ambas sean ordinales; cuando una de ellas no lo es (por ejemplo, el sexo y el color de ojos no son variables ordinales), no tiene sentido buscar el signo de la correlacin. Adems, es necesario establecer una denicin matemtica precisa, lo cual o a o a encierra algunas sutilezas en las que no vamos a entrar, dado el carcter introductorio de esta a obra, por lo que nos quedamos con la denicin intuitiva anterior. o Estas deniciones de correlacin e independencia se pueden generalizar inmediatamente o de dos variables X e Y a dos conjuntos de variables X e Y , y de dos valores x e y a dos tuplas x e y.
2.2.2
Independencia condicional
Valores condicionalmente independientes. Sean tres valores x, y y z de las variables X, Y y Z, respectivamente, tales que P (z) > 0; x e y son condicionalmente independientes dado z sii P (x, y|z) = P (x|z) P (y|z). Variables condicionalmente independientes. Las variables X e Y son condicionalmente independientes dada una tercera variable Z sii todo par de valores x e y es condicionalmente independiente para cada z tal que P (z) > 0; es decir, sii x, y, z, P (z) > 0 = P (x, y | z) = P (x | z) P (y | z) (2.17)
Separacin. La variable Z separa las variables X e Y sii stas dos ultimas son condicioo e nalmente independientes dada Z. Estas deniciones son igualmente vlidas para conjuntos de variables X, Y y Z. a Proposicin 2.13 Sea un conjunto de variables Y = {Y1 , . . . , Ym } y una tupla x de X que o m separa el conjunto Y , de modo que P (|) = j=1 P (yj |). Para todo subconjunto Y de Y yx x se cumple que: , P ( |) = y y x P (yj |) x (2.18)
j|Yj Y
Demostracin. Por la denicin de probabilidad marginal, o o

m
P ( | x) = y
yj | Yj Y /
P ( | x) = y P (yj | x)
yj | Yj Y j=1 /
P (yj | x) P (yj | x)
=
j | Yj Y
yj | Yj Y j | Yj Y / /
Aplicando la propiedad distributiva de la suma y el producto recursivamente dentro del segundo corchete, se van eliminando variables, con lo que al nal se obtiene la unidad. El siguiente ejemplo ilustra el proceso.
16
Ejemplo 2.14 Sean Y = {Y1 , Y2 , Y3 , Y4 , Y5 } e Y = {Y1 , Y4 }. Supongamos que se cumple la condicin (2.18), que para este ejemplo es o P (y1 , y2 , y3 , y4 , y5 | x) = P (y1 | x) P (y2 | x) P (y3 | x) P (y4 | x) P (y5 | x) El clculo de P (y1 , y4 | x) se realiza as a P (y1 , y4 | x) =
y2 y3 y5
P (y1 , y2 , y3 , y4 , y5 | x) P (y2 | x) P (y3 | x) P (y5 | x)

y2 y3 y5
= P (y1 | x) P (y4 | x)
El resultado de calcular los sumatorios da la unidad, pues P (y2 | x) P (y3 | x) P (y5 | x) =

y2 y3 y5
=
y2
P (y2 | x)
y3 y5
P (y3 | x) P (y5 | x) P (y3 | x) P (y5 | x)

y3 y5
=
y2
P (y2 | x)
=
y3 y5
P (y3 | x) P (y5 | x) =
y3
P (y3 | x)
y5
P (y5 | x)
=
y3
P (y3 | x)
y5
P (y5 | x) = 1
Proposicin 2.15 Sea un conjunto de variables Y = {Y1 , . . . , Ym } y una tupla x de X que o m separa el conjunto Y , de modo que P (|) = j=1 P (yj |). Dados dos tuplas cualesquiera y yx x e Y disjuntos de Y , se cumple que e y de dos subconjuntos Y P ( , y |) = P ( |) P ( |) y x y x y x P ( |, y ) = P ( |) y x y x Demostracin. Por la proposicin anterior, o o P ( , y | x) = y
j | Yj (Y Y )
(2.19) (2.20)
P (yj | x)
j | Yj Y
P (yj | x)
P (yj | x) =
j | Yj Y
= P ( | x) P ( | x) y y y de aqu se deduce que P ( | x, y ) = y P (, y , y ) x P ( , y | x) y P ( | x) P ( | x) y y = = = P ( | x) y P (, y ) x P ( | x) y P ( | x) y
17
Ejemplo 2.16 Sea de nuevo el conjunto Y = {Y1 , Y2 , Y3 , Y4 , Y5 }, que cumple la condi = {Y1 , Y4 } e Y = {Y2 }. La proposicin que acabamos de demostrar nos cin (2.18). Y o o dice que P (y1 , y2 , y4 | x) = P (y1 , y4 | x) P (y2 | x) P (y1 , y4 | x, y2 ) = P (y1 , y4 | x) 2 Estas dos proposiciones nos sern muy utiles en la seccin 2.4 y en el prximo cap a o o tulo.
2.2.3
Representacin grca de dependencias e independencias o a
En los modelos grcos, cada nodo representa una variable, y los enlaces o ausencia de enlaces a representan las correlaciones entre ellos. Por ejemplo, la gura 2.1 indica que el sexo y el color de ojos son variables independientes. Cuando una variable ejerce inuencia causal sobre otra, se traza una echa entre ambas, como muestra la gura 2.2, la cual representa el hecho de que la edad de una persona inuye en los ingresos que percibe.
Sexo

Color de ojos

Figura 2.1: Dos variables independientes.

Edad E Ingresos
Figura 2.2: Dependencia causal entre dos variables. En el caso de considerar tres variables correlacionadas entre s podemos encontrar distin, tos tipos de estructuras. Por ejemplo, la gura 2.3 indica que la edad inuye en la estatura la edad inuye en los ingresos hay correlacin (a priori) entre la estatura y los ingresos o cuando se conoce la edad, desaparece la correlacin entre estatura e ingresos. o En cambio, la gura 2.4 indica que la edad inuye en la estatura y la estatura inuye en el nmero que calza la persona; adems, la ausencia de un enlace entre la edad y el nmero u a u de calzado indica que ambas variables son independientes cuando se conoce la estatura; es decir, este modelo arma que dos personas que midan 175 tienen la misma probabilidad de calzar cada nmero, independientemente de cul sea su edad. u a Otro modelo posible es el que relaciona la edad, el sexo y la estatura (g. 2.5). Observemos que en l sucede, en cierto sentido, lo contrario que en los modelos anteriores. Vimos e
18

Edad d d d d Ingresos Estatura

Figura 2.3: Dependencia causal entre un nodo padre y dos hijos.

Edad E Estatura E No calzado
Figura 2.4: Dependencia causal de tres variables en cadena. que la estatura y los ingresos son dos variables correlacionadas a priori (g. 2.3), pero la correlacin desaparec al conocer la edad. Del mismo modo, la edad y el nmero de calzado o a u eran variables correlacionadas a priori (g. 2.4), pero la correlacin desaparec al conocer la o a estatura. Sin embargo, en este ultimo ejemplo se da la situacin inversa: la edad y el sexo son o variables independientes (estamos suponiendo que la esperanza de vida es igual para hombres y mujeres), pero ambas pasan a estar correlacionadas cuando se conoce la estatura.1 Esta asimetr se conoce con el nombre de separacin direccional y constituye la piedra angular a o de las redes bayesianas, como veremos detenidamente a lo largo del prximo cap o tulo.
Sexo Edad d d d d Estatura
Figura 2.5: Dependencia causal entre dos padres y un hijo. Para concluir esta seccin, veamos en la gura 2.6 un ejemplo en que aparece un bucle. o Este modelo nos dice que el coche que compra una persona depende de sus ingresos (obviamente) pero tambin de su edad: una persona joven tiende a comprar coches deportivos, e con una esttica moderna, mientras que una persona de mayor edad generalmente da ms e a importancia a la comodidad y a la seguridad.
2.2.4
Diferencia entre causalidad y correlacin o
Se ha discutido mucho sobre si la correlacin matemtica representa solamente correlacin o si o a o en algunos casos representa causalidad; en realidad, lo que se discute es la esencia misma de la causalidad. Aunque sta es una cuestin principalmente losca, recientemente han surgido e o o
Se puede ver la correlacin con el siguiente razonamiento: un varn que mide 155 tiene menor probabio o lidad de ser adulto que una mujer que tenga esa misma estatura. Es decir, para una cierta estatura, surgen correlaciones entre el sexo y la edad.
1

Edad f f G f Ingresos f f qx Coche
19

Figura 2.6: Diagrama causal en forma de bucle. argumentos matemticos en favor de la causalidad como algo diferente de la mera correlacin. a o Nuestra opinin es que la causalidad existe y es distinta de la correlacin. De hecho, vamos o o a mostrar en esta seccin que causalidad implica correlacin pero no a la inversa. o o Por ejemplo, un estudio llevado a cabo en Inglaterra demostr que hab una fuerte o a correlacin entre el nmero de cigeas de cada localidad y el nmero de nacimiento de o u u n u nios. Podr utilizarse este hallazgo para armar que son las cigeas las que traen los n a u n nios? O es acaso la presencia de nios lo que atrae a las cigeas? n n u n Naturalmente, no hace falta buscar hiptesis tan extraas para explicar tal correlacin, o n o pues existe una alternativa mucho ms razonable: el nmero de habitantes de una localidad a u inuye en el nmero de iglesias (en general, cuantos ms habitantes, ms iglesias), con lo u a a que las cigeas tienen ms campanarios donde poner sus nidos. Por otro lado, hay una u n a correlacin natural entre el nmero de habitantes y el nmero de nacimientos. Grcamente o u u a lo representar amos mediante la gura 2.7. Este grco nos dice que el nmero de nacimientos a u est correlacionado tanto con el nmero de cigeas como con el nmero de iglesias, pero es a u u n u condicionalmente independiente de ambos dado el nmero de habitantes. u
o N habitantes No iglesias w No nacimientos o N cigeas u n
Figura 2.7: La correlacin entre nmero de cigeas y nmero de nacimientos no implica o u u n u causalidad. Por poner otro ejemplo, ideado por Ross Shachter, supongamos que se ha comprobado que existe una correlacin signicativa entre el consumo de teracola (una bebida imaginaria) o y la aparicin de manchas en la piel. Signica eso que las autoridades sanitarias deben o prohibir la venta de esa bebida? Es posible; pero consideremos una explicacin alternativa, o representada por el diagrama de la gura 2.8, el cual arma que la verdadera causa de las manchas en la piel es el contagio en la piscina. La correlacin observada se explica, segn este o u modelo, porque un aumento de la temperatura provoca, por un lado, que la gente vaya ms a a la piscina y, por otro, que beba ms refrescos. Adems, son las personas con ms ingresos a a a econmicos las que pueden permitirse ir con mayor frecuencia a la piscina y, a la vez, comprar o
20
ms bebidas. Estas dos razones hacen que el consumo de teracola est correlacionado con el a e hecho de ir a la piscina y, en consecuencia, correlacionado con la aparicin de manchas en la o piel. La correlacin desaparecer si el supuesto estudio epidemiolgico hubiera considerado o a o la temperatura ambiental y los ingresos de la persona, pues el consumo de teracola y la aparicin de manchas en la piel son condicionalmente independientes dadas la temperatura y o los ingresos.
Temperatura Ingresos rr rr rr % j r c c Piscina Teracola c Manchas piel
Figura 2.8: La correlacin entre el consumo de teracola y la aparicin de manchas en la piel o o no implica causalidad. Con este par de ejemplos hemos intentado mostrar que correlacin y causalidad son cono ceptos muy distintos (la causalidad implica correlacin, pero la correlacin no implica cauo o salidad) y lo que es mucho ms importante en medicina, psicolog sociolog etc. que a a, a, hay que tener mucho cuidado al interpretar los resultados de un estudio epidemiolgico, una o estad stica o una encuesta para evitar sacar conclusiones errneas. o Por ejemplo, en 1996 publicaba cierto peridico la noticia de que un estudio llevado a cabo o en Estados Unidos hab demostrado que las personas que comen ms tomates tienen menos a a riesgo de padecer cncer (un hecho experimental) y de ah deduc que conviene comer ms a a a tomate para reducir el riesgo de cncer, una conclusin que podr parecer evidente, pero que a o a es muy cuestionable a la luz de los ejemplos que acabamos de mostrar.
2.3
2.3.1
Teorema de Bayes
Enunciado y demostracin o
La forma clsica del teorema de Bayes es la siguiente: a Teorema 2.17 (Teorema de Bayes) Dadas dos variables X e Y , tales que P (x) > 0 para todo x y P (y) > 0 para todo y, se cumple P (x | y) =
x
P (x) P (y | x) P (x ) P (y | x )
(2.21)
Este teorema se puede generalizar as : Teorema 2.18 (Teorema de Bayes generalizado) Dadas dos n-tuplas x e y de dos sub e Y , respectivamente, tales que P () > 0 y P () > 0, se cumple conjuntos de variables X x y
2.3. Teorema de Bayes que P ( | y ) = x P () P ( | x) x y P ( ) P ( | x ) x y

x | P ( )>0 x
21
(2.22)
Demostracin. Por la denicin de probabilidad condicional, P (, y ) = P () P ( | x), y por o o x x y tanto, P (, y ) x P () P ( | x) x y P ( | y ) = x = P () y P () y Basta aplicar el teorema de la probabilidad total (proposicin 2.7) para completar la demoso tracin. 2 o Proposicin 2.19 Dados tres subconjuntos disjuntos X, Y y Z, si P (, z ) > 0, se cumple o y que
P (, y | z ) = P ( | y , z ) P ( | z ) x x y Demostracin. Veamos primero que o P () = z

y
P (, z ) > 0 y
Teniendo en cuenta que por la denicin de probabilidad condicional P (, y , z ) = o x P ( | y , z ) P (, z ), llegamos a x y P (, y | z ) = x P ( | y , z ) P (, z ) x y P (, y , z ) x = = P ( | y , z ) P ( | z ) x y P () z P () z
como quer amos demostrar. 2 Proposicin 2.20 (Teorema de Bayes con condicionamiento) Dadas tres tuplas x, y o Y y Z, respectivamente, tales que P (, z ) > 0 y y z de tres conjuntos de variables X, x P (, z ) > 0, se cumple que y P ( | y , z ) = x P ( | z ) P ( | x, z ) x y P ( | x , z ) P ( | z ) y x
x | P ( | z )>0 x
Demostracin. Por la denicin de probabilidad condicional, o o P ( | y , z ) = x P (, y , z ) x P ( | x, z ) P (, z ) y x = P (, z ) y P (, z ) y (2.23)
Por otro lado, P (, z ) > 0 implica que P () > 0, por lo que podemos escribir x z P ( | y , z ) = x P ( | x, z ) P (, z ) / P () y x z P ( | x, z ) P ( | z ) y x = P (, z ) / P () y z P ( | z ) y (2.24)
Basta ahora aplicar la ecuacin (2.10) para concluir la demostracin. 2 o o
22
2.3.2
Aplicacin del teorema de Bayes o
En la prctica, el teorema de Bayes se utiliza para conocer la probabilidad a posteriori de a cierta variable de inters dado un conjunto de hallazgos. Las deniciones formales son las e siguientes: Hallazgo. Es la determinacin del valor de una variable, H = h, a partir de un dato (una o observacin, una medida, etc.). o Evidencia. Es el conjunto de todos los hallazgos disponibles en un determinado momento o situacin: e = {H1 = h1 , . . . , Hr = hr }. o Probabilidad a priori. Es la probabilidad de una variable o subconjunto de variables cuando no hay ningn hallazgo. u La probabilidad a priori de X coincide, por tanto, con la probabilidad marginal P (). x Probabilidad a posteriori. Es la probabilidad de una variable o subconjunto de variables dada la evidencia e. La representaremos mediante P : P () P ( | e) x x (2.25)
Ejemplo 2.21 En un congreso cient co regional participan 50 representantes de tres universidades: 23 de la primera, 18 de la segunda y 9 de la tercera. En la primera universidad, el 30% de los profesores se dedica a las ciencias, el 40% a la ingenier el 25% a las humania, dades y el 5% restante a la econom En la segunda, las proporciones son 25%, 35%, 30% y a. 10%, respectivamente, y en la tercera son 20%, 50%, 10%, 20%. A la salida del congreso nos encontramos con un profesor. Cul es la probabilidad de que sea de la tercera universidad? a Y si nos enteramos de que su especialidad es la econom cul es la probabilidad? a, a Solucin. Si representamos mediante X la variable universidad y mediante Y la especiao lidad, la probabilidad a priori para cada una de las universidades es: P (x1 ) = 23/50 = 0 46; P (x2 ) = 18/50 = 0 36; P (x3 ) = 9/50 = 0 18. Por tanto, la probabilidad de que el profesor pertenezca a la tercera universidad es 18%. Para responder a la segunda pregunta, aplicamos el teorema de Bayes, teniendo en cuenta que la probabilidad de que un profesor de la universidad x sea de la especialidad y viene dada por la siguiente tabla: P (y | x) x1 x2 x3 yc yi yh ye Por tanto, P (x3 ) = P (x3 | y e ) = P (x3 ) P (y e | x3 ) 0 18 0 20 = = 0 379 P (x) P (y e | x) 0 46 0 05 + 0 36 0 10 + 0 18 0 20
x
030 040 025 005
025 035 030 010
020 050 010 020
Es decir, la probabilidad de que un profesor de econom asistente al congreso pertenezca a a la tercera universidad es el 379%. Observe que en este caso la evidencia era {Y = y e }
2.3. Teorema de Bayes
23
(un solo hallazgo) y el diagnstico buscado era la universidad a la que pertenece el proo fesor, representada por la variable X. Hemos escrito diagnstico entre comillas porque o estamos utilizando el trmino en sentido muy amplio, ya que aqu no hay ninguna anomal e a, ni enfermedad, ni aver que diagnosticar. Propiamente, ste es un problema de clasicacin a e o bayesiana: se trata de averiguar la clase en este ejemplo, la universidad a la que pertenece cierto individuo. En realidad, los problemas de diagnstico son slo un caso particular de los o o problemas de clasicacin. 2 o Forma normalizada del teorema de Bayes En el ejemplo anterior podr amos haber calculado la probabilidad para cada una de las tres universidades, una por una. Sin embargo, si necesitamos conocer las tres probabilidades P (x | y), puede ser ms cmodo aplicar la forma a o normalizada del teorema de Bayes, que es la siguiente: P (x | y) = P (x) P (y | x) En esta expresin, o
1
(2.26)
P (x ) P (y | x )
= [P (y)]1
(2.27)
pero en realidad no necesitamos preocuparnos de su signicado, ya que podemos calcularla por normalizacin, como muestra el siguiente ejemplo. o Ejemplo 2.22 (Continuacin del ejemplo 2.21) Para calcular la probabilidad a posteriori de o cada universidad (es decir, la probabilidad sabiendo que es un profesor de econom aplicamos a) la ecuacin (2.26): o P (x1 ) = P (x1 | y e ) = P (x1 ) P (y e | x1 ) = 0 46 0 05 = 0 023 P (x2 ) = P (x2 | y e ) = P (x2 ) P (y e | x2 ) = 0 36 0 10 = 0 036 3 P (x ) = P (x3 | y e ) = P (x3 ) P (y e | x3 ) = 0 18 0 20 = 0 036 Recordando que las probabilidades han de sumar la unidad, tenemos que P (x1 | y e ) + P (x2 | y e ) + P (x3 | y e ) = 0 023 + 0 036 + 0 036 = 0 095 = 1 de donde se deduce que = 0 0951 = 10 526 y, por tanto, P (x1 ) = 0 242 P (x2 ) = 0 379 3 P (x ) = 0 379 Observe que la probabilidad a posteriori P (x) = P (x | y) depende de dos factores: de la probabilidad a priori de que el profesor pertenezca a la universidad, P (x), y de la proporcin o de profesores de la especialidad en cuestin que hay en cada universidad, P (y | x). A este o segundo factor se le conoce como verosimilitud (en ingls, likelihood ). En el ejemplo que e 2 | y e ) = P (x3 | y e ), pues, por un lado, la probabilidad a priori acabamos de considerar, P (x de la segunda universidad es el doble que el de la tercera, pero, por otro, la verosimilitud de que un profesor de econom pertenezca a la tercera es el doble que para la segunda (porque a en la segunda hay un 10% de profesores de econom mientras que en la tercera hay un 20%) a de modo que lo uno compensa lo otro. Vamos a insistir sobre la ponderacin de probabilidad o a priori y verosimilitud en el prximo apartado. o
24 Forma racional del teorema de Bayes
Supongamos que queremos comparar la probabilidad a posteriori de dos diagnsticos, xi y xj o En este caso, tenemos que P (xi | y) P (xi ) P (y | xi ) P (xi ) P (y | xi ) = = P (xj | y) P (xj ) P (y | xj ) P (xj ) P (y | xj ) (2.28)
El trmino P (xi )/P (xj ) se conoce como razn de probabilidad (en ingls, odds ratio), e o e i )/P (y | xj ) se denomina razn de verosimilitud (likelihood ratio). mientras que P (y | x o Ejemplo 2.23 En el ejemplo 2.21 se observa que P (x1 ) P (y e | x1 ) 0 46 0 05 P (x1 | y) = = = 1 278 0 5 = 0 639 P (x2 | y) P (x2 ) P (y e | x2 ) 0 36 0 10 En efecto, 0 242/0 379 = 0 639. Del mismo modo P (x2 | y) P (x2 ) P (y e | x2 ) 0 36 0 10 1 = = =2 =1 3 | y) 3 ) P (y e | x3 ) P (x P (x 0 18 0 20 2 Tal como dec amos en el apartado anterior, la probabilidad a posteriori es la misma para ambos valores, pues la razn de probabilidades a priori favorece a x2 frente a x3 , mientras o que la razn de verosimilitud favorece a x3 frente a x2 en la misma medida, por lo que ambos o efectos se compensan, dando lugar a un empate. 2 Observe que, para variables no binarias, la forma racional del teorema de Bayes permite conocer la razn de probabilidad a posteriori entre dos valores, pero no sus valores concretos. o Sin embargo, en el caso de una variable binaria, podemos calcular la probabilidad de cada valor a partir de su razn de probabilidad. Concretamente, cuando X toma los valores +x y o x, suelen aplicarse las siguientes deniciones: o Razn de probabilidad de X a priori RPpre (X) P (+x) P (+x) = P (x) 1 P (+x) (2.29)
Razn de probabilidad de X a posteriori o RPpost (X) P (+x | y) P (+x | y) = P (x | y) 1 P (+x | y) (2.30)
Razn de verosimilitud para X dado y o RVX (y) P (y | + x) P (y | x) (2.31)
A partir de la ecuacin (2.30) podemos hallar P (+x | y): o P (+x | y) = RPpost (X) 1 + RPpost (X) (2.32)
2.3. Teorema de Bayes
25
25 20 15 RP 10 5
0.2
0.4
0.6
0.8
Figura 2.9: La razn de probabilidad RP (X) como funcin de la probabilidad P (+x). o o La gura 2.9 representa la razn de probabilidad como funcin de la probabilidad. Se o o observa que cuando P (+x) = 0, RP (X) = 0; cuando P (+x) < P (x) (es decir, cuando P (+x) < 0 5), RP (X) < 1; cuando P (+x) = P (x) = 0 5, RP (X) = 1; cuando P (+x) > P (x), RP (X) > 1; y, nalmente, cuando P (+x) 1, RP (X) . Con las deniciones anteriores, la ecuacin (2.28) puede expresarse como o RPpost (X) = RPpre (X) RVX (y) y una vez conocida RPpost (X) se obtiene P (+x | y) a partir de la ecuacin (2.32). o Ejemplo 2.24 Supongamos que tenemos una enfermedad X que puede estar presente (+x) o ausente (x), y un s ntoma asociado Y que puede ser leve (y l ), moderado (y m ) o severo (y s ), aunque la mayor parte de la poblacin no presenta el s o ntoma (y a ). Un estudio epidemiolgico o realizado con 10.000 personas ha dado la siguiente tabla: N ya yl ym ys Total +x 50 80 100 70 300 x 8.500 1.000 150 50 9.700 (2.33)
(2.34)
y nos piden que calculemos mediante la ecuacin (2.33) la probabilidad de tener la enfermedad o en cada caso. Para ello, debemos empezar calculando la razn de probabilidad a priori de X: o RPpre (X) = 300/9.700 = 0 0309. Si el s ntoma est ausente,2 a RVX (y a )
2
P (y a | + x) N (+x, y a )/N (+x) 0 1667 = = = 0 1902 a | x) a )/N (x) P (y N (x, y 0 8763
En realidad, estamos utilizando la tabla de frecuencias para obtener el valor de mxima verosimilitud de a la probabilidad, pero esta es una cuestin de inferencia estad o stica en la que no vamos a entrar.
26 de modo que RPpost (X) = 0 0309 0 1902 = 0 0059 y P (+x | y a ) =
RPpost (X) 0 0059 = = 0 0058 1 + RPpost (X) 1 + 0 0059
(2.35)
Del mismo modo se calcula que RVX (y l ) = 2 587, RPpost (X) = 0 0800 y P (+x|y l ) = 0 0741; RVX (y m ) = 21 5556, RPpost (X) = 0 6667 y P (+x|y m ) = 0 4000; nalmente, RVX (y s ) = 45 2667, RPpost (X) = 1 4000 y P (+x|y s ) = 0 5833. 2 Sensibilidad, especicidad, prevalencia y valores predictivos En medicina, cuando tenemos una enfermedad X que puede estar presente (+x) o ausente (x) y un hallazgo Y asociado tal enfermedad por ejemplo, un s ntoma o un signo que puede estar presente (+y) o ausente (y), o una prueba de laboratorio que puede dar positiva (+y) o negativa (y) es habitual emplear las siguientes deniciones: Prevalencia Sensibilidad Especicidad Valor predictivo positivo (V P P ) Valor predictivo negativo (V P N ) P (+x) P (+y | + x) P (y | x) P (+x | + y) P (x | y)
En este caso, el teorema de Bayes puede expresarse como: V PP = V PN = Sens P rev Sens P rev + (1 Espec) (1 P rev) Espec (1 P rev) (1 Sens) P rev + Espec (1 P rev) (2.36) (2.37)
1 0.8 0.6 VPP 0.4 0.2 0 1 0.9 0.8 Especificidad 0.7 0.6 0.5 0.5 0.6 0.9 0.8 0.7 Sensibilidad
Figura 2.10: Valor predictivo positivo (prevalencia=01). Se observa en estas grcas que el valor predictivo positivo aumenta considerablemente a al aumentar la especicidad; de hecho, V P P = 1 slo si la especicidad vale 1; por tanto, o para conrmar la presencia de una enfermedad deberemos buscar pruebas muy espec cas. En cambio, el valor predictivo negativo aumenta al aumentar la sensibilidad, por lo que para descartar una enfermedad deberemos buscar s ntomas o signos muy sensibles.
2.4. Mtodo probabilista clsico e a
27
VPN 0.9 1 0.9 0.8 Especificidad 0.7 0.6 0.5 0.5 0.6 0.9 0.8 0.7 Sensibilidad 1
Figura 2.11: Valor predictivo negativo (prevalencia=01).
2.4
Mtodo probabilista clsico e a
Hasta ahora hemos visto cmo aplicar el teorema de Bayes cuando tenemos una variable o diagnstico X y un hallazgo Y . Sin embargo, en los problemas del mundo real existen varios o diagnsticos posibles (distintas aver enfermedades diversas, etc.), por lo que los mtodos o as, e que hemos presentado hasta ahora resultan claramente insucientes, y debemos dar un paso hacia adelante con el n de abordar problemas ms complejos. a Una forma de intentarlo es la siguiente: supongamos que tenemos un conjunto de n enfermedades o anomal que queremos diagnosticar; cada una de ellas vendr representada as a por una variable Di ; si slo queremos diagnosticar la presencia o ausencia de la anomal se o a, tomar una variable binaria, con valores +di y di ; si queremos precisar ms, por ejemplo, a a sealando el grado de Di , tomar varios valores dk . Los m hallazgos posibles vendrn repren a a i sentados por las variables H1 , . . . , Hm . El teorema de Bayes (ec. (2.22)) nos dice entonces que P (d1 , . . . , dn ) = P (d1 , . . . , dn | h1 , . . . , hm ) P (d1 , . . . , dn ) P (h1 , . . . , hm | d1 , . . . , dn ) = P (d1 , . . . , dn ) P (h1 , . . . , hm | d1 , . . . , dn )
d1 ,...,dn
(2.38) (2.39)
Sin embargo, esta expresin es imposible de aplicar por la enorme cantidad de informacin o o que requiere: necesitar amos conocer todas las probabilidades a priori P (d) y todas las pro babilidades condicionadas P (h | d). En el caso de variables binarias, habr 2n probabilidades a m+n probabilidades condicionales, lo que signica un total de 2m+n 1 parmetros a priori y 2 a independientes.3 Un modelo que contenga 3 diagnsticos y 10 hallazgos posibles requiere o a 8.191 parmetros; para 5 diagnsticos y 20 hallazgos se necesitan 331 554.431 parmetros, a o y para 10 diagnsticos y 50 hallazgos, 13 152.9212 504.6061 846.975 parmetros. Obviamente, o a este mtodo es inaplicable, salvo para modelos extremadamente simples. e Por ello se introduce la hiptesis de que los diagnsticos son exclusivos (no puede haber o o dos de ellos a la vez) y exhaustivos (no hay otros diagnsticos posibles). Esto permite que o en vez de tener n variables Di tengamos una sola variable, D, que toma n valores di (los
El nmero de parmetros independientes es el nmero total de parmetros menos el nmero de ligaduras. u a u a u P P En este caso, adems de la ligadura d P (d) = 1, hay 2n ligaduras h P (h|d) = 1, una para cada d, por lo a n m+n n m+n que el n mero de parmetros independientes es (2 + 2 u a ) (1 + 2 ) = 2 1.
3
28
n diagnsticos posibles), de modo que la probabilidad de un diagnstico cualquiera d viene o o dada por P (d) P (h1 , . . . , hm | d) P (d) = P (d | h1 , . . . , hm ) = (2.40) P (d ) P (h1 , . . . , hm | d )
d
s C
H1

H2

Hm
Figura 2.12: Mtodo probabilista clsico. e a Este modelo simplicado requiere n probabilidades a priori P (d) y, si las variables Hj son binarias, 2m n probabilidades condicionadas P (h | d), lo que signica 2m n 1 parmetros a independientes. Es decir, para 3 diagnsticos y 10 hallazgos har falta 3.071 parmetros; o an a para 5 diagnsticos y 20 hallazgos, 51 242.879 parmetros, y para 10 diagnsticos y 50 hao a o llazgos, 11.2582 999.0681 426.239. La reduccin es signicativa (dos rdenes de magnitud en el o o ultimo caso), pero claramente insuciente. Por tanto, se hace necesario introducir una nueva hiptesis, la de independencia condio cional : los hallazgos son condicionalmente independientes entre s para cada diagnstico d. o En forma matemtica, se expresa as a : P (h1 , . . . , hm | d) = P (h1 | d) . . . P (hm | d), de modo que la probabilidad resultante para cada diagnstico d es o P (d) =
d
(2.41)
P (d) P (h1 | d) . . . P (hm | d) P (d ) P (h1 | d ) . . . P (hm | d )
(2.42)
o, en forma normalizada P (d) = P (d) P (h1 | d) . . . P (hm | d) (2.43)
Observe que esta expresin es una generalizacin de la ecuacin (2.26). o o o Este modelo simplicado requiere n probabilidades a priori P (d) y, si las variables Hj son binarias, 2 m n probabilidades condicionadas P (hj | d), lo que signica n 1 + m n = n(m+1)1 parmetros independientes. Por tanto, para 3 diagnsticos y 10 hallazgos har a o an falta 32 parmetros; para 5 diagnsticos y 20 hallazgos, 104 parmetros, y para 10 diagnsticos a o a o y 50 hallazgos, 509. Con esta drstica reduccin, el problema ya resulta abordable. a o Ejemplo 2.25 Cierto motor puede tener una aver elctrica (con una probabilidad de 103 ) a e o mecnica (con una probabilidad de 105 ). El hecho de que se produzca un tipo de aver a a no hace que se produzca una del otro tipo. Cuando hay aver elctrica se enciende un piloto a e luminoso el 95% de las veces; cuando hay aver mecnica, el 99% de las veces; y cuando a a no hay aver el piloto luminoso se enciende (da una falsa alarma) en un caso por milln. a, o
29
Cuando no hay aver la temperatura est elevada en el 17% de los casos y reducida en el 3%; a, a en el resto de los casos, est en los l a mites de normalidad. Cuando hay aver elctrica, est a e a elevada en el 90% de los casos y reducida en el 1%. Cuando hay aver mecnica, est elevada a a a en el 10% de los casos y reducida en el 40%. El funcionamiento del piloto es independiente de la temperatura. Si se enciende el piloto y la temperatura est por debajo de su valor normal, a cul es el diagnstico del motor? a o Solucin. Aplicamos el mtodo probabilista clsico. La armacin el hecho de que se o e a o produzca un tipo de aver no hace que se produzca una del otro tipo nos permite considea rarlos como dos variables independientes. Sin embargo, como hemos discutido anteriormente, esto nos obligar a considerar un modelo con muchos ms parmetros de los que nos ofrece a a a el enunciado. Por eso introducimos la hiptesis de que los diagnsticos son exclusivos, lo cual o o es una aproximacin razonable, ya que es sumamente improbable que se den los dos tipos de o aver simultneamente: 103 105 = 108 . Sin embargo, estos dos diagnsticos no son exa a o haustivos, porque es posible que no haya aver ni elctrica ni mecnica. Por ello, la variable a e a diagnstico D ha de tomar tres valores posibles: de (aver elctrica), dm (aver mecnica) o a e a a y dn (ninguna de las dos, es decir, estado de normalidad). La probabilidad a priori para D es la siguiente: P (de ) = 0 001; P (dm ) = 0 00001; P (dn ) = 0 99899. Si representamos el estado del piloto luminoso mediante la variable L, los estados posibles son +l (encendido) y l (apagado), y la probabilidad condicional P (l | d) viene dada por la siguiente tabla: P (l | d) +l l de 095 005 dm 099 001 dn 0000001 0999999
La temperatura puede venir representada por una variable T , de tres valores: tn (normal), te (elevada) y tr (reducida); la tabla de probabilidad condicional es la siguiente: P (t | d) te tn tr de 090 009 001 dm 010 050 040 dn 017 080 003
La armacin del enunciado el funcionamiento del piloto es independiente de la tempeo ratura podemos interpretarla como una declaracin de independencia condicional entre las o variables L y T para cada diagnstico: P (l, t | d) = P (l | d) P (t | d). Con esto, se cumplen ya o las condiciones para poder aplicar el mtodo probabilista clsico (g. 2.13), que en su forma e a normalizada nos dice que P (d) = P (d | l, t) = P (d) P (l | d) P (t | d) Concretamente, para la pregunta planteada en el problema P (de ) = P (de | + l, tr ) = P (de ) P (+l | de ) P (tr | de ) P (dm ) = P (dm | + l, tr ) = P (dm ) P (+l | dm ) P (tr | dm ) n P (d ) = P (dn | + l, tr ) = P (dn ) P (+l | dn ) P (tr | dn )
30

Cap tulo 2. Mtodo probabilista clsico e a D
d d d

Figura 2.13: El piloto luminoso (L) y la temperatura (T ) son signos de aver (D). a y, sustituyendo los valores numricos, e P (de ) = 0 001 0 95 0 01 = 0 0000095 = 0 70423 P (dm ) = 0 00001 0 99 0 40 = 0 00000396 = 0 29355 n P (d ) = 0 99899 0 000001 0 03 = 0 00000002997 = 0 00222 donde el valor de se ha calculado por normalizacin ( = 74.129). En conclusin, el o o diagnstico ms probable es que haya aver elctrica (70%), aunque tambin podr tratarse o a a e e a de una aver mecnica (29%). La probabilidad de que sea una falsa alarma es muy pequea a a n (022%).
2.4.1
Forma racional del mtodo probabilista clsico e a
Cuando el objetivo es comparar la probabilidad relativa de dos diagnsticos, d y d , el mtodo o e probabilista clsico puede expresarse en forma racional as a : P (d | h1 , . . . , hm ) P (d) P (h1 | d) P (hm | d) = ... P (d | h1 , . . . , hm ) P (d ) P (h1 | d ) P (hm | d ) (2.44)
En el problema anterior (ejemplo 2.25), si slo quisiramos saber si es ms probable que o e a la aver sea elctrica o mecnica, tendr a e a amos P (de | + l, tr ) P (de ) P (+l | de ) P (tr | de ) = P (dm | + l, tr ) P (dm ) P (+l | dm ) P (tr | dm ) 0 001 0 95 0 01 1 = = 100 0 96 = 2 40 0 00001 0 99 0 40 40 Esto nos permite comprobar que el hallazgo +l casi no inuye en el diagnstico, pues el o e )/P (+l | dm ) es casi la unidad; en cambio, el hallazgo tr aporta evidencia a valor de P (+l | d favor de dm frente a de , pues es 40 veces ms veros a mil para dm que para de . A pesar de eso, e , porque su probabilidad a priori era 100 veces mayor que la de dm . prevalece el diagnstico d o En el caso de que D sea una variable binaria que representa la presencia (+d) o ausencia (d) de una anomal podemos utilizar las deniciones (2.29), (2.30) y (2.31) para calcular a, la razn de probabilidad de D dada la evidencia {h1 , . . . , hn }: o RPpost (D) = RPpre (D) RVD (h1 ) . . . RVD (hm ) (2.45)
Esta expresin es una generalizacin de la (2.33) para el caso de mltiples hallazgos. A partir o o u de RPpost (D) se obtiene fcilmente la probabilidad posteriori mediante la ecuacin (2.32). a o
31
Finalmente, conviene sealar que en el mtodo probabilista clsico (cualquiera que sea n e a la forma en que se exprese) slo se han de tener en cuenta las variables-hallazgos cuyo valor o se conoce; los posibles hallazgos cuyo valor no ha llegado a conocerse, deben omitirse, como si no formaran parte del modelo. Por ejemplo, si hay cuatro hallazgos posibles (m = 4), y en un caso particular slo se han observado h1 y h4 , la ecuacin (2.45) queda reducida a o o RPpost (D) = RPpre (D) RVD (h1 ) RVD (h4 ) Si ms tarde se observa h2 , la nueva probabilidad a posteriori se puede calcular como a RPpost (D) = RPpost (D) RVD (h2 ) = RPpre (D) RVD (h1 ) RVD (h4 ) RVD (h2 ) Como era de esperar, el orden en que se introducen los hallazgos no inuye en el resultado nal.
2.4.2
Paso de mensajes en el mtodo probabilista clsico e a
Por razones que quedarn claras en el prximo cap a o tulo, denimos unos vectores Hj (d) y (d) como sigue: Hj (d) P (hj | d)
m
(2.46) (2.47)
(d)
j=1
Hj (d)
de modo que la ecuacin (2.43) puede escribirse as o : P (d) = P (d) H1 (d) . . . Hm (d) = P (d) (d) (2.48) (2.49)
Cada Hj (d) puede interpretarse como un mensaje que el hallazgo Hj env al nodoa diagnstico D, de modo que ste pueda calcular su probabilidad a posteriori P (d) como o e funcin de su probabilidad a priori P (d) y de los mensajes que recibe de cada uno de sus o nodos hijos, tal como reeja la gura 2.14; el efecto de todos los mensajes Hj (d) se puede agrupar en un unico mensaje (d), tal como indica la ecuacin (2.47). o

H1 (d)
(d) H dd m s d d d
H1

Hm
Figura 2.14: Paso de mensajes en el mtodo probabilista clsico. e a
32
Ejemplo 2.26 Para el problema del ejemplo 2.25 tendr amos P (d) = (0 001 0 00001 0 99899) L (d) = (0 95 0 99 0 00001) T (d) = (0 01 0 40 0 03) (d) = (0 0095 0 396 0 0000003) P (d) (d) = (0 0000095 0 00000396 0 00000003) P (d) = (0 7032 0 2931 0 00221) 2 Tan slo conviene aclarar un pequeo detalle. En la ecuacin (2.48) slo deber intero n o o an venir aquellas Hj (d) correspondientes a los hallazgos disponibles. Sin embargo, para cada nodo Hk cuyo valor se desconoce podemos considerar que Hk (d) = 1 para todo d, con lo que Hk puede enviar tambin un mensaje que, por ser un vector constante, no modica el valor de e (d). De este modo, cada nodo H siempre env un mensaje (d), incluso cuando no se P a j Hj conoce qu valor toma Hj , aunque en este caso el mensaje Hj (d) no inuye en el diagnstico. e o Una vez ms, las operaciones matemticas responden a los dictados del sentido comn. a a u En el prximo cap o tulo veremos que este mecanismo de paso de mensajes, convenientemente ampliado, es la base de la inferencia en redes bayesianas.
2.4.3
Discusin o
El desarrollo de programas de diagnstico basados en tcnicas bayesianas comenz en los o e o aos 60. Entre los sistemas de esa dcada destacan el de Warner, Toronto y Veasy para el n e diagnstico de cardiopat congnitas [63], los de Gorry y Barnett [24, 25] y el programa o as e creado por de Dombal y sus colaboradores para el diagnstico del dolor abdominal agudo o [12]. Aunque estos programas dieron resultados satisfactorios, el mtodo probabilista clsico e a fue duramente criticado, por los motivos siguientes: 1. La hiptesis de diagnsticos exclusivos y exhaustivos es pocas veces aplicable en casos o o reales [58]. En la mayor parte de los problemas de diagnstico mdico, por ejemplo, o e pueden darse dos enfermedades simultneamente, con lo que el mtodo clsico resulta a e a totalmente inadecuado. Por otra parte, suele ser muy dif o imposible especicar cil todas las causas que pueden producir un conjunto de hallazgos. o 2. Igualmente, la hiptesis de independencia condicional, tal como se introduce en el mtodo clsico, es muy cuestionable [59]. Normalmente, los hallazgos correspondientes e a a cada diagnstico estn fuertemente correlacionados, por lo que dicha hiptesis resulta o a o inadmisible, pues lleva a sobreestimar la importancia de los hallazgos asociados entre s . (Ms adelante veremos que las redes bayesianas resuelven este problema introduciendo a causas intermedias, con lo que la hiptesis de independencia condicional resulta mucho o ms razonable.) a 3. Adems, sigue existiendo el problema de la gran cantidad de parmetros necesarios en el a a modelo, incluso despus de introducir las dos hiptesis anteriores. Como hemos explicae o do ya, el modelo requiere n (m + 1) 1 parmetros independientes, lo cual signica, por a ejemplo, que para 10 diagnsticos y 50 hallazgos, se necesitan 509 parmetros; es decir, o a
33
que incluso para un problema sencillo comparado con los que se dan en la prctica a cl nica diaria la construccin del modelo es bastante complicada. o 4. Por ultimo, desde el punto de vista de la construccin de sistemas expertos, el mtodo o e probabilista clsico presenta el inconveniente de que la informacin no est estructurada, a o a lo cual complica el mantenimiento de la base de conocimientos, ya que sta consiste e exclusivamente en un montn de parmetros, por lo que es dif incorporar al modelo o a cil nueva informacin. o Por todo ello, en la dcada de los 70 se buscaron mtodos de diagnstico alternativos, e e o como fueron el modelo de factores de certeza de MYCIN (cap. 4) y la lgica difusa (cap. 5). o Sin embargo, en la dcada de los 80, con el desarrollo de las redes bayesianas, la aplicacin de e o los mtodos probabilistas volvi a ocupar un papel destacado en el campo de la inteligencia e o articial, como vamos a ver en el prximo cap o tulo.
2.5
Como dijimos en la seccin 1.2, el mtodo probabilista clsico es un tema muerto desde o e a el punto de vista de la investigacin, por lo que apenas existen referencias bibliogrcas o a recientes. Entre las pocas excepciones se encuentran el art culo de Peot [49], en que analiza las implicaciones geomtricas del modelo, y los trabajos sobre construccin del modelos a e o partir de bases de datos mediante algoritmos de aprendizaje [37]. En cuanto a la bibliograf a clsica, se pueden consultar los art a culos citados en la seccin anterior, sobre aplicaciones o mdicas, y el famoso libro de Duda y Hart [21] sobre reconocimiento de patrones y visin e o articial. Una s ntesis de las cr ticas que se plantearon al mtodo probabilista clsico desde el punto e a de vista de la inteligencia articial se encuentra en [38].
34
Cap tulo 3
Redes bayesianas
En este cap tulo vamos a estudiar las redes bayesianas, desde su denicin formal (sec. 3.2) o hasta los algoritmos de propagacin, tanto para polirboles (sec. 3.3) como para la puerta OR o a (sec. 3.4). Dado que estas deniciones y algoritmos son dif ciles de entender al principio, hasta que el lector se ha familiarizado con ellos, hemos incluido antes un ejemplo mdico, que e va creciendo en grado de complejidad; su nalidad es mostrar al lector la conexin entre las o propiedades formales de las redes bayesianas y el razonamiento de sentido.
3.1
Presentacin intuitiva o
Antes de presentar formalmente la teor matemtica de las redes bayesianas, intentaremos a a explicar mediante un ejemplo sencillo, tomado del campo de la medicina, el signicado intuitivo de las deniciones y axiomas que luego introduciremos, para mostrar la conexin entre o las redes bayesianas y el razonamiento de sentido comn. En el ejemplo que vamos a disu cutir hemos buscado sobre todo una aproximacin cualitativa, sin pretender que los factores o numricos sean exactos. e En una red bayesiana, cada nodo corresponde a una variable aleatoria, tal como la edad o el sexo de un paciente, el padecer cierta enfermedad, la presencia de un s ntoma o el resultado de una prueba de laboratorio. De aqu en adelante hablaremos indistintamente de nodos y variables, y los denotaremos con letras maysculas, tales como X. u Ejemplo 3.1 La red bayesiana no trivial ms simple que podemos imaginar consta de dos a variables, que llamaremos X e Y1 , y un arco desde la primera a la segunda, como indica la gura 3.1. Por el momento, baste decir que el arco indica generalmente inuencia causal ; ms a adelante precisaremos el sentido de esta expresin. Utilizaremos frecuentemente el trmino o e enlace como sinnimo de arco. o Por concretar el ejemplo, podemos suponer que X representa Paludismo e Y1 representa Gota-gruesa, la prueba ms habitual para determinar la presencia de dicha enfermedad. a Cuando X es una variable binaria correspondiente a una anomal +x indica la presencia a, de dicha anomal (en nuestro ejemplo signicar el paciente tiene paludismo) y x indica a a su ausencia (el paciente no tiene paludismo). Si X representa un test (por ejemplo, Gotagruesa), +x indica que el test ha dado un resultado positivo y x un resultado negativo. En la prctica, la informacin cuantitativa de una red bayesiana viene dada por la proa o babilidad a priori de los nodos que no tienen padres, P (x), y por la probabilidad condicional 35
36
c
Cap tulo 3. Redes bayesianas X
Y1
Figura 3.1: Nodo X con un hijo Y1 . de los nodos con padres, P (y1 |x). As en nuestro ejemplo, se supone que conocemos , P (+x) = 0 003 P (x) = 0 997 lo cual signica que el 3 por mil de la poblacin padece paludismo y, por tanto, la probabio lidad a priori de que una persona tenga la enfermedad (es decir, la probabilidad cuando no conocemos nada ms sobre esa persona) es del 03%. En medicina, esta probabilidad a priori a se conoce como prevalencia de la enfermedad. Tambin debemos conocer P (y|x), que es la probabilidad condicional del efecto dado el e valor de la causa: P (+y1 |+x) = 0 992 P (+y1 |x) = 0 0006 P (y1 |+x) = 0 008 P (y1 |x) = 0 9994 El signicado de esta probabilidad es el siguiente: cuando hay Paludismo, el test de la Gotagruesa da positivo en el 992% de los casos. Este valor se conoce como sensibilidad del test. Cuando no hay paludismo, el test da positivo (se dice entonces que ha habido un falso positivo) en el 006% de los casos. La probabilidad de que el test d negativo cuando la e enfermedad buscada est ausente en nuestro caso es el 9994% se llama especicidad. En a todos los problemas de diagnstico, no slo en el campo de la medicina, tratamos de encontrar o o las pruebas que ofrezcan el grado ms alto de sensibilidad y especicidad con el menor coste a posible (en trminos de dinero, tiempo, riesgo, etc.).1 e Naturalmente, P (+y1 |+x) + P (y1 |+x) = 1 P (+y1 |x) + P (y1 |x) = 1 o, en forma abreviada, P (y1 |x) = 1,
y1
(3.1)
Conociendo la probabilidad a priori de X y la probabilidad condicional P (Y1 |X), podemos calcular la probabilidad a priori de Y1 por el teorema de la probabilidad total (ec. (2.9)): P (+y1 ) = P (+y1 |+x) P (+x) + P (+y1 |x) P (x) P (y1 ) = P (y1 |+x) P (+x) + P (y1 |x) P (x)
Recordemos que esta denicin de sensibilidad y especicidad es aplicable solamente a un enlace entre o variables binarias de tipo presente/ausente o positivo/negativo.
1
3.1. Presentacin intuitiva o que puede escribirse en forma abreviada como P (y1 ) =
x
37
P (y1 |x) P (x)
(3.2)
En nuestro ejemplo, P (+y1 ) = 0 00357 P (y1 ) = 0 99643 Esto signica que si hacemos el test de la gota gruesa a una persona de la que no tenemos ninguna informacin, hay un 0357% de probabilidad de que d positivo y un 99643% de que o e d negativo. e Vamos a ver ahora cmo podemos calcular la probabilidad a posteriori, es decir, la proo babilidad de una variable dada la evidencia observada e: P (x) P (x|e) (3.3)
a) Supongamos que la gota gruesa ha dado positivo: e = {+y1 }. Cul es ahora la a probabilidad de que nuestro paciente tenga paludismo? Si la prueba tuviera una abilidad absoluta, responder amos que el 100%. Pero como es posible que haya habido un falso positivo, buscamos P (+x), es decir, P (+x| + y1 ). Para ello, aplicamos el teorema de Bayes: P (+x) = P (+x|+y1 ) = 0 003 0 992 P (+x) P (+y1 |+x) = = 0 83263 P (+y1 ) 0 00357 (3.4)
Es decir, de acuerdo con el resultado de la prueba, hay un 83% de probabilidad de que el paciente tenga paludismo. Tambin podemos calcular P (x): e P (x) = P (x|+y1 ) = P (x) P (+y1 |x) 0 997 0 0006 = = 0 16737 P (+y1 ) 0 00357 (3.5)
Esto signica que hay un 167% de probabilidad de que haya habido un falso positivo. Naturalmente, se cumple que P (+x) + P (x) = 1 (3.6) La expresin general del teorema de Bayes que hemos aplicado es o P (x) = P (x|y) = P (x) P (y|x) P (y) (3.7)
Por semejanza con el mtodo probabilista clsico (ec. (2.46)), vamos a reescribirla como e a P (x) = P (x) Y1 (x) donde Y1 (x) P (e|x) = P (y1 |x) [P (e)]
1
(3.8)
(3.9) (3.10)
= [P (y1 )]
38
Cap tulo 3. Redes bayesianas
Vamos a repetir ahora el clculo anterior aplicando esta reformulacin del teorema de a o Bayes. En primer lugar tenemos que, cuando el test da positivo, e = {+y1 } = Y1 (+x) = P (+y1 |+x) = 0 992 Y1 (x) = P (+y1 |x) = 0 0006 (3.11)
Esto signica que un resultado positivo en la prueba se explica mucho mejor con la enfermedad presente que con la enfermedad ausente (en la proporcin de 0992/00006=1.650), lo cual o concuerda, naturalmente, con el sentido comn. u Por tanto, P (+x) = 0 003 0 992 = 0 00298 P (x) = 0 997 0 0006 = 0 000598 Podr amos calcular a partir de su denicin (3.10), pero resulta mucho ms sencillo aplicar o a la condicin de normalizacin (ec. (3.6)) a la expresin anterior, con lo que se llega a o o o = [0 00298 + 0 000598]1 y nalmente P (+x) = 0 83263 P (x) = 0 16737 que es el mismo resultado que hab amos obtenido anteriormente por la aplicacin del teorema o de Bayes en su forma clsica. Como en el cap a tulo anterior, la ecuacin (3.8) nos dice que en o la probabilidad a posteriori, P (x), inuyen dos factores: la probabilidad a priori, P (x), y la verosimilitud, Y1 (x). b) Y si la gota gruesa diera un resultado negativo, e = {y1 }, cul ser la probabilidad a a de que el paciente tuviera paludismo? En ese caso, e = {y1 } = Y1 (+x) = P (y1 |+x) = 0 008 Y1 (x) = P (y1 |x) = 0 9994 (3.12)
Es decir, un resultado negativo en la prueba de la gota gruesa se explica mucho mejor (en la proporcin de 09994/0008 = 125) cuando no hay paludismo que cuando lo hay; en otras o palabras, para y1 , el valor x es 125 veces ms veros a mil que +x. Aplicando la ecuacin (3.8) como en el caso anterior, obtenemos o P (+x) = 0 003 0 008 = 0 000024 P (x) = 0 997 0 9994 = 0 999976 donde hemos calculado por normalizacin. o (+x) se explica por dos razones: por un lado, la probabilidad El resultado tan bajo para P a priori era de slo un 03%; por otro, la alta especicidad de la prueba (9994%) es un o argumento convincente para descartar la enfermedad. De nuevo comprobamos que en la probabilidad a posteriori inuyen la probabilidad a priori y la verosimilitud. 2
3.1. Presentacin intuitiva o

d d d
39 X
Y1

Y2
Figura 3.2: Nodo X con dos hijos. n Ejemplo 3.2 Vamos a ampliar el modelo anterior aadiendo un nuevo efecto producido por el paludismo, la Fiebre, que representaremos mediante la variable Y2 , tal como muestra la gura 3.2. La probabilidad condicional para este segundo enlace XY2 viene denida por P (+y2 |+x) = 0 98 P (y2 |+x) = 0 02 P (+y2 |x) = 0 017 P (y2 |x) = 0 983
que indica la probabilidad de que un paciente (o una persona, en general) tenga ebre dependiendo de si tiene o no paludismo. Vemos aqu que, para el paludismo, la ebre tiene mucha menor especicidad (983%) que la gota gruesa (9994%). As este sencillo modelo tiene , en cuenta que hay muchas otras causas que pueden producir ebre, aunque no las incluya expl citamente. Aplicando el teorema de la probabilidad total (ec. (2.9)) podemos calcular la probabilidad a priori de que un enfermo tenga ebre, P (+y2 ) =
x
P (+y2 |x) P (x) = 0 01989
pero ste es un resultado que carece de importancia para el diagnstico. e o a) Supongamos que encontramos un paciente con ebre, e = {+y2 }, y queremos hallar la probabilidad de que tenga paludismo. En primer lugar, expresamos el teorema de Bayes en forma normalizada: P (x) = P (x) Y2 (x) (3.13) Ahora vale [P (+y2 )]1 , pero podemos prescindir de su signicado y tratarla simplemente como una constante de normalizacin. o Para un paciente con ebre, e = {+y2 } = de modo que P (+x) = 0 003 0 98 = 0 148 P (x) = 0 997 0 017 = 0 852 lo cual signica que hay un 148% de probabilidad de que el paciente tenga paludismo. Comprese con el 833% correspondiente a un resultado positivo de la gota gruesa (ec. (3.4)). a La diferencia se debe de que esta prueba es un signo muy espec co de la enfermedad, mientras que la ebre puede estar producida por muchas otras causas. Y2 (+x) = P (+y2 |+x) = 0 98 Y2 (x) = P (+y2 |x) = 0 017 (3.14)
40
b) Vamos a estudiar ahora el caso en que tenemos las dos observaciones y ambas indican la presencia de la enfermedad: e = {+y1 , +y2 }. Al intentar calcular la probabilidad de que esa persona tenga paludismo, P (+x|+y1 , +y2 ) nos damos cuenta de que nos falta informacin, o pues para aplicar el teorema de Bayes, P (x|+y1 , +y2 ) = P (+y1 , +y2 | x) P (x) P (+y1 , +y2 ) (3.15)
necesitamos conocer P (+y1 , +y2 | x) y P (+y1 , +y2 ). Con la informacin disponible es imposible calcular estas expresiones. Por ello vamos a o introducir la hiptesis de independencia condicional. Examinemos primero el caso en que o sabemos con certeza que hay paludismo (X = +x). Entonces es razonable pensar que la probabilidad de que el paciente tenga o no tenga ebre no depende de si hemos realizado el test de la gota gruesa ni del resultado que ste haya dado: la ebre depende slo de si hay e o paludismo (dando por supuesto, como parece razonable, que las dems causas de ebre no a inuyen en el resultado del test). La armacin conociendo X = x, el valor de y2 no depende o del de y1 se expresa matemticamente como a P (y2 |+x, y1 ) = P (y2 |+x) o dicho de otro modo2 P (y1 , y2 |+x) = P (y1 |+x) P (y2 |+x) (3.17) Observar que estas expresiones son simtricas para Y1 e Y2 . e Supongamos ahora que no hay paludismo (X = x). La probabilidad de que el paciente presente ebre no depende de si la gota gruesa ha dado negativo (como era de esperar) o ha dado un falso positivo por alguna extraa razn. As tenemos n o P (y2 |x, y1 ) = P (y2 |x) o lo que es lo mismo P (y1 , y2 |x) = P (y1 |x) P (y2 |x) Uniendo las ecuaciones (3.17) y (3.19), tenemos P (y1 , y2 |x) = P (y1 |x) P (y2 |x) que es lo que se conoce como independencia condicional. Deniendo (x) P (y1 , y2 |x) podemos expresar dicha propiedad como (x) = Y1 (x) Y2 (x) (3.22) (3.21) (3.20) (3.19) (3.18) (3.16)
Con esta hiptesis ya podemos calcular la probabilidad buscada. La ecuacin (3.15) es o o equivalente a P (x) = P (x) (x) (3.23)
2
Ambas expresiones son equivalentes cuando P (+x) = 0, pues P (y1 , y2 |+x) = P (y1 , y2 , +x) P (y2 |y1 , +x) P (y1 , +x) = = P (y2 |+x, y1 ) P (y1 |+x) P (+x) P (+x)
3.1. Presentacin intuitiva o En nuestro ejemplo, a partir de las ecuaciones (3.11) y (3.14) tenemos e = {+y1 , +y2 } = (+x) = 0 97216 (x) = 0 0000102
41
(3.24)
El valor de se calcula al normalizar, obteniendo as P (+x) = 0 99653 P (x) = 0 00347 Naturalmente, cuando hay dos hallazgos a favor del paludismo, la probabilidad resultante (997%) es mucho mayor que la correspondiente a cada uno de ellos por separado (833% y 148%). En realidad, lo que hemos hecho en este apartado no es ms que aplicar el mtodo probaa e bilista clsico en forma normalizada (sec. 2.4); puede comprobarlo comparando las ecuacioa nes (3.21) y (3.22) con la (2.47) y la (2.48), respectivamente. c) En el caso de que tengamos un hallazgo a favor y otro en contra, podemos ponderar su inuencia mediante estas mismas expresiones. Por ejemplo, si hay ebre (+y2 ) pero hay un resultado negativo en la prueba de la gota gruesa (y1 ), las ecuaciones (3.12), (3.14) y (3.22) nos dicen que e = {y1 , +y2 } = (+x) = 0 008 0 98 = 0 00784 (x) = 0 9994 0 017 = 0 01699 (3.25)
Vemos que hay ms evidencia a favor de x que de +x (en la proporcin aproximada de 2 a o a 1), debido sobre todo al 0008 correspondiente a la gota gruesa, lo cual es un reejo de la alta sensibilidad de esta prueba (992%). Es decir, si hubiera paludismo, es casi seguro que lo habr amos detectado; al no haberlo detectado, tenemos una buena razn para descartarlo. o Al tener en cuenta adems la probabilidad a priori de la enfermedad, nos queda nalmente a P (+x) = 0 003 0 00784 = 0 0014 P (x) = 0 997 0 01699 = 0 9986 Por tanto, la ponderacin de la evidencia ha modicado la probabilidad desde 03% (valor a o priori) hasta 014% (valor a posteriori). De nuevo hemos aplicado el mtodo probabilista clsico en forma normalizada. e a d) An podemos obtener ms informacin de este ejemplo. Imaginemos que tenemos un u a o paciente con ebre (Y2 = +y2 ) y todav no hemos realizado la prueba de la gota gruesa. a Qu probabilidad hay de que sta d un resultado positivo o negativo? Es decir, cunto e e e a vale P (y1 |+y2 )? Por la teor elemental de la probabilidad sabemos que a P (y1 ) = P (y1 |+y2 ) =
x
P (y1 | x, +y2 ) P (x|+y2 ) P (y1 | x, +y2 )

x
P (x, +y2 ) P (+y2 )
42
Aplicando la independencia condicional dada en (3.17) y deniendo3 Y1 (x) P (x, +y2 ) = P (x) P (+y2 | x) [P (+y2 )]1 podemos reescribir la expresin anterior como o P (y1 ) =
x
(3.26) (3.27)
P (y1 |x) Y1 (x)
(3.28)
Sustituyendo los valores numricos, tenemos que e e = {+y2 } = y nalmente P (+y1 ) = 0 14715 P (y1 ) = 0 85285 (3.30) Y1 (+x) = 0 003 0 98 = 0 00294 Y1 (x) = 0 997 0 017 = 0 01695 (3.29)
Resulta muy interesante comparar la ecuacin (3.28) con (3.2). Al buscar la probabilidad o a priori P (y1 ) utilizbamos P (x); ahora, al calcular P (y1 ), utilizamos Y1 (x), que indica la a probabilidad de X tras considerar la evidencia relativa a X diferente de Y1 . Vemos as cmo la informacin que aporta el nodo Y2 modica la probabilidad de X, y o o en consecuencia tambin la de Y1 . El carcter simultneamente ascendente y descendente e a a del mecanismo de propagacin es lo que nos permite utilizar la red tanto para inferencias o abductivas (cul es el diagnstico que mejor explica los hallazgos) como predictivas (cul es a o a la probabilidad de obtener cierto resultado en el futuro). Un mismo nodo Y1 puede ser fuente de informacin u objeto de prediccin, dependiendo de cules sean los hallazgos disponibles o o a y el objetivo del diagnstico. 2 o Ejemplo 3.3 Consideremos una red bayesiana en que un nodo X, que representa la variable Paludismo, tiene dos padres, U1 = Pa s-de-origen y U2 = Tipo-sangu neo, dos de los factores que inuyen en la probabilidad de contraer la enfermedad, tal como muestra la gura 3.3.
d d d
U1
U2
Figura 3.3: Nodo X con dos padres. La variable U1 podr tener muchos valores, tantos como pa a ses de origen quisiramos e considerar. Sin embargo, vamos a suponer que los agrupamos en tres zonas, de alto, medio
Puede resultar extra o al lector que Y1 (x) lleve el sub n ndice Y1 a pesar de que depende del valor de la variable Y2 . El motivo es que Y1 (x) porque recoge toda la evidencia relativa a X diferente de Y1 . Daremos una denicin ms precisa en la seccin 3.3.1. o a o
3
43
y bajo riesgo, que denotaremos por u+ , u0 y u , respectivamente. La variable U2 (Tipo1 1 1 sangu neo) puede tomar dos valores: u u . o 2 2 Las probabilidades a priori para U1 y U2 son: P (u+ ) = 0 10 1 P (u ) = 0 60 2 (3.31) P (u0 ) = 0 10 1 P (u ) = 0 40 2 P (u1 ) = 0 80 Esto signica que la mayor parte de las personas que vamos a examinar proceden de una zona a de bajo riesgo, u , y que el primer tipo sangu neo, u , es ms frecuente que el segundo. 2 1 Las probabilidades condicionadas aparecen en la tabla 3.1. En ella vemos que, efectivamente, la zona u+ es la de mayor riesgo y u la de menor. Tambin observamos que el tipo e 1 1 sangu neo u2 posee mayor inmunidad que el u2 . U2 \ U1 u 2 u 2 u+ 1 0015 0026 u0 1 0003 0012 u 1 00003 00008
Tabla 3.1: Probabilidad de padecer paludismo, P (+x|u1 , u2 ). La probabilidad de que una persona (de la que no tenemos ninguna informacin) padezca o paludismo es P (x) = P (x|u1 , u2 ) P (u1 , u2 ) (3.32)
u1 ,u2
De nuevo tenemos el problema de que no conocemos P (u1 , u2 ). Podemos entonces hacer la hiptesis de independencia a priori entre ambas variables; es decir, suponemos que los o tipos sangu neos se distribuyen por igual en las tres zonas de riesgo. Esta es una hiptesis o que habr que comprobar emp a ricamente. Si llegramos a la conclusin de que existe una a o correlacin entre ambas variables, deber o amos trazar un arco desde la una hasta la otra e introducir las correspondientes tablas de probabilidades condicionadas. Estamos observando aqu una propiedad esencial de las RR.BB.: no slo los arcos apor o tan informacin sobre dependencias causales, sino que tambin la ausencia de un arco es o e una forma (impl cita) de aportar informacin. En nuestro caso implica que U1 y U2 son o independientes. Matemticamente se expresa as a : P (u2 |u1 ) = P (u2 ) o bien P (u1 , u2 ) = P (u1 ) P (u2 ) Con esta hiptesis podemos por n calcular la probabilidad de X: o P (x) =
u1 u2
(3.33)
(3.34)
P (x|u1 , u2 ) P (u1 ) P (u2 )
(3.35)
En nuestro caso, el valor obtenido es P (+x) = 0 003, que concuerda con el de los ejemplos anteriores.
44
a) Supongamos que nos enteramos de que la persona en cuestin procede de una zona o de alto riesgo. Cual es la probabilidad de que padezca la enfermedad? Una de las formas posibles de realizar el clculo es sta: a e P (x) = P (x|u+ ) = 1 Si denimos (x) P (x, e) = P (x, u+ ) 1 [P (e)]1 = [P (u+ )]1 1 la ecuacin anterior se convierte en o P (x) = (x) Podemos obtener (x) del siguiente modo: (x) =
u2
P (x, u+ ) 1 + P (u1 )
(3.36) (3.37)
(3.38)
P (x, u+ , u2 ) = 1
u2
P (x|u+ , u2 ) P (u+ , u2 ) 1 1
y aplicando la independencia a priori de las causas podemos expresar la ecuacin anterior o como (x) = P (x|u1 , u2 ) X (u1 ) X (u2 ) (3.39)
u1 u2
que es un resultado completamente general. En el ejemplo que estamos tratando, X (u+ ) = P (u+ ) 1 1 e = {u+ } = X (u0 ) = 0 1 1 X (u ) = 0 1 y en consecuencia e = {u+ } = 1
X (u ) 2 X (u ) 2
= =
P (u ) 2 P (u ) 2
(3.40)
(+x) = 0 00194 (x) = 0 09806
(3.41)
Sustituyendo este resultado en la ecuacin (3.38) y normalizando (en este caso, = 10), o hallamos que P (+x) = 0 0194; es decir, una persona originaria de una zona de alto riesgo tiene una probabilidad del 2% de padecer paludismo (frente al 03% general). Las expresiones X (ui ) que hemos utilizado en la deduccin no son nuevas: aparecieron o ya en la ecuacin (3.26). Recordemos que el signicado de X (ui ) es que transmite a X el o impacto de toda la evidencia relativa a Ui . Como no hay evidencia relativa a U2 , X (u2 ) coincide con la probabilidad a priori. b) Imaginemos ahora que por alguna razn tenemos certeza absoluta de que el enfermo o padece paludismo. Antes de hacer un anlisis de sangre, podemos predecir qu resultado es a e ms probable, considerando cul de los dos tipos sangu a a neos explica mejor la presencia de la enfermedad: P (u2 ) P (+x|u2 ) P (u2 ) = P (u2 |+x) = P (+x)
3.1. Presentacin intuitiva o o bien P (u2 ) = P (u2 ) X (u2 ) donde X (u2 ) P (+x|u2 ) =
u1
45
(3.42) (3.43)
P (+x|u1 , u2 ) P (u1 )
que en nuestro ejemplo vale e = {+x} = X (u ) = 0 00204 2 X (u ) = 0 00444 2 (3.44)
Efectivamente, los valores de la tabla 3.1 nos han llevado a la conclusin de que el paluo dismo se explica mejor con el tipo sangu neo u . Aplicando (3.42), obtenemos 2 P (u ) = 0 408 2 P (u ) = 0 592 2 (3.45)
Observamos que inicialmente el tipo u era el ms probable (60%), pero ahora es el menos a 2 probable (408%) porque explica peor el paludismo. El clculo que hemos realizado para X y U2 es idntico al que hicimos en el ejemplo 3.1.a a e para Y1 y X. Vemos de nuevo que un mismo nodo puede ser fuente de informacin u objeto o de prediccin, dependiendo de la evidencia disponible. o c) Mostraremos ahora otra de las propiedades ms caracter a sticas de las RR.BB.: la aparicin de correlaciones entre los padres de un nodo. Continuando con el caso anterior, o supongamos que adems de tener la certeza de que el enfermo padece paludismo sabemos a que procede de un pa de alto riesgo; es decir, e = {+x, u+ }. Aplicaremos de nuevo la s 1 ecuacin (3.42), aunque ahora o X (u2 ) P (+x, u+ |u2 ) = P (+x|u+ , u2 ) P (u+ |u2 ) 1 1 1 La independencia condicional nos dice que P (u+ |u2 ) = P (u+ ), y tenemos, por tanto, 1 1 X (u2 ) = P (x|u+ , u2 ) P (u+ ) 1 1 =
u1
P (x|u1 , u2 ) X (u1 )
(3.46)
donde X (u1 ) es el vector que apareci en la ecuacin (3.40). Al realizar los clculos obtenemos o o a e = {+x, u+ } = 1 y de ah P (u ) = 0 464 2 (u ) = 0 536 P 2 (3.48) X (u ) = 0 0015 2 X (u ) = 0 0026 2 (3.47)
Si comparamos este resultado con el de la ecuacin (3.45), observamos que la probabilidad o de u ha aumentado del 408% al 464% como resultado de conocer la zona de origen: U1 = u+ . 2 1 Este es el fenmeno que quer o amos mostrar. A priori, es decir, antes de conocer el valor de x,
46
U1 y U2 eran independientes, por lo que la probabilidad de u2 no variaba al conocer el valor u1 (cf. ec. (3.33)). Sin embargo, la independencia se pierde tanto al conocer X = +x como X = x. Dicho de otro modo, P (u2 |u1 ) = P (u2 ) P (u2 |u1 , x) = P (u2 |x) (3.49) (3.50)
Recordando el ejemplo 3.2, vemos que all ocurr precisamente lo contrario: las variables a Y1 e Y2 estaban correlacionadas a priori, pero se volv condicionalmente independientes al an conocer el valor de X. Esta asimetr en las relaciones de independencia es un reejo del a sentido de la causalidad, es decir, de la diferencia entre causas y efectos. 2 Ejemplo 3.4 Por ultimo, consideremos el caso en que tenemos un nodo con dos causas y dos efectos (g. 3.4). Las probabilidades condicionadas son las mismas que en los ejemplos anteriores. Por no extender demasiado esta seccin, vamos a considerar solamente el caso en o que tenemos un paciente que procede de una zona de alto riesgo y presenta ebre, pero la prueba de la gota gruesa ha dado un resultado negativo. Es decir, e = {u+ , y1 , +y2 }. 1
d d d d d d
U1
U2
Y1

Y2
Figura 3.4: Nodo X con dos padres y dos hijos. El teorema de Bayes nos dice que P (x) = P (x|u+ , y1 , +y2 ) = 1 P (x) P (u+ , y1 , +y2 |x) 1 P (u+ , y1 , +y2 ) 1 (3.51)
Nuevamente necesitamos utilizar unos valores, P (u+ , y1 , +y2 |x), que no conocemos. (Si 1 tuviramos estos valores podr e amos calcular tambin el denominador de la fraccin.) Hemos e o introducido ya dos hiptesis: o 1. Independencia a priori de los nodos que no tienen ningn antepasado comn. u u 2. Independencia condicional de los dos efectos de X cuando conocemos con certeza el valor de X. Vamos a enunciar ahora la tercera y ultima hiptesis, la independencia condicional (para o cada valor x) entre los padres y los hijos de X: P (y1 , y2 |x, u1 , u2 ) = P (y1 , y2 |x) o, lo que es lo mismo, P (u1 , u2 , y1 , y2 |x) = P (u1 , u2 |x) P (y1 , y2 |x) (3.53) (3.52)
47
La interpretacin de estas dos ecuaciones es clara: la probabilidad de los efectos de X o depende solamente del valor que toma X, no de la combinacin de factores que nos ha llevado o a dicho valor. En nuestro ejemplo signica que, si hay certeza de que una persona padece paludismo, la probabilidad de que tenga ebre y de que detectemos la enfermedad en la prueba de laboratorio no depende del pa de origen ni del tipo sangu s neo. Lo mismo podemos decir de la ausencia de paludismo.4 De la ecuacin (3.53) se deduce fcilmente, sumando sobre u2 , que o a P (u1 , y1 , y2 |x) = P (u1 |x) P (y1 , y2 |x) con lo que la ecuacin (3.51) se convierte en o P (x) = (x) (x) Recordemos que ya hab amos denido anteriormente (x) y (x): (x) P (x) P (u+ |x) = P (x, u+ ) 1 1 (x) P (y1 , +y2 |x) (3.56) (3.57) (3.55) (3.54)
y que sus valores estaban dados por (3.41) y (3.25), respectivamente. Tras unos clculos a (+x) = 0 0090; es decir, con estos hallazgos, la probabilidad de sencillos obtenemos que P que el paciente tenga paludismo es menor del 1%. Podr amos calcular ahora la probabilidad del tipo sangu neo en funcin de la evidencia, o P (u2 ), pero lo vamos a omitir para no alargar ms la exposicin. a o La ecuacin (3.55) es la frmula fundamental para el clculo de la probabilidad en redes o o a bayesianas. En ella aparecen dos trminos importantes, (x) y (x). El primero de ellos e transmite el impacto de la evidencia correspondiente a las causas de X. En nuestro caso, el unico hallazgo por encima de X era U1 = u+ . Si no tuviramos ninguna evidencia, (x) e 1 ser simplemente la probabilidad a priori P (x). a El segundo, (x), transmite el impacto de la evidencia correspondiente a los efectos de X. En el ejemplo anterior, recog la inuencia de y1 y +y2 . Si no tuviramos ninguna evidencia, a e (x) ser un vector constante y podr a amos prescindir de l al aplicar la ecuacin (3.55), sin e o alterar el resultado. De las tres propiedades de independencia anteriores ecs. (3.20), (3.34) y (3.53) que no son ms que la manifestacin de la separacin direccional (sec. 3.2.2) para esta pequea a o o n red, se deduce que P (y1 , y2 , x, u1 , u2 ) = P (y1 |x) P (y2 |x) P (x|u1 , u2 ) P (u1 ) P (u2 ) (3.58)
Esta expresin se conoce como factorizacin de la probabilidad en una red bayesiana (cf. teoo o rema 3.7, pg. 52). 2 a
Si por alguna razn pensramos que esta hiptesis no es cierta, deber o a o amos aadir a nuestro modelo nuevos n arcos con el n de representar las inuencias existentes (por ejemplo, entre el pa de origen y otras causas de s la ebre) y asignarles las tablas de probabilidad oportunas.
4
48 Recapitulacin o
En esta seccin hemos visto las propiedades ms importantes de las RR.BB. En primer luo a gar, que la red contiene informacin cualitativa (la estructura del grafo) y cuantitativa (las o probabilidades a priori y condicionales). Esta red constituye nuestro modelo causal y salvo que introduzcamos algn mecanismo de aprendizaje es invariable. u El proceso de diagnstico consiste en introducir la evidencia disponible (asignar valores a o las variables conocidas) y calcular la probabilidad a posteriori de las variables desconocidas. Se trata en realidad de un proceso de inferencia, aunque no es simblica sino numrica. o e Hemos visto adems que este modelo permite tanto un razonamiento diagnstico (cul a o a es la causa ms probable) como predictivo (qu valor de cierta variable aparecer con mayor a e a probabilidad). Por otra parte, hemos comentado ya que una ventaja de las RR.BB. es que un mismo nodo puede ser fuente de informacin u objeto de prediccin dependiendo de cul o o a sea la evidencia disponible, como ocurr con X o con Y1 en los ejemplos anteriores. a Y hemos comprobado tambin en el ejemplo 4 que es posible realizar un clculo incremene a tal, modicando la probabilidad de las variables a medida que va llegando nueva evidencia, sin tener que recalcular todos los mensajes () y ().
3.2
Denicin formal de red bayesiana o
En la seccin anterior hemos presentado de forma intuitiva qu son las redes bayesianas y o e cmo se propaga la evidencia, insistiendo en la importancia de las hiptesis de independencia. o o Ahora vamos a dar una denicin matemtica formal. o a
3.2.1
Estructura de la red. Teor de grafos a
Nuestro punto de partida consiste en un conjunto nito de nodos X. Cada uno de ellos representa una variable, que puede ser discreta o continua (aunque en este texto slo vamos o a manejar variables discretas). Esta relacin biun o voca entre nodos y variables nos permite emplear indistintamente ambos trminos. Como vimos en el cap e tulo anterior, los valores de una variable deben constituir un conjunto exclusivo y exhaustivo. Sin embargo, una diferencia importante respecto del mtodo probabilista clsico (sec. 2.4) e a es que las redes bayesianas no necesitan suponer que los diagnsticos son exclusivos y exo haustivos, y por tanto no es necesario tener una variable D que represente todos los posibles diagnsticos; por ejemplo, en vez de una variable llamada D=Enfermedad, cuyos valores o representasen los posibles diagnsticos correspondientes a la ebre: neumon amigdalitis, o a, paludismo, etc., en la red bayesiana tendr amos una variable Neumon que puede tomar a dos valores (neumon a-presente y neumon a-ausente) o ms de dos valores (neumon a a-ausente, neumon a-leve, neumon a-moderada y neumon a-severa), dependiendo del grado de precisin o que necesitemos en el diagnstico, otra variable Amigdalitis, Paludismo, etc. De este modo, o la red bayesiana puede ofrecer dos o ms diagnsticos a la vez (por ejemplo, amigdalitis-severa a o y neumon a-leve), lo cual era imposible con el mtodo probabilista clsico.5 e a Introducimos a continuacin algunas deniciones bsicas sobre grafos: o a
Las redes de semejanza de Heckerman [27] consituyen una notable excepcin, pues en cada una de ellas o hay un nodo principal, que representa los diagnsticos (supuestamente exclusivos y exhaustivos). Aunque en o esto coinciden con el mtodo probabilista clsico, se diferencian de l en que permiten que el nodo principal e a e tenga padres y que los hijos puedan tener hijos a su vez, e incluso que haya bucles en la red.
5
3.2. Denicin formal de red bayesiana o Arco. Es un par ordenado de nodos (X, Y ).
49
Esta denicin de arco corresponde a lo que en otros lugares se denomina arco dirigido. o En la representacin grca, un arco (X, Y ) viene dado por una echa desde X hasta Y , tal o a como muestran las guras de los ejemplos anteriores. Grafo dirigido. Es un par G = (N , A) donde N es un conjunto de nodos y A un conjunto de arcos denidos sobre los nodos. Si hubiramos denido los arcos como pares no ordenados, tendr e amos un grafo no dirigido.6 En el contexto de los grafos dirigidos, tenemos las siguientes deniciones: Padre. X es un padre de Y si y slo si existe un arco (X, Y ). o Los padres de X se representan como pa(X). Por semejanza con el convenio utilizado para variables y sus valores, pa(x) representar el vector formado al asignar un valor a cada nodo a del conjunto pa(X). Hijo. Y es un hijo de X si y slo si existe un arco (X, Y ). o Antepasado. X es un antepasado de Z si y slo si existe (al menos) un nodo Y tal que o X es padre de Y e Y es antepasado de Z. Descendiente. Z es un descendiente de X si y slo si X es un antepasado de Z. o Familia X. Es el conjunto formado por X y los padres de X, pa(X). Nodo terminal. Es el nodo que no tiene hijos. Ejemplo 3.5 En la gura 3.5, los padres de D son A y B: pa(D) = {A, B}. Los hijos de D son G y H. Los antepasados de G son A, B y D. Los descendientes de A son D, G y H. Las nueve familias (tantas como nodos) son {A}, {B}, {C}, {D, A, B}, {E, C}, {F, C}, {G, D}, {H, D, E} e {I, E}.
C B A d d d d d d D E F d d d d d d G H I
Figura 3.5: Un pequeo polirbol. n a

Las redes de Markov se basan en grafos no dirigidos, mientras que las redes bayesianas corresponden a grafos dirigidos.
6
50
Camino. Un camino entre X1 y XN en una sucesin de nodos {X1 , . . . , XN } pertenecientes o a un grafo G = (N , A), tal que Xi = Xj para 1 i < j N y (Xi , Xi+1 ) A (Xi+1 , Xi ) A, o i, 1 i < N
Es decir, dos nodos consecutivos de un camino Xi y Xi+1 estn unidos por un arco del a primero al segundo o viceversa. Observe que esta denicin corresponde a lo que en otros o lugares se conoce como camino abierto. Ciclo. Es una sucesin de nodos {X1 , . . . , XN } pertenecientes a un grafo G = (N , A), o tal que (1) Xi = Xj para 1 i < j N , (2) para todo i < N existe en A un arco (Xi , Xi+1 ), y (3) existe adems un arco (XN , X1 ). a Bucle. Sucesin de nodos {X1 , . . . , XN } pertenecientes a un grafo G = (N , A), tal que o (1) Xi = Xj para 1 i < j N , (2) para todo i < N existe en A un arco (Xi , Xi+1 ) o (Xi+1 , Xi ), (3) existe adems un arco (XN , X1 ) (X1 , XN ) y (4) los arcos no forman a o un ciclo. Grafo ac clico. Es el grafo en que no hay ciclos. Tanto el ciclo como el bucle corresponden a lo que a veces se denominan caminos cerrados simples. La diferencia es que en un ciclo los arcos van de cada nodo al siguiente (nunca a la inversa), mientras que la denicin de bucle permite que los arcos tengan cualquiera de los o dos sentidos, con la unica condicin de que no formen un ciclo. La distincin entre ambos es o o muy importante para el tema que nos ocupa, pues las redes bayesianas se denen a partir de los grafos dirigidos ac clicos, lo cual permite que contengan bucles pero no que contengan ciclos. Ejemplo 3.6 En la gura 3.6.a, vemos que entre B y C hay dos caminos: {B, A, C} y {B, D, C}, y lo mismo ocurre en 3.6.b y 3.6.c. El primero de estos tres grafos es un ciclo, mientras que que los dos ultimos son bucles. Por eso estos dos ultimos podr servir para an denir redes bayesianas, pero el primero no. 2
a)
n B d d d
n A d s d
b) d
n C
n D
n B d d d
n A d
c) d d n B d d d
n A d
n C
d d
n C
n D
n D
Figura 3.6: Un ciclo y dos bucles. Grafo conexo. Un grafo es conexo si entre dos cualesquiera de sus nodos hay al menos un camino. Por tanto, un grafo no conexo es aqul que est formado por dos o ms partes inconexas entre e a a s Todo grafo conexo ha de pertenecer a una de las dos categor siguientes: . as
3.2. Denicin formal de red bayesiana o
51
Grafo simplemente conexo o polirbol. Un grafo es simplemente conexo si entre dos a cualesquiera de sus nodos hay exactamente un camino. Grafo m ltiplemente conexo. Es el que contiene ciclos o bucles. u Arbol. Es un caso particular de polirbol, en que cada nodo tiene un slo padre, excepto a o el nodo ra que no tiene padres. z, Por ejemplo, el grafo de la gura 3.5 es un polirbol, porque no contiene bucles; no es un a a rbol porque algunos de sus nodos (D y H) tienen ms de un padre. a
3.2.2
Denicin de red bayesiana o
La propiedad fundamental de una red bayesiana es la separacin direccional (llamada do separation por Pearl [44, 45]), que se dene as : Separacin direccional. Dado un grafo dirigido ac o clico conexo y una distribucin de o probabilidad sobre sus variables, se dice que hay separacin direccional si, dado un nodo o X, el conjunto de sus padres, pa(X), separa condicionalmente este nodo de todo otro subconjunto Y en que no haya descendientes de X. Es decir,
P (x|pa(x), y ) = P (x|pa(x))
(3.59)
Es habitual denir las redes bayesianas a partir de grafos dirigidos ac clicos (en ingls se e suelen denominar directed acyclic graph, DAG, aunque lo correcto es decir acyclic directed graph, ADG). Sin embargo, nos parece importante incluir la especicacin conexo por tres o razones. La primera, porque muchos de los algoritmos y propiedades de las redes bayesianas slo son correctos para grafos conexos, por lo que es mejor incluir esta caracter o stica en la denicin que tener que aadirla como nota a pie de pgina en casos particulares. La segunda o n a razn es que, aun en el caso de que tuviramos un modelo con dos partes inconexas, podr o e amos tratarlo como dos redes bayesianas independientes. Y la tercera, porque los modelos del mundo real con que vamos a trabajar son siempre conexos; si hubiera dos partes inconexas no tendr amos uno sino dos modelos independientes. La denicin de separacin direccional, aunque pueda parecer extraa a primera vista, o o n es sencilla, y ya fue introducida en los ejemplos de la seccin 3.1. En efecto, volviendo a o la gura 3.4 de dicha seccin (pg. 46), recordamos que, una vez conocido el valor de x, o a pod amos calcular la probabilidad de y1 sin que inuyeran los valores de las dems variables. a Es decir, el conjunto pa(Y1 ) = {X}, separa condicionalmente Y1 de todas las dems variables a de la red. A partir de las deniciones anteriores, podemos caracterizar las redes bayesianas as : Red bayesiana. Es un grafo dirigido ac clico conexo ms una distribucin de probabilidad a o sobre sus variables, que cumple la propiedad de separacin direccional. o El trmino direccional hace referencia a la asimetr de dicha propiedad, que se maniesta e a en las siguientes propiedades de las redes bayesianas, ilustradas con el ejemplo de la gura 3.5:
52
Cap tulo 3. Redes bayesianas 1. Si A no tiene padres, entonces P (x|pa(x)) = P (x|) = P (x), y la ecuacin (3.59) se o traduce en P (e|a) = P (e) para cada nodo E que no sea uno de los descendientes de A; en otras palabras, E es a priori independiente de A. En consecuencia, dos nodos cualesquiera D y E que no tengan ningn antepasado comn son independientes a priori. u u 2. Si D es descendiente de A y antepasado de H, y no existe ningn otro camino desde A u hasta H, entonces estos dos nodos quedan condicionalmente separados por D: P (h|d, a) = P (h|d) (3.60)
3. Si tanto G como H son hijos de D y no tienen ningn otro antepasado comn, este u u ultimo separa G y H, haciendo que sean condicionalmente independientes: P (g|d, h) = P (g|d) (3.61)
En general, la independencia (a priori o condicional) de dos nodos por ejemplo, A y E se pierde al conocer el valor de cualquiera de sus descendientes comunes H es descendiente tanto de A como de E pues en este caso la propiedad de separacin direccional ya no es o aplicable. Es muy importante que observe la relacin de estas propiedades con la discusin o o de la seccin 2.2.3. o
3.2.3
Factorizacin de la probabilidad o
En la denicin de red bayesiana, hemos partido de una distribucin de probabilidad conjunta o o para las variables, P (). Aparentemente, en el caso de variables binarias, har falta 2N 1 x an parmetros. (Ser 2N si no existiera la ligadura (2.1).) Sin embargo, las condiciones de a an independencia dadas por la separacin direccional imponen nuevas restricciones, que reduo cen los grados de libertad del sistema. De hecho, una de las propiedades ms importantes a de una red bayesiana es que su distribucin de probabilidad puede expresarse mediante el o producto de las distribuciones condicionadas de cada nodo dados sus padres, tal como nos dice el siguiente teorema. (Recordemos que, para un nodo X sin padres, pa(X) = y, por tanto, P (x|pa(x)) = P (x); es decir, la probabilidad condicionada de un nodo sin padres es simplemente la probabilidad a priori.) Teorema 3.7 (Factorizacin de la probabilidad) Dada una red bayesiana, su distribuo cin de probabilidad puede expresarse como o P (x1 , . . . , xn ) =
i
P (xi |pa(xi ))
(3.62)
Demostracin. Es fcil construir una ordenacin de las variables en que los padres de cada o a o nodo aparezcan siempre despus de l. Supongamos, sin prdida de generalidad, que la ordee e e nacin {X1 , . . . , Xn } cumple dicha propiedad. Por la proposicin 2.10 (ec. (2.14)), podemos o o escribir
n
P (x1 , . . . , xn ) =
i=1
P (xi |xi+1 , . . . , xn )
Ahora bien, por la forma en que hemos escogido la ordenacin, el conjunto {Xi+1 , . . . , Xn } o incluye todos los padres de X y, en consecuencia, la separacin direccional (ec. (3.59)) nos o dice que P (xi |xi+1 , . . . , xn ) = P (xi |pa(xi ))
3.2. Denicin formal de red bayesiana o con lo que concluimos la demostracin. 2 o
53
Ejemplo 3.8 Para la red bayesiana de la gura 3.4 (pg. 46), la factorizacin de la probabia o lidad viene dada por la ecuacin (3.58). o Ejemplo 3.9 Para el grafo de la gura 3.5 (pg. 49), la factorizacin de la probabilidad viene a o dada por P (a, b, c, d, e, f, g, h, i) = P (a) P (b) P (c) P (d|a, b) P (e|c) P (f |c) P (g|d) P (h|d, e) P (i|e) Podemos comprobar que cada uno de estos factores corresponde a una de las familias enumeradas en el ejemplo 3.5. La importancia de este teorema es que nos permite describir una red bayesiana a partir de la probabilidad condicionada de cada nodo, en vez de dar la distribucin de probabilidad o conjunta, que requerir un nmero de parmetros exponencial en el nmero de nodos y a u a u plantear el grave problema de vericar la propiedad de separacin direccional; sin embargo, a o el nmero de parmetros requerido para dar las probabilidades condicionadas es proporcional u a al nmero de nodos (suponiendo que el nmero de padres y el nmero de valores posibles u u u estn acotados para cada variable). a Podr amos haber denido las propiedades de independencia en trminos de caminos ace tivados o bloqueados, al estilo de Pearl, Geiger y Verma [45, pgs. 317-318], [47], seguido a tambin por Charniak [7]. En cambio, la presentacin que hemos escogido se parece ms a la e o a propuesta por Neapolitan [41, cap. 5].
3.2.4
Semntica de las redes bayesianas a
Hemos denido ya las redes bayesianas desde un punto de vista matemtico formal. La a cuestin que nos planteamos ahora es su semntica, es decir, qu interpretacin se le puede o a e o dar a una red bayesiana? Cmo se corresponde nuestro modelo con el mundo real? Por o qu podemos hablar de causas y efectos en una R.B.? e Esta cuestin est ya parcialmente respondida en la seccin 3.1, que fue introducida o a o antes de la denicin formal de R.B. precisamente para mostrar que los conceptos y axiomas o introducidos no pareciesen arbitrarios, sino que responden a las propiedades de la causalidad, segn nuestra concepcin intuitiva del mundo real. u o Es importante sealar que la estructura de la red, por s misma, aporta gran cantidad de n informacin cualitativa. En efecto, un arco XY indica, ya antes de conocer el valor concreto o de la probabilidad condicional, que hay una correlacin entre ambas variables: el valor que o toma X inuye sobre la probabilidad de Y , y viceversa. Es lo que llamamos inuencia causal directa. Tal es la relacin que existe, por ejemplo, entre el pa de origen y el paludismo, o s o entre el paludismo y la ebre. Profundizando un poco ms, observamos que la existencia a de un camino entre dos variables X e Y , con variables intermedias Z, indica que hay una inuencia causal indirecta entre ambas. Tal como hemos discutido en la presentacin intuitiva de las RR.BB., cuando nuestro o sentido comn, basado en la experiencia, nos dice que la inuencia de una variable X sobre uno u de sus efectos Y1 (por ejemplo, del paludismo sobre la prueba de la gota gruesa) no depende
54
de cules han sido las causas o mecanismos que han producido X, ni depende tampoco de si a X a dado lugar a otros efectos, entonces la red contendr un arco desde X hasta Y1 , y no a habr ningn arco que conecte Y1 con las dems variables. Por tanto, la ausencia de arcos a u a es tambin una forma de expresar informacin. El hecho de que Y1 depende solamente de su e o causa, X, se traduce matemticamente diciendo que, conocido el valor de X, la probabilidad a de Y1 es independiente de los valores que toman esas otras variables, o dicho de otro modo, X separa Y1 de dichas variables. Empezamos a ver aqu la relacin entre el concepto de padre o y el de causa, entre el de hijo y el de efecto, entre el de arco y el de inuencia causal directa, entre el de independencia en los mecanismos causales y el de independencia probabilista. En este punto es donde se maniesta la importancia del sentido de los arcos y su relacin o con la idea de causalidad. Volviendo al ejemplo del paludismo, el hecho de que las variables Pa s-de-origen y Tipo-sangu neo no tengan ningn padre comn signica que son a priori u u independientes, es decir, que el pa no inuye en el tipo sangu s neo y viceversa, de modo que, si no hay ms evidencia, no podemos obtener ninguna informacin sobre el pa de origen a a o s partir del tipo sangu neo, ni viceversa. Sin embargo, el hecho de que ambas variables tengan un hijo comn signica que, una vez conocido el valor de ese nodo, surgen correlaciones entre u 7 Podemos decir, usando la terminolog de Pearl [44], que el camino entre U y U los padres. a 1 2 permanece bloqueado hasta que sea activado por la llegada de informacin sobre X o sobre o alguno de sus descendientes. Para el caso de los efectos de una variable ocurre precisamente lo contrario: todo mdico e sabe que hay correlacin entre la ebre y el test de la gota gruesa. Sin embargo, tal como o discutimos en la seccin 3.1, la correlacin desaparece cuando averiguamos si el paciente tiene o o o no tiene paludismo. Es decir, el camino entre Y1 e Y2 est activado en principio, y se bloquea a slo al conocer el valor de X. De esta asimetr entre padres e hijos, reejo de la asimetr que o a a existe en el mundo real entre causas y efectos, procede el nombre de separacin direccional. o Por tanto, hay dos formas de justicar los enlaces que introducimos u omitimos al construir nuestra red. La primera es de naturaleza terica: formamos un modelo causal a partir o de la experiencia de un especialista y trazamos los arcos correspondientes al modelo; la relacin que hemos discutido entre los mecanismos causales y las propiedades matemticas de o a independencia nos permite fundamentar nuestro modelo. El otro camino para justicar la red consiste en realizar una comprobacin emp o rica a partir de un conjunto sucientemente amplio de casos, utilizando las herramientas estad sticas que se emplean habitualmente para detectar correlaciones. Hay otro punto relativo a la semntica de las redes bayesianas, que vamos a mencionar slo a o brevemente, pues an est muy discutido. Nos referimos al debate entre los que deenden que u a las redes probabilistas pueden expresar causalidad y los que sostienen que stas slo expresan e o correlaciones entre variables. En realidad, no se trata de un debate limitado al campo de las redes bayesianas, sino que la existencia de la causalidad es una cuestin que se han planteado o matemticos y lsofos por lo menos desde el siglo XVII, a partir de las teor de Hume. Para a o as no entrar en esta cuestin citaremos solamente tres trabajos, los de Pearl y Verma [48, 46] o y el de Druzdzel y Simon [19], que muestran cmo recientemente han surgido argumentos o matemticos para defender la interpretacin causal frente a la meramente correlacional. a o En resumen, lo que hemos intentado mostrar en esta seccin es que la informacin cuao o litativa que expresa la estructura de una R.B. es ms importante an que la informacin a u o
La correlacin que aparece entre las causas se aprecia mucho ms claramente en el caso de la puerta OR o a (sec. 3.4).
7
3.3. Propagacin de evidencia en polirboles o a
55
cuantitativa, como lo demuestra el hecho de que se han construido redes cualitativas [64, 65], capaces de razonar a partir de las propiedades de independencia de las redes bayesianas, incluso en ausencia de valores numricos. Por este motivo, Neapolitan [41] ha sugerido en e nombre de redes de independencia (independence networks) como el ms adecuado para las a RR.BB. Podr amos sintetizar todo lo dicho anteriormente repitiendo lo que Laplace arm en la o introduccin de su famoso libro Thorie Analytique des Probabilits:8 o e e La teor de la probabilidad no es, en el fondo, ms que el sentido comn reducido a a u al clculo. a
3.3
Propagacin de evidencia en polirboles o a
Vamos a estudiar ahora un algoritmo eciente para calcular la probabilidad en una red bayesiana sin bucles. En realidad, dada una R.B., a partir de las probabilidades condicionales podr amos calcular la probabilidad conjunta segn el teorema 3.7, y luego aplicar las ecuaciou nes (2.2) y (2.6) para calcular las probabilidades marginales y a posteriori, respectivamente. Sin embargo este mtodo tendr complejidad exponencial incluso en el caso de polirboles. e a a Adems, al aadir nueva evidencia tendr a n amos que repetir casi todos los clculos. Por esta a razn conviene encontrar algoritmos mucho ms ecientes. o a El algoritmo para polirboles que presentamos en esta seccin, basado en el paso de a o mensajes y , fue desarrollado por Kim [34] a partir del que Pearl hab propuesto para a a rboles [43]. Sin embargo, la principal limitacin del algoritmo de Kim y Pearl es que no o permite tratar los bucles que aparecen inevitablemente al desarrollar modelos del mundo real, por lo que en s mismo resulta de muy poca utilidad y los constructores de RR.BB. recurren a otros que, aun perdiendo las ventajas de ste, son aplicables a todo tipo de RR.BB. Sin e embargo, aqu lo vamos a estudiar con detalle por dos razones. Primera, por su sencillez y elegancia, que nos permitirn comprender mejor las propiedades de las RR.BB. Y segunda, a porque el algoritmo de condicionamiento local [15], aplicable tambin a redes mltiplemente e u conexas, es una extensin de ste, que se basa en los mismos conceptos y deniciones. o e Para comprender mejor el desarrollo matemtico que vamos a realizar, puede ser util al a lector repasar la seccin 3.1, en que aparecen sencillos ejemplos numricos que explican por o e qu se introducen las deniciones de y , y cmo se propaga la evidencia. e o
3.3.1
Deniciones bsicas a
Una de las propiedades fundamentales de un polirbol es que hay un unico camino entre cada a par de nodos. En consecuencia, la inuencia de cada hallazgo se propaga hasta un nodo X bien a travs de los padres o a travs de los hijos de ste, por lo que para cada nodo X e e e podemos hacer una particin de la evidencia (recordamos que la evidencia es el conjunto de o hallazgos) en dos subconjuntos, tales que e = e+ e X X e+ X
8
(3.63) (3.64)
e X
Cita tomada de Druzdzel [18].
56
donde e+ representa la evidencia por encima de X y e por debajo de X en el sentido X X antes mencionado. De forma similar, la eliminacin de un enlace XY divide a la red y por tanto tambin o e la evidencia en dos partes, una que queda por encima del enlace y otra que queda por debajo. Las llamaremos e+ y e , respectivamente. Al igual que en el caso anterior, se XY XY cumple que e = e+ e XY XY e+ XY e XY = (3.65) (3.66)
Ejemplo 3.10 En la gura 3.5 (pg. 49), si tuviramos e = {+f, +g, i}, entonces e+ = a e E + {+f } y eE = {+g, i}. Del mismo modo, eH = {+f, +g, i} y e = . La eliminacin del o H enlace EH dividir la red en dos partes, y tendr a amos e+ = {+f, i} y e = {+g}. 2 EH EH Basndonos en la particin de la evidencia, podemos establecer las siguientes deniciones a o (cf. g. 3.7): (x) P (x, e+ ) X (x) P (e | x) X X (ui ) P (ui , e+i X ) U Yj (x) P (e j | x) XY

(3.67) (3.68) (3.69) (3.70)
d X (u1 ) d d s d X (u1 ) d d d (x) d d
U1
Un
Y1

Ym
Figura 3.7: Propagacin de evidencia mediante intercambio de mensajes. o El sentido de estas deniciones es el siguiente: e a u (x) indica qu valor de X es ms probable segn la evidencia relacionada con las causas de X (es decir, segn la evidencia por encima de X). u (x) indica qu valor de X explica mejor los hallazgos correspondientes a los efectos de e X (la evidencia por debajo de X). X (u) indica qu valor de U es ms probable segn la evidencia por encima del enlace e a u U X. Yj (x) indica qu valor X explica mejor la evidencia por debajo del enlace XY . e
3.3. Propagacin de evidencia en polirboles o a Para entender mejor estas explicaciones, conviene volver a los ejemplos de la seccin 3.1. o
57
Antes de concluir esta seccin, sealemos que las deniciones anteriores, aunque tomadas o n del libro de Pearl [45], han sido modicadas de acuerdo con la propuesta de Peot y Shachter [50], con el n de permitir un tratamiento coherente de los bucles mediante el algoritmo de condicionamiento local [15].
3.3.2
Computacin de los mensajes o
Recordemos una vez ms que nuestro objetivo es calcular la probabilidad a posteriori de cada a nodo, denida en la ecuacin (2.25). A partir, de ah o , P (x) = P (x| e) = P (x, e+ , e ) X X = P (x, e+ ) P (e | x, e+ ) X X X donde hemos denido [P (e)]1 (3.71)
Ahora bien, por la separacin direccional sabemos que P (e | x, e+ ) = P (e | x), de modo o X X X que, aplicando las deniciones anteriores llegamos a P (x) = (x) (x) (3.72)
Necesitamos, por tanto, calcular los tres factores que aparecen en esta expresin. Empeo cemos con (x). Segn su denicin, u o (x) = P (x, e+ ) = X
u
P (x| u)P (, e+ ) u X
Como las causas de X no tienen ningn antepasado comn por estar en un polirbol (red u u a simplemente conexa), todas ellas y las ramas correspondientes son independientes mientras no consideremos la evidencia relativa a X o a sus descendientes: P (, e+ ) = P (u1 , e+1 X , . . . , un , e+n X ) u X U U
n n
=
i=1
P (ui , e+i X ) = U
i=1
X (ui )
(3.73)
Por tanto,
n
(x) =
u
P (x| u)
i=1
X (ui ) .
(3.74)
El paso siguiente consiste en calcular X (ui ) o, lo que es lo mismo, Yj (x), puesto que en una R.B. todos los nodos son equivalentes; es slo una cuestin de notacin. La evidencia o o o + que est por encima del enlace XYj , eXYj , podemos descomponerla en varios subconjuntos: a la que est por encima de X y la que est por debajo de cada enlace XYk para los dems a a a + e efectos Yk de X (g. 3.7). Sabemos adems que X separa eX de eXYk , y separa tambin los a
58
subconjuntos e k entre s Con estas consideraciones, obtenemos . XY Yj (x) = P (x, e+ j ) = P (x, e+ , e k k = j ) XY X XY = P (x, e+ ) X
k=j
P (e k | x) XY (3.75)
= (x)
k=j
Yk (x)
e j = e e+Y . XY Y V
Para calcular esta expresin, es necesario hallar Yk (x) o Yj (x), pues el resultado o obtenido ser vlido para todos los efectos de X. Representaremos mediante V el conjunto a a de causas de Yj (o del efecto considerado) distintas de X, tal como muestra la gura 3.8. Por simplicar la notacin, escribiremos e+Y = e+1 Y . . . e+p Y , con lo que nos queda o V V V
j
Recordemos que Yj separa ej del resto de la red que est por encima de Yj , e igualmente a Y + los padres de Yj separan Yj de eV Y . Aplicando repetidamente la proposicin 2.19, resulta o
j
Yj (x) = P (e j | x) XY =
yj v
P (ej , yj , e+Y , v | x) Y V
j
=
yj v
P (ej | yj ) P (yj | v , x) P (e+Y , v | x) Y V

j

e e e s C e
V1
Vp
Yj
Figura 3.8: Padres de Yj . Puesto que las causas de Yj son independientes a priori, podemos razonar como en la ecuacin (3.73) para llegar a o
p p
P (, e+Y | x) v V j y, en consecuencia,
P (, e+Y ) v V j
=
l=1
P (vl , e+l Yj ) V
=
l=1
Yj (vl )
Yj (x) =
yj
(yj )
v
P (yj | x, v )
l=1
Yj (vl )
(3.76)
Finalmente, hay que calcular (x), lo cual resulta bastante sencillo: (x) = P (e 1 , . . . , e m | x) XY XY
m m
=
j=1
P (e j | x) XY
=
j=1
Yj (x)
(3.77)
59
Para completar el algoritmo, falta hallar la constante que aparece en (3.72). Realizar el clculo a partir de la denicin 3.71 resultar muy complicado en general. Sin embargo, a o a sabemos que P (x) = (x) (x) = 1 (3.78)
x x
con lo que podemos obtener como

1
=
x
(x) (x)
(3.79)
En la prctica, calcularemos (x) y (x) para cada nodo y normalizaremos su producto de a acuerdo con la ecuacin (3.78). o Observe que por cada enlace X Y circulan dos mensajes, Y (x) de X a Y , y Y (x), de Y a X, pero ambos mensajes son vectores correspondientes a la variable X (por tanto, la dimensin del vector es |X|, el nmero de valores de X), mientras que la variable Y slo o u o aparece como sub ndice en los dos: en Y (x) indica el nodo que recibe el mensaje, mientras que en Y (x) indica el que lo env a.
3.3.3
Comentarios
Las frmulas que acabamos de deducir son recursivas: (x) se calcula a partir de X (ui ); o Yj (x) a partir de (x) y de Yk (x), etc. Necesitamos por tanto una condicin de terminacin o o para que el algoritmo est completo. Por otro lado, necesitamos explicar cmo introducir en e o este esquema la evidencia observada. Resolveremos ambos problemas del siguiente modo: Para un nodo U sin padres, e+ = , por lo que (u) = P (u), que es uno de los parmetros a U que denen la red. En este caso el problema de terminacin ya lo ten o amos resuelto. Para un nodo terminal Y (nodo sin hijos), hace falta conocer (y). Si no hay ninguna informacin sobre este nodo, asignamos el mismo nmero para cada valor y; por ejemplo, o u (y) = 1 para todo y. Vemos en la ecuacin (3.72) que un vector (x) constante no modica o el valor de P (x). Tambin vemos, a partir de la ecuacin (3.76), que para un vector constante e o (y) = 1 podemos alterar el orden de los sumatorios y llegar a
p
Yj (x) = c
v
l=1 p
Yj (vl )
yj
P (yj | x, v )
=c
v l=1
Yj (vl )
=c
v
P (, e+Y ) = c P (e+Y ), x v V V
j j
(3.80)
que es de nuevo un vector constante es decir, independiente de x y no transmite ninguna informacin, pues segn las ecuaciones (3.72) y (3.76), un vector constante no inuye en el o u resultado nal. Si hay un nodo terminal Y de valor conocido y0 (es decir, la armacin Y = y0 es parte o de la evidencia), asignamos a (y0 ) un nmero positivo cualquiera y 0 a los dems valores de u a Y . Por ejemplo, (y0 ) = 1 (y) = 0 para y = y0
60 lo cual implica, segn (3.72), u P (y0 ) = 1 P (y) = 0 para y = y0
Vemos que, efectivamente, la probabilidad se ajusta a la armacin de partida, Y = y0 ; o o adems slo el valor y0 cuenta en el sumatorio de la ecuacin (3.76), por lo que podemos a o concluir que esta asignacin de (y) para nodos terminales es coherente, y as queda completo o el algoritmo de propagacin de evidencia en polirboles. o a En la seccin siguiente vamos a mostrar un ejemplo completo de propagacin de evidencia o o en una red bayesiana. Ejemplo 3.11 Volvamos de nuevo a la red de la gura 3.5 (pg. 49). Recordemos que, a adems de tener la estructura de la red, conocemos las probabilidades a priori de los nodos a sin padres: P (a), P (b) y P (c), y las probabilidades condicionales: P (d| a, b), P (e| c), etc. Supongamos que e = {+f, +g, i}. La asignacin de landas para los nodos terminales o ser: a (+f ) = 1 (+g) = 1 (+h) = 1 (+i) = 0 (f ) = 0 (g) = 0 (h) = 1 (i) = 1 Queremos calcular P (e), y por eso escogemos el nodo E como pivote, en el sentido de que se va a encargar de solicitar informacin a todos sus vecinos. Es posible que luego otros o nodos soliciten los mensajes que les faltan, con el n de computar su propia probabilidad, aunque tambin es posible que el nodo pivote E, una vez que ha recibido todos sus mensajes e decida computar y enviar los mensajes de vuelta para sus vecinos, con el n de que stos e hagan lo mismo con sus dems vecinos, y as sucesivamente hasta alcanzar todos los nodos a terminales del polirbol. a Con este esquema en mente, empezamos buscando (e): (e) =
c
P (e| c) E (c)
E (c) = (c) F (c) = P (c) F (c) F (c) =

f
(f ) P (f | c) = P (+f | c)
As concluimos el clculo en esta rama del rbol. Continuamos con otras ramas: a a (e) = I (e) H (e) I (e) =
i
(i) P (i| e) = P (i| e) (h)

h d
H (e) =
P (h| d, e) H (d)
Deber amos calcular ahora H (d). Sin embargo, podemos saber ya que H (e) va a ser un vector constante porque (h) tambin lo es. Podemos demostrarlo mediante el argumento e numrico de la ecuacin (3.80). Otra forma de razonarlo es a partir de las propiedades de e o
61
independencia condicional: cuando el valor de H no se conoce, D y E son independientes; recordando adems que D separa G de E, tenemos a H (e) = P (e | e) = P (+g| e) EH =
d
P (+g| d, e) P (d| e) =
d
P (+g| d) P (d) = P (+g)
que es un vector constante (no depende de e). Por n, nos queda (e) = I (e) y basta normalizar el producto (e) (e) para conocer P (x). Del mismo modo podemos calcular la probabilidad a posteriori de cualquier otra variable, aprovechando naturalmente los resultados ya obtenidos. 2
3.3.4
Implementacin distribuida o
El algoritmo que hemos presentado se presta inmediatamente a una implementacin recuro siva, segn hemos comentado anteriormente. Vamos a ver ahora cmo podemos disear un u o n algoritmo distribuido a partir de las mismas expresiones. (Veremos tambin que este mtodo e e puede llevarnos a una implementacin iterativa, que presenta la ventaja de que requiere mucha o menos memoria de clculo que la implementacin recursiva.) a o En la implementacin distribuida, cada procesador corresponder a un nodo y, por tanto, o a a una variable. La informacin que debe almacenar puede ser esttica o dinmica. Aqu o a a , esttica signica independiente de la evidencia observada, tal como la estructura de la a red y las probabilidades condicionales. En caso de que los nodos no sean procesadores f sicos reales sino que estn simulados mediante un programa de ordenador, lo primero que cada e nodo necesita conocer son sus causas y sus efectos; esto puede realizarse fcilmente deniendo a dos listas con punteros hacia los nodos correspondientes, las cuales codican la topolog a de la red. A continuacin hay que introducir la informacin numrica esttica, a saber, las o o e a probabilidades a priori y condicionales. La informacin dinmica consiste, en primer lugar, en los valores de para los nodos o a terminales, tal como hemos explicado anteriormente, y en los mensajes y correspondientes a la propagacin de evidencia. La propiedad ms importante que se deriva de los axiomas de o a independencia descritos en el cap tulo anterior es que, en polirboles, cada enlace descompone a la red en dos partes cuya unica interaccin se transmite a travs de dicho enlace, y los o e mensajes intercambiados estn desacoplados, en el sentido de que Y (x) puede calcularse a independientemente de Y (x), y viceversa. En la gura 3.9, que muestra los clculos realizados a en el nodo X, esta propiedad aparece como la ausencia de bucles en el ujo de informacin. Se o puede comprobar tambin, observando las frmulas de la seccin 3.3.2, que toda la informacin e o o o requerida por un nodo para computar sus mensajes se encuentra almacenada localmente. Un nodo X est en disposicin de enviar un mensaje a su vecino W cuando y slo cuando a o o ha recibido ya los mensajes procedentes de todos sus dems vecinos. Un nodo X con n causas a y m efectos que ha recibido q mensajes se encuentra en uno de tres estados posibles: 1. q n + m 2. Esto signica que X est esperando al menos dos mensajes, por lo que a todav no puede calcular ninguno de los que debe enviar. a 2. q = n + m 1. En este caso, X ha recibido un mensaje de cada vecino excepto de uno, que llamaremos W . Por eso X puede calcular ya el mensaje que debe enviar a W (aunque todav no puede calcular ningn otro mensaje). a u
62
X (u1 )
X (u2 )
X (u1 ) T
X (u2 ) T
(3.76) r TTT
(3.76) TTT
P (x|) u c c
(x): Ec. (3.74)
' c (3.72)
r T E P (x)
T (x): Ec. (3.77)
r r
T r r
T r
r ccc (3.75) ccc (3.75)
ccc (3.75)
c Y1 (x)
c Y2 (x)
c Y3 (x)
Y1 (x)
Y2 (x)
Y3 (x)
Figura 3.9: Computaciones realizadas en el nodo X.
63
3. q = n + m. Cuando X ha recibido todos los mensajes que estaba esperando, puede calcular por n los que le faltaban por enviar. Al principio, q = 0 para todos los nodos, pues an no ha circulado ningn mensaje; por u u tanto, todos los nodos con un solo vecino (n+m=1) se encuentran en el estado 2; los dems se a encuentran todav en el estado 1. Es posible demostrar que siempre hay algn nodo dispuesto a u a enviar un mensaje, por lo que el proceso no se interrumpe nunca hasta que el algoritmo se ha completado. En vez de realizar la demostracin, que es sencilla conceptualmente pero o engorrosa, volvamos una vez ms a la gura 3.5. a Antes de que empiece la propagacin, todos los nodos que tienen un solo vecino (A, B, F , o G y I) se hallan en estado 2, y los dems en estado 1. Cuando aqullos env sus mensajes a e an respectivos, C y D pasan al estado 2, y lo mismo ocurre en el paso siguiente con E y H. Cuando los mensajes H (e) y H (e) llegan a su destino, estos dos ultimos nodos pasan al estado 3, de modo que pueden enviar ya a sus vecinos los mensajes que faltaban, y en dos pasos ms queda concluido el proceso. a La discusin anterior es interesante para demostrar que no es necesario tener un mecanismo o global de control, por lo que el modelo puede implementarse como una red as ncrona en que el nmero de mensajes recibido determina qu mensajes puede calcular y enviar cada nodo. u e Si el algoritmo se implementa secuencialmente y la computacin necesaria en cada nodo o est acotada (limitando el nmero de padres y valores), el tiempo de computacin es proa u o porcional al nmero de nodos. En este caso resulta ms eciente realizar la propagacin de u a o evidencia en dos fases: recoleccin de mensajes hacia el nodo pivote y distribucin desde l, o o e como propusieron Jensen, Olesen y Andersen [32] para rboles de cliques. a En cambio, si hay un procesador por cada nodo, el tiempo de computacin es proporcional o a la longitud mxima que exista dentro de la red. La versin que hemos presentado aqu a o , basada en tres estados diferentes para cada nodo, se diferencia ligeramente de la de Pearl [45] en que evita computar y enviar mensajes prematuros carentes de sentido. La distincin no o tiene importancia si disponemos de un procesador f sico (hardware) por cada nodo. Pero si los procesadores conceptuales (los nodos) estn simulados por un nmero menor de procesadores a u reales, el despilfarro computacional de enviar mensajes intiles puede resultar muy caro en u trminos de eciencia. En este ultimo caso, en que los nodos hacen cola para acceder a un e nmero limitado de procesadores f u sicos, encontramos el problema t pico de la programacin o distribuida, a saber, cul de los mensajes debe computarse primero con el n de lograr la a mxima eciencia. a Ejemplo 3.12 Sea una red bayesiana dada por el grafo de la gura 3.10 y por las siguientes tablas de probabilidad (suponemos que todas las variables son binarias, de modo que P (a) = 1 P (+a), etc.): P (+a) = 0 3 P (+c| + a, +b) = 0 9 P (+c|a, +b) = 0 3 P (+d| + b) = 0 8 P (+b) = 0 1 P (+c| + a, b) = 0 2 P (+c|a, b) = 0 1 P (+d|b) = 0
Dada la evidencia e = {+a, d}, calcular todos los mensajes y que intervienen y la probabilidad a posteriori de cada variable.
64

d d d d d d

Figura 3.10: Computacin distribuida de los mensajes y . o Solucin. Empezamos por asignar la evidencia observada. As el hallazgo +a implica que o , (a) = (1 0) este vector signica que (+a) = 1 y (a) = 0 mientras que el hallazgo d se traduce en (d) = (0 1). Como B no tiene evidencia ni directa ni procedente de sus padres, (b) = P (b) = (0 1 0 9); es decir, le asignamos su probabilidad a priori. Al nodo C le asignamos un vector constante, (c) = (1 1), porque no tiene evidencia asociada directamente ni procedente de sus hijos. Ahora hay que empezar a propagar la evidencia, de acuerdo con las ecuaciones (3.74) a (3.77). Vemos que A est esperando un solo mensaje, C (a), y D est esperando un solo a a mensaje, D (b), de modo que estn ya en condiciones de empezar a enviar mensajes. En a cambio B y C estn esperando dos mensajes cada uno, por lo que todav no pueden enviar a a ninguno. El mensaje que env A es C (a) = (a) = (1 0), porque A no tiene otros hijos. El que a env D es D (b) = d (d)P (d|b) = 0P (d|b)+1P (d|b) = P (d|b) = 1P (+d|b) = (0 2 1). a Ahora tanto a B como a C slo les falta recibir un mensaje, por lo que ya pueden empezar a o enviar algunos mensajes. El nodo B env el mensaje C (b) = (b) D (b) = (0 1 0 9) (0 2 1) = (0 02 0 9), mientras a que el nodo C env el mensaje C (b) = a a P (c|a, b) C (a)] . Este mensaje se c [(c) calcula as : C (+b) = (+c) [P (+c| + a, +b) C (+a) + P (+c|a, +b) C (a)] + (c) [P (c| + a, +b) C (+a) + P (c|a, +b) C (a)] = [0 9 1 + 0 3 0] + [0 1 1 + 0 7 0] = 1 C (b) = (+c) [P (+c| + a, b) C (+a) + P (+c|a, b) C (a)] + (c) [P (c| + a, b) C (+a) + P (c|a, b) C (a)] = [0 1 1 + 0 7 0] + [0 9 1 + 0 3 0] = 1 Por tanto, C (b) = (1 1); es decir, se trata de un vector constante, que no aporta informacin. o En realidad, el hecho de que (c) es un vector constante nos permite calcular el mensaje C (b) de forma ms sencilla que como acabamos de hacerlo: a C (b) =
c
1
a
P (c|a, b) C (a) P (c|a, b) C (a) = C (a)

a
=
a c
3.4. La puerta OR/MAX
65
Esto explica por qu C (+b) = C (b), es decir, el mensaje C (b) es un vector constante, e que no va a afectar al clculo de la probabilidad a posteriori de B, pues el valor concreto que a tome este vector se pierde al aplicar la normalizacin. o Siguiendo con la propagacin de mensajes tenemos que C (a) o = [(c) b P (c|a, b) C (b)] = [ c P (c|a, b)] C (b) = C (b) = (0 92 0 92), b b c que es tambin un vector constante, lo cual demuestra que la evidencia d no se propaga e hasta A. El ultimo mensaje que se propaga entre nodos es D (b) = (b) C (b) = (b) = P (b) = (0 1 0 9). Ntese que el orden en que hemos calculado los mensajes es el siguiente: C (a), o D (b), C (b), C (b), C (a) y D (b). Por cierto, observe que C (b) = (1 1) ha conducido a D (b) = (b) = P (b), que a su vez implica que (d) = b P (d|b) D (b) = b P (d|b) P (b) = P (d); es decir, (d) coincide con la probabilidad a priori de D, lo cual demuestra que la evidencia +a no se ha propagado hasta D. Visto de forma ms general, (c) = (1 1) implica que C (b) y C (a) son vectores a constantes que no propagan evidencia, y esto signica que cuando no hay informacin sobre o C ni por debajo de C el camino ACB est desactivado, de modo que ni la evidencia +a se a propaga hasta B y D ni la evidencia d se propaga hasta A. Finalmente, vamos a calcular los vectores () y () que nos faltan, con el n de poder aplicar la ecuacin (3.72) a cada nodo y calcular as su probabilidad a posteriori. Para o el nodo A, (a) = C (a) = (1 1), porque slo tiene un hijo, C, que no aporta ninguna o evidencia; por tanto, P (a) = (a) (a) = (a) = (1 0); es decir, P (+a) = 1, como debe ser, pues +a forma parte de la evidencia. Para B, (b) = C (b) D (b) = (1 1) (0 2 1) = (0 2 1) y P (b) = (b) (b) = (0 1 0 9) (0 2 1) = (0 022 0 978). Para C, (c) = a b P (c|a, b) C (a) C (b) = (0 198 0 722) y P (c) = (0 198 0 722) (1 1) = (0 215 0 785). Por ultimo, para D, (d) = b P (d|b) D (b) = (0 08 0 92) y P (d) = (d) (d) = (0 08 0 92) (0 1) = (0 1), lo cual tambin era de esperar, porque d forma e parte de la evidencia. 2 Insistimos una vez ms en que en este ejemplo la computacin se ha realizado de forma a o distribuida: en vez de tener un nodo pivote que se encargue de centralizar la recogida y distribucin de la informacin, como ocurr en el ejemplo 3.11, aqu cada nodo sabe en o o a todo momento qu mensajes ha recibido y, por tanto, cules puede enviar. e a Ejercicio 3.13 Repetir los clculos del ejemplo anterior para la evidencia e = {+c, d}. a Solucin. Los mensajes y las probabilidades son (en el orden en que se calculan): (c) = o (1 0); (d) = (0 1); (a) = (0 3 0 7); (b) = (0 1 0 9); C (a) = (0 3 0 7); D (b) = (0 2 1); C (b) = (0 48 0 13); C (b) = (0 02 0 9); (c) = (0 1266 0 7934); (b) = (0 096 0 13); C (a) = (0 198 0 096); D (b) = (0 048 0 117); (a) = (0 198 0 096); (d) = (0 0384 0 1266); P (a) = (0 4692 0 5308); P (b) = (0 0758 0 9242); P (c) = (1 0); P (d) = (0 1).
3.4
3.4.1
La puerta OR/MAX
La puerta OR binaria
Hemos visto que, en el caso general, la probabilidad condicional viene dada por una tabla, tal como la que aparece en la pgina 3.1. Por tanto, el nmero de parmetros requerido para una a u a familia crece exponencialmente con el nmero de padres. Esto conlleva varios inconvenientes. u El ms grave es la obtencin de dichos parmetros: si obtenemos los resultados a partir de a o a
66
una base de datos, necesitamos gran cantidad de casos para que los parmetros obtenidos a sean ables; si la ausencia de una base de datos nos obliga a recurrir a la estimacin subjetiva o de un experto humano, resultar muy complicado para l responder a tant a e simas preguntas correspondientes a una casu stica compleja: Cul es la probabilidad de que el paciente a presente ebre dado que tenga paludismo, neumon y apendicitis y no tenga amigdalitis, ni a meningitis, ni etc., etc.? El segundo problema que plantea el modelo general, una vez obtenidos los parmetros, a es la cantidad de espacio de almacenamiento que requiere cuando el nmero de padres es u grande (por ejemplo, para un nodo binario con 10 padres binarios, la tabla de probabilidad condicional tiene 21+10 = 2.048 parmetros). Y por ultimo, otro grave inconveniente es que a el tiempo de computacin para la propagacin de evidencia crece tambin exponencialmente o o e con el nmero de padres de la familia considerada. u Por estas razones, es conveniente buscar modelos simplicados de interaccin causal que o simpliquen la construccin de RR.BB. y la computacin de la probabilidad. Pearl [45] los o o llama modelos cannicos porque son aplicables a numerosos campos, no son soluciones ad hoc o para resolver un problema concreto de un dominio particular. Los ms famosos entre ellos son a las puertas OR y MAX probabilistas, que suponen una generalizacin de los correspondientes o modelos deterministas. En la puerta OR probabilista (noisy OR-gate [45, sec. 4.3.2]) se supone que cada causa Ui acta para producir el efecto X, pero existe un inhibidor Ii que bloquea la inuencia; es u como si Ui estuviera inactiva. Por tanto, el parmetro fundamental es la probabilidad de que a acte el inhibidor (qi ) o bien su parmetro complementario, ci = 1 qi , la probabilidad de u a que la causa Ui actuando en ausencia de otras causas llegue a producir X: P (+x|+ui , uj [j=i] ) = ci = 1 qi Tenemos as la probabilidad de X en el caso de que haya una unica causa presente y las dems estn ausentes. Para hallar la probabilidad de X en el caso de que haya ms de una a a a causa presente, se introduce la hiptesis de que X slo est ausente cuando todas las causas o o a estn ausentes o cuando para cada causa Ui que est presente ha actuado el correspondiente a a inhibidor Ii . Se supone que no slo las causas sino tambin los inhibidores actan indepeno e u dientemente, lo cual implica la independencia en sentido probabilista. En consecuencia, P (x|) = u
iTU
qi
donde TU indica el subconjunto de las causas de X que estn presentes (TU U ). a A partir de aqu podemos construir la tabla P (x|) y aplicar el algoritmo de propagacin u o general desarrollado en la seccin anterior. Pero as habr o amos resuelto uno slo de los incono venientes anteriores (el de la obtencin de los parmetros), pues ya vimos que la complejidad o a de este algoritmo crec exponencialmente con el nmero de padres. Por fortuna, existen exa u presiones para la puerta OR que llevan a un tiempo de propagacin proporcional al tamao de o n la familia. Dichas expresiones se encuentran en [45]. Nosotros, en vez de deducirlas aqu las , presentaremos como un caso particular de las correspondientes a la puerta MAX que vamos a estudiar a continuacin. o
3.4.2
Denicin de la puerta MAX o
Existe una generalizacin de la puerta OR binaria, que fue propuesta por Max Henrion [30] o como modelo para la obtencin del conocimiento; el nombre de puerta MAX, su formulacin o o
67
matemtica y los algoritmos de propagacin que discutimos a continuacin fueron publicados a o o por primera vez en [13]. Para llegar a una formulacin matemtica del modelo es necesario introducir previamente o a el siguiente concepto: Denicin 3.14 (Variable graduada) Es la variable X que puede estar ausente o presente o con gX grados de intensidad. Tiene por tanto gX +1 valores posibles, a los que asignaremos enteros tales que X = 0 signica ausencia de X y los nmeros sucesivos indican grados de u mayor intensidad. a Ejemplo 3.15 Supongamos que la variable X =Neumon puede estar ausente o presente con tres grados de intensidad (gX = 3): leve, moderada o severa. Entonces X = 0 signica el paciente no tiene neumon X = 1 signica el paciente tiene neumon leve, etc. 2 a, a Observe que el concepto de graduada no es sinnimo de multivaluada. De hecho, son o dos conceptos independientes: por un lado, no todas las variables multivaluadas representan distintos grados de intensidad, y por otro lado, hay variables binarias graduadas, como son las que hemos visto hasta ahora de tipo presente/ausente o positivo/negativo, cuyos valores representbamos por +x y x. (La denicin de variable graduada nos dice que a x le a o corresponde el valor 0 y a +x el valor 1.) Ms an, las variables que intervienen en la puerta a u OR binaria son siempre variables graduadas, pues no tiene sentido plantear dicho modelo para variables no graduadas, tales como el sexo. El modelo de interaccin de las puertas OR/MAX es bastante general; aqu lo vamos a o denir en el contexto de las RR.BB., aunque ser aplicable a otros mtodos de tratamiento de a e la incertidumbre. Por simplicar la escritura, llamaremos Ui al conjunto de todas las causas de X excluida Ui : Ui U \ Ui Denicin 3.16 (Puerta OR/MAX) En una red bayesiana, dada una variable graduada o X con n padres U1 , . . . , Un (tambin variables graduadas), decimos que interaccionan mee diante una puerta MAX cuando se cumplen las dos condiciones siguientes: 1. 2. P (X = 0|U = 0) = 1 P (X x|) = u
i
(3.81) (3.82)
P (X x|Ui = ui , Ui = 0)
Si X y las Ui son todas binarias, se dice que interactan mediante una puerta OR. u Podemos utilizar la notacin x0 X = 0 para expresar ambas condiciones en forma o abreviada como 1. 2. P (x0 |0 ) = 1 u P (X x|) = u
i
(3.83) P (X x|ui , u0 ) i (3.84)
Intentaremos ahora explicar el signicado de esta denicin. La primera condicin es o o fcil de interpretar: signica que, si todas las causas que pueden producir X estn ausentes, a a entonces tenemos la seguridad de que tambin X estar ausente. Ms adelante relajaremos e a a esta restriccin. o
68
La segunda condicin (ec. (3.82)) nos dice que X x slo cuando ninguna de las causas o o Ui (actuando como si las dems causas estuvieran ausentes) ha elevado X a un grado superior a a x. Dicho con otras palabras, el grado que alcanza X es el mximo de los grados producidos a por las causas actuando independientemente; sta es la razn por la que se denomina puerta e o MAX. Al igual que en la puerta OR binaria, el resultado es el mximo de los valores de a las entradas; esta coincidencia era de esperar, pues el modelo graduado es tan slo una o generalizacin del caso binario. o La importancia de esta denicin es que permite calcular todos los valores de P (x|) a o u partir de un reducido nmero de parmetros. Para la familia X, sern las probabilidades X u a a condicionadas a que una sola de las causas est presente: e cUi=ui P (X = x| Ui = ui , Ui = 0) X=x que podemos escribir en forma abreviada como cui P (x|ui , u0 ) i x (3.86) (3.85)
En principio, el nmero de parmetros para el enlace Ui X es (gUi + 1) (gX + 1). Sin u a embargo, la suma de las probabilidades debe ser la unidad y, en consecuencia,
i cu0 x
gX
=1
x=1
cui . x
(3.87)
Por otra parte, la primera condicin de la denicin de la puerta OR (ec. (3.81)) es o o equivalente a decir que 1 para x = 0 u0 cxi = (3.88) 0 para x = 0 . Por tanto, slo se necesitan gui gX parmetros para este enlace. o a Ejemplo 3.17 Supongamos que tenemos una porcin de red representada por la gura 3.11, o y que cada una de las tres variables puede tomar los siguientes valores: U1 = Neumon {ausente, leve, moderada, severa} a U2 = Paludismo {ausente, presente} X = Fiebre {ausente, leve, elevada}

d d d
U1
U2
Figura 3.11: Ejemplo de puerta MAX. Vemos que gU1 = 3, gU2 = 1 y gX = 2. En el modelo general, para esta familia necesitar amos una tabla con 16 parmetros (hay 42=8 combianaciones posibles de u1 y u2 ; para cada una a de ellas deber amos dar tres valores P (x|u1 , u2 ), pero como la suma de los tres debe ser la
69
unidad, slo hace falta dar dos, de modo que necesitamos en total 82=16 parmetros). Sin o a u1 y cu2 , tal como muestran las embargo, para la puerta MAX, indicaremos los valores de cx x tablas 3.2 y 3.3. En ellas se observa que el nmero de parmetros se ha reducido a la mitad. u a Si hubiramos tenido ms causas en vez de slo dos, el ahorro habr sido mayor. A partir e a o a de estas dos pequeas tablas, aplicando los axiomas anteriores podemos construir la tabla n P (x|u1 , u2 ) completa necesaria para aplicar el algoritmo general. Sin embargo, existe una solucin mucho ms eciente, que evita tener que calcular dicha tabla, como mostraremos en o a la prxima seccin. 2 o o X \ U1 leve elevada leve 050 020 moderada 040 050 severa 020 080
Tabla 3.2: Parmetros cu1 . a x X \ U2 leve elevada presente 020 075
Tabla 3.3: Parmetros cu2 . a x
Causas no expl citas Si en el modelo general tomamos P (+x|u1 , u2 ) > 0, esto signica que X puede estar presente incluso cuando U1 y U2 estn ausentes. Sin embargo, en la puerta OR/MAX, la a propiedad (3.81) nos dice que cuando todas las causas de X estn ausentes, sabemos con a certeza que X estar ausente. a La propiedad en s es razonable, pero existe el problema de que en la prctica es imposible a considerar expl citamente todas las causas, pues stas pueden ser muy numerosas e incluso e muchas de ellas sern desconocidas; esto se ve especialmente claro en el caso de la medicina. La a cuestin es importante aunque, afortunadamente, tiene una solucin muy sencilla: para cada o o nodo X incluiremos un nodo X que agrupe todas las causas que no aparezcan expl citamente en el modelo. Podemos suponer que el valor de este nodo siempre es presente ((+x ) = 1) y que su ecacia para producir X viene dada por los parmetros cx (de forma abreviada, c ); en caso a x x a de que X sea una variable binaria, basta conocer un solo nmero, c , pues c ser siempre u x +x 0. Al desarrollar el algoritmo de propagacin para la puerta OR/MAX, veremos que el imo pacto de cada causa Ui se traduce en una QUi (x), y todas stas se combinan de acuerdo con la e ecuacin (3.93). Por tanto, podemos aplicar, la propiedad asociativa del producto y agrupar o varias causas en una sola sin violar los principios axiomticos de las redes bayesianas. Lo que a queremos decir es que est matemticamente justicado incluir las causas no expl a a citas en un a solo nodo y asignar al enlace correspondiente unos valores c que combinan los parmetros x de todas ellas como si se tratara de una sola causa.
70
3.4.3
Algoritmo de propagacin o
Hemos resuelto ya los dos primeros problemas que presentaba el modelo general, pues ya no necesitamos obtener ni almacenar un nmero exponencial de parmetros por familia. u a Veamos a continuacin cmo podemos resolver el tercero, es decir, cmo podemos realizar o o o ecientemente la propagacin de evidencia. Empezamos introduciendo la siguiente denicin: o o Q(x) P (X x, e+ ) X Es fcil obtener Q(x) a partir de (x) a
x
(3.89)
Q(x) =
x =0
(x )
(3.90)
y viceversa (x) = Q(x) Q(x 1) para x = 0 Q(0) para x = 0 (3.91)
Queremos encontrar ahora un algoritmo eciente para calcular Q(x). Aplicando las ecuaciones (3.83) y (3.73), podemos escribir Q(x) =
u
P (X x|) P (, e+ ) u u X P (X x|ui , u0 ) P (ui |e+i X ) i U

i
=
u
En esta expresin podemos invertir el orden del productorio y de los sumatorios. En efecto, o
n u1
P (X x|ui , u0 ) P (ui , e+i X ) i U

i=1 n
=
u1
P (X
x|u1 , u0 ) 1
n
P (u1 , e+1 X ) U
i=2
P (X x|ui , u0 ) P (ui , e+i X ) i U
= P (X x, e+1 X , u0 ) 1 U
i=2 n
P (X x|ui , u0 ) P (ui |e+i X ) i U
= QU1
i=2
donde hemos introducido la denicin o QUi (x) P (X x, e+i X , u0 ) i U (3.92)
que es la probabilidad de X = x considerando toda la evidencia por encima del enlace Ui X, en caso que todas las dems causas de X estuvieran ausentes. a Sustituyendo este resultado en la expresin de Q(x) tenemos o
n
Q(x) = QU1 (x)

u2 ,...,un i=2
3.4. La puerta OR/MAX y repitiendo la misma operacin n veces llegamos a o Q(x) =

i
71
QUi (x)
(3.93)
Lo que necesitamos ahora es una frmula sencilla para calcular QUi (x). Para ello, denio u mos un nuevo conjunto de parmetros Cx i : a
u Cx i P (X x|ui , u0 ) i
(3.94)
que podemos calcular a partir de las cui , segn las ecuaciones (3.86) y (3.87): u x
x u Cx i = x =0 gx
i cui = cu0 + x x
gX
cui = 1 x
x =1 x =1
cui + x
x =1
cui x (3.95)
=1
x =x+1
cui x
Estos nuevos parmetros pueden ser almacenados junto con la descripcin de la red (para a o ahorrar tiempo de computacin) o calculados cuando se los necesita, aunque tambin es o e ui en lugar de las cui . posible denir la red a partir de las Cx x Desde aqu el clculo de QUi (x) es inmediato: , a QUi (x) =
ui
P (X x|ui , u0 ) P (ui , e+i X ) 1 U

u Cx i
=
ui
X (ui )
gX
(3.96) cui x (3.97)
=
ui
X (ui ) 1
x =x+1
En el caso de que tengamos adems unas c correspondientes a las causas no expl a citas x en el modelo, podemos manejarlas como si se tratara de una causa similar a las dems y a calcular la respectiva Q (X), que deber incluirse en el productorio de la ecuacin (3.93). El a o tratamiento de las causas no expl citas es, por tanto, muy sencillo. Hemos resuelto ya la primera parte del problema: cmo calcular (x) para la familia X o en tiempo proporcional al nmero de padres. Tambin el clculo de (x) y el de X (ui ) o u e a Yj (x) estn resueltos, pues podemos aplicar las ecuaciones (3.77) y (3.75), ya que en ellas a no aparece P (x|) y por tanto no var al pasar del caso general a la puerta OR/MAX. Lo u an que nos falta por resolver es cmo calcular Y (ui ), es decir, el mensaje que X env a cada o a uno de sus padres. La ecuacin (3.76) puede escribirse para la familia X como o X (ui ) =
x
(x)
ui
P (x|) u
j=i
X (uj )
(3.98)
Observe que, dentro de esta expresin, el valor de ui en u = (u1 , . . . , un ) est jo (depende de o a qu X (ui ) estamos calculando), mientras que el valor de las dems variables uj va cambiando e a segn indica el sumatorio. u
72
Ahora bien, una forma de jar el valor ui para la variable Ui es asignarle un vector (ui ) denido as : 1 para ui = ui [(ui )]Ui =ui = (3.99) 0 para ui = ui puesto que entonces, segn (3.72) y (3.75), u [P (ui )]Ui =ui = [X (ui )]Ui =ui = y tambin e [P (x|)]Ui =ui = u
ui
1 para ui = ui 0 para ui = ui
P (x|) [(ui )]Ui =ui u
Sustituyendo este resultado en la ecuacin (3.98), tenemos o X (ui ) =

x
(x)
u
P (x|) u
j
X (uj )
Ui =ui
o bien X (ui ) =
x
(x) [(x)]Ui =ui
(3.100)
Aqu [(x)]Ui =ui debe calcularse como hicimos anteriormente, es decir, con las ecuacio, nes (3.91) y (3.93), aunque ahora la ecuacin (3.96) se simplica para convertirse en o
u [QUi (x)]Ui =ui = Cx i
(3.101)
de acuerdo con el valor de [X (ui )]Ui =ui indicado anteriormente. Dicho con otras palabras, el algoritmo de la puerta OR/MAX puede expresarse as para : calcular (x), transformamos cada mensaje X (ui ) en QUi (x), y los multiplicamos todos para obtener Q(x), a partir del cual es muy sencillo obtener (x). Cuando queremos calcular X (ui ) seguimos un procedimiento similar: para las causas Uj distintas de Ui tomamos las mismas QUj (x) que antes; para Ui , en cambio, tomamos la QUi (x) correspondiente al valor ui segn la ecuacin (3.101), y repetimos para cada valor de Ui u o el mismo proceso que en el clculo de (x). a
3.4.4
Implementacin distribuida o
La implementacin distribuida de la puerta OR/MAX es muy similar a la del caso general. Sin o stica embargo, ahora los parmetros cu (las tablas 3.2 y 3.3, por ejemplo) no son una caracter a x del nodo X ni de esta familia en conjunto, sino que estn asociados a cada enlace U X. F a jese en la gura 3.12 y en la tabla 3.4 y observe dnde se almacenan las cu . El nodo X debe o x saber solamente qu tipo de interaccin debe aplicar: caso general o puerta OR/MAX; en e o el segundo caso, los parmetros se encontrarn almacenados en los enlaces correspondientes a a , correspondientes a las causas no expl citas, que se almacenarn en a (salvo los parmetros cx a el propio nodo, para no tener que aadir un nodo que represente OTRAS-CAUSAS-DE-X). n Comparando la gura 3.12 con la relativa al caso general (g. 3.9, pg. 62), observamos a que ahora los enlaces no son canales de informacin pasivos, sino procesadores activos que o transforman cada mensaje X (u) en QU (x) y generan adems X (u), liberando as al nodo a X de algunas computaciones.
73
X (u1 )
X (u1 ) T
X (u2 )
X (u1 ) T
ENLACE U1 X cu1 x c (3.97) ' r E (3.100) T QU1 (x) c r r E ' T QU2 (x)
ENLACE U2 X cu2 x c (3.97) ' r E (3.100) T c T
r T (x)
NODO X c c
(x): Ecs. (3.91,3.93) c (3.72) c T (x): Ec. (3.77) r r T r r T r T
E P (x)
r ccc (3.75) ccc (3.75)
ccc (3.75)
c Y1 (x)
c Y2 (x)
c Y3 (x)
Y1 (x)
Y2 (x)
Y3 (x)
Figura 3.12: Computaciones realizadas en la puerta OR.
74
Modelo general Almacena Nodo X Recibe Env a Almacena Enlace Ui X Recibe Env a P (x|u) X (ui ), Yj (x) X (ui ), Yj (x), P (x)

Puerta OR c x QUi (X), Yj (x) (x), Yj (x), P (x) cui x X (ui ), (x), QUi (x) QUi (x), X (ui )
Tabla 3.4: Caso general y puerta OR.
3.4.5
Semntica a
Ser interesante desarrollar el ejemplo 3.17 para ver cmo funciona la propagacin de evia o o dencia en la puerta OR/MAX y comprobar que los resultados obtenidos matemticamente a coinciden con lo previsible mediante nuestro sentido comn. Lamentablemente, desarrollar u con detalle un solo ejemplo con los mltiples casos posibles nos ocupar mucho ms espacio u a a de lo que podemos permitirnos. Por otra parte, puede encontrarse un ejemplo bien explicado en [45, sec. 4.3.2]; aunque all se describe solamente la puerta OR, el tratamiento resulta muy similar al que pudiramos realizar para la puerta MAX. e Lo que vamos a discutir en esta seccin es la relacin entre el modelo general y la puerta o o OR/MAX. En la seccin 3.2.4 hablamos de la semntica de las redes bayesianas, rerindonos o a e al modelo general. All vimos la relacin entre los axiomas de independencia y los mecanis o mos causales percibidos intuitivamente. De igual modo, estudiar la semntica de la puerta a OR/MAX consiste en establecer una relacin entre los axiomas de la denicin 3.16 y nuestros o o conceptos de causalidad. Esta cuestin fue abordada parcialmente al introducir dicha denio cin. En efecto, all se mostr que la ecuacin (3.81) signica que el efecto X est ausente o o o a cuando todas las causas que lo producen estn ausentes, lo cual concuerda naturalmente con a el sentido comn, y la ecuacin (3.82) signica que el grado que alcanza el efecto X es el u o mximo de los que producir sus causas actuando independientemente. a an Al igual que discutimos al hablar de la semntica de las redes bayesianas en general, a podemos armar aqu que hay dos formas posibles de justicar la utilizacin de la puerta o OR/MAX como modelo simplicado al construir nuestra red. La primera la terica o consiste en crear en nuestra mente un modelo de cmo actan las causas a la hora de producir o u el efecto considerado. Por ejemplo, si suponemos que las diferentes causas de una enfermedad actan independientemente, en el sentido de que, tal como dice la denicin de puerta MAX, u o el grado ms probable de la enfermedad es el mximo de los que producir las causas, a a an entonces estamos en condiciones de aplicar nuestro modelo simplicado; si no es as debemos , recurrir al modelo general. La segunda forma de justicar nuestro modelo consiste en realizar estudios emp ricos sobre un amplio nmero de casos y ver hasta qu punto la puerta OR/MAX puede considerarse u e como aproximacin satisfactoria, y en esto pueden utilizarse dos criterios. Uno de ellos, el o
75
ms estricto, consistir en exigir que los resultados estad a a sticos para la familia X se ajustaran a los predichos por la expresin 3.82; el otro criterio, ms exible, se conformar con que o a a la red en su conjunto ofreciera diagnsticos acertados, dentro de ciertos l o mites, aunque las predicciones para la familia X no fueran completamente correctas.9 Por ultimo, al hablar de la semntica debemos insistir en la diferencia que existe entre a el modelo general y la puerta OR/MAX. Si volvemos al ejemplo 3.3, comprobamos que hay una interaccin entre el pa de origen y el tipo sangu o s neo como factores condicionantes de la probabilidad de contraer paludismo. Sin embargo, en el ejemplo 3.17, tenemos dos causas, neumon y paludismo, cada una de las cuales por s misma es capaz de producir a ebre, interactuando mediante una puerta MAX. Por tanto, podemos armar que la puerta OR/MAX reeja mejor el concepto intuitivo de causalidad que utilizamos en nuestra vida cotidiana. As cuando decimos que A es una causa de C entendemos que A produce o , puede producir C. Ntese el contraste con el primer ejemplo, referido al caso general: los o nodos Pa s-de-origen y Tipo-sangu neo son los padres del nodo Paludismo, pero nadie dir el a pa de origen produce paludismo y menos an el tipo de sangre produce paludismo, sino s u el pa de origen y el tipo de sangre son dos factores condicionantes que inuyen en la s probabilidad de contraer paludismo. De esta diferencia se deduce una ventaja ms de la puerta OR/MAX frente al modelo a general, adems de las que hab a amos mencionado anteriormente: a la hora de generar explicaciones ling usticas, si los nodos de la familia X interactan mediante una puerta OR/MAX u podemos decir la causa que [con mayor probabilidad] ha producido X es Ui , la presencia de Ui explica por qu se ha producido X, y por tanto ya no es necesario sospechar la presencia e de Uj o al descartar Ui por dichas razones, aumenta nuestra sospecha de que la causa ms a probable de X es Uj . En el modelo general, no es posible al menos no es fcil generar a este tipo de explicaciones a partir de una tabla de probabilidades.
3.5
Dado que las redes bayesianas son un tema de gran actualidad, la bibliograf relevante es a extensa y crece d a d Entre los libros publicados destaca el de Judea Pearl [45], que es la a a. obra de referencia principal. Otro libro que recomendamos encarecidamente es el editado por J. A. Gmez y J. M. Puerta, Sistemas Expertos Probabil a sticos [22]; sus ventajas principales son: que cubre casi todos los aspectos de las redes bayesianas (algoritmos de propagacin, o aprendizaje automtico, modelos temporales, aplicaciones mdicas e industriales. . .), que est a e a escrito con nes didcticos, que ha aparecido muy recientemente, por lo que contiene los a resultados y las referencias bibliogrcas ms actuales, y, aunque sta es una ventaja de a a e orden secundario, que est escrito en castellano. Otros libros didcticos, aunque todos ellos a a con aportaciones originales, son el de Neapolitan [41], el de Castillo, Gutirrez y Hadi [6],10 el e de Cowell y otros [10] y el de Jensen [31]. Tambin la tesis doctoral de F. J. D Vegas [14], e ez disponible en Internet, puede servir de introduccin al tema. La aplicacin de las redes o o bayesianas y los diagramas de inuencia a la medicina est descrita en [33] y [16]. a
9 Estos dos criterios pueden aplicarse tambin a sistemas expertos no bayesianos. Por ejemplo, en la evae luacin de MYCIN [66] se tom el segundo de ellos y se consider que la realizacin del programa hab sido o o o o a un xito. Sin embargo, con el criterio ms estricto, se habr cuestionado la validez del programa, pues ste e a a e contiene numerosas inconsistencias, como explicamos en la seccin 4.4. o 10 En http://correo.unican.es/~gutierjm/BookCGH.html puede obtenerse este libro de forma gratuita.
76
Javier D y Marek Druzdzel estn escribiendo actualmente un art ez a culo que explica detalladamente la puerta OR/MAX y otros modelos cannicos, como las puertas AND, o MIN, XOR, etc. El lector interesado en la aplicacin de redes bayesianas a probleo mas del mundo real podr encontrar dicho art a culo dentro de unos meses en la pgina a http://www.dia.uned.es/~fjdiez/public.html. Quien tenga acceso a la WWW puede encontrar numerosos enlaces de inters a pare tir de la pgina http://www.ia.uned.es/~fjdiez/bayes/rbayes.html. En particular, a recomendamos al alumno que trabaje con alguno de los programas gratuitos para redes bayesianas que se indican en ella, especialmente con el programa Elvira, desarrollado conjuntamente por varias universidades espaolas, que puede obtenerse en Internet en n http://www.ia.http://www.ia.uned.es/~elvira.
Cap tulo 4
Modelo de factores de certeza de MYCIN

El modelo de factores de certeza surgi ante la necesidad de que MYCIN, un sistema experto o basado en reglas (sec. 4.1), fuese capaz de representar y razonar con la incertidumbre expresada por los mdicos que participaban en el proyecto. En este cap e tulo explicamos cmo se o denieron los factores de certeza (sec. 4.2) y cmo se combinan cuando se encadenan las o reglas (sec. 4.3), y analizamos los problemas que plantea el modelo desde el punto de vista matemtico (sec. 4.4). a
4.1
4.1.1
El sistema experto MYCIN

Caracter sticas principales
Para muchos, el programa DENDRAL, desarrollado en la Universidad de Stanford a partir de 1965 [2, 4] es el primer sistema experto, pues posee muchas de las caracter sticas bsicas a de los sistemas expertos: dominio reducido (su objetivo era determinar la estructura de molculas orgnicas mediante espectrometr de masas), separacin entre conocimiento e ine a a o ferencia (introdujo el uso de reglas para representar el conocimiento), razonamiento simblico o (utiliza conceptos como cetona y aldeh do), formacin de hiptesis y bsqueda heur o o u stica (una bsqueda exhaustiva ser imposible). Gracias a estas caracter u a sticas alcanz una ecacia suo perior a la de cualquier experto humano. Sin embargo, otros consideran que el primer sistema experto fue MYCIN, tambin desae rrollado en la Universidad de Stanford en la dcada de los 70 [3] como sistema de consulta e para el diagnstico y tratamiento de enfermedades infecciosas (recomendacin de la terapia o o antimicrobiana ms adecuada en cada caso). Es sin duda el sistema experto ms famoso, a a el que ha dado lugar a ms proyectos derivados y el que ha marcado el paradigma de toa dos los sistemas expertos de la actualidad. Entre las aportaciones de MYCIN destacan las siguientes:1 separacin entre base de conocimientos, que en su caso estaba formada por unas 400 o reglas, base de armaciones, que es donde se almacenan temporalmente las conclusiones
Puede encontrarse una explicacin ms completa y ms detallada en cualquier libro de inteligencia articial o a a y sistemas expertos, p.ej. [40, cap. 6].
1
77
78
Cap tulo 4. Modelo de factores de certeza de MYCIN obtenidas, y motor de inferencia, que es la parte del programa encargada de combinar los datos y las reglas con el n de obtener nuevas conclusiones, tal como muestra la gura 4.1 (en DENDRAL, las reglas estaban codicadas junto con el resto del programa);
Base de armaciones
T c
Base de datos
E '
Motor de inferencia
E '
Interfaz de usuario
Base de conocimientos
Figura 4.1: Estructura t pica de un sistema basado en reglas. a encadenamiento hacia atrs o basado en objetivos (DENDRAL utilizaba encadenamiento hacia delante); dilogo (relativamente) exible: el usuario no slo pod introducir informacin cuando a o a o el sistema lo solicitaba como en los sistemas anteriores a MYCIN sino tambin en e cualquier otro momento; o capacidad de explicacin del razonamiento, mediante la traza de las reglas encadenadas (la capacidad de explicacin es esencial, especialmente en un sistema experto mdico); o e tratamiento de la incertidumbre mediante factores de certeza, que es el tema al que dedicamos este cap tulo. Con MYCIN se consolid la utilizacin de reglas como mtodo general para desarrollar o o e sistemas expertos, aunque la posibilidad de programar la solucin de un problema mediante o reglas se conoce desde Post [51]; Newell y Simon la introdujeron en el campo de la inteligencia articial en 1972 [42]. El procedimiento de inferencia en MYCIN consiste en buscar una regla que nos permita conrmar la hiptesis buscada. Por ejemplo, para saber si un organismo es bacteroide o escogemos la regla siguiente [61, pg. 71]: a
($AND (SAME CNTXT GRAM GRAMNEG) (SAME CNTXT MORPH ROD) (SAME CNTXT AIR ANAEROBIC)) (CONCLUDE CNTXT IDENTITY BACTEROIDES TALLY .6)
4.1. El sistema experto MYCIN que signica2 SI Y Y el organismo es gram-negativo tiene forma de bastn o es anaerobio el organismo es bacteroide (con una certeza de 06).
79
ENTONCES
Para poder ejecutar la regla y concluir que se trata de un organismo bacteroide, hace falta conrmar cada una de sus premisas. El sistema trata primero de ver si es gram-negativo buscando en la base de armaciones dicha aseveracin; si no la encuentra, intentar aplicar o a otra regla de la que pueda deducir esta armacin (y as sucesivamente, en lo que se conoce o como encadenamiento hacia atrs de las reglas); si todas las reglas fallan, preguntar al a a usuario si el organismo es gram-negativo. Una vez conrmada la primera premisa, el sistema tratar de conrmar la segunda, y si se conrman todas, concluir que es bacteroide; si no, a a examinar otras reglas. El encadenamiento hacia atrs corresponde a una inferencia basada a a en hiptesis, pues son stas el objetivo que gu la bsqueda. En cambio, el encadenamiento o e a u hacia delante el que empleaba DENDRAL corresponde a una inferencia basada en datos, pues un dato conrmado puede disparar una o ms reglas, lo cual puede provocar que se a disparen otras, y as sucesivamente.
4.1.2
Motivacin del modelo de factores de certeza o
Como vimos en la seccin 2.4.3, en los aos 60 se empez a utilizar el teorema de Bayes para la o n o creacin de sistemas expertos de diagnstico mdico. Sin embargo, este modelo fue criticado o o e porque exig hiptesis inveros a o miles (exclusividad de los diagnsticos e independencia condio cional), porque requer un nmero elevado de parmetros, generalmente dif a u a ciles de obtener, y porque no permit estructurar la informacin (la base de conocimientos consist en un a o a montn de parmetros), con la consiguiente dicultad de renar el modelo a medida que se o a obtuviera nueva informacin sobre las relaciones entre hallazgos y diagnsticos. o o Por otro lado, los creadores de MYCIN, animados por el xito alcanzado por DENDRAL, e estaban intentando construir un programa basado en reglas, y necesitaban un modelo de tratamiento de la incertidumbre capaz de adaptarse a la modularidad de las reglas, es decir, capaz de asociar cierta informacin a cada regla y combinar localmente esa informacin a o o medida que se encadenasen las reglas. Claramente, el mtodo bayesiano clsico (el unico e a modelo probabilista disponible en aquel momento) estaba muy lejos de satisfacer tales condiciones. Por estas razones el tratamiento riguroso de la probabilidad resultaba inviable dentro de MYCIN. Hubo adems otra razn que llev a buscar un modelo alternativo a la teor de la proa o o a babilidad. Se trataba de la relacin entre creencia a favor y creencia en contra. En principio o esto puede parecer trivial, ya que la creencia en contra es lo opuesto de la creencia a favor. De hecho, la teor de probabilidad nos dice que, deniendo las siguientes variables, a E1 = El organismo es gram-negativo E2 = El organismo tiene forma de bastn o
El trmino CNTXT corresponde a una variable que se asociar al organismo correspondiente en cada caso. e a El uso de variables dentro de las reglas es una de las caracter sticas que sita las reglas ms cerca de la lgica u a o de predicados que de la lgica proposicional (cf. cap. 5). o
2
80 E3 = El organismo es anaerobio H = El organismo es bacteroide3
Cap tulo 4. Modelo de factores de certeza de MYCIN
la regla mostrada en la seccin anterior puede expresarse en trminos de probabilidad a o e posteriori como P (H|E1 E2 E3 ) = 0 7 (4.1) lo cual implica que P (H|E1 E2 E3 ) = 1 0 7 = 0 3 (4.2) Sin embargo, los mdicos que colaboraban en el proyecto MYCIN no estaban de acuerdo con e el hecho de que la primera igualdad implique la segunda, pues aunque E1 E2 E3 aporte evidencia a favor de H eso no signica segn ellos que aporte igualmente evidencia en u contra de H. La razn es que P (H|E) procede de una relacin de causa-efecto; en cambio, o o es posible que no exista ninguna relacin causa-efecto entre E y H, como sugiere la ecuacin o o P (H|E) = 1 P (H|E). Por eso, en el proyecto MYCIN se apreci la conveniencia de contar o con una teor que pudiera considerar por separado la evidencia a favor de una hiptesis a o (conrmation) y la evidencia en contra (disconrmation). Por todos estos motivos, Edward Shortlie, uno de los investigadores principales del proyecto, empez a desarrollar un mtodo alternativo a la probabilidad, especialmente adaptado o e a las reglas, que fuera fcilmente computable y que considerase por separado la evidencia a a favor y la evidencia en contra de cada hiptesis. Para ello se inspir en la teor de la o o a conrmacin de Carnap [5, pg. 19], quien distingu dos tipos de probabilidad [5, pg. 19]: o a a a o o Probabilidad-1: Es el grado de conrmacin de una hiptesis H a partir de una aseveracin de evidencia E; por ejemplo, un informe observacional. Es un concepto o lgico semntico. Una armacin sobre este concepto no se basa en la observacin de o a o o hechos, sino en un anlisis lgico [nfasis aadido]. Es decir, se trata de una relacin a o e n o entre los conceptos E y H. Probabilidad-2: Es la frecuencia relativa (a la larga) de una propiedad de sucesos o cosas respecto de otra cosa. Un aserto sobre este concepto es fctico, emp a rico. Por tanto, es un concepto ligado a la frecuencia de eventos reproducibles. De aqu se deduce que, para Carnap, la conrmacin se basa en una implicacin lgica. o o o Sin embargo, los investigadores de MYCIN la interpretaron con ms exibilidad. Por ejemplo, a as como la observacin de un cuervo negro conrmar (en el sentido de que dar credibilidad o a a a) la hiptesis de que todos los cuervos son negros, por el principio de induccin, Shortlie o o y Buchanan [57] consideran que el hecho de que un organismo sea gram-positivo conrma la hiptesis de que es un estreptococo, aunque la conclusin est basada en conocimiento o o e emp rico y no en un anlisis lgico. a o Por otro lado, Carnap [5] distingu tambin tres formas de conrmacin: a e o 1. clasicatoria: la evidencia E conrma la hiptesis H; o
Ntese que en el cap o tulo 2 H signicaba hallazgo, es decir una variable cuyos valores eran +h y h, mientras que en ste va a signicar siempre una hiptesis, de modo que la proposicin correspondiente a la e o o hiptesis se representar mediante H. o a
3
4.2. Denicin de los factores de certeza o
81
2. comparativa: E1 conrma H en mayor medida que E2 conrma H o E conrma ms H1 que H2 ; a 3. cuantitativa: E conrma H en grado x. En MYCIN se utiliz una aproximacin cuantitativa, aunque el objetivo ultimo era como o parativo: se trataba de que dos o tres identidades de organismos alcanzaran una conrmacin o mucho ms fuerte que el resto, con lo cual las primeras constituir el diagnstico y rea an o cibir el tratamiento teraputico indicado. Por tanto, no importaba conocer la certeza an e absoluta correspondiente a cada hiptesis, sino saber si la certeza de unas pocas hiptesis era o o mucho mayor que la de las dems [57]. a Esta observacin es importante por la siguiente razn. En principio, si los factores de o o certeza miden la variacin (aumento o disminucin) de la credibilidad, para determinar la o o certeza con que se cree una hiptesis, habr que tomar la credibilidad inicial y agregar o deso a contar el efecto de la evidencia recibida. [Vase, por ejemplo, la ecuacin (2.26), en que para e o calcular la probabilidad a posteriori se tiene en cuenta la probabilidad a priori (credibilidad inicial) y la verosimilitud (grado de conrmacin de la hiptesis en funcin de la evidencia).] o o o Sin embargo, el mtodo de MYCIN prescinde de la credibilidad inicial y clasica las hiptesis e o solamente en funcin del grado de conrmacin aportado por la evidencia, apoyndose en el o o a argumento expresado en el prrafo anterior. Volveremos sobre este punto en la seccin 4.4. a o
4.2
4.2.1
Denicin de los factores de certeza o

Factor de certeza de cada regla
En MYCIN, el factor de certeza (F C) de cada regla Si E entonces H se deni como grado o de conrmacin, ms concretamente como la diferencia entre la creencia a favor (measure o a of belief, M B) y la creencia en contra (measure of disbelief, M D): P (H|E) P (H) si P (H|E) P (H) 1 P (H) (4.3) M B(H, E) = 0 si P (H|E) < P (H) 0 si P (H|E) P (H) M D(H, E) = (4.4) P (H) P (H|E) si P (H|E) < P (H) P (H) F C(H, E) = M B(H, E) M D(H, E) = P (H|E) P (H) si P (H|E) P (H) 1 P (H) = P (H|E) P (H) si P (H|E) < P (H) P (H) (4.5) (4.6)
Observe que M B es una medida proporcional del aumento de la credibilidad (no de la credibilidad absoluta); ms exactamente, es una medida de la disminucin proporcional de a o la falta de credibilidad, 1 P (H). Del mismo modo, M D es una medida proporcional del aumento de la creencia en contra de H; ms exactamente, es una medida de la disminucin a o proporcional de P (H). Los factores de certeza cumplen las siguientes propiedades:
82 1. Intervalos:
0 MB 1 0 MD 1 1 F C 1
(4.7) (4.8) (4.9)
Los valores positivos de F C corresponden a un aumento en la creencia en una hiptesis, o mientras que los valores negativos corresponden a una disminucin en la creencia. Un o F C positivo indica que la evidencia conrma (total o parcialmente) la hiptesis ya que o M B > M D. Un F C negativo signica que la evidencia descarta (total o parcialmente) la hiptesis, ya que M B < M D. o 2. Factor de certeza de la negacin de una hiptesis: o o M D(H, E) = M B(H, E) M B(H, E) = M D(H, E) F C(H, E) = F C(H, E) (4.10) (4.11) (4.12)
o o 3. Conrmacin total (la evidencia conrma con seguridad absoluta la hiptesis): M B(H, E) = 1 P (H|E) = 1 = (4.13) M D(H, E) = 0 F C(H, E) = 1 4. Exclusin total (la evidencia descarta la hiptesis con absoluta certeza): o o M B(H, E) = 0 P (H|E) = 0 = M D(H, E) = 1 F C(H, E) = 1 5. Falta de evidencia: M B(H, E) = 0 P (H|E) = P (H) = M D(H, E) = 0 F C(H, E) = 0 6. L mite probabilista: P (H) 1 P (H) P (H|E) = F C(H, E) P (H|E) (4.16) (4.15)
(4.14)
En el modelo de factores de certeza no hay ligaduras entre los valores de M B(H, E) y M D(H, E); en efecto, por la propiedad 2 se cumple que M B(H, E) + M B(H, E) = M B(H, E) + M D(H, E) (4.17)
pero no es necesario que M B(H, E) + M B(H, E) valga 0 ni valga 1 ni ningn otro valor u predeterminado. [Ntese el contraste con la teor de la probabilidad, en que se exige que o a P (H|E) + P (H|E) = 1.]
4.3. Propagacin de la evidencia en una red de inferencia o
83
4.2.2
Factor de certeza de cada valor
El modelo de MYCIN no slo asigna un factor de certeza a cada regla de la base de conocimieno tos (cf. g. 4.1), sino tambin a cada terna objeto-atributo-valor de la base de armaciones.4 e Algunas de las cudruplas resultantes podr ser stas: a an e objeto paciente organismo-1 organismo-1 organismo-1 organismo-2 atributo nombre forma identidad identidad forma valor Sisebuto-Gmez o bastn o estalococo estreptococo bastn o certeza 10 08 02 0 3 1 0
Esto signica que tenemos certeza absoluta de que el nombre del paciente es Sisebuto Gmez, que hay fuerte evidencia que indica que el organismo-1 tiene forma de bastn, evio o dencia leve de que es un estalococo y evidencia leve en contra de que sea un estreptococo; igualmente, existe certeza de que el organismo-2 no tiene forma de bastn. o
4.3
Propagacin de la evidencia en una red de inferencia o
Cuando tenemos una regla Si E entonces H, la conrmacin E conlleva la conrmacin o o de H, como vamos a ver en seguida. Cuando hay una red de reglas, la evidencia se propaga mediante la aplicacin repetida de dos esquemas de simples: combinacin convergente y o o combinacin secuencial. o
4.3.1
Modus ponens incierto
Supongamos que tenemos una regla Si E entonces H, con F C(H, E) y de algn modo u concluimos E con certeza F C(E). En este caso, podemos concluir H con una certeza F C(H), que es funcin de F C(E) y F C(H, E). El mecanismo de inferencia se denomina modus ponens, o y se puede representar as : Si E entonces H, con F C(H, E) E, con F C(E) H, con F C(H) = fmp (F C(E), F C(H, E)) donde fmp (x, y) = xy 0 si x > 0 si x 0 (4.18)
Es decir, la regla slo se dispara cuando F C(E) > 0. o Por ejemplo, a partir de la regla Si llueve entonces hace fr con F C = 0 6 y la o, conrmacin de Llueve, con F C(Llueve) = 0 8, podemos concluir que F C(Hace fr o o) = 0 48.
El hecho de que cada terna de la base de armaciones tiene un factor de certeza asociado es un hecho que muy pocas veces se menciona de forma expl cita en los textos que describen el modelo de MYCIN (incluidas las referencias originales). Nosotros, en cambio, queremos resaltar esta realidad porque, a nuestro juicio, hace que se entienda mejor el mtodo de inferencia en s y la forma en que fue implementado. e
4
84 Observe que fmp (1, 1) = 1, es decir,
[F C(E) = 1 F C(H, E) = 1] = F C(H) = 1
(4.19)
lo cual signica que el modus ponens clsico (sec. 5.1.1) es un caso particular del modus a ponens de MYCIN. Ejercicio 4.1 Dibuje la grca tridimensional de fmp (x, y) : [1, 1] [1, 1] [1, 1] o, lo a que es lo mismo, la grca de F C(H) en funcin de F C(E) y F C(H, E). 2 a o En la prctica, puede ocurrir que una ligera evidencia a favor de E haga disparar una regla a que, a la larga, apenas va a aumentar la certeza de H. Esto origina dos problemas: el primero es de eciencia, pues el sistema pierde tiempo en clculos poco signicativos, y el segundo, a ms serio, es que, en reglas compuestas, puede llevar al sistema a plantear al usuario preguntas a que a la larga van a resultar irrelevantes, con lo que el usuario desconar de la capacidad a del sistema (y en un sistema destinado a la medicina es esencial contar con la conanza del usuario, es decir, el mdico, porque de otro modo rechazar sistemticamente el consejo que e a a el sistema le ofrezca). Por estos dos motivos los creadores de MYCIN establecieron un umbral de 02, de modo que x y si x > 0 2 fmp (x, y) = (4.20) 0 si x 0 2
4.3.2
Combinacin de reglas convergentes o
Supongamos que tenemos dos reglas, Si E1 entonces H, con F C(H, E1 ) y Si E2 entonces H, con F C(H, E2 ); es decir, se trata de dos hallazgos distintos, E1 y E2 , que apoyan la misma hiptesis H, tal como indica la gura 4.2. Es lo que se denomina a veces combinacin o o de reglas en paralelo, o ms propiamente, combinacin de reglas convergentes. a o E1
F C(H, E1 ) q F C(H, E2 ) I
E2
Figura 4.2: Combinacin de reglas convergentes. o Si sabemos que E1 y que E2 , podemos concluir H con una certeza F C(H, E1 E2 ) = fconv (F C(H, E1 ), F C(H, E2 )) como si las dos reglas anteriores se combinaran en una sola: Si E1 entonces H, con F C(H, E1 ) Si E2 entonces H, con F C(H, E2 ) Si E1 E2 entonces H, con F C(H, E1 E2 ) Las propiedades deseables para la combinacin convergente de reglas son las siguientes: o (4.21)
4.3. Propagacin de la evidencia en una red de inferencia o 1. Simtrica: e F C(H, E1 E2 ) = F C(H, E2 E1 ) 2. Asociativa: F C(H, E1 (E2 E3 )) = F C(H, (E1 E2 ) E3 ) 3. Montona: o F C(H, E2 ) > 0 = F C(H, E1 E2 ) > F C(H, E1 ) 4. Cancelacin de evidencia contradictoria: o F C(H, E1 ) = F C(H, E2 ) = 1 = F C(H, E1 E2 ) = 0 5. Evidencia nula: F C(H, E1 ) = 0 = F C(H, E1 E2 ) = F C(H, E2 ) 6. Predominio de la conrmacin total: o F C(H, E1 ) = 1 = [F C(H, E2 ) = 1 = F C(H, E1 E2 ) = 1] 7. Predominio de la negacin total: o F C(H, E1 ) = 1 = [F C(H, E2 ) = 1 = F C(H, E1 E2 ) = 1] 8. Contradiccin: o [F C(H, E1 ) = 1 F C(H, E2 ) = 1] = F C(H, E1 E2 ) no est denido a
85
(4.22)
(4.23)
(4.24)
(4.25)
(4.26)
(4.27)
(4.28)
(4.29)
Ejercicio 4.2 Trate de explicar intuitivamente cada una de estas propiedades. Por ejemplo, la primera signica que el orden en que se introduce la evidencia no afecta a la certeza de la conclusin. 2 o Funcin de combinacin original o o Inicialmente se utiliz la siguiente funcin de combinacin para MYCIN: o o o x + y(1 x) si x > 0 e y > 0 x + y(1 + x) si x < 0 e y < 0 fconv (x, y) = si 1 < x y 0 x+y no denida si x y = 1
(4.30)
En esta denicin, el primer caso corresponde a dos hallazgos positivos, es decir, la situacin o o en que tanto E1 como E2 aportan evidencia a favor de H; el segundo caso corresponde a dos hallazgos negativos, y los casos tercero y cuarto a evidencia contradictoria. Ejercicio 4.3 Dibuje la grca tridimensional de fconv (x, y) : [1, 1] [1, 1] [1, 1] o, lo a que es lo mismo, la grca de F C(H, E1 E2 ) en funcin de F C(H, E1 ) y F C(H, E2 ). a o
86
Ejercicio 4.4 Demuestre que esta funcin cumple las 5 primeras de las ocho propiedades o deseables que acabamos de enunciar, pero no cumple las tres ultimas.2 El hecho de que la funcin de combinacin utilizada originalmente en MYCIN no satisface o o el predominio de la conrmacin total (propiedad 6) plantea un problema en la prctica, y o a es que aunque un hallazgo E1 conrme con certeza absoluta la hiptesis H, es posible que un o hallazgo dudoso E2 anule la certeza aportada por E1 : Si E1 entonces H, con F C(H, E1 ) = 1 Si E2 entonces H, con F C(H, E2 ) = 0 8 Si E1 E2 entonces H, con F C(H, E1 E2 ) = 0 2
(4.31)
Anlogamente, es posible tambin que un solo hallazgo negativo anule el efecto de un nmero a e u cualquiera de hallazgos positivos mucho ms ables: a Si Si Si Si E1 E2 E3 E4 entonces entonces entonces entonces H, H, H, H, con con con con F C(H, E1 ) = 0 99 F C(H, E2 ) = 0 99 F C(H, E3 ) = 0 999 F C(H, E4 ) = 0 8
(4.32)
Si E1 E2 E3 E4 entonces H, con F C(H, E1 E2 E3 E4 ) = 0 199999 Es decir, a pesar de tener tres reglas que conrman H con casi total seguridad pues F C(H, E1 E2 E3 ) = 0 9999999 el factor de certeza resultante es menor que 02 (el umbral sealado en el apartado anterior), de modo que la cuarta regla, a pesar de ser inciern ta, es capaz de contrarrestar la evidencia aportada por las tres anteriores. Para resolver este problema, se introdujo una nueva funcin de combinacin, que es la o o siguiente. Funcin de van Melle o Dado que la funcin de combinacin original fconv no cumpl las propiedades deseables, los o o a diseadores de MYCIN disearon una nueva, conocida como funcin de combinacin de van n n o o Melle [62]: si x > 0 e y > 0 x + y(1 x) x + y(1 + x) si x < 0 e y < 0 VM x+y fconv (x, y) = (4.33) 1 min(|x|, |y|) si 1 < x y 0 no denida si x y = 1 Se observa que la unica diferencia respecto de fconv aparece en el tercer caso, es decir, cuando tenemos un hallazgo a favor de H y otro en contra de H (salvo cuando los dos hallazgos aportan evidencia absoluta y contradictoria, que es el cuarto caso, en el cual la funcin no o est denida). a Al aplicar esta nueva funcin a los ejemplos anteriores obtenemos F C(H, E1 E2 ) = 1 en o vez de 0 2 para el primero y F C(H, E1 E2 E3 E4 ) = 0 9999995 en vez de 0 199999 para el segundo, con lo cual se evitan las inconsistencias ocasionadas por fconv .
4.3. Propagacin de la evidencia en una red de inferencia o
87
VM Ejercicio 4.5 Dibuje la grca tridimensional de fconv (x, y) : [1, 1] [1, 1] [1, 1] y a comprela con la de fconv (x, y), dada por la ecuacin (4.30). a o
Ejercicio 4.6 Demuestre que esta funcin cumple las ocho propiedades deseables enunciadas o anteriormente.
4.3.3
Combinacin secuencial de reglas o
Supongamos que tenemos dos reglas tales que el consecuente de una de ellas coincide con el antecedente de la otra: Si A entonces B, con F C(B, A) y Si B entonces C, con F C(C, B): A B C En estas condiciones, si de algn modo llegamos a conrmar A, podemos deducir B, y de u ah podemos deducir C; es como si las dos reglas anteriores dieran lugar a una nueva regla Si A entonces C, con F C(C, A): Si A entonces B, con F C(B, A) Si B entonces C, con F C(C, B) Si A entonces C, con F C(C, A) donde F C(C, A) = F C(B, A) F (C, B) 0 si F C(B, A) 0 si F C(B, A) < 0 (4.34)
F C(B,A) F C(C,B)
a o Ejercicio 4.7 Dibuje la grca tridimensional de F C(C, A) en funcin de F C(B, A) y F C(C, B). 2 Las propiedades de la combinacin secuencial de reglas son las siguientes: o 1. Asociativa: [A (A B)] (B C) = A [(A B) (B C)] (4.35) (Esta expresin ha de entenderse en el sentido de que el valor de F C(C) ha de ser el o mismo tanto si se calcula primero F C(B) a partir de la primera regla mediante la ec. (4.18) y luego se aplica la segunda, como si A se aplicara directamente sobre la regla resultante de unir ambas.) o 2. Propagacin con certeza total: F C(B, A) = 1 = F C(C, A) = F (C, B) 3. Propagacin nula: o F C(B, A) 0 = F C(C, A) = 0 Ejemplo 4.8 Tenemos el siguiente conjunto de reglas: Si A entonces C, con F C(C, A) = 0 8 Si B entonces C, con F C(C, B) = 0 5 Si C entonces D, con F C(D, C) = 0 7 Si D entonces F , con F C(F, D) = 0 9 Si E entonces F , con F C(E, F ) = 0 3 (4.37) (4.36)
88
(La red de inferencia resultante se muestra en la gura 4.3.) Si conocemos A con una certeza de 09, y B y E con certeza total, cul es el factor de certeza resultante para cada una de a las dems proposiciones? a
q I C 05 B
A 0 8
0 7E
D 0 9
q F I 0 3 E
Figura 4.3: Pequea red de inferencia. n Solucin. Empezando por la izquierda, la primera regla nos permite asignar a C un factor o de certeza de F C(C) = F C(C, A)F C(A) = 0 90 8 = 0 72, de acuerdo con la ecuacin (4.18). o La segunda regla conduce a F C(C) = F C(C, B) F C(B) = 0 5 1 = 0 5. Dado que se trata de dos reglas convergentes, combinamos ambos factores de certeza mediante la ecuacin (4.30),5 o con lo que tenemos que F C(C) = 0 72 + 0 28 0 5 = 0 86. Aplicando de nuevo el modus ponens, tenemos que F C(D) = F C(D, C) F C(C) = 0 7 0 86 = 0 602 y F C(F ) = F C(F, D) F C(D) = 0 9 0 602 = 0 5418. Ahora bien, tenemos por otro lado que F C(F ) = F C(F, E) F C(E) = (0 3) 1 = 0 3. Combinando estos dos ultimos factores de certeza segn la funcin de van Melle llegamos a u o F C(F ) = 0 2418 0 5418 0 3 = = 0 3454 1 min(0 5418, 0 3) 07
Ejemplo 4.9 Mr. Holmes recibe una llamada telefnica de su vecino, el Dr. Watson, quien o le dice que est oyendo sonar una alarma antirrobo en la casa de Mr. Holmes. Cuando va a a salir corriendo, se acuerda de que el Dr. Watson tiene fama de ser un gran bromista, y por eso decide llamar primero a su vecina, Mrs. Gibbons, que es bastante ms able, y ella a le conrma que est sonando la alarma. Con qu certeza puede creer Mr. Holmes que ha a e habido un (intento de) robo en su casa? Solucin. Este problema se podr plantear mediante las siguientes proposiciones: o a W : El Dr. Watson arma que ha sonado la alarma G: Mrs. Gibbons arma que ha sonado la alarma A: Ha sonado (realmente) la alarma R: Ha habido un intento de robo y las siguientes reglas: R1 : Si W entonces A, F C(A, F ) = 0 5
En este caso da lo mismo aplicar la funcin de combinacin original de MYCIN (ec. (4.30)) que la funcin o o o de van Melle (ec. (4.33)) porque ambas coinciden cuando los dos argumentos son del mismo signo.
5
4.3. Propagacin de la evidencia en una red de inferencia o R2 : Si G entonces A, F C(A, G) = 0 9 R3 : Si A entonces R, F C(R, A) = 0 99
89
Sabemos que F C(W ) = F C(G) = 1. A partir de ah combinando las dos reglas conver, gentes R1 y R2 , se llega que F C(A) = 0 9 + 0 1 0 5 = 0 95; es decir, del testimonio combinado del Dr. Watson y Mrs. Gibbons obtenemos certeza casi absoluta de que ha sonado la alarma. Finalmente, por la regla R3 concluimos que F C(R) = 0 95 0 99 = 0 9405, con lo que concluimos con certeza razonable que ha habido un intento de robo. 2
4.3.4
Combinacin de evidencia en el antecedente o
En los apartados anteriores hemos visto cmo combinar reglas cuyo antecedente est foro a mado por una clusula simple. Sin embargo, los sistemas expertos con frecuencia necesitan a representar reglas como Si el paciente no es alrgico a la penicilina..., Si el organismo es e anaerobio y tiene forma de bastn..., Si el organismo es un estreptococo o un estalocoo co..., Si la temperatura del condensador de vapor es mayor de 90o o la presin es mayor o de 2 atmsferas.... La forma en que MYCIN trata este tipo de reglas consiste en tomar el o opuesto del factor de certeza para la negacin, el m o nimo de los factores de certeza para la conjuncin y el mximo para la disyuncin: o a o F C(E) = F C(E) F C(E1 E2 ) = min(F C(E1 ), F C(E2 )) F C(E1 E2 ) = max(F C(E1 ), F C(E2 )) Es decir, Si E entonces H, con F C = r E, con F C = x H, con F C = fmp (x, r) Si E1 E2 entonces H, con F C = r E1 , con F C = x E2 , con F C = y H, con F C = fmp (min(x, y), r) Si E1 E2 entonces H, con F C = r E1 , con F C = x E2 , con F C = y H, con F C = fmp (max(x, y), r) En caso de expresiones anidadas, se aplican las ecuaciones anteriores sucesivamente. Por ejemplo, F C((E1 E2 E3 ) (E4 E5 )) = max(F C(E1 E2 E3 ), F C(E4 E5 )) = max{min[F C(E1 ), F C(E2 ), F C(E3 )], min[F C(E4 ), F C(E5 )} (4.38) (4.39) (4.40)
90
4.4
Problemas del modelo de factores de certeza
Aunque MYCIN super muy satisfactoriamente la evaluacin, en la cual tuvo que medirse con o o los mejores expertos de su especialidad [66], el modelo de factores de certeza segu teniendo a serios problemas desde el punto de vista matemtico. Los ms importantes son stos: a a e 1. Reglas equivalentes conducen a conclusiones distintas. Las reglas Si E1 entonces H y Si E2 entonces H son equivalentes a Si E1 o E2 entonces H. Supongamos que cada una de las dos primeras reglas tenga un factor de certeza de 0 5; el factor de certeza de la regla combinada debe ser tambin F C(H, E1 E2 ) = 0 5, para que se cumpla e que F C(H, E1 ) = fmp (F C(E1 E2 , E1 ), F C(H, E1 E2 )) = max(1, 0) 0 5 = 0 5. Ahora bien, en caso de que conozcamos con certeza absoluta tanto E1 como E2 , la VM combinacin de las dos primeras reglas nos dice que F C(H, E1 E2 ) = fconv (0 5, 0 5) = o 0 75, mientras que la aplicacin de la regla combinada equivalente a ellas segn la o u lgica clsica nos dice que F C(H, E1 E2 ) = fmp (F C(E1 E2 , E1 E2 ), F C(H, E1 o a E2 )) = max(1, 1) 0 5 = 0 5 = 0 75. El problema es que no hay ningn criterio para decidir cul de estos dos resultados es u a ms correcto, el 0 75 o el 0 5, porque tan correcto ser utilizar las reglas Si E1 entonces a a H y Si E2 entonces H como su equivalente Si E1 o E2 entonces H. 2. No considera correlaciones entre proposiciones. Por ejemplo, supongamos que tenemos dos proposiciones, tales que F C(El organismo es un estreptococo) = 0 8 y F C(El organismo es un estalococo) = 0 3. Dado que ambas son incompatibles, deber amos tener que F C(El organismo es un estreptococo y un estalococo) = 0. Sin embargo, la ecuacin (4.38) nos dice que F C(estreptococo y estalococo) = o min(0 8, 0 3) = 0 3 = 0. 3. No considera correlaciones entre hallazgos. Por ejemplo, supongamos que tenemos las tres reglas siguientes: Si llueve en Madrid, Si llueve en Len, o entonces llueve en toda Espaa (F C = 0 5) n entonces llueve en toda Espaa (F C = 0 5) n
Si llueve en Barcelona, entonces llueve en toda Espaa (F C = 0 4) n Sabiendo que llueve en estas tres ciudades podemos concluir que F C(llueve en toda Espaa) = 0 82. En cambio, si tenemos las reglas n Si llueve en Madrid, entonces llueve en toda Espaa (F C = 0 5) n Si llueve en Mstoles, entonces llueve en toda Espaa (F C = 0 5) o n Si llueve en Getafe, entonces llueve en toda Espaa (F C = 0 5) n Si llueve en Legans, entonces llueve en toda Espaa (F C = 0 5) e n y sabemos que llueve en cada una de estas cuatro localidades, podemos concluir que F C(llueve en toda Espaa) = 0 9375, lo cual indica mayor certeza que en el caso n anterior, 082, a pesar de que en este segundo caso los cuatro hallazgos estn fuertemente a correlacionados entre s por la proximidad geogrca entre las localidades, y por tanto , a la evidencia conjunta no es tan fuerte como en el primer caso, en que la correlacin es o mucho menor.
4.4. Problemas del modelo de factores de certeza
91
4. Incoherencia de los valores calculados. Supongamos que tenemos tres hiptesis, o H1 , H2 y H3 , y un hallazgo E que aporta evidencia a favor de cada una de ellas. Las probabilidades y los factores de certeza correspondientes son: P (H1 ) = 0 9 P (H2 ) = 0 8 P (H3 ) = 0 5 P (H1 |E) = 0 9 P (H2 |E) = 0 9 P (H3 |E) = 0 9 F C(H1 , E) = 0 F C(H2 , E) = 0 5 F C(H3 , E) = 0 8
Es decir, aunque P (Hi |E) toma el mismo valor en los tres casos, al disminuir P (Hi ), aumenta F C(Hi , E), lo cual es absurdo, pues si la verosimilitud es la misma en los tres casos, el F C deber ser mayor para la hiptesis ms probable a priori; sin embargo, a o a aqu ocurre lo contrario. Por poner otro ejemplo, sean dos hiptesis H1 y H2 , y un hallazgo E tales que o P (H1 ) = 0 8 P (H2 ) = 0 1 P (H1 |E) = 0 9 P (H2 |E) = 0 7 F C(H1 , E) = 0 5 F C(H2 , E) = 0 67
Es decir, en caso de que F C(E) = 1 podemos concluir que F C(H2 ) = 0 67 > F C(H1 ) = 0 5, lo cual indica que tenemos ms certeza en H2 que en H1 , a pesar de que H1 no slo a o es mucho ms probable a priori, sino tambin ms veros a e a mil. 5. Falta de sensibilidad. Comparemos estos dos casos: Si E1 E2 E3 entonces H, con F C = 1 E1 , con F C = 1 E2 , con F C = 1 E3 , con F C = 0 001 H, con F C = 0 001
Si E1 E2 E3 entonces H, con F C = 1 E1 , con F C = 0 001 E2 , con F C = 0 001 E3 , con F C = 0 001 H, con F C = 0 001 Lo razonable ser que F C(H) fuera mayor en el primer caso que en el segundo. Esta a falta de sensibilidad se debe al hecho de tomar el m nimo de los factores de certeza para calcular la certeza de la conjuncin (ec. (4.38)). o 6. Pseudo-independencia condicional. Si tenemos dos reglas Si E1 entonces H y
92
Cap tulo 4. Modelo de factores de certeza de MYCIN Si E2 entonces H debe cumplirse que6 P (E1 |H) P (E2 |H) P (E1 E2 |H) = P (E1 E2 ) P (E1 ) P (E2 ) P (E1 E2 |H) P (E1 |H) P (E2 |H) = P (E1 E2 ) P (E1 ) P (E2 ) (4.42) (4.43)
Ntese que la independencia condicional exigida por el mtodo probabilista clsico ser o e a a (cf. ec. (2.41)) P (E1 E2 |H) = P (E1 |H) P (E2 |H) P (E1 E2 |H) = P (E1 |H) P (E2 |H) (4.44) (4.45)
mientras que, en general, P (E1 E2 ) = P (E1 ) P (E2 ). Estas dos ultimas igualdades solamente pueden justicarse cuando hay dos mecanismos causales independientes H E1 y H E2 . Esta es la razn principal por la que el mtodo probabilista clsico o e a fue tan criticado y una de las razones que llev a los diseadores de MYCIN a crear un o n modelo alternativo. Ahora bien, como acabamos de ver, para que la combinacin de reglas convergentes en o MYCIN sea vlida, deben cumplirse las ecuaciones (4.42) y (4.43), que son muy similares a a la denostada condicin de independencia condicional, pero con el inconveniente de o que no pueden justicarse ni siquiera en el caso de mecanismos causales independientes. Dicho coloquialmente, salimos de Guatemala para meternos en Guatepeor.
4.4.1
Creencia absoluta frente a actualizacin de creencia o
El punto 4 de los que acabamos de sealar es el que produce los resultados ms contrarios al n a sentido comn y a la teor de la probabilidad. La causa de este comportamiento incorrecto es u a
6
La demostracin es la siguiente. De las ecuaciones (4.21) y (4.30) se deduce que o F C(H, E1 E2 ) = F C(H, E1 ) + [1 F C(H, E1 )] F C(H, E2 )
lo cual es equivalente a 1 F C(H, E1 E2 ) = [1 F C(H, E1 )] [1 F C(H, E2 )] Por otro lado, la ecuacin (4.6) nos dice que o 1 F C(H, E) = 1 P (H|E) P (H, E) P (H) = 1 P (H) P (H) (4.41)
y teniendo en cuenta que P (H|E) P (E) = P (E, H) = P (E|H) P (H), llegamos a P (E|H) P (H|E) = = 1 F C(H, E) P (E) P (H) lo que sustituido en (4.41) nos dice que P (E1 E2 |H) P (E1 |H) P (E2 |H) = P (E1 E2 ) P (E1 ) P (E2 ) As se prueba la ecuacin (4.43). o Esta demostracin sigue siendo vlida si sustituimos H por H, y viceversa, con lo que se demuestra tambin o a e la ecuacin (4.42). o
93
la confusin entre creencia absoluta (la evidencia E, con qu certeza conrma la hiptesis o e o H?) y actualizacin de la creencia (cunto ha aumentado o disminuido la creencia en o a la hiptesis H al conocer la evidencia E?).7 o Por un lado, el factor de certeza de cada proposicin fue interpretado como creencia o absoluta, de modo que, si F C(H1 ) F C(H2 ), se tomaba H1 como conclusin, descartando o H2 (cf. sec. 4.2.2). En cambio, los factores de certeza de las reglas fueron denidos a partir de la probabilidad como medida de la actualizacin de creencia (cf. sec. 4.2.2, especialmente, o ec. (4.6)), aunque en la prctica no se obtuvieron a partir de probabilidades ni objetivas ni a subjetivas, sino que fueron estimados directamente por los expertos humanos (los mdicos) e que participaban en el proyecto. Ms an, la forma habitual de asignar un factor de certeza a u a la regla Si E entonces Hno consist en preguntar a los expertos Dada la evidencia E, a en qu medida aumenta nuestra creencia en H? (actualizacin de creencia), sino Dada la e o evidencia E, con qu certeza podemos concluir H? (creencia absoluta). Es decir, el factor e de certeza de cada regla, aunque denido como actualizacin de creencia, fue obtenido como o creencia absoluta. Esta confusin se ha producido en varios campos. Los lsofos de la ciencia suelen llamar o o estudio de la conrmacin a la investigacin de problemas relacionados con la creencia (en la o o seccin 1.2 hemos hablado de la evolucin del concepto de probabilidad: en algunas pocas, o o e como la actual, predomina cada vez con ms fuerza la interpretacin subjetivista, mientras que a o en otras ha predominado la interpretacin objetiva-frecuentista). El esfuerzo de los lsofos o o por describir creencia subjetiva, frecuencias y cambios en la creencia, produjo confusin acerca o de la diferencia entre creencia absoluta y actualizacin en la creencia. Carnap utiliz el o o trmino grado de conrmacin para resaltar la diferencia entre la interpretacin subjetiva y e o o la interpretacin clsica frecuencial. Pero, en realidad, Carnap y otros emplearon la expresin o a o grado de conrmacin para referirse a dos conceptos muy diferentes: la probabilidad subjetiva o y la actualizacin de la creencia. Cuando corrigieron este error, era ya demasiado tarde para o evitar la confusin que se hab creado. o a Muchas de las paradojas histricas de teor de la conrmacin tienen su ra en la cono a o z fusin entre estos dos conceptos. Algunas de estas paradojas llevaron a la conclusin de que o o la probabilidad era incapaz de abordar los aspectos esenciales de la conrmacin. Carnap, o Barker, Harr y otros, al ver la conrmacin como anloga a la probabilidad absoluta, se e o a explayaron en lo que parec ser aspectos intrigantes de la relacin entre la conrmacin de an o o una hiptesis y la conrmacin de la negacin de la hiptesis. o o o o Posteriormente, Popper y otros han sealado que la teor de la probabilidad permite n a medidas de actualizacin de la creencia y, por tanto, es un instrumento util para el estudio o de la conrmacin. Ms tarde, Good demostr que varias expresiones probabilistas satisfacen o a o una versin ligeramente modicada de los axiomas de Popper para medidas del cambio en la o creencia.
4.4.2
La supuesta modularidad de las reglas
Hemos comentado ya que la ventaja ms pregonada de las reglas es su modularidad, es decir a la capacidad de representar el conocimiento mediante reglas independientes y de propagar la evidencia mediante computaciones locales (locales signica que al encadenar dos reglas no
Como hemos sealado ya, en el mtodo probabilista clsico la diferencia estaba clara: P (H|E) era la n e a credibilidad absoluta mientras que la verosimilitud H (E) = P (E|H) era el factor que indicaba la actualizacin o de la creencia, pues P (H|E) = P (H) H (E).
7
94
debemos preocuparnos ni de las dems reglas contenidas en la base de conocimientos ni de las a dems hiptesis conrmadas o descartadas hasta ese momento). En otro lugar [14, sec. 2.4.1] a o hemos discutido los problemas que esta modularidad origina en cuanto al mantenimiento de la base de conocimientos, debido a la falta de estructura. Vamos a sealar ahora los problemas n que origina en cuanto al tratamiento de la incertidumbre. (Un tratamiento ms detallado a puede encontrarse en [45, sec. 1.2] y en [41, cap. 4].)

d d d c
Figura 4.4: Nodo C con dos causas y un efecto. Empezaremos con un ejemplo muy sencillo. Supongamos que una alteracin C puede o tener dos causas A y B, y un efecto D, como indica la gura 4.4. Al intentar construir un sistema basado en reglas que nos permita realizar inferencias sobre este modelo tan simple, encontramos varias dicultades. La primera consiste en que las reglas no permiten establecer inferencias bidireccionales. En efecto, segn este modelo de reglas, la presencia de C nos hace sospechar la presencia u de A como mecanismo causante. Rec procamente, si descubrimos A, pensaremos que probablemente ha producido C. Ahora bien, si incluimos en la base de conocimientos dos reglas, A C y C A, el aumento de la credibilidad de una de ellas aumenta la credibilidad de la otra, y viceversa, dando lugar a un ciclo sin n. Existen dos formas de intentar solucionarlo. Una de ellas consiste en incluir slo una de o las dos reglas, con lo cual estamos limitando la capacidad de inferencia de nuestro sistema. La otra consiste en no actualizar la credibilidad de cada proposicin o variable ms que o a una sola vez (sta es la solucin que suelen adoptan las herramientas comerciales para la e o construccin de sistemas expertos). El inconveniente de esta segunda opcin es que entonces o o las actualizaciones de la credibilidad no se transmiten a las reglas encadenadas. As en nuestro , ejemplo anterior, una vez que la regla A C dispara la regla C D, la credibilidad de D no se modicar aunque B aporte nueva evidencia a favor o en contra de C. El resultado a es que el orden de llegada de la informacin puede inuir en las conclusiones obtenidas. o La segunda dicultad reside en que las reglas no distinguen entre causas y efectos. En el ejemplo anterior, vemos que tanto A como B como D pueden aportar evidencia a favor de C, pero de forma diferente! En efecto, al observar D aumenta la credibilidad de C y, por tanto, aumenta la credibilidad de B (y tambin de A) como causa posible. Supongamos que e luego observamos tambin A. De nuevo aumenta la credibilidad de C, pero en este caso la e credibilidad de B no aumentar, sino que disminuir, pues A puede explicar la presencia de a a C, con lo cual disminuye nuestra sospecha sobre B (este mecanismo se denomina en ingls e explaining away, y es t pico de la puerta OR probabilista). En resumen: un aumento en la
95
credibilidad de C puede conducir a un aumento o a una reduccin de la credibilidad de B, o dependiendo de cul sea el origen de la evidencia. Sin embargo, en un sistema basado en a reglas, C B har aumentar la credibilidad de B, sea cual sea el origen de la evidencia. a Por supuesto, podemos escribir reglas ms sosticadas, tales como (C A) B, a pero entonces el sistema se vuelve mucho ms complejo, pues los casos imaginables son casi a ilimitados, por lo que en la prctica esta solucin se hace inviable. a o La tercera dicultad est relacionada con la anterior. Imaginemos que hemos deducido B a a partir de D, pero luego observamos A, con lo cual debe disminuir la credibilidad de B. Sin embargo, no nos est permitido incluir la regla A B ni otras similares, pues la presencia a de A por s misma no excluye B: ambas causas pueden estar presentes. Existe, nalmente, un cuarto problema. Supongamos que tenemos dos informes mdicos e (o dos indicios de cualquier clase) que apuntan a un mismo diagnstico. Ahora bien, si deso cubrimos que el segundo de ellos se bas en el diagnstico del primero, la abilidad conjunta o o de ambos informes es menor que si los dos mdicos hubieran llegado a la misma conclusin e o independientemente (recurdese el ejemplo del punto 3 de la seccin 4.4, pg. 90). La incapae o a cidad de tratar fuentes de evidencia correlacionadas es otra de las limitaciones de los sistemas basados en reglas. Heckerman y Henrion [28, 29] llegaron a la conclusin de que el origen de los problemas o mencionados consiste en aplicar al razonamiento con incertidumbre un mtodo, el encadenae miento de reglas, que slo es vlido en el campo de la lgica, donde todas las proposiciones o a o son ciertas o falsas, pero nunca dudosas. En efecto, en el campo de la lgica s existe la o modularidad semntica, la cual signica que podemos deducir una conclusin a partir de unas a o premisas independientemente de cmo fueron deducidas dichas premisas, e o independientemente de que existan otras proposiciones o reglas. Estas dos propiedades se denominan desacoplo (detachment) y localidad (locality), respectivamente [45, pg. 5]. Sin embargo, en el razonamiento incierto no se cumplen dichas propiea dades, tal como hemos discutido en los ejemplos anteriores. De aqu se deduce que solamente es correcto utilizar reglas en dominios deterministas, pues stas son incapaces de trae tar las correlaciones que surgen a causa de la incertidumbre.
4.4.3
Por qu MYCIN funcionaba tan bien? e
En vista de las graves incoherencias del modelo de factores de certeza, resulta sorprendente el gran xito que alcanz el sistema experto MYCIN, que en las pruebas de evaluacin realizadas e o o demostr que sus diagnsticos y recomendaciones teraputicas eran al menos tan buenos como o o e los de los mejores expertos de la especialidad [66]. Una de las razones puede ser la poca sensibilidad de los resultados de MYCIN frente a variaciones numricas en el factor de certeza; en efecto, Clancey y Cooper [3, pgs. 218219] e a demostraron en 1979 que, aunque los factores de certeza en vez de variar entre 1 y 1 slo o 1 2 pudieran tomar n+1 valores {0, n , n , . . . , 1} (lo que obligaba a redondear todos los FC), el factor de certeza resultante para las hiptesis principales sol variar, pero rara vez variaba la o a ordenacin entre ellas, de modo que en la mayor parte de los casos el organismo diagnosticado o y la terapia recomendada eran los mismos que cuando los factores de certeza pod tomar an cualquier valor del intervalo [1, 1]. Solamente cuando n 3 se produc una degradacin a o signicativa en los resultados, lo cual demuestra la poca sensibilidad ante variaciones en los
96 valores de los factores de certeza.
Otra de las razones puede ser que en medicina las hiptesis suelen tener una prevalencia o pequea (P (H) n 1), de modo que cada hallazgo generalmente produce un importante incremento relativo en la probabilidad (P (H|E) P (H|E)) lo cual implica que F C(H, E) P (H|E) (cf. ec. (4.16)), por lo que en realidad muchos de los factores de certeza estimados se corresponden de cerca con la probabilidad a posteriori; dicho de otro modo, pocas veces se da la situacin indicada en el punto 4 de la pgina 91, con lo cual se evita una de las principales o a fuentes de incoherencia del sistema.
4.5
La obra de referencia obligada es el libro de Buchanan y Shortlie [3], Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project, en que se recopilaron, actualizaron y discutieron los art culos ms importantes publicados dentro del a proyecto MYCIN. Este libro, todo un clsico, tiene la rara virtud de que, a pesar de lo a mucho que se ha investigado campo de los sistemas expertos desde entonces, sigue conservando prcticamente intacto todo su inters, lo cual demuestra la calidad del trabajo realizado. a e Especialmente, en la parte dedicada a los de factores de certeza, adems de incluir una seleca cin de art o culos revisados, aade un cap n tulo retrospectivo sobre el modelo y una seleccin o de los mensajes de correo electrnico en que los investigadores discut la problemtica del o an a modelo. En estos mensajes y en el cap tulo 12, de Adams [1], se puede ver cmo los propios o creadores del modelo eran conscientes ya entonces de algunas de las incoherencias que hemos sealado en la seccin 4.4.8 n o El lector interesado puede encontrar ms informacin y numerosas referencias en [45, a o sec. 1.2], [41, cap. 4] y [14, sec. 2.4].
Lo que resulta ms curioso es que Buchanan y Shortlie, insatisfechos con el modelo de factores de certeza, a incluyeron en su libro un cap tulo sobre la teor de Dempster-Shafer [23], a pesar de no se hab utilizado a a en absoluto dentro del proyecto MYCIN; el motivo es que estaban convencidos en aquel momento (1984) de que esta teor pod constituir una forma de corregir y salvar el modelo de factores de certeza. De hecho, a a cuando David Heckerman inici el doctorado, su director de tesis, Edward Shortlie, le indic que estudiase la o o teor de Dempster-Shafer con este n (comunicacin personal de D. Heckerman al autor). Sin embargo, lo que a o Heckerman demostr es que es imposible construir un modelo de factores de certeza coherente, salvo para casos o triviales [26], y a partir de ese momento decidi utilizar redes bayesianas en su tesis doctoral [27]. Heckerman o es hoy en d uno de los cient a cos ms destacados de este campo y el director del grupo de investigacin a o de Microsoft sobre redes bayesianas aplicadas a la informtica. Shortlie, por su parte ha dicho en varias a ocasiones (por ejemplo, en [11]) que, si hoy tuviera que construir MYCIN de nuevo, utilizar redes bayesianas. a
Cap tulo 5
Lgica difusa o
A lo largo de este cap tulo, la lgica de proposiciones (seccin 5.1) nos va a servir de base para o o la lgica de predicados (seccin 5.2), y sta, a su vez, para la teor de conjuntos (seccin 5.3). o o e a o Esto nos permitir justicar el isomorsmo existente entre la lgica y la teor de conjuntos. a o a Adems, vamos a establecer el paralelismo entre la lgica de proposiciones precisas, predicados a o unitarios precisos y conjuntos n tidos, por un lado, y las proposiciones imprecisas, predicados unitarios imprecisos y conjuntos difusos, por otro. Anlogamente, mostraremos la conexin a o entre los predicados n-arios y las relaciones entre conjuntos (seccin 5.4), lo cual nos servir o a para justicar los mecanismos de inferencia difusos (seccin 5.4.3). o
5.1
Lgica de proposiciones o
Antes de explicar la lgica difusa (en sentido restringido) vamos a empezar repasando la lgica o o clsica. Suponemos que el lector ya est familiarizado con ella, y por eso nos vamos a limitar a a a una breve presentacin, pues una exposicin detallada requerir todo un libro. o o a El punto de partida de la lgica proposicional son las proposiciones elementales. Cada o proposicin elemental corresponde a una frase simple del lenguaje natural, como est llovieno a do o 7 es impar. A partir de las proposiciones elementales se pueden formar proposiciones compuestas mediante la aplicacin de conectivas, que suelen ser cinco: una conectiva unitaria o la negacin () y cuatro conectivas binarias: la conjuncin (), la disyuncin (), la o o o implicacin () y la doble implicacin (). Por ejemplo, si p representa la proposicin 7 o o o es impar y q representa 7 es menor que 4, la proposicin p signica 7 no es impar, o p q signica 7 es impar y menor que 4, p q signica 7 es impar o menor que 4, p q signica 7 es impar implica que es menor que 4 y p q signica 7 es impar si y slo si o es menor que 4.1
Conviene sealar, sin embargo, que la implicacin matemtica (representada por ) no siempre coincide n o a con la implicacin que nosotros entendemos habitualmente, y que en este texto estamos representando mediante o =. Por ejemplo, la proposicin (7 < 3) (22 = 4) se considera cierta en la lgica matemtica, como o o a veremos en seguida, mientras que la armacin supuestamente equivalente (7 < 3) implica que (22 = 4) es o absurda. El anlisis de esta cuestin es sumamente complejo, hasta el punto de que dio lugar a una nueva a o rama de la lgica, la lgica modal, con el n de representar adecuadamente la implicacin; de hecho, no hay o o o una unica lgica modal, sino distintas variantes, lo cual indica que ninguna de ellas ha conseguido dar una o solucin completamente satisfactoria al problema. o Nosotros, en este texto, cuando escribimos la implicacin natural (p = q) estamos indicando dos cosas: (1) o que tanto p como q son contingentes, es decir, son ciertas en unos casos y falsas en otros, y (2) que siempre que p es cierta, q tambin lo es; ms adelante, al introducir las proposiciones imprecisas, el signicado exacto e a
1
97
98
Cap tulo 5. Lgica difusa o
A cada una de las proposiciones elementales p se le asigna un valor de verdad v(p) dado por una funcin de verdad v. En la lgica clsica, o o a v(p) {0, 1} de modo que v(p) = 1 signica que p es verdadera y v(p) = 0 que es falsa. En las lgicas n-valuadas, o v(p) Vn = En la lgica difusa, o v(p) [0, 1] (5.3) En cualquier caso, los valores de verdad estn siempre entre 0 y 1. a Dado que cuando p es verdadera, v(p) = 1, armar p es lo mismo que decir que v(p) = 1:2 p v(p) = 1 (5.4) Por el contrario, cuando p es falsa, v(p)=0. Por ejemplo, v(7 es impar)=1, v(7 es menor que 4)=0. Los valores de v(p) ms prximos a 1 indican que la proposicin p es ms verdadera, a o o a y viceversa. Por ejemplo, v(una persona que mide 180 es alta) > v(una persona que mide 175 es alta). Por tanto, cada funcin v representa nuestro estado de conocimiento acerca del mundo. o Es posible que dos personas distintas tengan creencias diferentes, o que las creencias de una persona var con el tiempo, o que se pueda razonar sobre mundos hipotticos, y por ello en e puede haber distintas funciones de verdad v. Por ejemplo, es posible tener dos vs diferentes tales que v1 (Pedro es hermano de Luis)=1 y v2 (Pedro es hermano de Luis)=0. Dada una funcin de verdad v, una proposicin p se denomina precisa cuando v(p) o o {0, 1}; se denomina imprecisa (en sentido amplio) cuando v(p) [0, 1] e imprecisa (en sentido estricto) cuando v(p) (0, 1). Ms adelante veremos que proposiciones como Juan es alto a o la sopa est caliente son imprecisas, porque generalmente no son ni totalmente ciertas ni a totalmente falsas. Hay dos proposiciones especiales: la proposicin segura, que se representa mediante 1, o siempre es verdadera (en todos los mundos posibles); es decir, v, v(1) = 1; del mismo modo, la proposicin imposible, que se representa mediante 0, siempre es falsa: v, v(0) = 0. Ambas o son proposiciones precisas. El valor de verdad de una proposicin compuesta se obtiene a partir de los valores de o verdad de las proposiciones que la componen y de las funciones que denen las conectivas que las unen, tal como indican las siguientes ecuaciones: v(p) = f (v(p)) v(p q) = f (v(p), v(q)) v(p q) = f (v(p), v(q)) v(p q) = f (v(p), v(q)) v(p q) = f (v(p), v(q)) (5.5) (5.6) (5.7) (5.8) (5.9) 0, 1 2 n2 , , , ,1 n1 n1 n1 (5.2) (5.1)
de p = q es que siempre que v(p) = 1 entonces tambin v(q) = 1. e Algo semejante podemos decir de la diferencia entre la doble-implicacin matemtica () y la equivalencia o a lgica (). o 2 Conviene tener esto muy presente a lo largo de todo el cap tulo para entender correctamente muchas de las proposiciones que vamos a enunciar.
5.1. Lgica de proposiciones o
99
Distintas elecciones de estas funciones f dan lugar a diferentes lgicas (por ejemplo, la lgica o o de Lukasiewicz se basa en unas funciones distintas a las de la lgica de Kleene, como veremos o ms adelante). a Equivalencia entre proposiciones Dos proposiciones p y q son equivalentes cuando toman el mismo valor de verdad cualquiera que sea la asignacin de valores de verdad para las proposiciones elementales o p q v, v(p) = v(q) (5.10)
[El primer ejemplo de equivalencia que vamos a encontrar es la propiedad de involucin de la o lgica clsica, p p, pues v(p) = v(p) tanto si v(p) = 0 como si v(p) = 1.] o a Naturalmente, para que dos proposiciones p y q distintas sean equivalentes al menos una de ellas ha de ser compuesta, pues si las dos fueran elementales podr amos escoger una funcin o v tal que v(p) = 1 y v(q) = 0, de modo que ya no ser equivalentes. an Tambin debemos sealar que es posible que dos proposiciones (compuestas) sean equivae n lentes en una lgica y no equivalentes en otra. [Por ejemplo, la equivalencia p q (pq) o es cierta en la lgica clsica y en la de Kleene, pero no en la de Lukasiewicz.] o a Las proposiciones que son equivalentes a 1, es decir, aqullas cuyo valor de verdad siempre e es 1, se denominan tautolog as. [En seguida veremos que p p es una tautolog en la a lgica clsica, porque v(p p) = 1 tanto si v(p) = 1 como si v(p) = 0.] En cambio, las o a que son equivalentes a la proposicin 0, es decir, aqullas cuyo valor de verdad siempre es 0, o e se denominan contradicciones. [En seguida veremos que p p es una contradiccin en la o lgica clsica, porque v(p p) = 0 tanto si v(p) = 1 como si v(p) = 0.] Naturalmente, aparte o a de 1 y 0, slo las proposiciones compuestas pueden ser tautolog o contradicciones, pues a o as las proposiciones elementales siempre se les puede asignar tanto el valor de verdad 0 como 1. Las propiedades bsicas de la equivalencia de proposiciones vienen dadas por la tabla 5.1. a Reexiva Simtrica e Transitiva pp p q = q p (p q q r) = p r
Tabla 5.1: Propiedades de la equivalencia de proposiciones. Por cierto, ntese que p q es una proposicin precisa, pues siempre es cierta o falsa, o o y no admite grados de verdad intermedios. Tipos de implicacin y doble-implicacin o o Antes de estudiar distintos modelos lgicos, vamos a introducir los distintos tipos de imo plicacin y doble-implicacin que aparecen en la tabla 5.2, la cual ha de leerse as una o o : implicacin rigurosa es aqulla que cumple que p q p q o, lo que es lo mismo,3 o e f (a, b) = 1 a = 0 b = 1, y as sucesivamente.
Insistimos en que, aunque p q es generalmente una proposicin imprecisa, la equivalencia se o aplica slamente entre proposiciones totalmente ciertas; es decir, la armacin p q p q signica que o o v(p q) = 1 si y slo si v(p q) = 1. o
3
100
Cap tulo 5. Lgica difusa o p q p q f (a, b) = 1 a = 0 b = 1 p q v(p) v(q) f (a, b) = 1 a b p q [p q] [p q] f (a, b) = 1 [a = b = 1 a = b = 0] p q [v(p) = v(q)] f (a, b) = 1 a = b
Implicacin rigurosa o Implicacin amplia o Doble-implicacin rigurosa o Doble-implicacin amplia o
Tabla 5.2: Tipos de implicacin y doble implicacin. o o Se demuestra fcilmente que cuando los unicos valores de verdad posibles son 0 y 1, a una implicacin [doble-implicacin] es rigurosa si y slo si es implicacin [doble-implicacin] o o o o o amplia; en cambio, cuando se admiten valores de verdad distintos de 0 y 1, una implicacin o amplia [doble-implicacin] no puede ser rigurosa, y viceversa. [Ms adelante veremos que la o a implicacin de Lukasiewicz es amplia, mientras que la de Kleene es rigurosa.] Naturalmente, o es posible en principio que una implicacin o doble-implicacin no sea ni amplia ni rigurosa. o o En caso de una implicacin rigurosa, o f (a, b) = 1 = a = 0 b = 1 y tanto si a = 0 como si b = 1 se cumple que a b; en consecuencia, la propiedad f (a, b) = 1 = a b (5.11)
se cumple tanto para las implicaciones rigurosas como para las implicaciones amplias. Del mismo modo, puede demostrarse que la propiedad f (a, b) = 1 = a = b se cumple tanto para las dobles-implicaciones amplias como para las rigurosas. Tras haber introducido los conceptos bsicos, vamos a estudiar a continuacin algunas a o de las lgicas ms conocidas: la lgica clsica, las lgicas multivaluadas de Lukasiewicz y de o a o a o Kleene, y la lgica difusa. o (5.12)
5.1.1
Lgica clsica o a
Las funciones que denen la lgica clsica son las que aparecen en la tabla 5.3. (Para eno a tender mejor su signicado, le recomendamos que vuelva a mirar las ecuaciones (5.5) a (5.9).) La tabla 5.4 muestra las principales propiedades que cumplen estas conectivas as de nidas.4 Conviene sealar que en estas tablas p, q y r representan proposiciones genricas, n e es decir, pueden ser proposiciones simples o compuestas, y las propiedades se cumplen para toda p, para toda q y para toda r. Por ejemplo, la 1a ley de Morgan debe leerse as : p, q, (p q) p q.
La propiedad del tercio excluso recibe este nombre porque arma que o p o p, y no existe una tercera posibilidad. La denominacin de monoton quedar clara ms adelante. o a a a
4
5.1. Lgica de proposiciones o a 1 1 0 0 b 1 0 1 0

C f (a) C f (a, b) C f (a, b) C f (a, b) C f (a, b)
101
0 0 1 1
1 0 0 0
1 1 1 0
1 0 1 1
1 0 0 1
Tabla 5.3: Valores de verdad para las funciones que denen las conectivas clsicas. a Observe que todas las propiedades, excepto las de monoton son de la forma p1 p2 , lo a, cual, segn la denicin de equivalencia entre proposiciones, signica que v, v(p1 ) = v(p2 ). u o Siguiendo con el ejemplo anterior, la 1a ley de Morgan signica: v, p, q, v((p q)) = v(p q); es decir, para toda asignacin de valores de verdad, v, y para todo par de o proposiciones, p y q, la funcin v asigna los mismos valores de verdad a la proposicin (p q) o o y a la proposicin p q. o La forma de demostrar esta propiedad es la siguiente: el valor de verdad de (p q) y de pq depende slo de los valores de verdad v(p) y v(q); como slo hay cuatro formas posibles o o en que v puede asignar estos valores correspondientes a las cuatro las de la tabla 5.5, basta comprobar que las columnas v((p q)) y v(p q) de esta tabla coinciden. Del mismo modo se interpretan y demuestran las dems propiedades. a En la tabla 5.4 que estamos comentando aparecen dos versiones de cada propiedad de monoton Cuando la implicacin es una implicacin amplia (vea la tabla 5.14), como ocurre a. o o en la lgica clsica, la monoton o a a-p y la monoton a-v son equivalentes. Sin embargo, esta ultima tiene la ventaja de que no depende de ninguna implicacin particular, por lo que nos o ser ms util a la hora de denir la monoton de la negacin, la conjuncin y la disyuncin a a a o o o en lgica difusa (sec. 5.1.3). En cambio, las propiedades de monoton o a-p tienen la ventaja de que no hacen referencia expl cita a la asignacin de valores de verdad a las proposiciones, y o por eso se pueden generalizar para predicados precisos como veremos en la seccin 5.2.1 o (pg. 124) y para conjuntos n a tidos (tabla 5.19, pg. 140). a El hecho de que la lgica proposicional cumple las propiedades descritas por la tabla 5.4 o nos permite armar que es un lgebra de Boole. (En realidad, las propiedades de monoton a a no forman parte de la denicin de lgebra de Boole, pero nos interesa incluirlas en la misma o a tabla.) Ms adelante veremos que la teor de conjuntos clsica, con las propiedades del a a a complementario, unin e interseccin, cumple tambin estas propiedades, por lo que constituye o o e igualmente un lgebra de Boole. a Observe que, segn la tabla 5.3, si sabemos que u v(p q)=1, hay tres posibilidades: v(p) = 0, v(q) = 0 v(p) = 0, v(q) = 1 v(p) = 1, v(q) = 1 p q, es decir, si sabemos que (5.13)
y se excluye la posibilidad de que {v(p) = 1, v(q) = 0}. A partir de esta observacin se o C comprueba inmediatamente que la funcin de implicacin de la lgica clsica, f , es tanto una o o o a implicacin rigurosa como una implicacin amplia, y se demuestran fcilmente las propiedades o o a que aparecen en la tabla 5.6. Tambin se demuestra a partir de la tabla 5.3 que si p q entonces v(p) = v(q), lo que e
102
Negacin o
Negacin de 1 o Negacin de 0 o Involucin o Monoton a-p Monoton a-v Conmutativa Asociativa Elemento neutro Elemento absorbente Idempotencia Ley de contradiccin o Monoton a-p Monoton a-v Conmutativa Asociativa Elemento neutro Elemento absorbente Idempotencia Tercio excluso Monoton a-p Monoton a-v Distributiva de la conjuncin o Distributiva de la disyuncin o 1a ley de Morgan 2a ley de Morgan Absorcin de la conjuncin o o Absorcin de la disyuncin o o
1 0 0 1 p p p q = q p v(p) v(q) = v(p) v(q) pq qp p (q r) (p q) r p1p p00 ppp p p 0 p q = (p r) (q r) v(p) v(q) = v(p r) v(q r) pq qp p (q r) (p q) r p0p p11 ppp p p 1 p q = (p r) (q r) v(p) v(q) = v(p r) v(q r) p (q r) (p q) (p r) p (q r) (p q) (p r) (p q) p q (p q) p q p (p q) p p (p q) p
Conjuncin o
Disyuncin o
Propiedades combinadas
Tabla 5.4: Propiedades de la lgica clsica. o a
5.1. Lgica de proposiciones o v(p) 1 1 0 0 v(q) 1 0 1 0 v(p q) 1 0 0 0 v((p q)) 0 1 1 1 v(p) 0 0 1 1 v(q) 0 1 0 1 v(p q) 0 1 1 1
103
Tabla 5.5: Demostracin de la 1a ley de Morgan. o Neutralidad de la verdad Predominio de la falsedad Identidad Intercambio Contraposicin o Monoton a-p en el 1er argumento Monoton a-p en el 2o argumento Monoton a-v en el 1er argumento Monoton a-v en el 2o argumento 1pp 0p1 pp1 p (q r) q (p r) p q q p p q = (q r) (p r) p q = (r p) (r q) v(p) v(q) = v(p r) v(q r) v(p) v(q) = v(r p) v(r q)
Implicacin o
Tabla 5.6: Propiedades de la implicacin de proposiciones clsica. o a demuestra que la lgica clsica se basa en una doble-implicacin amplia; de hecho, cuando o a o p q slo hay dos posibilidades: o v(p) = 0, v(q) = 0 v(p) = 1, v(q) = 1 por lo que es tambin una doble-implicacin rigurosa. e o Modus ponens y modus tollens en la lgica clsica o a De la tabla 5.3 se deduce que, cuando v(p)=1, la unica posibilidad de que v(p q)=1 es que v(q)=1. Por tanto, cuando sabemos que p q y p son ciertas podemos deducir que q tambin es cierta: e (p q) p = q (5.15) Este silogismo se denomina modus ponens, y se suele representar as : pq p q Del mismo modo se comprueba que cuando v(q)=0, la unica posibilidad de que v(p q)=1 es que v(p)=0. Por tanto, cuando sabemos que p q es cierta y q es falsa podemos deducir que p tambin es falsa: e (p q) q = p (5.16) Este silogismo se denomina modus tollens, y se suele representar as : (5.14)
104 pq q p
Ms adelante veremos cmo se puede generalizar en el caso de las lgicas multivaluadas, a o o de modo que, cuando v(p q) 1, se cumple que si v(p) 1 entonces v(q) 1 (modus ponens aproximado) y si v(q) 0 entonces v(p) 0 (modus tollens aproximado).
5.1.2
Lgicas multivaluadas o
Desde hace muchos siglos, varios lsofos han sealado que el hecho de tener que considerar o n toda proposicin como verdadera o falsa es una limitacin de la lgica clsica, puesto que o o o a hay armaciones indeterminadas. Para el propio Aristteles, las proposiciones referidas al o futuro no son verdaderas ni falsas, sino que pueden acabar siendo tanto lo uno como lo otro. Tambin en la interpretacin de Copenhage de la mecnica cuntica es posible que alguna e o a a 1 proposicin, tal como el esp de cierto electrn es 2 , no sea ni verdadera ni falsa, sino o n o indeterminada, hasta que se haga un experimento para medirlo. Por ello, teniendo en cuenta que en la lgica matemtica clsica el valor de verdad de cada o a a proposicin es siempre 0 o 1, parece razonable asignar a las proposiciones indeterminadas o valores intermedios. As surgieron las lgicas trivaluadas (en las que el valor de verdad de o una proposicin indeterminada es 1 ), que en seguida fueron generalizadas para dar lugar a o 2 las lgicas n-valuadas. Hemos dicho lgicas trivaluadas, en plural, porque existen varias; a o o continuacin vamos a estudiar dos de las ms conocidas: la de Lukasiewicz y la de Kleene. o a Lgica multivaluada de Lukasiewicz o La lgica trivaluada de Lukasiewicz viene dada por las funciones que se denen en la tabla 5.7. o Observe que se trata de una extensin de la lgica clsica (bivaluada), en el sentido de que o o a cuando los valores de verdad son 0 y 1, los valores de cada f son los mismos que en la lgica o clsica; esto se puede comprobar comparando la tabla 5.7 con la 5.3. a a 1 1 1
1 2 1 2 1 2
b 1
1 2
L f (a)
L f (a, b)
L f (a, b)
L f (a, b)
L f (a, b)
0 1
1 2
0 0 0
1 2 1 2 1 2
1
1 2
0
1 2 1 2
1 1 1 1
1 2 1 2
1
1 2
1
1 2
0 1 1
1 2
0
1 2
1
1 2
0 0 0
0 1
1 2
1 1 1
0 0 0 0
1
1 2
1 1 1
0
1 2
Tabla 5.7: Funciones para la lgica trivaluada de Lukasiewicz. o Del mismo modo, una lgica n-valuada de Lukasiewicz es aqulla en que v(p) Vn o e (ec. (5.2)) y las funciones que denen las conectivas son las siguientes:
105
L f (a) = 1 a L f (a, b) = min(a, b) L f (a, b) L f (a, b)
(5.17) (5.18) (5.19) (5.20) (5.21) (5.22)
= max(a, b) = min(1, 1 a + b) = 1 max(0, a b) = 1 1 (a b) si a b si a > b
L f (a, b) = 1 |a b|
L (Hemos expresado f de tres formas equivalentes con el n de poder utilizar en cada caso la que ms nos convenga). a Observe que esta denicin funcional evita tener que construir una tabla diferente para o cada n. Observe tambin que cuando n=2, tenemos la lgica clsica, mientras que cuando e o a n=3 tenemos la lgica trivaluada denida por la tabla 5.7. o Se puede demostrar tambin que la lgica multivaluada de Lukasiewicz cumple todas e o las propiedades de la lgica clsica que aparecen en la tabla 5.4, excepto la ley de o a contradiccin y el tercio excluso. En efecto, estas dos propiedades slo se cumplen si los o o valores de verdad son 0 o 1, pues si 0 < v(p) < 1, entonces v(p p) = max(v(p), 1 v(p)) > 0 y v(p p) < 1, de modo que ni p p 0 ni p p 1. Se comprueba adems fcilmente que la lgica de Lukasiewicz utiliza una implicacin a a o o amplia y una doble-implicacin amplia. o
Modus ponens y modus tollens en la lgica de Lukasiewicz o De la ecuacin (5.21) se deduce que o v(p q) = 1 = v(q) v(p) (5.23)
En particular, cuando v(p q) = 1, si v(p) = 1 entonces v(q) = 1 (modus ponens clsico) y a si v(q) = 0 entonces v(p) = 0 (modus tollens clsico). a Tambin de la ecuacin (5.21) se deduce que e o v(p q) < 1 = v(p q) = 1 (v(p) v(q)) = v(q) = v(p) [1 v(p q)] = v(p q) [1 v(p)] (5.24)
lo cual nos dice que si v(p q) 1 y v(p) 1 entonces v(q) 1 (modus ponens aproximado), aunque cuanta menos certeza tengamos sobre p q y p, menos certeza tendremos sobre q. Por ejemplo, si v(p q) = 0 95 y v(p) = 0 8 entonces v(q) = 0 75.5 Uniendo las ecuaciones (5.23) y (5.24) podemos concluir que v(q) v(p) [1 v(p q)] = v(p) + v(p q) 1
5
(5.25)
Se da, sin embargo, la siguiente paradoja; supongamos que v(p) = 0 001; si v(p q) = 1 entonces no hay ninguna restriccin para v(q); en cambio, si v(p q) = 0 999 entonces v(q) = 0. Es decir, que una disminucin o o (aunque sea insignicante) en nuestra certeza sobre p q nos lleva de no saber nada sobre q a descartar q con toda certeza. A nuestro juicio no hay ninguna razn de sentido comn que justique este comportamiento. o u
106 Tambin tenemos que e
v(p q) < 1 = v(p) = v(q) + [1 v(p q)]
(5.26)
lo cual nos dice que si v(p q) 1 y v(q) 0 entonces v(p) 0 (modus tollens aproximado). Por ejemplo, si v(p q) = 0 95 y v(q) = 0 1 entonces v(p) = 0 15.6 Lgica multivaluada de Kleene o La lgica trivaluada de Kleene viene dada por las funciones de la tabla 5.8. Observe que o 1 es casi idntica a la de Lukasiewicz, pues slo diere de ella en los valores de f 1 , 2 y e o 2 1 1 e e o o a f 2 , 2 . Tambin sta es una generalizacin de la lgica clsica, como se puede comprobar comparando la tabla 5.8 con la 5.3. a 1 1 1
1 2 1 2 1 2
b 1
1 2
K f (a)
K f (a, b)
K f (a, b)
K f (a, b)
K f (a, b)
0 1
1 2
0 0 0
1 2 1 2 1 2
1
1 2
0
1 2 1 2
1 1 1 1
1 2 1 2
1
1 2
1
1 2
0 1
1 2 1 2
0
1 2 1 2 1 2
0 0 0
0 1
1 2
1 1 1
0 0 0 0
1
1 2
1 1 1
0
1 2
Tabla 5.8: Funciones para la lgica trivaluada de Kleene. o Del mismo modo, una lgica n-valuada de Kleene es aqulla en que v(p) Vn (ec. (5.2)) o e y las funciones que denen las conectivas son las siguientes:
K f (a) = 1 a K f (a, b) K f (a, b) K f (a, b) K f (a, b)
(5.27) (5.28) (5.29) (5.30) (5.31)
= min(a, b) = max(a, b) = max(1 a, b) = min(max(1 a, b), max(1 b, a))
Es decir, coincide con la de Lukasiewicz en la denicin de la negacin, la conjuncin y la o o o disyuncin, pero diere en la implicacin y la doble implicacin. o o o Como en el caso anterior, cuando n=2, tenemos la lgica clsica, mientras que cuando o a o n=3 tenemos la lgica trivaluada de Kleene (tabla 5.8). Se puede demostrar tambin que la lgica multivaluada de Kleene cumple todas las e o propiedades de la lgica clsica que aparecen en la tabla 5.4, excepto la ley de cono a tradiccin y el tercio excluso, pues si 0 < v(p) < 1, entonces v(pp) > 0 y v(pp) < 1. o
Tenemos de nuevo una paradoja anloga a la anterior. Supongamos que v(q) = 0 999; si v(p q) = 1 a entonces v(p) puede tomar cualquier valor entre 0 y 0999; en cambio, si v(p q) = 0 999 entonces v(p) = 1. Es decir, una disminucin (aunque sea insignicante) en nuestra certeza sobre p q nos lleva de no saber o prcticamente nada sobre p a conrmar p con toda certeza. a
6
107
Se comprueba adems que la lgica de Kleene utiliza una implicacin rigurosa y una doblea o o implicacin rigurosa, en contraste con la de Lukasiewicz, que se basa en una implicacin amplia o o y una doble-implicacin amplia. o Modus ponens y modus tollens para la lgica de Kleene o De la ecuacin (5.30) se deduce que o v(p q) = max(1 v(p), v(q)) 1 v(p) y por tanto v(p q) + v(p) 1 Se puede deducir tambin que e v(p q) + v(p) = 1 v(p q) = 1 v(p) v(q) 1 v(p) v(p q) + v(p) > 1 v(p q) > 1 v(p) v(p q) = v(q) 1 v(p) (5.32) (5.33)
Esta ultima expresin nos dice que si v(p q) = 1 y v(p) = 1 entonces v(q) = v(p q) = 1 o (modus ponens clsico) y si v(p q) 1 y v(p) 1 entonces v(q) = v(p q) 1 (modus a ponens aproximado); por ejemplo, si v(p q) = 0 95 y v(p) = 0 8 entonces v(q) = 0 95.7 De la ecuacin (5.30) se deduce tambin que o e v(p q) > v(q) = v(p q) = 1 v(p) Por tanto, si v(p q) = 1 y v(q) = 0 entonces v(p) = 1 v(p q) = 0 (modus tollens clsico) y si v(p q) 1 y v(q) 0 entonces v(p) = 1 v(p q) 0 (modus tollens a aproximado); por ejemplo, si v(p q) = 0 95 y v(q) = 0 entonces v(p) = 0 05.8 Otras lgicas multivaluadas o
Existen otras lgicas trivaluadas, tales como la de Bochvar, la de Heyting, la de Reichenbach. . . o (cf. [35, sec. 8.2]), algunas de las cuales ni siquiera utilizan las funciones m nimo y mximo a para la conjuncin y la disyuncin. Dado el carcter introductorio de este texto, no las vamos o o a a tratar aqu nos limitamos a sealar que todas ellas son extensiones de la lgica clsica ; n o a (bivaluada), en el sentido de que cuando los valores de verdad son 0 y 1, los valores de cada f son los mismos que en la lgica clsica. o a
7 De nuevo tenemos paradojas anlogas a las que se daban para la implicacin de Lukasiewicz. En efecto, a o supongamos que v(p q) = 1; si v(p) = 0 entonces v(q) puede tomar cualquier valor, mientras que si v(p) = 0 001 entonces v(q) = v(p q) = 1. Es decir, el hecho de saber que p no es totalmente falso (aunque el valor de v(p) pueda ser tan prximo a 0 como queramos) nos lleva a conrmar q con certeza total. Tampoco o en este caso hay, a nuestro juicio, ninguna razn de sentido comn que justique este comportamiento. o u 8 En este caso la paradoja es la siguiente: supongamos que v(p q) = 1; si v(q) = 1 entonces v(p) puede tomar cualquier valor, porque max(1 v(p), v(q)) va a ser siempre 1; en cambio, si v(q) = 0 999 entonces v(p) tiene que ser 0 para max(1 v(p), v(q)) = 1. Es decir, el hecho de saber que q no es totalmente cierto (aunque el valor de v(q) pueda ser tan prximo a 1 como queramos) nos lleva a descartar p con certeza total. o
108
5.1.3
Lgica difusa o
Acabamos de estudiar las lgicas n-valuadas, que son aqullas que toman valores de verdad o e en Vn (ec. (5.2)). En la de Lukasiewicz y en la de Kleene, las funciones f estn denidas a a partir de la suma, la resta, el mximo, el m a nimo y el valor absoluto, lo cual garantiza que si a y b pertenecen a Vn tambin f (a), f (a, b), f (a, b), f (a, b) y f (a, b) pertenecen. Observe e que en una lgica n-valuada no se podr tener, por ejemplo, una funcin de conjuncin como o a o o 1 1 1 f (a, b) = a b, pues ello implicar que f ( n , n ) = n2 Vn . Esta es una de las razones a / por las que en la lgica difusa se permite que v(p) tome cualquier valor del intervalo [0, 1] o (ec. (5.3)), con lo cual existe mayor libertad a la hora de denir las funciones lgicas. En este o sentido, la lgica difusa es una generalizacin de las lgicas n-valuadas, del mismo modo que o o o stas generalizaban la lgica clsica. e o a Naturalmente, las lgicas n-valuadas que hemos estudiado en la seccin anterior no exigen o o que los valores de verdad sean nmeros racionales ni que el conjunto de valores sea nito; u de hecho, basta que el valor de verdad asignado a las proposiciones elementales pertenezca al intervalo [0,1] para que los valores de verdad de las proposiciones compuestas pertenezcan tambin al intervalo [0,1]. En consecuencia, tanto la lgica de Lukasiewicz como la de Kleene e o son casos particulares de la lgica difusa, pero pueden existir otras muchas, vamos a estudiar o a continuacin las propiedades que han de cumplir cada una de ellas. o Una de las condiciones fundamentales, denominada l mite clsico, es que toda lgica difusa a o ha de ser una extensin de la lgica clsica, en el sentido de que cuando los valores de verdad o o a de dos proposiciones est en {0, 1}, los valores de verdad de las proposiciones resultantes al a aplicar las conectivas sean los mismos que en la lgica clsica. Por ejemplo, la propiedad o a C del tercio excluso (p p 1) de la lgica clsica es equivalente a decir que f (0, 1) = 1; o a C (0, 1) = 1, aunque en general por tanto, toda lgica difusa debe cumplir que f (0, 1) = f o f (a, b) = 1 cuando a o b sean distintos de 0 y 1. Adems de mantener el l a mite clsico, vamos a examinar qu otras propiedades de la lgica a e o clsica es posible y conveniente mantener en la lgica difusa; para ello, vamos a estudiar las a o condiciones que deben cumplir las funciones f , pues cada una de las propiedades expresadas en la tabla 5.4 se traduce en una propiedad que deben cumplir las f s. Funciones de negacin o Las propiedades deseables para una funcin de negacin en lgica difusa aparecen en la o o o tabla 5.9, y proceden de las propiedades de la lgica clsica (tabla 5.4). o a L mite clsico a Involucin o Monoton a-v f (1) = 0, f (0) = 1 f (f (a)) = a a b = f (a) f (b)
Negacin o
Tabla 5.9: Propiedades denitorias de la funcin negacin. o o Otra propiedad deseable de f es la continuidad, pues no es razonable que un cambio innitesimal en a produzca un cambio brusco en f (a); por tanto,
0
lim f (a + ) = f (a)
Sin embargo, a diferencia de lo que hacen otros textos sobre lgica difusa, no consideramos neo cesario incluir la continuidad entre las propiedades axiomticas de f , pues viene garantizada a
5.1. Lgica de proposiciones o por la siguiente proposicin: o
109
Proposicin 5.1 Toda funcin de negacin f es estrictamente decreciente, invertible, o o o simtrica (respecto del eje x = y) y continua. e Demostracin. Dado que es decreciente por denicin (cf. tabla 5.9), basta tener en cuenta o o que f (a) = f (b) = f (f (a)) = f (f (b)) = a = b para demostrar que es estrictamente decreciente: a < b = f (a) > f (b)
1 1 La funcin inversa es ella misma: f = f , pues f (f (a)) = f (f (a)) = a. Por otro o lado, de la propiedad de involucin se deduce que f (x) = y = f (y) = x, lo que prueba la o simetr a. Intuitivamente vemos que f ha de ser continua, porque es una funcin decreciente y o si tuviera un escaln entonces existir un y que no ser imagen de ningn x, lo cual es o a a u absurdo, porque para todo y siempre podemos tomar x = f (y), de modo que f (x) = y. Sin embargo, la demostracin rigurosa, que ofrecemos a continuacin, es bastante ms compleja; o o a el lector que lo desee puede omitir su estudio, porque se trata ms de una cuestin de clculo a o a innitesimal que de razonamiento aproximado. Por denicin, una funcin del intervalo [0, 1] es continua si y slo si cumple la siguiente o o o propiedad:
a, 0 a 1, , > 0, | [ > 0] [x, 0 x 1, |x a| < = |f (x) f (a)| ]

pa,,
Una vez dados a y , tales que 0 a 1 y > 0, vamos a demostrar que la denida por las siguientes ecuaciones x1 = f (min(f (a) + , 1)) x2 = f (max(f (a) , 0)) x2 = 1 x1 min(x1 a, a2 x) si a = 0 si a = 1 si 0 < a < 1
cumple > 0 y la proposicin pa,, . En primer lugar, observamos que o a = 0 = x1 = 0 a = 1 = x2 = 1 a > 1 = 0 x1 < a a < 1 = a < x2 1
lo cual implica que > 0 en todos los casos. Por otro lado, de las desigualdades 0 x 1 y |x a| < se deduce que a = 0 = x = |x 0| < = x2 = x1 = 0 x < x2 a = 1 = 1 x = |x 1| < = 1 x1 = x1 < x 1 = x2 0 < a < 1 == x a < x2 a a x < a x1 = x1 < x < x2
110 Es decir, en todos los casos se cumple que x1 x x2 y por tanto
min(f (a) + , 1) = f (x1 ) f (x) f (x2 ) = max(f (a) , 0) f (a) + f (x) f (a) |f (x) f (a)| como quer amos demostrar. 2 Proposicin 5.2 Para toda funcin de negacin f existe un punto de equilibrio ae , 0 < o o o ae < 1, tal que f (ae ) = ae . Demostracin. Denimos una nueva funcin g(a) = f (a) a. Dado que g es continua, o o g(0) = 1 > 0 y g(1) = 1 < 0, por el teorema de Bolzano debe existir un ae , 0 < ae < 1, tal que g(ae ) = f (ae ) ae = 0. 2 La funcin f ms conocida y utilizada es la que en lgica difusa se conoce como funcin o a o o de negacin estndar : o a f (a) = 1 a El punto de equilibrio para esta funcin es ae = 0 5. o Para cada valor del parmetro tal que (1, ), la funcin a o f (a) = 1a 1 + a (5.35) (5.34)
es tambin una funcin de negacin; el conjunto de todas estas funciones (para distintos e o o valores de ) se denomina familia de negaciones de Sugeno. La funcin de negacin estndar o o a es un miembro particular de la familia de Sugeno, correspondiente al caso en que = 0. Del mismo modo, la familia de negaciones de Yager viene dada por f (a) = (1 a ) donde (0, ). Cuando = 1, tenemos la negacin estndar. o a Ejercicio 5.3 (opcional) Demuestre que cada miembro de estas dos familias es una funcin o de negacin, y calcule su punto de equilibrio. 2 o Existen otras propiedades matemticas, tales como las relativas al punto de equilibrio o a a los generadores de funciones de negacin, que no vamos a tratar en este texto porque, a nuestro o juicio no aportan nada desde el punto de vista de su aplicacin a la inteligencia articial. El o lector interesado puede encontrar ste y otros temas en la bibliograf recomendada al nal e a del cap tulo.
1
(5.36)
5.1. Lgica de proposiciones o Funciones de conjuncin: normas triangulares o
111
Acabamos de ver que es posible construir funciones de negacin difusas que mantengan todas o las propiedades de la negacin clsica. Sin embargo, en seguida vamos a ver que es imposible o a denir funciones de conjuncin y de disyuncin difusas que conserven todas las propiedades o o de la lgica clsica. Por ello vamos a exigir a estas funciones que mantengan las propiedades o a ms importantes, aunque sea al precio de perder otras menos importantes o menos deseables. a En primer lugar, denimos las normas triangulares (a veces llamadas t-normas o simplemente normas) como aquellas funciones que cumplen las propiedades indicadas en la tabla 5.10 (comprelas con las de la conjuncin clsica, tabla 5.4, pg. 102). a o a a Conmutativa Asociativa Elemento neutro Monoton a-v f (a, b) = f (b, a) f (a, f (b, c)) = f (f (a, b), c) f (a, 1) = a a b = f (a, c) f (b, c)
Tabla 5.10: Propiedades de las normas triangulares. Proposicin 5.4 Toda norma triangular cumple el l o mite clsico de la conjuncin. a o Demostracin. Por la propiedad de elemento neutro, f (0, 1) = 0 y f (1, 1) = 1. Por o la conmutativa, f (1, 0) = 0. Por la monoton f (0, 0) f (1, 0), lo que implica que a, f (0, 0) = 0. 2 Proposicin 5.5 Para toda norma triangular hay un elemento absorbente, que es el cero: o a, f (a, 0) = 0 (5.37)
Demostracin. Para todo valor a tenemos, por un lado, que f (a, 0) f (1, 0) = f (0, 1) = 0, o y por otro, que f (a, 0) 0, de donde se deduce que f (a, 0) = 0. 2 En cambio, hay normas triangulares que no cumplen la propiedad de idempotencia a, o la ley de contradiccin o a, f (a, f (a)) = 0 (5.39) para ninguna funcin de negacin f , como veremos ms adelante. o o a Proposicin 5.6 Para toda norma triangular se cumple que o f (a, b) = 1 a = b = 1 (5.40) f (a, a) = a (5.38)
Demostracin. (Por reduccin al absurdo) Si uno de los dos argumentos, por ejemplo a, fuera o o menor que 1, tendr amos que f (a, b) f (a, 1) = a < 1 lo cual es una contradiccin. 2 o
112
La conjuncin estndar (es decir, la que se usa en la lgica difusa estndar) viene dada o a o a por la funcin m o nimo, f (a, b) = min(a, b) (5.41) que es una norma triangular. Otras normas triangulares son el producto algebraico f (a, b) = a b la diferencia acotada f (a, b) = max(0, a + b 1) y la conjuncin drstica o a b min f (a, b) = f (a, b) = a 0 Entre las cuatro existe una relacin de orden: o a, b,
min f (a, b) a b max(0, a + b 1) min(a, b)
(5.42) (5.43)
si a = 1 si b = 1 en los dems casos a
(5.44)
(5.45)
Ejercicio 5.7 Dibuje estas cuatro funciones de [0, 1] [0, 1] [0, 1]. Ejercicio 5.8 Demuestre que cada una de ellas es una norma y que se cumple la desigualdad anterior. Observe que todas estas normas, excepto la conjuncin drstica, son continuas. Como o a dijimos al hablar de la negacin, conviene que f sea continua para evitar que un cambio o innitesimal en a o en b provoque un cambio brusco en f (a, b), por lo que en la prctica slo a o se utilizan normas continuas.9 Existen tambin varias familias de normas; por ejemplo, la familia de Yager viene dada e por 1 f (a, b) = Y (a, b) = 1 min 1, [(1 a) + (1 b) ] (5.46) donde (0, ). Aunque no puede valer nunca 0 ni innito, se cumple que
0 lim Y (a, b) = min(a, b)
(5.47) (5.48)
min lim Y (a, b) = f (a, b)
y que
min , f (a, b) Y (a, b) min(a, b)
(5.49)
En realidad, esta ultima expresin es un caso particular de una armacin ms general. o o a Proposicin 5.9 Para toda norma triangular f se cumple que o
min f (a, b) f (a, b) min(a, b)
9
(5.50)
Algunos autores incluyen la continuidad entre las propiedades axiomticas de las normas, y por eso no a consideran la conjuncin drstica como una norma. o a
5.1. Lgica de proposiciones o Ejercicio 5.10 Demostrar esta proposicin. o
113
min Esta es la razn por la que denotamos por f a la conjuncin drstica, pues es la norma o o a max = min, pues la funcin m m nima. Del mismo modo podr amos escribir f o nimo es la norma mxima. a
Proposicin 5.11 La funcin m o o nimo es la unica norma idempotente. Demostracin. Sea una norma idempotente f . Para dos valores a y b tal que a b, o a = f (a, a) f (a, b) f (a, 1) = a de donde se deduce que f (a, b) = a. Del mismo modo se demuestra que, cuando b a, f (a, b) = b, con lo que concluye la demostracin. 2 o Teniendo en cuenta que la funcin m o nimo no cumple la ley de contradiccin pues tal o como arma la proposicin 5.2, para cualquier f existe un punto de equilibrio ae , 0 < ae < 1, o de modo que f (ae , f (ae )) = min(ae , ae ) = ae = 0 se deduce que o Corolario 5.12 Ninguna norma que cumpla la ley de contradiccin puede ser idempotente. Corolario 5.13 No hay ninguna norma que cumpla todas las propiedades de la conjuncin o clsica. a Ante la imposibilidad de satisfacer todas las propiedades simultneamente, la idempoa tencia (p p p) parece ms importante que la ley de contradiccin, la cual arma que es a o imposible que una proposicin y su negacin sean ciertas a la vez, ni siquiera parcialmente o o ciertas, pues p p 0 implica que v(p p) = f (v(p), v(p)) = 0. Los defensores de la lgica difusa sostienen que sta es una restriccin innecesaria y poco realista, porque en el o e o caso de conceptos difusos es posible que tanto una armacin como su contraria tengan algo o de verdad. Ms an, hay autores que, invocando la losof oriental del Ying y el Yang, ara u a man que todo lo que existe tiene tambin algo de su contrario: todo hombre tiene algn rasgo e u femenino en su carcter, y viceversa; todo lo tibio es caliente en cierto modo y fr en cierto a o modo, etc. Nuria, la nia a la que est dedicado este libro, se dio cuenta bastante pronto de n a que no era totalmente pequea ni totalmente mayor, y por eso cuando ten dos aos y pocos n a n meses sol decir: soy uno poco pequea y uno poco may. Por eso en lgica difusa el hecho a n o o de que algunas normas triangulares incumplan la ley de contradiccin no se considera como o un inconveniente, sino como una autntica ventaja. Dado el carcter introductorio de este e a texto, no vamos a entrar a discutir tales armaciones. Lo mencionamos solamente porque sta es una de las razones por las que la lgica difusa estndar toma la funcin m e o a o nimo para denir la conjuncin (y la interseccin de conjuntos, como veremos ms adelante), dado que o o a esta funcin preserva la idempotencia y elude a la vez la ley de contradiccin. o o a o Ejercicio 5.14 Indique cules de las normas triangulares mostradas en esta seccin cumplen la ley de contradiccin (para la negacin estndar) y cules no. o o a a Funciones de disyuncin: conormas triangulares o Anlogamente, las conormas triangulares (a veces llamadas t-conormas o simplemente conora mas) son, por denicin, las funciones que cumplen las propiedades de la tabla 5.11 o (comprelas con las de la disyuncin clsica, tabla 5.4, pg. 102). a o a a
114 Conmutativa Asociativa Elemento neutro Monoton a-v
Cap tulo 5. Lgica difusa o f (a, b) = f (b, a) f (a, f (b, c)) = f (f (a, b), c) f (a, 0) = a a b = f (a, c) f (b, c)
Tabla 5.11: Propiedades de las conormas triangulares. mite clsico de la disyuncin. a o Proposicin 5.15 Toda conorma triangular cumple el l o Proposicin 5.16 Para toda conorma triangular hay un elemento absorbente, que es el uno: o a, f (a, 1) = 1 (5.51)
(Las demostraciones son anlogas a las de las proposiciones 5.4 y 5.5.) a En cambio, hay conormas que no cumplen la propiedad de idempotencia a, o la ley del tercio excluso a, f (a, f (a)) = 1 (5.53) para ninguna funcin de negacin f , como veremos ms adelante. o o a Proposicin 5.17 Para toda conorma triangular se cumple que o f (a, b) = 0 a = b = 0 La demostracin es anloga a la de la proposicin 5.6. o a o La disyuncin estndar (es decir, la que se usa en la lgica difusa estndar) viene dada o a o a por la funcin mximo: o a f (a, b) = max(a, b) (5.55) que es una conorma triangular. Otras conormas triangulares son la suma algebraica f (a, b) = a + b a b la suma acotada f (a, b) = min(1, a + b) y la disyuncin drstica o a b max f (a, b) = f (a, b) = a 1 Entre las cuatro existe una relacin de orden: o
max f (a, b) a + b a b min(1, a + b) max(a, b)
f (a, a) = a
(5.52)
(5.54)
(5.56) (5.57)
si a = 0 si b = 0 en los dems casos a
(5.58)
(5.59)
Observe que todas ellas, excepto la disyuncin drstica, son continuas. Por las razones o a expuestas en las secciones anteriores, en la prctica slo se utilizan conormas continuas. a o
115
Ejercicio 5.18 Dibuje estas cuatro funciones de [0, 1] [0, 1] [0, 1]. Compare las grcas a con las del ejercicio 5.7. Ejercicio 5.19 Demuestre que cada una de ellas es una conorma y que se cumple la desigualdad anterior. La familia de conormas de Yager viene dada por
f (a, b) = Y (a, b) = min 1, (a + b )
1
(5.60)
donde (0, ). Aunque no puede valer nunca 0 ni innito, se cumple que

0 lim Y (a, b) = max(a, b)
(5.61) (5.62)
max lim Y (a, b) = f (a, b)
Proposicin 5.20 Para toda conorma triangular f se cumple que o

max f (a, b) f (a, b) max(a, b)
(5.63)
max a la disyuncin drstica, pues es la Esta es la razn por la que denotamos por f o o a min conorma mxima. Del mismo modo podr a amos escribir f = max, pues la funcin mximo o a es la conorma m nima.
o a Proposicin 5.21 La funcin mximo es la unica conorma idempotente. o Teniendo en cuenta que la funcin mximo no cumple la ley del tercio excluso, pues para o a un a tal que 0 < a < 1, max(a, 1 a) = 0, se deduce que Corolario 5.22 Ninguna conorma que cumpla la ley del tercio excluso puede ser idempotente. Corolario 5.23 No hay ninguna conorma que cumpla todas las propiedades de la disyuncin o clsica. a Las razones por las que la lgica difusa estndar elige la funcin mximo para denir la o a o a disyuncin [y la unin de conjuntos] son las mismas que las que justican la eleccin de la o o o funcin m o nimo para denir la conjuncin [y la interseccin] (cf. seccin anterior). o o o Uno de los temas que no hemos mencionado al hablar de las normas y conormas es la posibilidad de denirlas a partir de funciones generatrices. El motivo es que, a nuestro juicio, ste es solamente un aspecto matemtico que no aporta nada desde el punto de vista del e a razonamiento en inteligencia articial. En cualquier caso, el lector interesado puede encontrar la informacin en [35, cap. 3] y [60, cap. 2] o Normas y conormas conjugadas Hemos analizado las condiciones que deben cumplir la negacin, la conjuncin y la disyuno o cin por separado para conservar las propiedades ms importantes de la lgica clsica. Sin o a o a
116
embargo, si exigimos que se mantengan tambin las propiedades combinadas que aparecen en e la tabla 5.4, surgen nuevas condiciones. Por ejemplo, la 1a ley de Morgan nos dice que f (f (a, b)) = f (f (a), f (b)) Esta ecuacin es vlida para todos los valores de a y b, incluidos f (a) y f (b): o a f (f (f (a), f (b))) = f (f (f (a)), f (f (b))) = f (a, b) de donde se deduce que f (a, b) = f (f (f (a), f (b))) y, aplicando f a cada miembro de esta ecuacin, obtenemos o f (f (a, b)) = f (f (a), f (b)) (5.66) (5.65) (5.64)
que es la 2a ley de Morgan. Por tanto, del hecho de que la funcin de negacin f es o o idempotente se deduce la siguiente proposicin: o Proposicin 5.24 La primera ley de Morgan se cumple si y slo si se cumple la segunda. o o Observe que la ecuacin (5.64) es equivalente a o f (a, b) = f (f (f (a), f (b))) (5.67)
Por tanto, podemos utilizar esta expresin para denir f a partir de f y f , del mismo o modo que se podr haber utilizado la (5.65) para denir f en funcin de f y f . a o o o Proposicin 5.25 Si f es una funcin de negacin difusa y f es una norma triangular, la o funcin f denida por la ecuacin (5.65) es una conorma. (Se dice que f es la conorma o o dual o conjugada de f respecto de f .) o o Proposicin 5.26 Si f es una funcin de negacin difusa y f es una conorma triangular, o la funcin f denida por la ecuacin (5.67) es una norma. (Se dice que f es la dual o o o conjugada de f respecto de f .) Ejercicio 5.27 Demostrar estas tres proposiciones. De la discusin anterior a la proposicin 5.24 se deduce la siguiente: o o Proposicin 5.28 La funcin f es la norma dual de f si y slo si f es la conorma dual o o o de f . (Suele decirse que f y f son conjugadas.) La tabla 5.12 recoge en su primera columna varias normas y en la segunda las correspondientes normas conjugadas respecto de la negacin estndar. o a , Proposicin 5.29 Si f y f son conjugadas entre s y f y f son conjugadas entre s o , f (a, b) f (a, b) f (a, b) f (a, b) (5.68)
Por tanto, observando la tabla 5.12 se entiende la relacin entre las ecuaciones (5.45) o y (5.63).
5.1. Lgica de proposiciones o Norma min(a, b) ab max(0, a + b 1) min f (a, b) Y (a, b) Conorma max(a, b) a+bab min(1, a + b) max f (a, b) Y (a, b)
117
Tabla 5.12: Normas y conormas conjugadas. Funciones de implicacin o En lgica difusa es habitual denir la funcin de implicacin f a partir de las funciones f , o o o f y f , aplicando alguna de las propiedades de la lgica clsica. Concretamente, la propiedad o a clsica a p q p q (5.69) se traduce en f (a, b) = f (f (a), b) (5.70) Cada f obtenida al escoger una funcin de negacin f y una conorma f para la expresin o o o anterior se denomina implicacin S (porque S es el s o mbolo elegido habitualmente para representar una conorma). Por ejemplo, si tomamos la negacin estndar (ec. (5.34)) y la suma o a acotada (ec. (5.57)), respectivamente, obtenemos la funcin de implicacin de Lukasiewicz o o (ec. (5.19)), que es, por tanto, una implicacin S. o En cambio, si tomamos la negacin estndar y la disyuncin estndar obtenemos la imo a o a plicacin de Kleene (ec. (5.30)), a veces llamada de Kleene-Dienes, que es tambin una o e implicacin S. Tomando la negacin estndar y la suma algebraica (ec. (5.56)) obtenemos la o o a implicacin de Reichenbach: o
R f (a, b) = 1 a + ab
(5.71)
que es, por cierto, una implicacin rigurosa. o Otra propiedad de la lgica clsica en la cual puede basarse la denicin de implicacin o a o o es p q p (p q) la cual se traduce en10 f (a, b) = f (f (a), f (a, b)) (5.73) Las funciones generadas a partir de esta expresin utilizando distintas f , f y f se deo nominan implicaciones QL. Por ejemplo, utilizando las funciones de negacin, conjuncin y o o disyuncin estndares se obtiene la implicacin de Zadeh: o a o
Z f (a, b) = max(1 a, min(a, b))
10
(5.72)
(5.74)
Ntese que en la lgica clsica la propiedad p (p q) es equivalente a p q, por lo que es indiferente o o a que denamos p q a partir de una o de otra. Sin embargo, en lgica difusa estas dos propiedades dan lugar o a funciones de implicacin distintas. o
118
que es una implicacin rigurosa. Con la negacin estndar, la suma acotada y la diferencia o o a acotada, respectivamente, se obtiene la implicacin de Kleene.11 o La ventaja de denir la implicacin a partir de una de estas dos propiedades es que la o propiedad del l mite clsico queda automticamente garantizada. a a Tambin se cumple en la lgica clsica la propiedad siguiente: e o a [p (p q)] q de modo que f (a, f (a, b)) b
c
(5.75)
(5.76)
En
o,
f (a, b) es el mximo de los valores de c que cumplen la propiedad anterior: a f (0, c) 0 = c = 0 c = 1 f (0, c) 1 = c = 0 c = 1 f (1, c) 0 = c = 0 f (1, c) 1 = c = 0 c = 1 f (0, 0) = 1 f (0, 1) = 1 f (1, 0) = 0 f (1, 1) = 1
(5.77)
es decir f (a, b) = max{c {0, 1} | f (a, c) b} Esta propiedad se puede generalizar para la lgica difusa: o f (a, b) = sup{c [0, 1] | f (a, c) b} (5.79) (5.78)
Ejercicio 5.30 Demostrar que para toda norma f la implicacin resultante de esta denio cin cumple el l o mite clsico. 2 a Las funciones de implicacin que se obtienen al introducir distintas normas triangulares f o en esta expresin se denominan implicaciones R. Por ejemplo, al tomar la diferencia acotada o tenemos la implicacin de Lukasiewicz,12 que es, por tanto, una implicacin R. En cambio, o o con la conjuncin estndar obtenemos la implicacin de Gdel: o a o o
G f (a, b) = sup{c [0, 1] | min(a, c) b} =
1 b
si a b si a > b
(5.80)
que es una implicacin amplia; etc. o

En efecto, la implicacin resultante es f (a, b) = min(1, 1 a + max(0, a + b 1)). Si 1 a b, entonces o max(0, a + b 1) = 0 y f (a, b) = 1 a; si 1 a < b, entonces max(0, a + b 1) = a + b 1 y f (a, b) = b; K por tanto, f (a, b) = max(1 a, b) = f (a, b). 12 La demostracin es la siguiente: teniendo en cuenta que b 0, o max(0, a + c 1) b [(0 b) (a + c 1 b)] a + c 1 b de donde se deduce que
L sup{c [0, 1] | max(0, a + c 1) b} = sup{c [0, 1] | c 1 a + b} = min(1, 1 a + b) = f (a, b) 11
119
Proposicin 5.31 Toda funcin de implicacin de cualquiera de las tres familias (S, QL o o o o R), cumple la propiedad de neutralidad de la verdad: b, f (1, b) = b (5.81)
o o o Proposicin 5.32 Toda funcin de implicacin S o R es montona en el primer argumento: o a1 , a2 , a1 a2 = f (a1 , b) f (a2 , b) Ejercicio 5.33 Demostrar estas dos proposiciones. Como hemos visto, cada una de estas tres familias procede de una propiedad de la lgica o clsica. Otras propiedades podr dar lugar a otras familias, aunque en la literatura slo a an o se han estudiado estas tres. Por cierto, hemos comprobado ya que estas familias no son exclusivas, porque algunas funciones de implicacin que conocemos pertenecen a dos de ellas; o tampoco son exhaustivas, porque la implicacin de Gaines-Rescher: o
GR f (a, b) =
(5.82)
1 0
si a b si a > b
(5.83)
por ejemplo, no pertenece a ninguna de ellas. La tabla 5.14 muestra estas funciones de implicacin, junto con las propiedades que cumo plen y el ao en fueron publicadas por primera vez. Las propiedades que cumplen son las n siguientes: LC es el l mite clsico, C indica que la funcin es continua, y las letras A y a o R indican si se trata de una implicacin amplia o rigurosa (podr ocurrir que alguna de o a estas funciones no fuera ni amplia ni rigurosa, pero no es el caso); los nmeros 1 a 7 corresu ponden a las siete propiedades de la tabla 5.13, que a su vez proceden de las propiedades de la implicacin clsica (tabla 5.6, pg. 103). Observe que la unica funcin de implicacin o a a o o que no cumple la propiedad de neutralidad de la verdad es la de Gaines-Rescher, que no pertenece a ninguna de las familias S, QL o R, como exige la proposicin 5.31 (ec. (5.81)), o y que las funciones que no cumplen la monoton en el primer argumento la de Zadeh y la a de Gaines-Rescher no pueden pertenecer a S ni a R, por la proposicin 5.32 (ec. (5.82)). o 1. 2. 3. 4. 5. 6. 7. Neutralidad de la verdad Predominio de la falsedad Identidad Intercambio Contraposicin o Monoton a-v en el 1er argumento Monoton a-v en el 2o argumento f (1, a) = a f (0, a) = 1 f (a, a) = 1 f (a, f (b, c)) = f (b, f (a, c)) f (a, b) = f (1 b, 1 a) a b = f (a, c) f (b, c) a b = f (c, a) f (c, b)
Tabla 5.13: Algunas propiedades que cumplen ciertas funciones de implicacin. o Al igual que hicimos en la seccin 5.1.2, podr o amos intentar ahora obtener el valor de v(q) o, al menos, alguna restriccin para v(q) a partir de los valores de v(p q) y v(p), con o lo que tendr amos un modus ponens difuso, y anlogamente, un modus tollens difuso. Sin a embargo, no es ste el mtodo que se sigue habitualmente en la lgica difusa, sino que se e e o llega a estos silogismos mediante la composicin de relaciones difusas, tal como veremos en o la seccin 5.4.3. o
120 Autor Lukasiewicz Kleene Reichenbach Zadeh Gdel o Gaines-Rescher f (a, b) min(1, 1 a + b) max(1 a, b) 1 a + ab max(1 a, min(a, b)) 1 si a b b si a > b 1 0 si a b si a > b Tipo S, R S, QL S QL R LC, LC, LC, LC,
Cap tulo 5. Lgica difusa o Propiedades C, C, C, C, A, R, R, R, 1, 1, 1, 1, 2, 2, 2, 2, 3, , , , 4, 4, 4, , 5, 5, 5, , 6, 6, 6, , 7 7 7 7 A o n 1920 1938 1935 1973 1976 1969
LC, C, A, 1, 2, 3, 4, , 6, 7 LC, , A, , 2, 3, 4, 5, 6, 7
Tabla 5.14: Algunas de las funciones de implicacin ms conocidas. o a Modicadores difusos para proposiciones Dado un conjunto de proposiciones, podemos aplicar a cada una de ellas uno o varios modicadores difusos, correspondientes a expresiones ling usticas, para dar lugar a proposiciones difusas como p es muy cierta o, de forma equivalente, es muy cierto que p. El valor de verdad de la proposicin resultante se calcula aplicando cierta funcin matemtica al valor de o o a la proposicin original p. Concretamente, algunos de los modicadores difusos ms habituales o a y sus correspondientes funciones son: v(p es muy cierto) = v(p)2 v(p es bastante cierto) = 2v(p)2 1 2[1 v(p)]2
1
si v(p) 0 5 si v(p) > 0 5
v(p es ms o menos cierto) = v(p) 2 a v(p es falso) = 1 v(p) v(p es muy falso) = [1 v(p)]2
En la seccin 5.2.1 veremos que existen modicadores equivalentes para los predicados o difusos.
5.2
5.2.1
Lgica de predicados o
Predicados unitarios
Dado un conjunto X no vac denominado conjunto universal, cada predicado unitario P o, puede denirse como una funcin que asigna a cada elemento x de X la proposicin P (x) = o o x es P . Por ejemplo, el predicado Mayor que 3 asigna al elemento 5 la proposicin 5 es o mayor que 3; en la notacin habitual, Mayor-que-3(5) = 5 es mayor que 3. Igualmente, o dado el predicado Hermano de Juan y el elemento Antonio, Hermano-de-Juan(Antonio) = Antonio es hermano de Juan. Con el n de evitar sutilezas matemticas, vamos a suponer generalmente que X es un a conjunto nito, como ocurre en todos los problemas prcticos. Por ejemplo, si X es un a conjunto de personas, siempre es nito, aunque incluyramos en l todas las personas que han e e
5.2. Lgica de predicados o
121
existido y existirn en los prximos milenios. Incluso las medidas supuestamente continuas a o se realizan siempre en la prctica sobre conjuntos nitos.13 a Al predicado P 1 que asigna a todo elemento de X la proposicin segura (cf. pg. 98), o a 1 (x) = 1, le denominamos predicado seguro, pues x, v, v(P 1 (x)) = 1. Anlogamente, x, P a al predicado P 0 , tal que x, P 0 (x) = 0, le denominamos predicado imposible, pues x, v, v(P 0 (x)) = 0. Un predicado preciso P es aqul que siempre origina proposiciones P (x) precisas, mientras e que un predicado impreciso es aqul que genera proposiciones imprecisas, al menos para e ciertos valores x de X. Por ejemplo, Mayor que 3 es un predicado preciso, mientras que Aproximadamente igual a cero es impreciso, ya que la proposicin Aproximadamenteo igual-a-cero(025), es decir, 025 es aproximadamente igual a 0, no es totalmente verdadera ni totalmente falsa. Los conceptos que se utilizan en matemticas corresponden generalmente a predicados a precisos; por ejemplo, en la aritmtica tenemos conceptos como par, impar, primo, mayor que, e menor que, etc., que son claramente verdaderos o falsos. Sin embargo, tambin existen otros e muchos como grande, pequeo, mucho mayor que, mucho menor que, aproximadamente n igual a. . . que dan lugar a proposiciones imprecisas. Por ejemplo, la proposicin 001 es o aproximadamente igual a 0 es ms cierta que 01 es aproximadamente igual a 0, pero sta a e tampoco es totalmente falsa. En la vida cotidiana, podemos encontrar predicados precisos, como mayor-de-edad, soltero, casado, hijo-nico, tiene-permiso-de-conducir, etc., pero son muchos ms los predicados u a imprecisos: joven, viejo, alto, bajo, gordo, delgado, rico, pobre, inteligente, habla-ingls, sabee informtica, etc., etc. Incluso en la ciencia abundan los predicados imprecisos, especialmente a en el campo de la medicina, donde encontramos numerosas expresiones difusas, como sano, enfermo, edad avanzada, presin alta, dolor agudo, fatiga leve, tumor grande, s o ntoma evidente, tcnica sensible, diagnstico complejo, pronstico grave, terapia arriesgada, alta mortalidad, e o o etc., etc. Como veremos ms adelante, los predicados precisos dan lugar a conjuntos n a tidos (los conjuntos clsicos), en los que un elemento o pertenece completamente al conjunto o no a pertenece en absoluto, mientras que los predicados imprecisos dan lugar a conjuntos difusos, en los que el grado de pertenencia var dentro del intervalo [0, 1]. a Cuanticadores y predicados compuestos El cuanticador universal se dene as : x, P (x)
xX
13
P (x)
(5.84)
Problamente el lector estar pensando: Y qu pasa con las escalas continuas, como la estatura, por a e ejemplo? Lo habitual es considerar que la la estatura se mide sobre la escala continua de los nmeros reales u positivos (X = R+ ). Nuestra respuesta es la siguiente: en contra de lo que se suele armar, insistimos en que la estatura, como cualquier otra magnitud, se mide sobre un conjunto X nito. De hecho, la estatura de una persona no suele ser superior a 250 m., y se suele medir con una precisin de cent o metros. Para asegurarnos que no nos quedamos cortos en los l mites, supongamos que tenemos el conjunto X de todos los nmeros u racionales de 0 a 10 con 5 decimales o menos; ciertamente es un conjunto nito ms que suciente para medir a la estatura de las personas (en metros). Del mismo modo, cualquier otra escala de las consideradas continuas puede representarse por tomar l mites generosos mediante el conjunto de los nmeros decimales de 10500 u 500 a 10 con un mximo de 200 decimales, que es un conjunto enorme (2700 ), pero nito. a Por tanto, sostenemos que en la prctica no es una limitacin el suponer que X es nito. a o
122 y el cuanticador existencial as : x, P (x)

xX
P (x)
(5.85)
Por tanto, v(x, P (x)) = f v(P (x))

xX
(5.86) (5.87)
v(x, P (x)) = f v(P (x))

xX
donde f y f son las funciones de conjuncin y disyuncin generalizadas para n argumentos, o o que se denen recursivamente a partir de las respectivas funciones binarias:14 f (a) = a f (a) = a f (a1 , . . . , an ) = f (f (a1 , . . . , an1 ), an ) f (a1 , . . . , an ) = f (f (a1 , . . . , an1 ), an ) (5.88) (5.89)
Ejemplo 5.34 Dado el conjunto universal X = {x1 , x2 , x3 } entonces x, P (x) P (x1 ) P (x2 ) P (x3 ) y por tanto, v(x, P (x)) = f (v(P (x1 )), v(P (x2 )), v(P (x3 ))) es decir, la proposicin x, P (x) es cierta si y slo si cada una de las tres proposiciones P (xi ) o o es cierta. Anlogamente, a x, P (x) P (x1 ) P (x2 ) P (x3 ) v(x, P (x)) = f (v(P (x1 )), v(P (x2 )), v(P (x3 ))) de modo que x, P (x) si y slo si alguna de las proposiciones P (xi ) es cierta. 2 o Ntese que, si P es un predicado preciso, las proposiciones x, P (x) y x, P (x) son o precisas, mientras si P es difuso las proposiciones x, P (x) y x, P (x) son difusas.15 Proposicin 5.35 Las funciones de conjuncin y disyuncin generalizadas cumplen que o o o f (a1 , . . . , an ) = 1 i, ai = 1 f (a1 , . . . , an ) = 0 i, ai = 0 (5.90) (5.91)
Demostracin. Por la denicin de f y el hecho de que f (1, 1) = 1, es fcil probar por o o a induccin completa que o i, ai = 1 f (a1 , . . . , an ) = 1 La implicacin rec o proca se demuestra aplicando la proposicin 5.17 repetidamente, o f (a1 , . . . , an ) = f (f (a1 , . . . , an1 ), an ) = 1 = an = f (a1 , . . . , an1 ) = 1 hasta llegar a demostrar que an = an1 = . . . = a1 = 1.
14 Cuando X es nito, la generacin de f (a, b) = min(a, b) sigue siendo la funcin min; en cambio, si X es o o innito, la generalizacin de la funcin m o o nimo es la funcin o nmo, del mismo modo que la generalizacin de o la funcin mximo es la funcin supremo. o a o 15 Existen tambin cuanticadores difusos como muchos, casi todos, casi ninguno, unos 15, mue chos ms de 100 que no vamos a tratar aqu El lector interesado puede consultar [35, sec. 8.4]. a .
5.2. Lgica de predicados o
123
Corolario 5.36 La proposicin x, P (x) es cierta si y slo si el predicado P (x) es cierto para o o todo x: x, P (x) v(x, P (x)) = 1 x, v(P (x)) = 1 (5.92) Corolario 5.37 La proposicin x, P (x) es falsa si y slo si el predicado P (x) es falso para o o todo x: (x, P (x)) v(x, P (x)) = 0 x, v(P (x)) = 0 (5.93) La negacin, conjuncin y disyuncin de predicados se denen a partir de las correspono o o dientes conectivas para proposiciones (ntese que en cada una de estas deniciones hay un o x impl cito, y que el signo = indica igualdad de proposiciones): [P ](x) = [P (x)] [P Q](x) = P (x) Q(x) [P Q](x) = P (x) Q(x) Proposicin 5.38 Para todo conjunto X nito (no vac se cumple que o o) (x, P (x)) x, P (x) (x, P (x)) x, P (x) (5.97) (5.98) (5.94) (5.95) (5.96)
Demostracin. Dado un conjunto de proposiciones, la 1a ley de Morgan generalizada para n o proposiciones (donde n es un entero positivo), (p1 . . . pn ) = p1 . . . pn , se prueba por induccin completa sobre n. Para n = 1 es trivial. Cuando, n = 2 es la ley de Morgan o ordinaria (cf. tabla 5.4); en la seccin 5.1.1 se explic cmo demostrarla. Si la ley generalizada o o o se cumple para n 1, entonces (p1 . . . pn ) = [(p1 . . . pn1 ) pn ] = (p1 . . . pn1 ) pn = (p1 . . . pn1 ) pn = p1 . . . pn Con este resultado, la equivalencia (5.97) se demuestra simplemente aplicando la denicin o de y . La demostracin de (5.98) es similar. Ntese que esta demostracin por induccin o o o o completa es correcta porque X es nito; para un conjunto innito no ser vlida. 2 a a Comparacin de predicados o Denicin 5.39 (Equivalencia de predicados) Dos predicados P y Q son equivalentes o (se representa mediante P Q) cuando las respectivas proposiciones asignadas a cada x son equivalentes: P Q [x, P (x) Q(x)] [x, v, v(P (x)) = v(Q(x))] (5.99)
Por ejemplo, para todo P y todo Q, tenemos que P Q Q P . En realidad, todas las propiedades de la tabla 5.4 siguen siendo vlidas si se sustituye cada proposicin (representada a o por una letra minscula) por un predicado (letra mayscula). u u Del mismo modo que podemos aplicar las conectivas de negacin, conjuncin y disyuncin o o o a unos predicados con el n de obtener nuevos predicados, podemos aplicar las conectivas de
124
implicacin y doble-implicacin a dos predicados, aunque con la diferencia muy importante o o de que en este caso no se obtienen nuevos predicados sino proposiciones: P Q [x, P (x) Q(x)] P Q [x, P (x) Q(x)] (5.100) (5.101)
Insistiendo en el punto anterior, recomendamos comparar estas dos ultimas deniciones con la (5.95) y la (5.96) para entender por qu P Q y P Q son proposiciones, mientras que e P , P Q y P Q son predicados. Cuando P y Q son predicados precisos, entonces P Q y P Q son proposiciones precisas (por la propiedad del l mite clsico), mientras que cuando P y Q son predicados ima precisos las proposiciones resultantes son imprecisas. Ntese la diferencia con la equivalencia o de predicados (ec. (5.99)), pues P Q es siempre una proposicin precisa, aunque P y Q o sean imprecisos. Otra diferencia muy importante es que la verdad o falsedad de P Q no depende de la funcin de verdad v (cf. ec. (5.99)), mientras que el grado de verdad de P Q o y P Q s depende de v. La relacin entre P Q y P Q es la siguiente: o Proposicin 5.40 Cuando es una equivalencia amplia, o P Q v, P Q Demostracin. Por la denicin de doble-implicacin amplia (tabla 5.2), o o o P Q x, v, v(P (x)) = v(Q(x)) v, x, P (x) Q(x) v, P Q 2 Propiedades de la lgica de predicados o Naturalmente, las propiedades de una lgica de predicados dependen de la lgica de proposio o ciones en que se basa. Por ejemplo, para la lgica de proposiciones clsica tenemos la lgica o a o de predicados clsica; si en la tabla 5.4 sustituimos cada proposicin p por un predicado P , la a o proposicin 1 por P 1 y 0 por P 0 , todas las propiedades excepto las de monoton o a-v, que no tendr sentido siguen siendo vlidas. En cambio, ninguna lgica multivaluada ni lgica an a o o difusa puede satisfacer todas esas propiedades, por los motivos discutidos en la seccin 5.1.3. o Ciindonos igualmente al mbito de la lgica clsica, a partir de las propiedades de la ne a o a implicacin de proposiciones (tabla 5.6, pg. 103) se deducen las propiedades de la implicacin o a o de predicados que aparecen en la tabla 5.15. Por ejemplo, la primera de ellas se demuestra as : P 1 P x, P 1 (x) P (x) [x, 1 P (x)] [x, P (x)] P (x)
xX
(5.102)
Por cierto, P 0 P y P P son tautolog porque son equivalentes a la proposicin as, o segura. Modicadores difusos para predicados Del mismo modo en que se aplican modicadores a proposiciones (sec. 5.1.3), es posible tambin aplicar modicadores ling e usticos a los predicados. Por ejemplo, al predicado Grande
5.2. Lgica de predicados o Neutralidad del predicado seguro Predominio del predicado imposible Identidad Intercambio Contraposicin o Monoton a-p en el 1er argumento Monoton a-p en el 2o argumento
125 P 1 P xX P (x) P0 P 1 P P 1 P (Q R) Q (P R) P Q Q P P Q = (Q R) (P R) P Q = (R P ) (R q)
Implicacin o
Tabla 5.15: Propiedades de la implicacin de predicados. o podemos aplicarle el modicador muy con el n de obtener el predicado Muy grande. A cada modicador mod le corresponde una funcin matemtica tal que o a v([mod P ](x)) = fmod (v(P (x))) (5.103)
Algunos de los modicadores difusos ms habituales y sus correspondientes funciones son: a v(Muy-P (x)) = v(P (x))2 v(Bastante-P (x)) = 2v(P (x))2 1 2[1 v(P (x))]2
1
si v(P (x)) 0 5 si v(P (x)) > 0 5
v(Ms-o-menos-P (x)) = v(P (x)) 2 a v(No-P (x)) = 1 v(P (x)) v(No-muy-P (x)) = [1 v(P (x))]2
5.2.2
Modus ponens para predicados
Hemos visto ya en las secciones 5.1.1 y 5.1.2 cmo se puede aplicar el modus ponens entre o proposiciones. En sta vamos a mostrar cmo aplicarlo en la lgica de predicados. El ejeme o o plo ms t a pico es el siguiente: de la regla todos los hombres son mortales y la armacin o Scrates es hombre se puede deducir que Scrates es mortal. Formalmente se representa o o as si P es el predicado Hombre y Q el predicado Mortal, la regla anterior puede expre: sarse mediante la proposicin P Q, que, tal como fue denida en la ecuacin (5.100), es o o equivalente a x, P (x) Q(x). La armacin Scrates es hombre se puede representar o o mediante P (Scrates), y la conclusin a la que queremos llegar es Q(Scrates) = Scrates es o o o o mortal. En este caso, como los predicados que intervienen son precisos (las proposiciones resultantes son totalmente verdaderas o totalmente falsas), podemos abordarlo desde la lgica clsica. o a Formalmente se representa as : P Q P (x0 ) Q(x0 ) o, si se preere,
126 x, P (x) Q(x) P (x0 ) Q(x0 )
La justicacin del razonamiento es la siguiente. Segn el corolario 5.36, cuando la propoo u sicin P Q es cierta, ha de ser cierta tambin cada una de las proposiciones P (x) Q(x); o e en particular, P (x0 ) Q(x0 ) ha de ser cierta, y teniendo en cuenta que tanto P (x0 ) como Q(x0 ) son proposiciones, podemos aplicar el modus ponens que vimos en la seccin 5.1.1: o P (x0 ) Q(x0 ) P (x0 ) Q(x0 ) En caso de que P y Q sean predicados imprecisos, debemos recurrir a alguna lgica o multivaluada o difusa. En este caso, tenemos que v(P Q) = v(x, P (x) Q(x)) = f v(P (x) Q(x))
xX
y, por la ecuacin (5.50), llegamos o
a16 Q(x)) min v(P (x) Q(x))

xX
f v(P (x) xX de donde se deduce que
v(P (x0 ) Q(x0 )) min v(P (x) Q(x)) = v(P Q)

xX
(5.104)
En caso de la lgica de Lukasiewicz, uniendo esta ultima ecuacin a la (5.23) y a la (5.24) o o tenemos que v(Q(x0 )) v(P (x0 )) + v(P (x0 ) Q(x0 )) 1 v(P (x0 )) + v(P Q) 1 = v(P (x0 )) [1 v(P Q)] (5.105) (5.106)
De nuevo se comprueba que v(P Q) 1 y v(P (x0 )) 1 implica que v(Q(x0 )) 1. Por ejemplo, supongamos que tenemos la regla Toda curva cerrada es peligrosa con un grado de verdad de 08 y la armacin La curva es cerrada con un grado de verdad de 07. o De aqu podemos deducir que el grado de verdad de la armacin La curva es peligrosa es, o al menos, 0 7 (1 0 8) = 0 5. Del mismo modo se podr estudiar el modus tollens para la lgica de Lukasiewicz, y a o ambos silogismos para la lgica de Kleene, pero no nos vamos a alargar ms en esta exposicin. o a o Tampoco nos vamos a detener a analizar el modus ponens con reglas como P (x) Q(y), porque esta regla no tiene cuanticadores y, por tanto, basta aplicar el modus ponens para proposiciones, tal como fue expuesto en la seccin 5.1.1. o Ntese que, en la exposicin que acabamos de hacer del modus ponens, el predicado P o o que aparece en la regla P Q ha de ser el mismo que el de la armacin P (x0 ). En caso de o tener una armacin P (x0 ) no podr o amos deducir nada, aunque el predicado P fuera casi igual a P . En la seccin 5.4.3 veremos cmo realizar inferencia imprecisa en este caso: es lo o o que se denomina modus ponens difuso.
Si X fuera innito deber amos tomar el nmo en vez del m nimo, pero la demostracin ser igualmente o a vlida. a
16
5.3. Teor de conjuntos a
127
5.3
5.3.1
Teor de conjuntos a
Conjuntos y predicados
Supongamos que tenemos un predicado preciso P que toma valores dentro de cierto conjunto nito X. Para ciertos elementos de X, la proposicin P (x) ser cierta es decir, v(P (x)) = o a 1, mientras que para otros ser falsa: v(P (x)) = 0. Por tanto, todo predicado dene un a subconjunto A de X, formado por aqullos elementos de X que cumplen la condicin impuesta e o por el predicado: A = {x X | P (x)} x A P (x) (5.107) Ejemplo 5.41 Sea el conjunto universal X500 = {x Z | 0 < x < 10500 } y el predicado Mltiplo de 7. Tenemos que v(Mltiplo-de-7(14))=1, mientras que v(Mltiplou u u de-7(9))=0. Es decir, x A Mltiplo-de-7(x), de modo que A = {0, 7, 14, 21, . . .}. u 2 Rec procamente, podemos denir el predicado PA , pertenece a A, que asigna a cada elemento x la proposicin x A: o PA (x) = x A (5.108)
Uniendo esta observacin a la anterior, concluimos que todo predicado induce un o subconjunto y todo subconjunto induce un predicado. Se cumple adems que a A = {x X | P (x)} x A P (x) PA P (5.109)
Cuando P es un predicado impreciso, las tres ecuaciones anteriores son vlidas, pero a entonces la proposicin x A puede tomar valores distintos de 0 y 1. Es decir, puede o haber algn elemento x que no pertenezca totalmente a A, aunque tampoco sea totalmente u cierto que no pertenezca. Se dice en este caso que el conjunto A, inducido por un predicado impreciso, es un conjunto difuso, en contraposicin a los conjuntos inducidos por predicados o 17 Por ejemplo, dado el predicado impreciso precisos, que se denominan conjuntos n tidos. mucho mayor que 10, el conjunto de los nmeros mucho mayores que 10 es un conjunto u difuso. Pertenece el nmero 60 a este conjunto? La respuesta no es ni un s rotundo ni un u no rotundo. Ciertamente, el nmero 60 pertenece ms que el 40 y menos que el 100, de modo u a que 0 < v(40 A) < v(60 A) < v(100) < 1. Volveremos sobre este punto al hablar del grado de pertenencia. o Proposicin 5.42 Dos predicados son equivalentes si y slo si denen el mismo subconjunto. o Demostracin. Para dos predicados cualesquiera P y Q, o P Q = P (x) Q(x) = {x X | P (x)} = {x X | Q(x)} (5.110)
Demostramos ahora la implicacin rec o proca. Sea A el conjunto denido por P ; de las ecuaciones (5.107) y (5.108) se deduce que P PA . Si Q dene el mismo conjunto A, entonces Q PA , y por tanto P Q. 2
Cuando se dice conjunto difuso puede entenderse en sentido restringido, como conjunto no n tido, o en sentido amplio, de modo que los conjuntos n tidos son un caso particular de los conjuntos difusos. Del contexto se deducir en cada caso el sentido utilizado. a
17
128
Esta proposicin es muy importante, pues nos asegura que para cada propiedad de la dobleo implicacin entre predicados existe una propiedad de igualdad entre conjuntos, y viceversa, o como veremos en las prximas secciones. o Proposicin 5.43 El predicado seguro dene el conjunto total, mientras que el predicado o imposible dene el conjunto vac o: PX P 1 P P
0
(5.111) (5.112)
5.3.2
Funciones caracter sticas
Funcin caracter o stica de un conjunto n tido Dada una funcin : X {0, 1}, algunos elementos de X tomarn el valor 1 mientras que o a otros tomarn el valor 0. Los primeros forman un subconjunto A: a A = {x X | (x) = 1} (5.113)
Ejemplo 5.44 Sea el conjunto universal X500 denido en el ejemplo 5.41 y la funcin o (x) = x mod 2 que asigna 1 a los nmeros impares y 0 a los nmeros pares. Por tanto u u A = {x X | x mod 2 = 1} = {1, 3, 5, 7, . . .} 2 Rec procamente, todo subconjunto n tido A dene una funcin A : X {0, 1}, denomio nada funcin caracter o stica, que toma el valor 1 para los elementos que pertenecen a A y 0 para los que no pertenecen: 1 si x A A (x) = (5.114) 0 si x A / es decir, A (x) = v(x A) El valor A (x) se denomina pertenencia del elemento x al conjunto A. Obviamente, X (x) = 1, x (x) = 0, x (5.116) (5.117) (5.115)
Es decir, toda funcin : X {0, 1} dene un subconjunto (n o tido) y todo subconjunto A induce una funcin A : X {0, 1}. o Uniendo esta armacin a los resultados de la seccin anterior, podemos concluir que o o Proposicin 5.45 Existe una relacin biun o o voca entre los subconjuntos n tidos de X, los predicados precisos denidos sobre X y
5.3. Teor de conjuntos a las funciones : X {0, 1}. 2 De las ecuaciones (5.107) y (5.115) se deduce inmediatamente que Proposicin 5.46 Para todo predicado P , o A = {x X | P (x)} x A P (x) PA P A (x) = v(P (x)) 2
129
(5.118)
Dicho de otro modo: si A viene denido por un predicado, la funcin caracter o stica A se obtiene a partir de los valores de verdad correspondientes. Tenemos, por tanto, cuatro formas equivalentes de caracterizar la relacin entre un predicado y el conjunto inducido por l. Este o e resultado es la piedra angular en que basaremos todos los desarrollos del resto del cap tulo. Ejemplo 5.47 Dado de nuevo el conjunto universal X500 , queremos denir el subconjunto A de los nmeros menores que 10. En este caso, el predicado es P =Menor que 10, que asigna u a cada x la proposicin x es menor que 10. Por tanto, o A = {x X | P (x)} = {x X | x < 10} La funcin caracter o stica correspondiente es A (x) = v(x < 10) de modo que A (x) = 1 0 si x < 10 si x 10
Ejercicio 5.48 Dibuje las funciones (x) y A (x) que aparecen en los dos ejemplos anteriores (para x 15). Funcin caracter o stica de un conjunto difuso Acabamos de ver que existe un isomorsmo entre los subconjuntos n tidos, los predicados precisos y las funciones : X {0, 1}, tal como indica la expresin (5.118). De modo o anlogo, si partimos de un subconjunto difuso A y aplicamos la ecuacin (5.115) dene una a o funcin A : X [0, 1]. Rec o procamente, toda funcin : X [0, 1] indica en qu medida o e cada elemento de X pertenece a A, v(x A) = (x) (5.119)
que es tanto como denir A. Por tanto, concluimos que para cada funcin : X [0, 1] o existe un subconjunto difuso de X, y viceversa. Uniendo este resultado a los de la seccin 5.3.1 o podemos concluir que Proposicin 5.49 Existe una relacin biun o o voca entre los subconjuntos difusos de X, los predicados imprecisos denidos sobre X y
130 las funciones : X [0, 1]. 2
Por las mismas razones, la expresin (5.118) sigue siendo vlida si en vez de tener conjuntos o a n tidos, predicados precisos y funciones : X {0, 1}, tenemos conjuntos difusos, predicados imprecisos y funciones : X [0, 1]. Por tanto, una forma posible de denir un conjunto difuso es dar su funcin caracter o stica. Tambin en la teor de conjuntos clsica era posible denir los conjuntos (n e a a tidos) mediante funciones caracter sticas, pero sta era una posibilidad que no se utilizaba en la prctica, pues e a casi siempre resulta ms fcil enunciar el predicado que dene un conjunto por ejemplo, a a A = {x X | Mltiplo-de-3(x)} o enumerar los elementos que lo componen en este u caso, A = {0, 3, 6, 9, . . .} que dar la funcin caracter o stica. Sin embargo, la forma ms a eciente de denir un conjunto estrictamente difuso consiste en dar su funcin caracter o stica, especialmente cuando X es un conjunto numrico y A (x) puede expresarse mediante una e funcin algebraica. o Ejemplo 5.50 Sea el conjunto universal formado por los nmeros reales (X = R); el conjunto u A de los nmeros prximos a 0 puede denirse as u o A (x) = 1 1 + x2
donde es un parmetro que puede ajustarse segn convenga (gura 5.1). 2 a u
1 0.8 0.6 0.4 0.2
-1.2
-1
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
1.2
Figura 5.1: Funcin caracter o stica del conjunto A de nmeros prximos a 0 (=50). u o Sin embargo, cuando X no es un conjunto numrico o no hemos encontrado una funcin e o numrica que exprese adecuadamente A , la denicin funcional de A es imposible. Lo que e o se hace en este caso es denir A indicando expl citamente el grado de pertenencia de cada x: A = A (x1 )|x1 + . . . + A (xn )|xn (5.120)
Naturalmente, esta forma de denir A slo es posible cuando X es un conjunto nito, o cuando o A (x) solamente es mayor que 0 para un subconjunto nito de X (que se suele denominar soporte de A, y es un conjunto n tido). Ejemplo 5.51 Sea de nuevo el conjunto universal X500 ; el conjunto A de los nmeros u prximos a 0 puede denirse mediante o A = 1|0 + 07|1 + 04|2 + 005|3 (5.121)
5.3. Teor de conjuntos a y se entiende que A (x) = 0 para x 4. 2
131
En otros casos es posible utilizar una escala numrica. Por ejemplo, sea un conjunto de e varones X = {Antonio, Juan, Luis, Roberto. . .}, y queremos determinar cul es el conjunto a A de las personas altas. Nuestro sentido comn nos dice que el grado de pertenencia a A u depende de la estatura: si Juan y Antonio miden lo mismo, A (Juan) = A (Antonio). Por tanto, dada una escala Y para medir la estatura (por ejemplo, en cent metros) y la funcin o fY (x) : X Y que a cada persona le asigna su estatura, podemos denir una funcin o A (y) : Y [0, 1], de modo que A (x) = A (fY (x)) (5.122) es decir, A = A fY . En nuestro ejemplo, la funcin A podr ser o a A (y) = 1 1+ e045(y175) (5.123)
de modo que si fY (Luis)=180, A (Luis)=A (180)=088, o dicho de otro modo, el grado de pertenencia de Luis al conjunto de personas altas es 088; si fY (Roberto)=190, A (Roberto) =A (190)=098; si fY (Antonio)=170, A (Antonio)=A (170)=012.
1 0.8 0.6 0.4 0.2 0 160
165
170
175
180
185
190
Figura 5.2: Funcin A (y): grado de pertenencia al conjunto A de personas altas, en funcin o o de la estatura en cent metros, y. Observe que

A (y) =
1 1+ e04(x175)
de modo que A no est normalizada en el sentido de la teor de la probabilidad (para ello, a a la integral anterior deber valer 1 en vez de innito). De hecho, en lgica difusa se utiliza un a o concepto diferente de normalizacin: o Denicin 5.52 (Conjunto normalizado) Un conjunto A est normalizado si y slo si o a o max A (x) = 1
xX
(5.124)
En estos dos ejemplos hemos construido A (x) y A (y) escogiendo dos de las funciones que ms se utilizan para este n (la primera, en forma de campana y, la segunda, una sigmoide), a ajustando los parmetros a ojo, es decir, por el mtodo de ensayo y error, hasta conseguir a e
132
que el resultado se ajustara a nuestra estimacin intuitiva de . Naturalmente, existen mtodos o e ms rigurosos para la construccin de funciones caracter a o sticas, tanto con la ayuda de uno o varios expertos como a partir de una base de datos, aunque en la mayor parte de las aplicaciones las funciones suelen construirse mediante estimaciones subjetivas de un experto humano, que en muchos casos es el propio diseador del sistema. Por eso no vamos a entrar n en la descripcin de tales mtodos, la mayor de los cuales tienen ms un inters acadmico o e a a e e que real; el lector interesado puede encontrarlos en [35, cap. 11] y [60, sec. 5.1].
5.3.3
Igualdad de conjuntos
La igualdad de dos conjuntos se dene mediante un criterio que indique si son iguales o no, es decir, que nos indique el grado de verdad de la proposicin A = B. o Denicin 5.53 (Igualdad de A y B: A = B) Dados dos conjuntos A Y B, o A = B PA PB (x, x A x B) donde es una doble-implicacin amplia.18 o De esta denicin se deduce que o v(A = B) = v(x, x A x B) = f v (x A x B)
xX
(5.125)
= f f (v(x A), v(x B))

xX
(5.126) (5.127)
= f f (A (x), B (x))
xX
Aplicando la proposicin 5.35 a las dos ultimas igualdades se obtienen respectivamente las o siguientes proposiciones: o Proposicin 5.54 Dos conjuntos son estrictamente iguales si y slo si cada x de X pertenece o con el mismo grado a A y a B: A = B [x, v(x A) = v(x B)] (5.128)
Proposicin 5.55 Dos conjuntos son estrictamente iguales si y slo si sus funciones caraco o ter sticas son iguales: A = B [x, A (x) = B (x)] (5.129) Ejemplo 5.56 Para el conjunto universal X500 , los conjuntos A y B denidos por las siguientes funciones, A (x) = x mod 2 B (x) = 0 1 B (x1) si x = 0 si x > 0
son el mismo subconjunto (A = B), porque ambas funciones asignan el mismo valor a cada x. Por cierto, se trata del subconjunto n tido de los nmeros impares. 2 u
En el ejemplo 5.59 veremos que el motivo de exigir una doble-implicacin amplia (en vez de permitir una o rigurosa) es mantener la propiedad reexiva de la igualdad.
18
133
Ntese que la propiedad (5.129) se deduce de la denicin (5.125), pero no a la inversa, o o porque la propiedad (5.129) no dice cul es el valor de verdad de A = B cuando A (x) = B (x) a para algn x. En cambio, la denicin (5.125) da lugar a la ecuacin (5.127), que permite u o o calcular v(A = B) en todos los casos. En la teor de conjuntos difusos estndar (a veces llamada impropiamente lgica difusa a a o estndar ), la igualdad entre conjuntos A = B se dene como una propiedad precisa, de modo a que dos conjuntos son iguales si y slo si sus funciones caracter o sticas son exactamente iguales v(A = B) = 1 0 si x, A (x) = B (x) en los dems casos a (5.130)
(Observe la semejanza de esta denicin con la ec. (5.129)). Por tanto, la proposicin A = B o o slo puede ser totalmente cierta o totalmente falsa, sin posibilidad de grados intermedios. o En cambio, nuestra denicin hace que A = B sea una proposicin imprecisa para conjuntos o o difusos. Volveremos sobre este punto en el ejemplo 5.59. Del mismo modo que dos funciones : [0, 1] iguales denen el mismo subconjunto, dos predicados equivalentes denen tambin el mismo subconjunto: e Proposicin 5.57 Dados dos predicados P y Q, y dos conjuntos A = {x X | P (x)} y o B = {x X | Q(x)}, P Q = A = B (5.131) Demostracin. o P Q v, x, v(P (x)) = v(Q(x)) v, x, v(x A) = v(x B) v, A = B 2 La propia demostracin nos dice que la proposicin inversa no es cierta, porque la verdad o o de A = B depende de cada v concreto, mientras que la equivalencia de predicados es independiente de v (cf. denicin. (5.99)). En cambio, la equivalencia P Q depende de v,19 o y ello nos permite enunciar la siguiente Proposicin 5.58 Dados dos predicados P y Q, y dos conjuntos A = {x X | P (x)} y o B = {x X | Q(x)}, P QA=B (5.132) Demostracin. Por la ecuacin (5.101), o o v(P Q) = v(x, P (x) Q(x)) = v(x, x A x B) = v(A = B) 2 La diferencia entre la denicin 5.125 y esta proposicin es que los predicados que aparecen o o en la denicin son Pertenece a A y Pertenece a B, mientras que los que aparecen en la o proposicin son dos predicados genricos, como Par y Mltiplo de 2. Lo que nos dice esta o e u proposicin es que predicados equivalentes denen el mismo conjunto. En este ejemplo, la o
Recordemos que otra diferencia importante es que P Q es siempre una proposicin precisa, aunque los o predicados sean imprecisos, mientras que la proposicin P Q es imprecisa. o
19
134
equivalencia entre los predicados Par y Mltiplo de 2 hace que el conjunto de los nmeros u u pares sea el mismo que el de los mltiplos de 2. u Las propiedades bsicas de la igualdad clsica vienen dadas por la tabla 5.16; naturala a mente, estas propiedades se pueden demostrar tanto a partir de la ecuacin (5.125) como a o partir de la 5.129. Reexiva Simtrica e Transitiva A=A A = B = B = A (A = B B = C) = A = C
Tabla 5.16: Propiedades de la igualdad de conjuntos.
Igualdad de conjuntos n tidos La lgica clsica se basa en una doble-implicacin amplia (cf. pg. 103); por tanto, en la o a o a teor de conjuntos clsica dos conjuntos son iguales si slo si sus funciones caracter a a o sticas son iguales. De hecho, para los conjuntos clsicos, A = B es una proposicin precisa. Cuando a o A = B, slo existen dos posibilidades para cada x: o A = B x, [A (x) = B (x) = 0 A (x) = B (x) = 1] Igualdad de conjuntos difusos Como hemos dicho ya, los conjuntos difusos se apoyan en la lgica difusa, del mismo modo o que los conjuntos n tidos se apoyan en la lgica clsica. Sin embargo, no existe una unica o a lgica difusa, sino distintas modalidades, que vienen dadas por las diferentes posibilidades de o elegir las funciones de negacin, conjuncin, disyuncin, implicacin y doble-implicacin. o o o o o Ejemplo 5.59 Sea X = {x1 , x2 , x3 , x4 } y los tres conjuntos A = 0 2|x1 + 0 3|x2 + 0 7|x3 + 0 96|x4 B = 0 2|x1 + 0 4|x2 + 0 7|x3 + 0 95|x4 C = 0 9|x1 + 0 8|x2 + 0 1|x3 + 0 05|x4 Se observa inmediatamente que, con la denicin de igualdad estndar, v(A=B) = v(A=C) = o a 0, a pesar de que A y B son casi iguales. 2 Sin embargo, esto va en contra del esp ritu de la lgica difusa, que se enorgullece de admitir o grados de verdad (distintos tonos de gris, como se suele decir) donde la lgica clsica slo ve o a o blanco o negro. Por eso nos parece ms adecuado tomar como denicin de igualdad la expresin 5.125, a o o la cual permite que el valor de verdad de A = B pueda ser, en principio, cualquier nmero u entre 0 y 1. Una peculiaridad de tal denicin es que este valor depende de la eleccin de f o o y f .
135
As en el ejemplo anterior, si tomamos la norma estndar y la doble-implicacin de , a o Lukasiewicz, v(A = A) = minx (1 |A (x) A (x)|) = 1 v(A = B) = minx (1 |A (x) B (x)|) = 0 9 v(A = C) = minx (1 |A (x) B (x)|) = 0 09 mientras que, con la norma del producto y la doble-implicacin de Lukasiewicz, o v(A = A) = prodx (1 |A (x) A (x)|) = 1 v(A = B) = prodx (1 |A (x) B (x)|) = 0 891 v(A = C) = prodx (1 |A (x) B (x)|) = 0 0054 Por cierto, si tomamos la norma estndar y la doble-implicacin de Kleene a o v(A = A) = minx {min[max(1 A (x), A (x)), max(1 A (x), A (x))]} = 0 6 < 1 Esta es la razn por la que en la denicin de igualdad de conjuntos se exige una dobleo o implicacin amplia, con el n de que se cumpla la propiedad reexiva, v(A = A) = 1, tambin o e para conjuntos difusos.
5.3.4
Inclusin de conjuntos o
La inclusin de un conjunto en otro se dene de modo anlogo a la igualdad: dando un criterio o a para hallar el grado de verdad de la proposicin A B. o Denicin 5.60 (Inclusin de A en B: A B) Dados dos conjuntos A y B, o o A B PA PB [x, x A x B] donde es una implicacin amplia. o De esta denicin se deduce que o v(A B) = v(x, x A x B) = v
xX
(5.133)
f (A (x), B (x)) (5.134) (5.135)
= f f (v(x A), v(x B))

xX
= f f (A (x), B (x))
xX
Por analog con la seccin anterior, podemos enunciar las siguientes proposiciones (omia o timos las demostraciones, porque son muy similares): Proposicin 5.61 El conjunto A est estrictamente incluido en B si y slo si cada x de X o a o pertenece con a A con igual o menor grado que a B: A B [x, v(x A) v(x B)] (5.136)
136
Proposicin 5.62 El conjunto A est estrictamente incluido en B si y slo si la funcin o a o o caracter stica del primero es menor que la del segundo para todo x: A B [x, A (x) B (x)] (5.137)
Proposicin 5.63 Dados dos predicados P y Q, y dos conjuntos A = {x X | P (x)} y o B = {x X | Q(x)}, P Q A B (5.138) La diferencia entre la denicin 5.60 (ec. (5.133)) y esta proposicin es que los predicados o o que aparecen en la denicin son Pertenece a A y Pertenece a B, mientras que los que o aparecen en la proposicin son dos predicados genricos. o e u Ejemplo 5.64 Todos los enteros no negativos mltiplos de cuatro son divisibles por 2. De la implicacin Mltiplo de 4Par se deduce la inclusin {x X | Mltiplo-de-4(x)} o u o u {x X | Par(x)},.tal como arma esta ultima proposicin. En efecto, {0, 4, 8, 12, . . .} o {0, 2, 4, 6, 8, . . .}. 2 Como en la seccin anterior, debemos sealar que la propiedad (5.137) se deduce de la o n denicin (5.133), pero no a la inversa. o En la teor de conjuntos difusos estndar, la inclusin de un conjunto en otro, A B, a a o se dene como una propiedad precisa, de modo que dos conjuntos son iguales si y slo si sus o funciones caracter sticas son exactamente iguales v(A = B) = 1 0 si x, A (x) B (x) en los dems casos a (5.139)
Por tanto, la proposicin A B slo puede ser totalmente cierta o totalmente falsa, sin o o posibilidad de grados intermedios. En cambio, la denicin (5.133) hace que A B sea una o proposicin imprecisa cuando los conjuntos son difusos. o Las propiedades principales de la inclusin se recogen en la tabla 5.17. o Reexiva Antisimtrica e Transitiva AA (A B B A) = A = B (A B B C) = A C
Tabla 5.17: Propiedades de la inclusin entre conjuntos. o
Inclusin para conjuntos n o tidos En la lgica clsica, A B es siempre una proposicin precisa. Cuando A B existen tres o a o posibilidades para cada x: A (x) = 0, B (x) = 0 (5.140) A (x) = 0, B (x) = 1 A (x) = 1, B (x) = 1 y se excluye la posibilidad de que {A (x) = 1, B (x) = 0}, porque no cumple la condicin o A (x) B (x).
5.3. Teor de conjuntos a Inclusin para conjuntos difusos o
137
En la lgica difusa estndar la inclusin entre conjuntos se dene mediante la ecuacin (5.139), o a o o lo cual conlleva el inconveniente de que la armacin A B slo puede ser totalmente cierta o o o totalmente falsa. Para los conjuntos del ejemplo 5.59, la denicin estndar de inclusin o a o conduce a v(A B) = v(C B) = 0, a pesar de que A casi est incluido en B, pues bastar a a que A (x4 ) valiera 095 en vez de 096 para que v(A B) = 1; incluso cuando A (x4 ) = 0 95, parece evidente que v(A B) deber ser mayor que v(C B). a Por eso resulta ms razonable tomar como denicin de igualdad la expresin 5.133, la a o o cual permite que el valor de verdad de A B pueda ser, en principio, cualquier nmero entre u 0 y 1. Naturalmente, el valor de v() de la eleccin de f y f . o Ejemplo 5.65 Para los conjuntos del ejemplo 5.59, tomando la conjuncin estndar y la o a implicacin de Lukasiewicz, o v(A A) = minx (min(1, 1 A (x) + A (x))) = 1 v(A B) = minx (min(1, 1 A (x) + B (x))) = 0 99 v(B A) = minx (min(1, 1 B (x) + A (x))) = 0 9 v(A C) = minx (min(1, 1 A (x) + C (x))) = 0 09 v(C A) = minx (min(1, 1 A (x) + C (x))) = 0 3 Si hubiramos aplicado la implicacin de Kleene tendr e o amos, segn la ecuacin (5.30), u o que v(A A) = minx max(1 a, a) = 0 7, mientras que lo deseable ser que ser que a a v(A A) = 1 para todo conjunto A. Por esta razn se exige en la denicin de inclusin de o o o conjuntos una implicacin amplia, con el n de preservar la propiedad reexiva. o
5.3.5
Composicin de conjuntos: complementario, unin e interseccin o o o
Teniendo en cuenta la proposicin 5.46, podemos denir el conjunto A (complementario de o A) de cuatro modos equivalentes: A = {x X | (x A)} x A (x A) PA = PA A (x) = f (A (x)) (5.141) (5.142) (5.143) (5.144)
El conjunto A B (interseccin de A y B) puede denirse tambin de cuatro modos o e equivalentes: A B = {x X | x A x B} x A B x A x B PAB = PA PB AB (x) = f (A (x), B (x)) (5.145) (5.146) (5.147) (5.148)
138 y anlogamente A B (unin de A y B): a o A B = {x X | x A x B} x A B x A x B PAB = PA PB AB (x) = f (A (x), B (x))
(5.149) (5.150) (5.151) (5.152)
La diferencia de conjuntos se dene a partir de las operaciones anteriores: A\B =AB Composicin de conjuntos clsicos o a o En el caso clsico, los valores de A (x), AB (x) y AB (x) en funcin de A (x) y B (x) a vienen dados por la tabla 5.18, que se deduce inmediatamente de la tabla 5.3 aplicando las ecuaciones (5.144), (5.148) y (5.152). A (x) 1 1 0 0 B (x) 1 0 1 0 A (x) 0 0 1 1 AB (x) 1 0 0 0 AB (x) 1 1 1 0 (5.153)
Tabla 5.18: Complementario, unin e interseccin de conjuntos clsicos. o o a Ejemplo 5.66 Sea de nuevo el conjunto universal X500 y A = {x | x < 10}, de modo que A (x) = 1 0 si x < 10 si x 10
La funcin caracter o stica de A puede obtenerse a partir de la ecuacin (5.144) y la funcin f o o denida en la tabla 5.3: 0 si x < 10 A (x) = 1 si x 10 Tambin se puede calcular A por la ecuacin (5.5): e o A = {x | (x < 10)} = {x | x 10} Si B = {x X | x es impar}, su funcin caracter o stica es B (x) = (x + 1) mod 2. Utilizando las mismas ecuaciones que para A, B (x) = 1 ((x + 1) mod 2) = x mod 2 B = {x | x no es impar} La interseccin y la unin de estos conjuntos vienen dadas por o o AB (x) = 1 0 si 1, 3, 5, 7 y 9 si 0, 2, 4, 6, 8, 10, 11, 12, 13 . . .
5.3. Teor de conjuntos a 1 0 si si 1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 13, 15, 17 . . . 0,10, 12, 14, 16, 18 . . .
139
AB (x) = 2
El complementario, la interseccin y la unin de conjuntos clsicos (n o o a tidos) cumplen las propiedades que aparecen en la tabla 5.19. Estas propiedades hacen que la teor clsica de a a conjuntos constituya un lgebra de Boole.20 Cada una de estas propiedades puede demostrarse a al menos de tres modos: por las deniciones (5.141), (5.145) y (5.149), por las propiedades de los predicados (tabla 5.4), por las propiedades de las funciones caracter sticas (tabla 5.3). Por ejemplo, la propiedad del elemento neutro de la interseccin puede demostrarse as o : por la ecuacin (5.145) o A X = {x X | x A x X} = {x X | x A} = A dado que los predicados que denen A, X y A X son, respectivamente PA , PX P 1 y PAX , aplicando la ecuacin (5.147) y la propiedad de predicados PA P 1 =PA (que o se deduce de la propiedad de proposiciones p 1 =p), se demuestra que PAX = PA ; de la ecuacin (5.148) se deduce que f (a, 1) = a tanto si a vale 1 como si vale 0; por o tanto, teniendo en cuenta que X (x) = v(x X) = 1, obtenemos que AX (x) = f (A (x), X (x)) = f (A (x), 1) = A (x). Y as pueden demostrarse una por una todas las propiedades. Composicin de conjuntos difusos o Ejemplo 5.67 Dados los conjuntos del ejemplo 5.59, aplicando las ecuaciones (5.144), (5.148) y (5.152) y las funciones de la lgica difusa estndar, obtenemos que para x1 , o a A (x1 ) = f (A (x1 )) = 1 0 2 = 0 8 BC (x1 ) = f (B (x1 ), C (x1 )) = min(0 2, 0 9) = 0 2 BC (x1 ) = f (B (x1 ), C (x1 )) = max(0 2, 0 9) = 0 9 Haciendo los mismos clculos para cada elemento de X llegamos a: a A = 0 8|x1 + 0 7|x2 + 0 3|x3 + 0 04|x4 B C = 0 2|x1 + 0 4|x2 + 0 1|x3 + 0 05|x4 B C = 0 9|x1 + 0 8|x2 + 0 7|x3 + 0 95|x4 Ejercicio 5.68 Con los mismos conjuntos del ejemplo 5.59, calcular C, A C y A C.
Las propiedades de monoton no forman parte de la denicin de lgebra de Boole, pero nos interesa a o a incluirlas todas en la misma tabla.
20
140 Involucin o Complementario de X Complementario de Monoton a Conmutativa Asociativa Elemento neutro Elemento absorbente Idempotencia Ley de contradiccin o Monoton a Conmutativa Asociativa Elemento neutro Elemento absorbente Idempotencia Tercio excluso Monoton a Distributiva de la interseccin o Distributiva de la unin o a ley de Morgan 1 2a ley de Morgan Absorcin de la interseccin o o Absorcin de la unin o o
Cap tulo 5. Lgica difusa o A=A X= =X A B = B A AB =BA A (B C) = (A B) C AX =A A = AA=A AA= A B = A C B C AB =BA A (B C) = (A B) C A=A AX =X AA=A AA=X A B = A C B C A (B C) = (A B) (A C) A (B C) = (A B) (A C) AB =AB AB =AB A (A B) = A A (A B) = A
Complementario
Interseccin o
Unin o
Propiedades combinadas
Tabla 5.19: Propiedades de la teor de conjuntos clsica. a a
5.3.6
Recapitulacin o
En las presentaciones de la lgica difusa es habitual denir el complementario, la interseccin o o y la unin de conjuntos a partir de las funciones complementario (c), interseccin (i) y unin o o o (u) que intervienen en las siguientes ecuaciones: A (x) = c(A (x)) AB (x) = i(A (x), B (x)) AB (x) = u(A (x), B (x)) para estudiar luego las propiedades que deben cumplir c, i y u. Nosotros, en cambio, hemos intentado mostrar que, si partimos de una lgica (es decir, de una denicin de f , f y f ), o o la funcin complementario coincide con la funcin negacin (c = f ), la interseccin con la o o o o conjuncin (i = f ) y la unin con la disyuncin (u = f ), estableciendo as el isomorsmo o o o entre la lgica y la teor de conjuntos. Esto nos ha permitido explicar por qu, si la lgica o a e o clsica forma un lgebra de Boole, tambin la teor de conjuntos clsica ha de ser un lgebra a a e a a a
5.4. Relaciones e inferencia
141
de Boole, pues cada propiedad de la primera da lugar a una propiedad de la segunda, y viceversa. De aqu se deduce tambin, a partir de los corolarios 5.13 y 5.23, que no es posible construir e una teor de conjuntos difusos que cumpla todas las propiedades de la teor de conjuntos a a clsica. a Por otro lado, el hecho de denir la igualdad de conjuntos a partir de la doble-equivalencia (mejor dicho, de cualquier doble-equivalencia amplia) y la inclusin a partir de cualquier o implicacin amplia nos ha llevado a que A = B y A B sean proposiciones imprecisas o cuando A y B son conjuntos difusos, en contra de lo que es habitual en la teor de conjuntos a difusos estndar. a
5.4
Relaciones e inferencia
En la seccin 5.2 hemos estudiado los predicados unitarios, que son aqullos que asignan a o e cada elemento x de X una proposicin. Ahora bien, puede darse el caso de que el conjunto o X venga dado por el producto cartesiano de varios conjuntos: X = X1 . . . Xn ,21 de modo que cada elemento x de X ser una n-tupla: x = (x1 , . . . , xn ). Adems de las propiedades que a a hemos visto para los predicados unitarios y para los subconjuntos (complementario, unin, o interseccin, etc., las cuales siguen siendo vlidas en este caso), existen otras propiedades o a espec cas, que vamos a estudiar en esta seccin. o
5.4.1
Predicados n-arios y relaciones
Cuando un predicado P est denido sobre un conjunto X = X1 . . . Xn , se dice que es a un predicado n-ario. En este caso, P () = P (x1 , . . . , xn ). Cuando n=1, tenemos predicados x unitarios, que son los que hemos estudiado en la seccin 5.2.1; para n=2, predicados binarios; o para n=3, predicados ternarios, etc. Al igual que ocurr con los predicados unitarios, todo a predicado n-ario puede ser preciso o difuso. Ejemplo 5.69 Dado el conjunto universal X = R2 , Mayor que es un predicado binario preciso, porque dado un par de nmeros reales (a, b), la proposicin Mayor-que(a, b)= a u o es mayor que b es siempre verdadera o falsa. En cambio, el predicado binario Mucho mayor que es impreciso, pues no se puede denir exactamente para cules de los pares (a, b) la a proposicin Mucho-mayor-que(a, b) es totalmente cierta y para cules es totalmente falsa. o a Ejemplo 5.70 Si C es un conjunto de ciudades, Cerca-de es un predicado binario impreciso denido sobre X = C 2 . Como ocurr en la seccin 5.3.2 cf. (ec. (5.122) el valor de a o verdad de la proposicin Cerca-de(a, b) puede venir dado por una funcin de la distancia o o entre ambas ciudades: v(Cerca-de(a, b)) = Cerca-de (distancia(a, b)) Del mismo modo, el predicado ternario Entre, tal que Entre(a, b, c)=a est entre b y c, a podr venir dado por una funcin del ngulo que forman sus argumentos: a o a v(Entre(a, b, c)) = Entre (bac)
El acento circunejo sobre X indica solamente que este conjunto es el resultado de un producto cartesiano. Ntese que en la denicin de este producto no se exige que los conjuntos sean distintos entre s Por ejemplo, o o . podr amos tener X = X X o X = X Y Z Y .
21
142
As tendr amos que v(Entre(Zaragoza, Madrid, Barcelona))=1 porque el ngulo Madrida o , mientras que v(Entre(Sevilla, Madrid, BarZaragoza-Barcelona vale aproximadamente 180 celona))=0 porque el ngulo que forman es muy pequeo. a n Del mismo modo que un predicado unitario aplicado a los elementos de X dene un subconjunto de X, todo predicado n-ario P aplicado a los elementos de X = X1 . . . Xn que en este caso recibe el nombre de relacin n-aria:22 dene un subconjunto R, R X, o R = { X | P ()} x R P () x x x (5.154)
Por eso hablaremos indistintamente del predicado Cerca de o de la relacin Cerca de, o segn nos convenga en cada caso. u Por otro lado, teniendo en cuenta que R es un subconjunto de X, a cada elemento x = (x1 , . . . , xn ) de X podemos asignarle un grado de pertenencia a R, de acuerdo con la ecuacin (5.115): o R () = v( R) = v(P ()) x x x (5.155)
Naturalmente, los predicados precisos denen relaciones clsicas (tambin llamadas a e relaciones n tidas), que son aqullas en las R () vale necesariamente 0 o 1, mientras que e x los predicados imprecisos denen relaciones difusas, en las que R () puede tomar x cualquier valor del intervalo [0, 1]. o Ejemplo 5.71 La relacin R denida por el predicado Mayor que: R = {(a, b) R2 | a > b} (a, b) R a > b es una relacin n o tida, pues de acuerdo con la ecuacin (5.154) el valor de verdad de la o proposicin (a, b) R, que es el mismo que el de la proposicin a > b, siempre va a ser o o 0 o 1. Es decir, todo par (a, b) o pertenece completamente a R como es el caso del par (4, 3) o no pertenece en absoluto a R, como ocurre con los pares (2, 5) y (7, 7). 2 Relacin de identidad o Dado un conjunto X, la relacin de identidad IX es una relacin binaria IX X X, que o o se dene as : IX = {(x, x) | x X} o, lo que es lo mismo, IX (x, x ) = 1 0 si x = x si x = x (5.157) (5.156)
Ntese que esta ecuacin no es ms que un caso particular de la ec. (5.107). Cuando n=1, tenemos un o o a subconjunto (como los que hemos estudiado en la sec. 5.3); por eso no se habla nunca de relaciones unitarias, sino de subconjuntos, y cuando decimos relaciones n-arias suponemos generalmente que n 2.
22
5.4. Relaciones e inferencia Relacin rec o proca de una relacin binaria o
143
Dada una relacin binaria R X Y , la relacin rec o o proca R1 Y X puede denirse de tres modos equivalentes: R1 = {(y, x) | (x, y) R} (y, x) R1 (x, y) R R1 (y, x) = R (x, y) (5.158) (5.159) (5.160)
Es decir, y est relacionado con x (mediante R1 ) si y slo si x est relacionado con y a o a (mediante R). Observe que en general R R1 = IX y R1 R = IY , como demuestra el siguiente contraejemplo. Sean X = {x1 , x2 }, Y = {y 1 , y 2 } y R = {(x1 , y 1 ), (x1 , y 2 )}. Se tiene entonces que R1 = {(y 1 , x1 ), (y 2 , x1 )} IX = {(x1 , x1 ), (x2 , x2 )} IY = {(y 1 , y 1 ), (y 2 , y 2 )} R R1 = {(x1 , x1 )} = IX R1 R = {(y 1 , y 1 ), (y 1 , y 2 ), (y 2 , y 1 ), (y 1 , y 2 )} = IY Por eso nos ha parecido ms adecuado llamar a R1 relacin rec a o proca, a pesar de que otros autores la denominan relacin inversa. o
5.4.2
Composicin de relaciones o
Dada una relacin (m + 1)-aria R1 X = X1 . . . Xm Y y una relacin (n + 1)o o = Y Z1 . . . Zn , podemos denir la relacin (m + n)-aria R1 R2 aria R2 Z o X1 . . . Xm Z1 . . . Zn de tres modos equivalentes: R1 R2 = {(x1 , . . . , xm , z1 , . . . , zn ) | y, x R1 z R2 } (x1 , . . . , xm , z1 , . . . , zn ) R1 R2 y, x R1 z R2 R1 R2 (x1 , . . . , xm , z1 , . . . , zn ) = f f (R1 (), R2 ()) x z
yY
(5.161) (5.162) (5.163)
Naturalmente, si R1 y R2 son relaciones n tidas, R1 R2 tambin lo ser; en este caso, e a las funciones f y f son las correspondientes a la lgica clsica. En cambio, si R1 y R2 o a son relaciones difusas, su composicin nos da una nueva relacin difusa, pero en este caso o o la relacin R1 R2 resultante depender de la norma y conorma escogidas para f y f . o a (Veremos dos ejemplos en seguida.) Ntese que la composicin de relaciones no es conmutativa. De hecho, la composicin o o o R2 R1 slo es posible si la variable Zn (la ultima de R2 ) es la misma que X1 (la primera de o R1 ). Aun as R2 R1 Y Z1 . . . Zn1 X2 . . . Xm Y , por lo que generalmente , no puede ser igual a R1 R2 X1 . . . Xm Z1 . . . Zn . Sin embargo, s se cumplen las propiedades asociativa (R1 R2 ) R3 = R1 (R2 R3 ) (5.164)
144 y de elemento neutro IX1 R = R IZn = R Se comprueba tambin fcilmente que e a

1 1 (R1 R2 )1 = R2 R1
(5.165)
(5.166)
Hay dos casos que nos interesan especialmente por su relacin con la inferencia: la como posicin de un subconjunto (relacin unitaria) con una relacin binaria, y la composicin de o o o o dos relaciones binarias. Los estudiamos a continuacin. o Composicin de dos relaciones binarias o Dadas dos relaciones binarias RXY X Y y RY Z Y Z, la relacin compuesta RXZ = o RXY RY Z X Z viene dada por RXZ = RXY RY Z = {(x, z) | y, (x, y) RXY (y, z) RY Z } o, lo que es lo mismo, RXZ (x, z) = RXZ RY Z (x, z) = f f (RXY (x, y), RY Z (y, z))
yY
(5.167)
(5.168)
La primera de estas dos ecuaciones (que no son ms una reescritura de la (5.161) y la (5.163), a respectivamente), nos dice que el valor x est relacionado con z si y slo si existe un y que a o sirve de puente entre ambos. La segunda nos dice lo mismo pero de otra forma: dado un x y un z, examinamos todos los caminos xyz (uno para cada y) y nos quedamos con el que establece la relacin ms fuerte entre x y z. Por eso la primera ecuacin es ms adecuada o a o a para relaciones n tidas, mientras que la segunda es ms adecuada para relaciones difusas. a ses Ejemplo 5.72 Sea X el conjunto de los continentes, Y el de los pa y Z el de los idiomas. Tenemos que (x, y) RXY si y slo si el pa y tiene (al menos parte de) su territorio en o s el continente x; por ejemplo (Europa, Espaa) RXY y (Africa, Espaa) RXY , mientras n n que (Asia, Espaa) RXY . Del mismo modo, (y, z) RY Z si y slo si el idioma z es n o ocial en el pa y; as (Espaa, gallego) RY Z , mientras que (Italia, esperanto) RY Z . s , n / La ecuacin (5.167) nos dice que (x, z) RXZ es decir, que el idioma z es ocial en el o continente x si y slo si existe un pa y del continente x que tiene z como idioma ocial. o s 2 Ejemplo 5.73 Sean los conjuntos X = {x1 , x2 , x3 , x4 }, Y = {y 1 , y 2 } y Z = {z 1 , z 2 , z 3 }, y las relaciones RXY y RY Z dadas por las siguientes matrices (el elemento de la i-sima la y e i , y j )): la j-sima columna de la matriz de RXY es el valor de R (x e 03 05 0 07 1 09 07 RXY = RY Z = 02 04 0 02 04 06 03 Tomando la t-norma min para la conjuncin y la conorma max para la disyuncin, la ecuao o cin (5.163) se traduce en o RXZ (x, z) = max min(RXY (x, y), RY Z (y, z))
yY
(5.169)
5.4. Relaciones e inferencia Por ejemplo,
145
RXZ (x1 , z 1 ) = max[min(RXY (x1 , y 1 ), RY Z (y 1 , z 1 )), min(RXY (x1 , y 2 ), RY Z (y 2 , z 1 ))] = max[min(0 3, 1), min(0 5, 0)] = max(0 3, 0) = 0 3 (Ntese la semejanza con la multiplicacin de matrices en espacios vectoriales.) Del mismo o o modo se calculan los dems valores, con lo que se llega a a RXZ = RXY RY Z = 03 0 02 06 05 07 04 03 1 09 07 0 02 04 = 03 0 02 06 03 02 02 06 04 04 04 06
Esta forma de composicin se denomina max-min. En cambio, si tomamos la norma prod o para la conjuncin y la conorma max para la disyuncin (composicin max-prod), que se suele o o o representar mediante ) tenemos RXZ (x, z) = max RXY (x, y) RY Z (y, z)
yY
(5.170)
y por tanto RXZ = RXY RY Z = 03 0 02 06 05 07 04 03 1 09 07 0 02 04 = 03 0 02 06 0 27 0 14 0 18 0 54 0 21 0 28 0 16 0 42
2 Composicin de un conjunto con una relacin binaria o o Dado un subconjunto A X, y una relacin binaria RXY X Y , la composicin de ambos o o nos da un conjunto B de Y : B = A RXY = {y | x, x A (x, y) RXY } o, lo que es lo mismo, B (y) = ARXY (y) = f f (A (x), RXY (x, y))
xX
(5.171)
(5.172)
(Estas dos ecuaciones son tan slo una reescritura de la (5.161) y la (5.163), respectivamente.) o Por tanto, la relacin RXY equivale a una funcin fXY que a cada conjunto A de X le o o asigna un conjunto B de Y , fXY (A) = A RXY = B (5.173) de modo que, partiendo de informacin sobre el dominio X, obtenemos informacin sobre el o o dominio Y .
146
Ejemplo 5.74 (Continuacin del ejemplo 5.72) Recordemos que X era el conjunto de contio nentes, Y el de pa y Z el de idiomas. Dados los conjuntos ses A = {Ocean X a} B = {Nueva Zelanda} Y y las relaciones denidas en el ejemplo 5.72, tenemos A RXY = {Australia, Nueva Zelanda, Papa Nueva Guinea, Fiji} Y u B RY Z = {ingls, maor Z e } A RY Z = {ingls, maor pidgin, jano, hindi} Z e , Estos resultados nos dicen que, si sabemos que una persona es originaria de Ocean podemos a, deducir que procede de Australia, Nueva Zelanda, Papa Nueva Guinea o Fiji, y que sus u idiomas ociales estn dentro del conjunto {ingls, maor pidgin, jano, hindi}. a e , Por tanto, las relaciones RXY y RXZ nos permiten obtener informacin sobre los pa (Y ) o ses y sobre los idiomas (Z), respectivamente, a partir de informacin sobre los continentes (X). o Comprobamos as cmo se puede utilizar una relacin RXY para realizar inferencias sobre o o Y a partir de informacin sobre X, del mismo modo que RY Z permite obtener informacin o o sobre los idiomas a partir de informacin sobre los pa o ses. Observe tambin que la relacin e o 1 rec proca RXY nos permite obtener para cada pa el continente o continentes en que tiene su s 1 1 territorio. Por ejemplo, {Espaa}RXY = {Europa, Africa}. Del mismo modo, {ingls}RY Z n e nos da el conjunto de los pa que tiene el ingls como lengua ocial. ses e o Ejemplo 5.75 (Continuacin del ejemplo 5.73) Dado el conjunto difuso A = 0 8|x1 +0 2|x2 + 0 1|x4 , tenemos que A RXY = 08 02 0 01 03 0 02 06 05 07 04 03 = 03 05
Es decir, fXY (A) = A RXY = 0 3|y 1 + 0 5|y 2 . Tenemos tambin que e A RXZ = A (RXY RY Z ) = 0 24 0 216 0 128
08 02 0 01
03 0 02 06
0 27 0 14 0 18 0 36
0 21 0 28 0 16 0 42
de modo que A RXZ = 0 24|z 1 + 0 216|z 2 + 0 128|z 3 . Observe que A RXZ = A (RXY RY Z ) = (A RXY ) RY Z . Es decir, si entendemos cada relacin R como una regla de o inferencia, da lo mismo componer primero RXY con RY Z para obtener la regla de inferencia RXZ que componer A con RXY para obtener un subconjunto A RXY que luego se combina con la regla RY Z .
147
5.4.3
Modus ponens difuso
En la seccin 5.2.2 mencionamos que nos interesar poder realizar una inferencia como o a P Q P (x0 ) Q (x0 ) de modo que cuando P est prximo a P la conclusin Q est prxima a Q. Por ejemplo, e o o e o dada la regla si la curva es cerrada es peligrosa y la armacin la curva es muy cerrada o nos interesar poder deducir que la curva es muy peligrosa, o al menos que la curva es a peligrosa. Con la misma regla y la armacin la curva es bastante cerrada nos gustar o a poder deducir que la curva es bastante peligrosa o alguna conclusin similar. o Tambin desear e amos poder aplicar el modus ponens para el caso siguiente: P (x) Q(y) P (x) Q (y) donde x X e y Y (tanto si X e Y son conjuntos distintos como si son el mismo conjunto). Una forma de abordar este problema consiste en considerar el isomorsmo entre predicados y conjuntos (que incluye como caso particular el isomorsmo entre predicados n-arios y relaciones). Si A, B, A y B son los conjuntos inducidos por P , Q, P y Q respectivamente, el silogismo anterior puede expresarse como23 xAyB xA yB Por tanto, nuestro problema inicial se ha reducido a convertir la regla P (x) Q(y) (o, lo que es lo mismo, la regla x A y B) en una relacin RAB X Y , pues entonces o podremos aplicar la composicin de relaciones, de modo que o B = A RAB (5.175)
Naturalmente, RAB ha de venir dada por A y B, y para ello suele utilizarse la implicacin, de la que ya hemos hablado ampliamente en la seccin 5.1: o o (x, y) RAB (x A) (y B) lo cual equivale a AB (x, y) = f (A (x), B (y)) (5.177) (5.176)
23 Para algunas de las propiedades que vamos a discutir ms adelante, conviene exigir la condicin de que a o el predicado P sea completamente cierto para algn x; esta condicin puede expresarse al menos de tres u o formas equivalentes: x, P (x) = 1 x, x A max A (x) = 1 (5.174) xX
En lgica difusa se dice que el conjunto A est normalizado (cf. denicin 5.52). o a o
148
(Hemos escrito AB en vez de RAB para simplicar la notacin.) En consecuencia, la o ecuacin (5.168) se convierte en o B (y) = f f (A (x), AB (x, y))
xX xX
(5.178) (5.179)
= f f (A (x), f (A (x), B (y)))
Ejemplo 5.76 Sean los conjuntos A = 0|x1 +0 4|x2 +0 8|x3 +1|x4 y B = 0 2|y 1 +0 7|y 2 +1|y 3 . Para cada una de las funciones de implicacin que aparecen en la tabla 5.14 (Lukasiewicz, o Kleene, Reichenbach, Zadeh, Gdel y Gaines-Rescher), la ecuacin (5.177) da lugar a las o o siguientes relaciones de implicacin: o 1 08 = 1 1 1 1 1 0 68 = 1 0 88 1 1 1 02 = 1 1 1 1 04 02 09 07 1 1 1 06 02 = 1 07 07 1 1 1 1 06 02 = 1 06 07 1 1 1 1 0 0 0 = 1 1 0 0 1 1 1 1 02 07 1 02 07 1
L RAB
K RAB
R RAB
G RAB
0 36 0 2 0 76 0 7 1 1 02 02 07 07 1 1
Z RAB
GR RAB
Sea ahora el conjunto A = 0|x1 + 0 3|x2 + 0 6|x3 + 1|x4 A. El conjunto B = A RAB depender de las funciones de conjuncin, disyuncin e implicacin seleccionadas, tal a o o o como indican la ecuacin (5.178) o la (5.179). Por ejemplo tomando la funcin min para la o o conjuncin y max para la disyuncin,24 tenemos que o o B (y) = max min(A (x), AB (x, y))
xX
lo que da lugar a B L = 0 4|y 1 + 0 7|y 2 + 1|y 3 B R = 0 36|y 1 + 0 7|y 2 + 1|y 3 B G = 0 2|y 1 + 0 7|y 2 + 1|y 3 2 Observe que en este ejemplo, a pesar de que A A, la unica relacin de implicacin o o que cumple la inclusin B B es la de Gaines-Rescher. Naturalmente, en vez de aplicar la o composicin max-min podr o amos haber escogido otro par conorma-norma (no necesariamente conjugadas) para cada funcin de implicacin, con el n de que se cumpliera que o o A A = B = (A RAB ) B
24
B K = 0 3|y 1 + 0 7|y 2 + 1|y 3 B Z = 0 3|y 1 + 0 7|y 2 + 1|y 3 B GR = 0|y 1 + 0 3|y 2 + 1|y 3
(5.180)
Una vez ms, si X fuera un conjunto innito deber a amos tomar el supremo en vez del mximo. a
149
Esta propiedad puede deducirse por la monoton de la funcin de implicacin a partir a o o de otra propiedad ms general: a A = A = B = (A RAB ) = B la cual se expresa de forma ms simple como a A RAB = B (5.181)
Proposicin 5.77 En la lgica clsica se cumple la propiedad (5.181) para todo conjunto A o o a no vac o. Demostracin. Sea B = A RAB . Por las ecuaciones (5.171) y (5.176) tenemos que o B = {y | x, x A (x, y) RAB } = {y | x, x A [(x A) (y B)]} Por un lado, y B = x, x A [(x A) (y B)] = y B lo cual prueba que B B. Por otro lado, si y B, la condicin [(x A) (y B)] se o cumple para todo x X (tanto si x A como si x A); como A no es un conjunto vac o, existe al menos un x0 tal que x0 A (con valor de verdad 1), se cumple que x0 A [(x0 A) (y B)], y por tanto y B , lo cual prueba que B B . 2 o Proposicin 5.78 Una implicacin (difusa) f tipo R cumple la propiedad (5.181) para todo o conjunto A normalizado, siempre que la conorma f de la funcin de composicin (ec. (5.179)) o o sea max y f sea la norma que gener f (ec. (5.79)). o Demostracin. Puesto que A est normalizado, existe un x0 X tal que A (x0 ) = 1; por o a tanto, B (y) f (A (x0 ), f (A (x0 ), B (y))) = f (1, B (y)) Como la funcin f es de tipo R, la ecuacin (5.81) nos dice que o o B (y) B (y) Por otro lado, de la denicin de f (ec. (5.79)) se deduce tambin que f (a, f (a, b)) b, o e lo cual implica que x, y, f (A (x), f (A (x), B (y))) B (y) y por tanto, B (y) = max f (A (x), f (A (x), B (y))) B (y)
xX
Uniendo estos dos resultados se demuestra que y, B (y) = B (y), y por tanto B = B. 2 Esta proposicin es importante por el motivo siguiente: la igualdad (5.181) es una de o las propiedades deseables para el modus ponens difuso. Ahora bien, como hemos visto en el ejemplo anterior, dicha propiedad no se cumple en general, a no ser que escojamos de forma cuidadosa y coordinada las tres funciones f , f y f que intervienen en la ecuacin (5.179), lo cual no es tarea fcil. La proposicin que acabamos de demostrar nos ofrece un o a o medio de realizar dicha eleccin: tomamos una norma cualquiera, la implicacin R generada o o por ella (ec. (5.79)) y la conorma max; de este modo tenemos garantizado que se cumple la propiedad buscada.
150
Otra forma de hacer que se cumpla esta propiedad consiste en construir una tabla que indique cul es el conjunto B = A RAB resultante cuando se toman distintas funciones a f , f y f ; ello nos permite escoger una combinacin tal que B = B. En el libro de Klir o y Yuan [35, sec. 11.3] se puede encontrar una tabla de este tipo para distintas funciones de implicacin y distintas normas, cuando la conorma es max/sup. o Tambin incluye dicho libro otra tabla que indica qu combinaciones de funciones cumplen e e la propiedad 1 B RAB = A (5.182) correspondiente al modus tollens, y una tercera tabla que indica las combinaciones que cumplen la propiedad RAB RBC = RAC (5.183) denominada silogismo hipottico, pues permite agrupar las reglas A B y B C en e una nueva regla A C, de modo que para todo A se cumpla que (A RAB ) RBC = A (RAB RBC ) = A RAC . Sin embargo, como reconocen los propios autores, an no hay criterios generales que u permitan escoger adecuadamente las funciones que intervienen en el modus ponens difuso a partir de las propiedades que se desean cumplir, por lo que ste es uno de los temas de e investigacin ms importantes que quedan abiertos en el campo de la lgica difusa. o a o
5.5
Como dijimos en la seccin 1.2, el nmero de art o u culos, libros, revistas y congresos dedicados a la lgica difusa es de varios millares. Dado el carcter introductorio de este texto, vamos o a a recomendar solamente cuatro libros, que pueden servir como punto de partida para una bsqueda bibliogrca ms extensa. El primero es el de Klir y Yuan [35], que, adems de ser u a a a muy claro y bien organizado, es realmente exhaustivo, pues cubre todos los aspectos de la lgica difusa e incluye ms de 1.800 referencias. El segundo es el de Timothy Ross [54], que, o a como el anterior, cubre todos los aspectos importantes de la lgica difusa; la diferencia es o que el de Klir y Yuan expone primero la teor y luego dedica un cap a tulo a cada uno de los campos de aplicacin, mientras que el segundo intercala la exposicin terica y los ejemplos o o o (aunque slo incluye aplicaciones en ingenier o a). El tercer libro que recomendamos es el de Trillas, Alsina y Terricabras [60], cuya mejor cualidad, a nuestro juicio, es que ofrece una interesante discusin de las implicaciones loscas de la lgica difusa (sazonada, por cierto, o o o con citas de Antonio Machado); a nuestro juicio, resulta ms dif de comprender que los a cil dos anteriores, a pesar de ser el unico de los cuatro que est escrito en castellano. Por ultimo, a como obra de referencia (no como material didctico), recomendamos el libro de Dubois, a Yager y Prade [20], que recopila un gran nmero art u culos originales sobre las diversas ramas de la lgica difusa y la teor de la posibilidad. o a
Bibliograf a
[1] J. B. Adams. Probabilistic reasoning and certainty factors. En: B. G. Buchanan y E. H. Shortlie (eds.), Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project, cap. 12, pgs. 263271. Addison-Wesley, Reading, MA, a 1984. [2] B. G. Buchanan y E. A. Feigenbaum. DENDRAL and Meta-DENDRAL: Their applications dimension. Articial Intelligence, 11:524, 1978. [3] B. G. Buchanan y E. H. Shortlie (eds.). Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project. Addison-Wesley, Reading, MA, 1984. [4] B. G. Buchanan, G. Sutherland y E. A. Feigenbaum. Heuristic DENDRAL: A program for generating explanatory hypotheses in organic chemistry. En: B. Meltzer y D. Michie (eds.), Machine Intelligence 4. Edinburgh University Press, Edinburgh, 1969. [5] R. Carnap. The two concepts of probability. En: Logical Foundations of Probability, pgs. 1951. University of Chicago Press, Chicago, 1950. a e [6] E. Castillo, J. M. Gutirrez y A. S. Hadi. Expert Systems and Probabilistic Network Models. Springer-Verlag, New York, 1997. Versin espaola: Sistemas Expertos y Modeo n los de Redes Probabil sticas, Academia de Ingenier Madrid, 1997. a, [7] E. Charniak. Bayesian Networks without tears. AI Magazine, 12:5063, 1991. [8] P. Cohen y M. Grinberg. A framework for heuristic reasoning about uncertainty. En: Proceedings of the 8th International Joint Conference on Articial Intelligence (IJCAI 83), pgs. 355357, Karlsruhe, Germany, 1983. a [9] P. Cohen y M. Grinberg. A theory of heuristic reasoning about uncertainty. AI Magazine, 4:1723, 1983. [10] R. G. Cowell, A. P. Dawid, S. L. Lauritzen y D. J. Spiegelhalter. Probabilistic Networks and Expert Systems. Springer-Verlag, New York, 1999. [11] R. Davis, B. G. Buchanan y E. H. Shortlie. Retrospective on Production rules as a representation for a knowledge-based consultation program. Articial Intelligence, 59:181189, 1993. [12] F. T. de Dombal, J. R. Leaper, J. R. Staniland, A. McCann y J. Horrocks. Computeraided diagnosis of acute abdominal pain. British Medical Journal, 2:913, 1972. 151
152
Bibliograf a
[13] F. J. D ez. Parameter adjustment in Bayes networks. The generalized noisy ORgate. En: Proceedings of the 9th Conference on Uncertainty in Articial Intelligence (UAI93), pgs. 99105, Washington D.C., 1993. Morgan Kaufmann, San Mateo, CA. a [14] F. J. D Sistema Experto Bayesiano para Ecocardiograf Tesis doctoral, Dpto. Inforez. a. mtica y Automtica, UNED, Madrid, Spain, 1994. a a ez. Local conditioning in Bayesian networks. Articial Intelligence, 87:120, [15] F. J. D 1996. [16] F. J. D ez. Aplicaciones de los modelos grcos probabilistas en medicina. En: J. A. a Gmez y J. M. Puerta (eds.), Sistemas Expertos Probabil a sticos, pgs. 239263. Univera sidad de Castilla-La Mancha, Cuenca, 1998. [17] J. Doyle. A truth maintenance system. Articial Intelligence, 12:231272, 1979. [18] M. J. Druzdzel. Probabilistic Reasoning in Decision Support Systems: From Computation to Common Sense. Tesis doctoral, Dept. Engineering and Public Policy, Carnegie Mellon University, 1993. [19] M. J. Druzdzel y H. A. Simon. Causality in Bayesian belief networks. En: Proceedings of the 9th Conference on Uncertainty in Articial Intelligence (UAI93), pgs. 311, a Washington D.C., 1993. Morgan Kaufmann, San Mateo, CA. [20] D. Dubois, R. R. Yager y H. Prade. Readings in Fuzzy Sets for Intelligent Systems. Morgan Kaufmann, San Mateo, CA, 1993. [21] R. O. Duda y P. E. Hart. Pattern Classication and Scene Analysis. John Wiley and Sons, New York, 1973. [22] J. A. Gmez y J. M. Puerta (eds.). Sistemas Expertos Probabil a sticos. Universidad de Castilla-La Mancha, Cuenca, 1998. [23] J. Gordon y E. H. Shortlie. The Dempster-Shafer theory of evidence. En: B. G. Buchanan y E. H. Shortlie (eds.), Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project, cap. 13, pgs. 272292. Addison-Wesley, a Reading, MA, 1984. [24] G. A. Gorry. Computer-assisted clinical decision making. Methods of Information in Medicine, 12:4551, 1973. [25] G. A. Gorry y G. O. Barnett. Experience with a model of sequential diagnosis. Computers and Biomedical Research, 1:490507, 1968. [26] D. Heckerman. Probabilistic interpretations for MYCINs certainty factors. En: L. N. Kanal y J. F. Lemmer (eds.), Uncertainty in Articial Intelligence, pgs. 167196. Elsea vier Science Publishers, Amsterdam, The Netherlands, 1986. [27] D. E. Heckerman. Probabilistic Similarity Networks. Tesis doctoral, Dept. Computer Science, Stanford University, STANCS901316, 1990. [28] D. E. Heckerman y E. J. Horvitz. On the expresiveness of rule-based systems for reasoning with uncertainty. En: Proceedings of the 6th National Conference on AI (AAAI87), pgs. 121126, Seattle, WA, 1987. a
Bibliograf a
153
[29] D. E. Heckerman y E. J. Horvitz. The myth of modularity in rule-based systems for reasoning with uncertainty. En: J. F. Lemmer y L. N. Kanal (eds.), Uncertainty in Articial Intelligence 2, pgs. 2334. Elsevier Science Publishers, Amsterdam, The Netherlands, a 1988. [30] M. Henrion. Some practical issues in constructing belief networks. En: L. N. Kanal, T. S. Levitt y J. F. Lemmer (eds.), Uncertainty in Articial Intelligence 3, pgs. 161 a 173. Elsevier Science Publishers, Amsterdam, The Netherlands, 1989. [31] F. V. Jensen. Bayesian Networks and Decision Graphs. Springer-Verlag, New York, 2001. [32] F. V. Jensen, K. G. Olesen y S. K. Andersen. An algebra of Bayesian belief universes for knowledge-based systems. Networks, 20:637660, 1990. [33] P. Juez Martel y F. J. D Vegas. Probabilidad y Estad ez stica en Medicina. Aplicaciones en la Prctica Cl a nica y en la Gestin Sanitaria. Ed. D de Santos, Madrid, 1996. o az [34] J. H. Kim. CONVINCE: A conversational inference consolidation engine. Tesis doctoral, Dept. Computer Science, University of California, Los Angeles, 1983. [35] G. J. Klir y B. Yuan. Fuzzy Sets and Fuzzy Logic. Theory and Applications. Prentice Hall, Upper Saddle River, NJ, 1995. [36] P. Krause y D. Clark. Representing Uncertain Knowledge. An Articial Intelligence Approach. Intellect Books, Oxford, UK, 1993. [37] P. Larraaga. Aprendizaje automtico de modelos grcos II. Aplicaciones a la clasin a a cacin supervisada. En: J. A. Gmez y J. M. Puerta (eds.), Sistemas Expertos Probao a bil sticos, pgs. 141160. Universidad de Castilla-La Mancha, Cuenca, 1998. a [38] J. McCarthy y P. Hayes. Some phylosophical problems from the standpoint of Articial Intelligence. En: B. Meltzer y D. Michie (eds.), Machine Intelligence 4, pgs. 463502. a Edinburgh University Press, Edinburgh, 1969. [39] W. S. McCulloch y W. H. Pitts. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5:115133, 1943. ez. a [40] J. Mira, A. E. Delgado, J. G. Boticario y F. J. D Aspectos Bsicos de la Inteligencia Articial. Sanz y Torres, Madrid, 1995. [41] R. E. Neapolitan. Probabilistic Reasoning in Expert Systems: Theory and Algorithms. Wiley-Interscience, New York, 1990. [42] A. Newell y H. A. Simon. Human Problem Solving. Prentice-Hall, Englewood Clis, NJ, 1972. [43] J. Pearl. Reverend Bayes on inference engines: A distributed hierarchical approach. En: Proceedings of the 2nd National Conference on AI (AAAI82), pgs. 133136, Pittsa burgh, Pennsylvania, 1982. [44] J. Pearl. Fusion, propagation and structuring in belief networks. Articial Intelligence, 29:241288, 1986.
154
Bibliograf a
[45] J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann, San Mateo, CA, 1988. Reimpreso con correcciones en 1991. [46] J. Pearl. From conditional oughts to qualitative decision theory. En: Proceedings of the 9th Conference on Uncertainty in Articial Intelligence (UAI93), pgs. 1220, Washinga ton D.C., 1993. Morgan Kaufmann, San Mateo, CA. [47] J. Pearl, D. Geiger y T. Verma. Conditional independence and its representations. Kybernetika, 25:3344, 1989. [48] J. Pearl y T. S. Verma. A statistical semantics for causation. Statistics and Computing, 2:9195, 1992. [49] M. A. Peot. Geometric implications of the Naive Bayes assumption. En: Proceedings of the 12th Conference on Uncertainty in Articial Intelligence (UAI94), pgs. 414419, a Seattle, WA, 1996. Morgan Kaufmann, San Francisco, CA. [50] M. A. Peot y R. D. Shachter. Fusion and propagation with multiple observations in belief networks. Articial Intelligence, 48:299318, 1991. [51] E. Post. Formal reductions of the general combinatorial problem. American Journal of Mathematics, 65:197268, 1943. [52] R. Reiter. A logic for default reasoning. Articial Intelligence, 13:81132, 1980. [53] A. Rosenblueth, N. Wiener y J. Bigelow. Behavior, purpose and teleology. Philosophy of Science, 10:1824, 1943. [54] T. J. Ross. Fuzzy Logic with Engineering Applications. McGraw-Hill, New York, 1995. [55] G. Shafer. Probability judgment in articial intelligence and expert systems. Statistical Science, 2:344, 1987. [56] G. Shafer y J. Pearl. Readings in Uncertain Reasoning. Morgan Kaufmann, San Mateo, CA, 1990. [57] E. H. Shortlie y B. G. Buchanan. A model of inexact reasoning in medicine. En: B. G. Buchanan y E. H. Shortlie (eds.), Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project, cap. 11, pgs. 233262. Addison-Wesley, a Reading, MA, 1984. [58] E. H. Shortlie, B. G. Buchanan y E. A. Feigenbaum. Knowledge engineering for medical decision making: A review of computer-based clinical decision aids. Proceedings of the IEEE, 67:12071224, 1979. [59] P. Szolovits y S. G. Pauker. Categorical and probabilistic reasoning in medicine. Articial Intelligence, 11:115144, 1978. [60] E. Trillas, C. Alsina y J. M. Terricabras. Introduccin a la Lgica Borrosa. Ariel, o o Barcelona, 1995. [61] W. van Melle. The structure of the MYCIN system. En: B. G. Buchanan y E. H. Shortlie (eds.), Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project, cap. 4, pgs. 6777. Addison-Wesley, Reading, MA, 1984. a
Bibliograf a
155
[62] W. van Melle, E. H. Shortlie y B. G. Buchanan. EMYCIN: A knowledge engineers tool for constructing rule-based expert systems. En: B. G. Buchanan y E. H. Shortlie (eds.), Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project, cap. 15, pgs. 302313. Addison-Wesley, Reading, MA, 1984. a [63] H. R. Warner, A. F. Toronto y L. G. Veasy. Experience with Bayes theorem for computer diagnosis of congenital heart disease. Annals of the New York Academy of Sciences, 115:558567, 1964. [64] M. P. Wellman. Fundamental concepts of qualitative probabilistic networks. Articial Intelligence, 44:257303, 1990. [65] M. P. Wellman. Graphical inference in qualitative probabilistic networks. Networks, 20:687701, 1990. [66] V. L. Yu, L. M. Fagan, S. M. Wraith, W. J. Clancey, A. C. Scott, J. F. Hannigan, R. L. Blum, B. G. Buchanan y S. N. Cohen. An evaluation of MYCINs advice. En: B. G. Buchanan y E. H. Shortlie (eds.), Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project, cap. 31, pgs. 589596. Addison-Wesley, a Reading, MA, 1984.

Razaprox

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Razaprox

Încărcat de

Drepturi de autor:

Formate disponibile

Introduccin al o

Razonamiento aproximado en Inteligencia Articial

1.2. Breve historia del tratamiento de la incertidumbre

Breve historia del tratamiento de la incertidumbre

Cap tulo 1. Razonamiento aproximado en Inteligencia Articial

1.2. Breve historia del tratamiento de la incertidumbre

Cap tulo 1. Razonamiento aproximado en Inteligencia Articial

1.3. Bibliograf recomendada a

Mtodo probabilista clsico e a

Deniciones bsicas sobre probabilidad a

Cap tulo 2. Mtodo probabilista clsico e a

2.1. Deniciones bsicas sobre probabilidad a

Cap tulo 2. Mtodo probabilista clsico e a

Demostracin. Aplicando las deniciones anteriores, o P ( | x) = y

Demostracin. Por la denicin de probabilidad marginal, o o P () = y

2.1. Deniciones bsicas sobre probabilidad a

Demostracin. Por la denicin de probabilidad condicional, o o P ( | z ) = y 1 P (, z ) y = P () z P () z P (, y , z ) x

P (xv |x1 ) P (x1 ) 2

(2.11) (2.12) (2.13)

Cap tulo 2. Mtodo probabilista clsico e a

Independencia, correlacin y causalidad o

2.2. Independencia, correlacin y causalidad o

Demostracin. Por la denicin de probabilidad marginal, o o

Cap tulo 2. Mtodo probabilista clsico e a

P (y1 , y2 , y3 , y4 , y5 | x) P (y2 | x) P (y3 | x) P (y5 | x)

El resultado de calcular los sumatorios da la unidad, pues P (y2 | x) P (y3 | x) P (y5 | x) =

P (y3 | x) P (y5 | x) P (y3 | x) P (y5 | x)

= P ( | x) P ( | x) y y y de aqu se deduce que P ( | x, y ) = y P (, y , y ) x P ( , y | x) y P ( | x) P ( | x) y y = = = P ( | x) y P (, y ) x P ( | x) y P ( | x) y

2.2. Independencia, correlacin y causalidad o

Representacin grca de dependencias e independencias o a

Figura 2.1: Dos variables independientes.

Cap tulo 2. Mtodo probabilista clsico e a

Figura 2.3: Dependencia causal entre un nodo padre y dos hijos.

Diferencia entre causalidad y correlacin o

2.2. Independencia, correlacin y causalidad o

Cap tulo 2. Mtodo probabilista clsico e a

2.3. Teorema de Bayes que P ( | y ) = x P () P ( | x) x y P ( ) P ( | x ) x y

P (, y | z ) = P ( | y , z ) P ( | z ) x x y Demostracin. Veamos primero que o P () = z

Teniendo en cuenta que por la denicin de probabilidad condicional P (, y , z ) = o x P ( | y , z ) P (, z ), llegamos a x y P (, y | z ) = x P ( | y , z ) P (, z ) x y P (, y , z ) x = = P ( | y , z ) P ( | z ) x y P () z P () z

Demostracin. Por la denicin de probabilidad condicional, o o P ( | y , z ) = x P (, y , z ) x P ( | x, z ) P (, z ) y x = P (, z ) y P (, z ) y (2.23)

Basta ahora aplicar la ecuacin (2.10) para concluir la demostracin. 2 o o

Cap tulo 2. Mtodo probabilista clsico e a

Aplicacin del teorema de Bayes o

030 040 025 005

025 035 030 010

020 050 010 020

2.3. Teorema de Bayes

24 Forma racional del teorema de Bayes

Cap tulo 2. Mtodo probabilista clsico e a

Razn de probabilidad de X a posteriori o RPpost (X) P (+x | y) P (+x | y) = P (x | y) 1 P (+x | y) (2.30)

Razn de verosimilitud para X dado y o RVX (y) P (y | + x) P (y | x) (2.31)

2.3. Teorema de Bayes

P (y a | + x) N (+x, y a )/N (+x) 0 1667 = = = 0 1902 a | x) a )/N (x) P (y N (x, y 0 8763

26 de modo que RPpost (X) = 0 0309 0 1902 = 0 0059 y P (+x | y a ) =

Cap tulo 2. Mtodo probabilista clsico e a

RPpost (X) 0 0059 = = 0 0058 1 + RPpost (X) 1 + 0 0059

2.4. Mtodo probabilista clsico e a

Figura 2.11: Valor predictivo negativo (prevalencia=01).

Mtodo probabilista clsico e a

Cap tulo 2. Mtodo probabilista clsico e a

P (d) P (h1 | d) . . . P (hm | d) P (d ) P (h1 | d ) . . . P (hm | d )

o, en forma normalizada P (d) = P (d) P (h1 | d) . . . P (hm | d) (2.43)

2.4. Mtodo probabilista clsico e a

d X (u1 ) d d s d X (u1 ) d d d (x) d d