Sunteți pe pagina 1din 11

Universidad Estatal a Distancia Escuela de Ciencias Exactas y Naturales Licenciatura en Ingeniera Informtica y Desarrollo de Aplicaciones Web

Tarea 1
Andrey Garbanzo Vargas Cd. N. 1-1091-0773

3083: Bases de Datos II Grupo 03 Prof: Percy Caipa Valdez Centro Interuniversitario de Alajuela. 09 de octubre de 2011

Tarea 1: Bases de Datos II


1. Introduccin.
Una de las partes de mayor variedad dentro de la obtencin de conocimiento a partir de bases de datos es la que corresponde a las tcnicas de mineras de datos, esto debido a muchas caractersticas que pueden influir a la hora de tomar la decisin, como el objetivo del proyecto, los tipos de variables que influyen en este, limpieza de los mismos, entre muchos otros que existen. Algunas de las tcnicas de minera de datos que hay estn la modelizacin estadstica paramtrica y no paramtrica, reglas de asociacin y dependencia, mtodos bayesianos, rboles de decisiones y sistemas de reglas, mtodos relacionales y estructurales, redes neuronales artificiales, mquinas de vectores soporte, algoritmos evolutivos y reglas difusas, mtodos basados en casos y en vecindad, entre muchos otros. Este trabajo se enfoca propiamente a la tcnica de mtodos relacionales y estructurales, que es una tcnica bastante expresiva y que maneja los datos de manera estructural, permitiendo obtener patrones de relaciones y recursivos. Otra caracterstica de este es que permite definir el conocimiento previo en forma de reglas. Es considerado como una de los modelos de mayor compresibilidad entre toda la variedad que existe. En este veremos una explicacin muy general de este tipo de tcnicas, as como sus distintas variantes. Tambin habla conclusiones y recomendaciones sobre los mismos.

Tarea 1: Bases de Datos II


2. Mtodos relacionales y estructurales
El objetivo de las tcnicas de minera de datos es extraer el conocimiento existente en una gran cantidad de datos. Los mtodos relacionales y estructurales es uno de estas tcnicas. Esta tcnica est basada en obtener el conocimiento almacenado por medio de procedimientos relacionales. Esta caracterstica le da la particularidad de ser ms potentes, expresivamente hablando, que otras tcnicas, ya que permite encontrar patrones muchos ms complejos que tcnicas estadsticas o rboles de decisiones. Lo que permite que esta tcnica sea ms poderosa para encontrar patrones ms sofisticados se debe a que, al contrario de otras tcnicas que se basan en una sola fuente de informacin (tabla), este permite explorar la relacin entre tablas o estructuras que hay en un mismo origen de datos. Como punto negativo se encuentra el hecho de que son mucho menos eficientes, con respecto a la velocidad, comparadas con otras tcnicas. Esta tcnica se usa comnmente en rea como la biologa o farmacia. Este trabajo mencionara fuertemente la tcnica de programacin lgica inductiva, pero tambin menciona otros tipos de tcnicas o algoritmos.

2.1.

Tipos de mtodos relacionales y estructurales

Alguno de los mtodos relacionales y estructurales que hay se encuentra: Programacin lgica inductiva (ILP por sus siglas en ingls). Aprendizaje basado en grafos. Modelos probabilsticos relacionales. Aproximaciones relacionales basadas en distancia. rboles de decisin relacionales. Reglas de asociacin relacionales. Induccin de programas lgico-funcionales.

Tarea 1: Bases de Datos II


2.2. Programacin lgico inductiva

Este tipo de programacin est basado en el paradigma lgico. Segn (Hernndez, Ramrez, & Ferri, Mtodos relacionales y estructurales, 2004), el mtodo ILP se define como la inferencia de una teora P (un programa lgico) desde una evidencia E. Para llegar a este punto se necesita una teora de conocimiento, que es otro programa lgico. Lo interesante del ILP es que es la va contraria la programacin lgica: mientras que este utiliza reglas para obtener y encontrar hechos, la ILP utiliza hechos para encontrar reglas, es decir, la programacin lgica es un proceso deductivo, mientras que la ILP es un proceso inductivo. El ILP se puede definir semnticamente de la siguiente forma: 1. 2. 3. 4. | |= : (necesidad a priori) : | (satisfacibilidad a priori)

(suficiencia a posteriori) | (satisfacibilidad a posteriorir)

2.2.1. -subsuncin
Uno de los mayores problemas del ILP es que pueden surgir muchas teoras a partir de los eventos o hechos analizados, de los cuales, muchos de esto pueden ser ms generales que otros, lo que puede provocar una verdadera confusin de cul es la teora que ms nos sirve para nuestro propsito final. La -subsuncin nos permite indicar si una regla es ms general que otra, y por lo tanto, considerarla como una regla ms confiable o que va a abarcar un mayor grupo de datos en una misma regla. Esto es importante a la hora de utilizar mtodos topdown o bottom-up para obtener las reglas.

2.2.2. Mtodo top-down


Este es una de los mtodos que se utiliza en la tcnica ILP. La idea es ir buscando las hiptesis o clusulas que cubran los ejemplos positivos de una forma

Tarea 1: Bases de Datos II


especializada, es decir, comenzando desde la clusula ms general y van buscando clusulas ms especficas que cubran lo esperado. Alguno de los sistemas que utilizan este mtodo son MIS, FOIL y FILP.

2.2.3. Mtodo bottom-up


Contrario al mtodo top-down, el mtodo bottom-up parte de las clusulas ms especficas para ir obteniendo las clusulas ms generales, buscando as todas las reglas posibles que cubran el problema. Algunos operadores clsicos de generalizacin de clusulas tenemos: Eliminacin de condiciones. Transformacin de constantes en variables. Transformacin de conjunciones en disyunciones.

Pero el ILP ha desarrollado sus propios operadores para llegar a este propsito. Los dos operadores ms importantes son los siguientes: Generalizacin menos general de dos clusulas (lgg por sus siglas en ingls): Este operador busca la generalizacin menos general que cubra dos clusulas, es decir, de las clusulas simples, se busca la que sea la ms especfica, pero que a la vez, sea general para ambas. Resolucin inversa: este operador lo que hace es invertir los pasos de resolucin. Los que hace es si se tiene una clusula y su resultado, se busca otra clusula que puede llegar a tener el mismo resultado. Lo interesante de este operador es que puede utilizar predicados que no existen en el grupo original de predicados, permitiendo que la bsqueda sea menos sesgada.

Tarea 1: Bases de Datos II


2.2.4. Bias inductivos en ILP
Un bias inductivo es cualquier informacin que influye en el aprendizaje inductivo desde ejemplos. Uno de los problemas de los ejemplos de aprendizaje es que puede llegar a ser muy ineficiente, en especial, en cuestin de tiempo. En ILP hay tres tipos de bias inductivos: Bias del lenguaje: busca que el algoritmo de induccin mejore por medio de la reduccin el espacio de la hiptesis. Alguno de los ejemplos de este tipo de bias es que los programas a aprender no sean recursivos, que sean programas normales. En este tipo de bias se define esquemas o plantillas de clusulas. La idea es que el ILP se base en estas plantillas para buscar las hiptesis que nos interesa, sin tener que ir a buscar otras que probablemente no los interesa o que provoca que el tiempo de aprendizaje sea mucho ms largo. Bias de bsqueda: Lo que hace este tipo de bias es reducir el espacio de bsqueda, explorando solo parcialmente todo el espacio disponible. En este tipo de bas se le puede indicar que condiciones debe analizar y cuales ignorar, as como cuales deben considerarse primero y cuales despus. Criterio de parada: este tipo de bas se basa en indicar parmetros o condiciones de paradas. Un criterio de parada puede ser la calidad de la hiptesis para aprender.

2.2.5. ILP y recursividad.


Muchas veces la recursividad es una herramienta que es muy til a la hora de que las hiptesis de aprendizajes sean muchos mejores, ya que pueden encontrar patrones que no se ven a primer nivel de datos de ejemplos. Sin embargo, para el ILP, este ha sido uno de los problemas por resolver ms grandes. Actualmente los ILPs pueden resolver sistemas recursivos sencillos, pero se quedan muy cortos a la hora de sistemas recursivos ms complejos.

Tarea 1: Bases de Datos II


2.3. Programacin lgico inductiva y minera de datos

Como muchos otros mtodos y tcnicas de minera de datos, el ILP se puede utilizar para dos propsitos, ya sea predictiva (para aprender la definicin de un predicado) o descriptiva, que nos permite aprender patrones generales.

2.3.1. Aproximacin directa


Este tipo de aproximacin utiliza tanto tcnicas predictivas como descriptivas trabajando directamente sobre la base de datos, aunque muchas veces es necesario un pre procesamiento inicial. Muchas veces se trabaja sobre bases de datos relacionales, cuyo primer paso es el de transformar los datos a un formato textual que entienda el ILP. Esto puede ser muy difcil ya que muchos lenguajes lgicos no utilizan tipificacin de variables, algo que si existe en los lenguajes relacionales. Cuando ya se tiene el sistema traducido, se dispone de especificar las tareas. Muchos sistemas solo pueden realizar una tarea a la vez. Si el propsito es predictivo, se debe indicar cul es el predicado principal. Si el propsito es descriptivo, se debe indicar el atributo o argumento clave.

2.3.2. Aproximacin mediante proposicionalizacin


Para muchos, el mtodo de minera de datos relacional es ms comn que el proposicional, pero para muchos, el proposicional es mucho ms til o efectivo que los relacionales. Lo que muchos sistemas hacen, es una combinacin de los dos. Basados en una base de datos relacional, se obtiene los datos necesarios y se transforman a un sistema proposicional (atributo-valor) y a partir de aqu se aplica algoritmos basados en este tipo de minera de datos. Cuando se obtienen los resultados, se transforman de nuevo a un mtodo relacional. Muchas veces esto es preferible ya que los mtodos proposicionales pueden ser mucho ms veloces o devolver valores numricos ms precisos que los relacionales.

Tarea 1: Bases de Datos II


2.4. Otros mtodos relacionales y estructurales

Existen otros mtodos, que aunque menos estudiados que el ILP, tambin son tiles para sistemas relacionales y estructurales.

2.4.1. Aprendizaje basado en grafos.


Hay muchas reas, como son la qumica por medio de molculas, o sistemas de transportes, donde la estructura de datos ms adecuada de ser analizada es por medio de grafos. La idea de este mtodo es el de representar las evidencias en forma de grafo. Teniendo la evidencia deseada transformada en una representacin de grafos, se dispone de encontrar el o los subgrafos que generalizan o que permita encontrar la hiptesis o el patrn deseado. Para encontrar el subgrafo patrn, se puede utilizar alguna de las siguientes tcnicas: Aproximacin basada en bsqueda voraz: buscan encontrar la solucin ptima en cada paso. Si en un paso se ve que la solucin ptima es mejor que la encontrada anteriormente, esta pasa a ser la nueva solucin ptima, en caso contrario, se deja la solucin ptima encontrada anteriormente. Aproximacin basada en ILP: Se puede utilizar ILP para este mtodo, ya que muchas veces uno puede representar los grafos en representacin de primer orden, as como tener conocimiento de base almacenado previamente para poder resolver problemas de forma ms rpida. Aproximacin basada en bases de datos inductivas: Simplemente se almacena los subgrafos encontrados en una base de datos inductivas para luego ser utilizados. Aproximacin basada en la teora de grafos: Bsicamente lo que se pretende con este tipo de aproximacin es el de iniciar con grafos comunes, iniciando con alguno que tenga solo un vrtice, y luego ir aumentando los vrtices, para ir encontrando los patrones requeridos.

Tarea 1: Bases de Datos II


Aproximacin basada en funciones de ncleo: Ms que trabajar sobre el grafo en s, realmente este utiliza la informacin de los enlaces y de los vrtices, para encontrar un origen en comn (ncleo) entre los distintos grafos a analizar.

2.4.2. Modelos probabilsticos relacionales


Este modelo es una extensin de las redes bayesianas, que en lugar de utilizar el lenguaje de Horn para este propsito, utiliza el lenguaje relacional para su utilizacin. Lo que hace es que van asignando probabilidades de que una relacin ocurre, y despus, utilizando los valores de entradas, permite clasificar o describir las relaciones ms comunes existentes.

2.4.3. Aproximaciones relacionales basadas en distancia


Este mtodo va analizando los predicados de ejemplos que se tienen y luego se va estudiando la distancia a distintos niveles, donde el nivel inicial o cero son los predicados originales, luego el nivel 1 son los predicados relacionados directamente con los predicados del nivel cero y as va sucesivamente hasta llegar a las relaciones ms profundas.

2.4.4. rboles de decisin relacionales


Son similares a los rboles de decisin proposicionales, pero cambiando el sistema de valor/atributo con el de expresiones de un lenguaje relacional.

2.4.5. Reglas de asociacin relacional


La idea de este tipo de mtodo es la de buscar patrones recurrentes en grandes colecciones de datos, en donde se puede deducir cierto comportamiento a partir de eventos pre-existentes. Un ejemplo de esto es cuando una persona normalmente puede llegar a una gasolinera, y pide que revisen el aceite al carro, normalmente compran algn recipiente de aceite tambin. Se puede definir que este modelo lo que busca son patrones de cause-efecto.

Tarea 1: Bases de Datos II


3. Conclusiones
Los mtodos relacionales y estructurales son ms tiles para problemas donde existe una gran variedad de estructuras y relacin entre ellas, como anlisis de molculas. El mtodo de programacin lgica inductiva es el mtodo ms estudiado y utilizado dentro de todo el conjunto de mtodos. Normalmente se utiliza alguna regla o dato para permitir definir cuando una hiptesis es la que se busca o no. Esta regla busca encontrar la generalizacin de las mismas y es llamada con el nombre de -subsuncin Hay dos formas de utilizar el ILP: el top-down y el bottom-up. Varios mtodos muchas veces utilizan la combinacin de dos o ms metodologas para encontrar una solucin al problema, explotando de mejor forma las caractersticas de cada una El ILP tiene actualmente serios problemas a la hora de considerar recursividad entre estructuras y relaciones. La gran mayora de estos mtodos se basan en paradigmas lgicos, explotando fuertemente las caractersticas de este paradigma.

4. Recomendaciones
Se recomienda utilizar este mtodo cuando los datos a analizar estn fuertemente relacionados y divididos en distintas estructuras. La utilizacin de distintos mtodos puede generar en mejores resultados y encontrar y considerar resultados que un mtodo probablemente ignorara. La utilizacin de bases de datos inductivas puede ser muy til para acelerar el proceso de bsqueda o aprendizaje de un problema. Sera muy utilizando utilizar otros tipos de paradigmas para estructuras relacionales. En mi caso recalcara mucho el paradigma funcional, que puede analizar un gran grupo de evidencia, y que tiene una gran potencialidad en la parte de recursividad.

10

Tarea 1: Bases de Datos II


5. Bibliografa
(2004). El problema de la extraccin de patrones. En J. Hernndez, M. J. Ramrez, & C. Ferri, Introduccin a la Mineria de Datos (pgs. 137-163). Madrid: Pearson Educacin, S.A. (2004). Mtodos relacionales y estructurales. En J. Hernndez, M. J. Ramrez, & C. Ferri, Introduccin a la Minera de Datos (pgs. 301-326). Madrid: Pearson Educacin, S.A. Wikipedia. (18 de Julio de 2001). Algoritmo voraz. Recuperado el 9 de Octubre de 2011, de Wikipedia en Espaol: http://es.wikipedia.org/wiki/Algoritmo_voraz

11

S-ar putea să vă placă și