Sunteți pe pagina 1din 10

21/01/2010

BUSQUEDA Y RECUPERACIN DE INFO

Buscar
Anuncios Google
PDF to JPEG Combine PDF Files Recuperacion Discos Merge PDF Append PDF Pages

Direccin: Maria Pinto Molina


Inicio > Bsque da y R e cupe racin de Inform acin

BSQUEDA Y RECUPERACIN DE INFORMACIN


La recuperacin de informacin es el siguiente paso a la determinacin de las necesidades de inform acin. Se puede recuperar a travs de diferentes herram ientas: bases de datos, Internet, tesauros, ontologas, mapas... Conocer y manejar estas herramientas contribuye a una recuperacin de calidad.

Recuperacin de informacin Concepto de sistema de recuperacin de informacin Componentes esenciales Herramientas Bases de datos Internet Lenguajes de indizacin y control terminolgico ndices Palabras clave Tesauros Lenguajes de interrogacin y ecuaciones de bsqueda Ecuaciones simples Ecuaciones compuestas Operadores Navegacin versus Recuperacin de Informacin Concepto Diferencias Directorios versus Motores de bsqueda Metadatos Tcnicas de recuperacin de informacin Calidad de la recuperacin Habilidades y Competencias Dossier electrnico

Recuperacin de informacin El proceso de recuperacin se lleva a cabo mediante consultas a la base


mariapinto.es/e-coms/recu_infor.htm 1/10

21/01/2010

BUSQUEDA Y RECUPERACIN DE INFO

de datos donde se almacena la informacin estructurada, mediante un lenguaje de interrogacin adecuado. Es necesario tener en cuenta los elementos clave que permiten hacer la bsqueda, determinando un mayor grado de pertinencia y precisin, como son: los ndices, palabras clave, tesauros y los fenmenos que se pueden dar en el proceso como son el ruido y silencio documental. Uno de los problemas que surgen en la bsqueda de informacin es si lo que recuperamos es "mucho o poco" es decir, dependiendo del tipo de bsqueda se pueden recuperar multitud de documentos o simplemente un nmero muy reducido. A este fenmeno se denomina Silencio o Ruido documental. Silencio documental : Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de bsqueda ha sido demasiado especfica o que las palabras clave utilizadas no son las adecuadas para definir la bsqueda. Ruido documental : Son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la estrategia de bsqueda se ha definido demasiado genrica. Concepto de sistema de recuperacin de informacin Proceso donde se accede a una informacin previamente almacenada, mediante herramientas informticas que permiten establecer ecuaciones de bsqueda especficas. Dicha informacin ha debido de ser estructura previamente a su almacenamiento. Componentes esenciales Documentos estructurados. Es necesario establecer un proceso donde se establezcan herramientas de indizacin y control terminolgico. Bases de datos donde estn almacenados los documentos. Definir lenguajes de interrogacin y operadores que soportar la base de datos y, establecer que tipo de ecuaciones sern permitidas.

Herramientas Bases de datos Internet Revistas electrnicas Buscadores. Los buscadores son herramientas que permiten localizar y recuperar la informacin almacenada en internet. El funcionamiento es parecido a las bases de datos, almacenan las pginas con determinadas caractersticas (metadatos) y que posteriormente tras utilizar unas palabras clave emiten un listado de las ms relevantes. Buscadores generales Directorios. Los directorios son listas organizadas que nos permite acceder a la informacin de forma estructurada y jerrquica. Se clasifican en categoras y el usuario enlaza de lo
mariapinto.es/e-coms/recu_infor.htm 2/10

21/01/2010

BUSQUEDA Y RECUPERACIN DE INFO

ms general a lo ms especfico Recomendados para las bsquedas en las que el usuario no sabe mucho sobre el tema en concreto Directorio y motores especializados Metabuscadores. Son buscadores, con la cualidad de que no slo buscan en una nica base de datos, sino que al introducir los conceptos de bsqueda hace el barrido en distintas bases de datos, de esta forma la amplitud de resultados es mayor. Buscadores selectivos. Utilizan una base de datos especializada en una materia. Programa para buscar Agentes inteligentes Los agentes inteligentes son herramientas que permiten localizar informacin de forma automtica, slo necesita que se le definan un perfil de bsqueda y donde debe lanzarla (bases de datos, sitios web, etc.) y, automticamente va presentando un informe sobre la nueva informacin que va surgiendo. Lenguajes de indizacin y control terminolgico ndices . Listado de trminos normalizados que representan el contenido de un recurso. Algunos tipos son: ndice de materias: trminos ordenados segn las materias que trata la base de datos, el buscador, etc. ndice alfabtico: listado de trminos alfabticamente ndice KWIC: Tipo de ndice permutado en el que el contenido temtico de una obra se representa mediante palabras clave de su ttulo o de otra fuente de informacin del documento. ndice KWOC: Tipo de ndice permutado que vara en su presentacin respecto al ndice KWIC, en que las palabras clave aparecen como un encabezamiento en lnea separada. Bajo cada encabezamiento aparece la totalidad de los ttulos, completos o truncados, que contienen la palabra clave de que se trata. Palabras clave (Keywords). Trmino significativo en lenguaje natural que representa el contenido del documento. En la bsqueda de informacin esta opcin es esencial ya que nos permite acotar y precisar informacin. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadores. Por ejemplo si utilizamos la palabra flor en cualquier buscador podemos estar buscando, la floristera ms cercana, una imagen de flores o un estudio sobre
mariapinto.es/e-coms/recu_infor.htm 3/10

21/01/2010

BUSQUEDA Y RECUPERACIN DE INFO

las flores en las distintas estaciones del ao. Meta Keywords. La mayora de los buscadores utilizan para localizar los recursos, las palabras clave de cada pagina web. Por esta razn es esencial que cada pagina tenga una etiqueta donde se incluyan las palabras clave que la definen, tambin es importante la definicin exacta de cada una de ella pues es a partir de estas los buscadores localizan o no un recurso. Tesauros Es un listado terminolgico controlado sobre un rea o mbito de conocimiento que mantiene entre s relaciones semnticas y genricas. Su principal caracterstica es que los trminos estn ordenados jerrquicamente, permitiendo la precisin terminolgica en la bsqueda de informacin Componentes: Descriptores admitidos o preferentes : son aquellos trminos normalizados (donde han sufrido un proceso de expurgo denegando plurales, evitando sinnimos, etc.) que el tesauro los considera aptos para asignarlos a un documento y que posteriormente facilite la recuperacin Descriptores no admitidos : son aquellos que aun estando normalizados no se consideran adecuado para utilizarlos (suelen ser sinnimos, trminos no utilizados en el campo de actuacin, etc.) Relaciones: Jerrquicas : indican cuando un trmino es ms especfico que otro Asociativas : Indican que los trminos guardan alguna relacin Sinnimos : Indican que dos trminos son sinnimos y cual de ellos se utiliza como admitido Lenguajes de interrogacin y ecuaciones de bsqueda Lenguajes Cada sistema de recuperacin tiene su propio lenguaje de interrogacin, que es el que le permite "hablar" en el mismo lenguaje que la base de datos. Este lenguaje como cualquier otro tiene sus propia sintaxis que especifica las caractersticas especiales de la bsqueda determinando en cada momento la relacin que tienen los elementos de bsqueda. Las reglas gramaticales en el lenguaje de interrogacin son los operadores. Cmo plantear una estrategia de bsqueda No existen pautas que nos indiquen como hacer con exactitud todas las bsqueda debido a que cada consulta es distinta. Por eso es conveniente definir un procedimiento bsico de trabajo:
mariapinto.es/e-coms/recu_infor.htm 4/10

21/01/2010

BUSQUEDA Y RECUPERACIN DE INFO

Planteando el tema desde distintos puntos de vista Determinando que se sabe del tema Formulando nuestra bsqueda mediante: La seleccin de palabras clave que representen lo que busco (utilizar diccionarios, sinnimos, tesauros, ontologas, etc.) La traduccin de las palabras importantes a otros idiomas (ingls) Seleccionando las herramientas de bsqueda (ndices, motores, metabuscadores). Se recomienda usar distintas herramientas a la vez. Aplicando las palabras clave en las herramientas de bsqueda seleccionadas Ecuaciones simples Ecuaciones compuestas Operadores Lgicos o Bolanos: Permiten convertir las palabras de la consulta en conjuntos matemticos, y operar con las palabras como si fuesen conjuntos. Las operaciones bsicas son la suma (OR), la resta (NOT) y el producto (AND). Y lgico (AND) NO lgico (NOT) O lgico (OR) Posicionales: Permiten especificar la posicin de las palabras dentro del documento. Cerca (NEAR) Junto (ADJ) Frases Existencia: Indica cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados. Presencia / Ausencia Ausencia Exactitud: Este tipo de operador se utiliza cuando la consulta que se pretende es menos especfica ya que, permite la posibilidad de cortar una palabra de bsqueda a su raz. Proximidad Por campos CCL (Common Command Language) Permite restringir las bsquedas mediante calificadores -es decir, la bsqueda se puede llevar a cabo en campos especficos como Autor, ttulo, etc.- es muy utilizado en bases de datos. La caracterstica de este sistema es que puede mezclar los dos lenguajes, calificadores y operadores lgicos, obteniendo de esta forma una bsqueda muy exhaustiva.

Navegacin versus Recuperacin de Informacin


mariapinto.es/e-coms/recu_infor.htm 5/10

21/01/2010

BUSQUEDA Y RECUPERACIN DE INFO

Concepto La navegacin es el programa que permite consultar y obtener informacin mediante los sistemas hipertexto. Diferencias La diferencia esencial entre ambos conceptos, radica en la forma de obtener informacin; mientras que en la recuperacin de informacin se obtiene de forma lineal, la navegacin tiene la capacidad de obtener informacin a travs del hipertexto. Esto quiere decir que, la adquisicin de conocimiento se realiza paulatinamente y dependiendo del inters del usuario se profundiza a travs de los nodos de informacin en una materia u otra. Directorios versus Motores de bsqueda Motores de bsqueda Vs. Directorios La informacin se actualiza La informacin se actualiza mediante la mano humana que automticamente por la red. se da de alta en el directorio cuando crea un lugar web. No almacenan todos los Recogen toda la informacin contenidos web, solamente los almacenada en la pgina. campos ms relevantes como son el ttulo, las palabras clave, etc. Almacenan la informacin mediante una base de datos propia. La bsqueda se realiza en la base de datos mediante la ecuacin de bsqueda. Almacenan informacin mediante directorios, clasificados en categoras. La bsqueda se realiza jerrquicamente segn las categoras establecidas. La presentacin de los resultados La presentacin de los se lleva a cabo mediante un resultados se establece por listado de todos los documentos orden de relevancia segn correspondientes en la categora, unos criterios establecidos en sin ningn criterio de la ecuacin de bsqueda. presentacin. Apropiados para localizar Apropiados para localizar informacin general sobre un informacin especfica. tema.

Metadatos Los metadatos en la navegacin y recuperacin de informacin se utilizan para detectar informacin relevante de una forma rpida y eficaz. Las etiquetas describen el contenido del recurso web, que posteriormente utilizan las herramientas de bsqueda para localizar y acceder al recurso. Principalmente son las etiquetas de palabra clave y ttulo las que dan paso a localizar el documento.

Tcnicas de recuperacin de informacin


mariapinto.es/e-coms/recu_infor.htm 6/10

21/01/2010

BUSQUEDA Y RECUPERACIN DE INFO

Sistemas de recuperacin de lgica difusa Esta tcnica permite establecer consultas con frases normales, de forma que la mquina al realizar la bsqueda elimina signos de puntuacin, artculos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando slo aquellas palabras que el sistema considera relevantes. La recuperacin se basa en proposiciones lgicas con valores de verdadero y falso, teniendo en cuenta la localizacin de la palabra en el documento Tcnicas de ponderacin de trminos Es comn que unos criterios en la bsqueda tenga ms valor que otros, por tanto la ponderacin pretende darle un valor adecuado a la bsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en funcin del valor obtenido en la ponderacin. El valor depende de los trminos pertinentes que contenga el documento y la frecuencia con que se repita. De forma que, el documento ms pertinente de bsqueda sera aquel que tenga representado todos los trminos de bsqueda y adems el que ms valor tenga repetidos ms veces, independientemente de donde se localice en el documento. Tcnica de clustering Es un modelo probabilstico que permite las frecuencias de los trminos de bsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking. Algoritmos utilizados para realizar la categorizacin (cluster): Algoritmo K-means COBWEB Algoritmo EM Tcnicas de retroalimentacin por relevancia Esta tcnica pretende obtener el mayor nmero de documentos relevantes tras establecer varias estrategias de bsqueda. La idea es que, tras determinar unos criterios de bsqueda y observar los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados. Algoritmo Gentico: es el que se ha utilizado para llevar a cabo este tipo de tcnicas de recuperacin http://www.pmsi.fr/gainits.htm Tcnicas de stemming Morfolgicamente las palabras estn estructuradas en prefijos, sufijos y la raz. La tcnica de Stemming lo que pretende es eliminar las posibles confusiones semnticas que se puedan dar en la bsqueda de un concepto, para ello trunca la palabra y busca solo por la raz. Algoritmos utilizados para desechar prefijos y sufijos: Paice/Husk
mariapinto.es/e-coms/recu_infor.htm 7/10

21/01/2010

BUSQUEDA Y RECUPERACIN DE INFO

S-stemmer / n-gramas Tcnicas lingsticas Pretenden acotar de una manera eficaz los documentos relevantes. Por esta razn, esta tcnica lo consigue mediante una correcta indizacin en el proceso de tratamiento de los documentos con ayuda de ndices, tesauros, etc.; evitando las ambigedades lxicas y semnticas a la hora de establecer las consultas.

Calidad de la recuperacin A continuacin se presentan unos criterios bsicos para que la recuperacin llevada a cabo sea de calidad. Consistencia: Capacidad que tiene un sistema de bsqueda en coordinar su sistema de clasificacin con el lenguaje de bsqueda, permitiendo de esta manera establecer ecuaciones de bsqueda sobre trminos admitidos. Exhaustividad: Es la cualidad de un sistema de informacin para recuperar la totalidad de los documentos relevantes que posee una coleccin, conforme a los requerimientos establecidos en la estrategia de bsqueda. Tasa de acierto: coeficiente que surge de dividir el nmero de documentos relevantes recuperados, sobre el nmero total de documentos relevantes de la coleccin Relevancia: Caracterstica de un documento recuperado que cumple con la necesidades de informacin. Tasa de relevancia: coeficiente que surge de dividir el nmero de documentos relevantes recuperados, sobre el nmero total de documentos recuperados Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de informacin. Tasa de pertinencia: coeficiente que surge de dividir el nmero de documentos pertinentes recuperados, sobre el nmero total de documentos recuperados Precisin: es la capacidad que tiene el sistema de bsqueda en coordinar la ecuacin con los documentos ms relevantes. De otra forma son aquellos documentos relevantes recuperados. Tasa de precisin: coeficiente que surge de dividir el nmero de documentos relevantes recuperados, sobre el nmero total de documentos de la coleccin

Habilidades y competencias

Formulacin de un plan para la bsqueda de informacin: definiendo la materia o aspectos a buscar, utilizando un listado de palabras claves apropiadas, delimitando la bsqueda segn criterios cronolgicos, idiomticos.

Conocimiento de las fuentes potenciales y reales de informacin


mariapinto.es/e-coms/recu_infor.htm 8/10

21/01/2010

BUSQUEDA Y RECUPERACIN DE INFO

Habilidades para la localizacin de recursos impresos y electrnicos pertinentes en el contexto de la necesidad de informacin

Capacidad para seleccionar la herramienta de bsqueda ms apropiada y formular la estrategia ms adecuada.

Dominio de tcnicas avanzadas para la recuperacin de informacin en Internet, empleando motores, directorios de bsqueda, agentes inteligentes.

Habilidades para evaluar los resultados de la bsqueda, reflexionando sobre los aciertos, fallos y estrategias alternativas.

Determinar la ubicacin y acceso a la informacin, respetando los principios ticos y legales.

Dossier electrnico
Fecha de Creacin 15/10/2004

| Fecha de Actualizacin 13/02/2009 Inicio |Sobre e-COMS | Tutorial | Foro | Mapa web | Correo

mariapinto.es/e-coms/recu_infor.htm

9/10

21/01/2010

BUSQUEDA Y RECUPERACIN DE INFO

mariapinto.es/e-coms/recu_infor.htm

10/10

S-ar putea să vă placă și