Documente Academic
Documente Profesional
Documente Cultură
Estudios Telemticos
RECUPERACIN DE INFORMACIN:
UN REA DE INVESTIGACIN EN CRECIMIENTO
Information retrieval: A Growing Area of research
Fernando R. A. Bordignon
RESUMEN
A partir de la expansin y consolidacin de Internet, como medio principal
de comunicacin electrnica de datos, se ha puesto a disposicin de casi
toda la humanidad una importante cantidad de informacin de todo tipo. A los
efectos de aprovechar todo este potencial de informacin, es necesario
poseer accesos que permitan que la tarea de recuperacin sea efectiva y
eficiente en trminos de recursos invertidos por los usuarios. Este artculo
plantea cul es el objeto de estudio del rea denominada recuperacin de
informacin, en que estado se encuentra y cuales son sus principales lneas
de trabajo.
Palabras clave: Recuperacin de informacin, web, motores de
bsqueda
ABSTRACT
As a result of the expansion and consolidation of the Internet as the main
medium for the transmission of electronic data, a huge amount of information
of all kinds has become readily available to humanity. For the purpose of
exploiting this information potential it is necessary to have ways of access
that would make the information retrieval task both effective and efficient in
terms of user resources. This article describes the object of study of
"Information Retrieval", its state of the art and main lines of research.
Keywords: Information retrieval, web, search engines
53
Revista Electrnica de
Estudios Telemticos
54
Revista Electrnica de
Estudios Telemticos
55
Revista Electrnica de
Estudios Telemticos
LA PROBLEMTICA DE LA RI
Figura 1 La problemtica de la RI
56
Revista Electrnica de
Estudios Telemticos
Para cumplir con sus objetivos, un SRI debe realizar algunas tareas
bsicas, las cuales se encuentran fundamentalmente planteadas en
cuestiones computacionales, a saber:
-
57
Revista Electrnica de
Estudios Telemticos
58
Revista Electrnica de
Estudios Telemticos
http://www.altavista.com/
http://www.google.com/
59
Revista Electrnica de
Estudios Telemticos
60
Revista Electrnica de
Estudios Telemticos
61
Revista Electrnica de
Estudios Telemticos
En lenguaje natural
SELECT *
FROM Clientes
WHERE Localidad = Chivilcoy
AND Saldo_Cuenta > 10000
62
Revista Electrnica de
Estudios Telemticos
http://www.google.com/
http://www.altavista.com/
5
http://www.alltheweb.com/
4
63
Revista Electrnica de
Estudios Telemticos
6
7
http://www.dmoz.org/
http://www.googlealert.com/
64
Revista Electrnica de
Estudios Telemticos
65
Revista Electrnica de
Estudios Telemticos
MODELOS DE RI
Los SRI toman un conjunto de documentos (coleccin) para procesar y
luego poder responder consultas. De forma bsica, podemos clasificar los
documentos en estructurados y no estructurados. Los primeros son aquellos
en los que se pueden reconocer elementos estructurales con una semntica
bien definida, mientras que los segundos corresponden a texto libre, sin
formato. La diferencia fundamental de un SRI que procese documentos
estructurados se encuentra en que puede extraer informacin adicional al
contenido textual, la cual utiliza en la etapa de recuperacin para facilitar la
tarea y aumentar las prestaciones.
No estructurados
Modelo booleano
Modelo vectorial
Modelo probabilstico
Estructurados
Modelos basados en el
lgebra de regiones
Documentos
66
Revista Electrnica de
Estudios Telemticos
67
...
congreso
epidemiologa
...
Revista Electrnica de
Estudios Telemticos
d1
...
dn
Consulta
0.5
0.3
0.2
0.4
0.3
0.3
68
Revista Electrnica de
Estudios Telemticos
69
Revista Electrnica de
Estudios Telemticos
LA RI EN LA ERA DE LA WEB
Con la aparicin de la web surgieron nuevos desafos para resolver en el
rea de recuperacin de informacin como consecuencia principalmente
a sus caractersticas y tamao. La web puede ser vista como un gran
repositorio de informacin, completamente distribuido sobre Internet y
accesible por gran cantidad de usuarios. Por sus orgenes como un espacio
pblico existen millones de organizaciones y usuarios particulares que
incorporan, quitan modifican contenido continuamente, por lo que su
estructura no es esttica.
Su contenido no respeta estndares de calidad, ni estilos ni organizacin.
Como medio de publicacin de informacin de naturaleza diversa se ha
convertido en un servicio de permanente crecimiento. Una de las
caractersticas de la informacin publicada en la web es su dinamismo, dado
que pueden variar en el tiempo tanto los contenidos como su ubicacin
[BREWINGTON] [LAWRENCE].
El tamao de la web es imposible de medir exactamente y muy difcil
estimar. Sin embargo, se calcula que son decenas de terabytes
informacin, y crece permanentemente. Est formada por documentos
diferente naturaleza y formato, desde pginas HTML hasta archivos
imgenes pasando por gran cantidad de formatos estndar y propietarios,
solamente con contenido textual, sino tambin con contenido multimedial.
de
de
de
de
no
70
Revista Electrnica de
Estudios Telemticos
71
Revista Electrnica de
Estudios Telemticos
para cada uno de stos. Adems, hay que contemplar los diferentes
idiomas y diferentes alfabetos (por ejemplo, rabe chino).
b) Respecto de los usuarios
-
REFERENCIAS BIBLIOGRFICAS
72
Revista Electrnica de
Estudios Telemticos
73
Revista Electrnica de
Estudios Telemticos
[KISUH] Kisuh Ahn, Johan Bos, James R. Curran, Dave Kor, Malvina Nissim,
Bonnie Webber (2005): Question Answering with QED at TREC-2005.
In Voorhees and Buckland (eds.): The Fourteenth Text REtrieval
Conference, TREC 2005.
[KORFHAGE] Korfhage, R. R. (1997) Information Storage and Retrieval.
New York. Ed. Wiley Computer Publishing.
[LAWRENCE] Lawrence, S. y Giles, L. (1999) Accessibility and
Distribution of Information on the Web. Nature, 400(6740): 107-109.
1999.
[LI] Li, X. and Croft, W.B., (2005) Novelty Detection Based on Sentence
Level Patterns, En Proceedings of ACM Fourteenth Conference on
Information and Knowledge Management (CIKM), Bremen, Germany,
October, pp. 744-751
[LIU] Liu, X., Croft, W.B., Oh, P. and Hart, D., (2004) Automatic Recognition
of Reading Levels from User Queries, En Proceedings of SIGIR '04,
pp. 548-549.
[MAES] Maes, P. (1994). Agents that Reduce Work and Information
Overload. Communications of the ACM, 37(7): 30-40.
[MARTINEZ] Martnez Mndez, F. J. y Rodrguez Muoz, J. V. (2004)
Reflexiones sobre la Evaluacin de los Sistemas de Recuperacin
de Informacin: Necesidad, Utilidad y Viabilidad. Anales de
Documentacin, 7:153-170.
74
Revista Electrnica de
Estudios Telemticos
75
Revista Electrnica de
Estudios Telemticos
76