Sunteți pe pagina 1din 13

ESTUDIO Y EVALUACIN DE LOS SISTEMAS DE

RECUPERACIN DE INFORMACIN
Nora La Serna
RESUMEN
El trabajo que se presenta en este artculo se desarrolla en la lnea de los Sistemas de
Recuperacin de Informacin (SRI). Bsicamente se han realiado las si!uientes
acti"idades# $) un estudio detallado de las principales t%cnicas& modelos ' arquitecturas& as
como de los criterios de e"aluacin de %stos sistemas( )) El estudio tambi%n ha lle"ado a un
anlisis de las t%cnicas de inde*acin necesarios para el almacenamiento de los
documentos( +) I!ualmente& el trabajo ha permitido la seleccin de cuatro aplicaciones de
SRI para su anlisis ' e"aluacin# ,-R.-/0-& SIS-& 123-I/ ' S3-R0. El trabajo se
desarrolla en el marco del pro'ecto de in"esti!acin 4Sistema de Recuperacin de
Informacin5& cu'o objeti"o es dise6ar un SRI para la Biblioteca de la 7acultad de
In!eniera de Sistemas e Informtica& ' posteriormente para la Biblioteca 8entral de la
9ni"ersidad /acional 3a'or de San 3arcos.
Palabras claves# Sistemas de Recuperacin de Informacin& 3odelo Booleano& 3odelo del
Espacio :ectorial& Buscadores ;EB& E"aluacin de los SRI.
1. Inro!"cc#$n
<os Sistemas de Recuperacin de Informacin (SRI) permiten el almacenamiento ptimo de
!randes "ol=menes de informacin (principalmente documentos& =ltimamente tambi%n
informacin multimedia)& ' la recuperacin eficiente de la informacin ante las consultas de
los usuarios. Este campo no es nue"o pues ha ido e"olucionando desde la decada de los a6os
>?& cuando el objeti"o era manejar informacin biblio!rfica. 8on el a"ance de la tecnolo!a&
computadores ms potentes ' soft@are ms eficientes& el almacenamiento de !randes
"olumenes de informacin se esta dando en todas las disciplinas del quehacer humano.
Internet& la red de redes& tambien alber!a en sus computadores ser"idoras millones de
documentos.
.or lo tanto& 8mo recuperar& en forma eficiente& documentos almacenados en forma di!ital
que una persona necesita ' solicita& es un tema no slo de inter%s e importancia para la
comunidad educati"a (docentes& alumnos e in"esti!adores)& sino tambi%n para el sector
empresarial& !obierno ' p=blico en !eneral que necesita buscar informacin. 3=ltiples
aplicaciones prcticas se estan dando& al!unos de los ms conocidos son los buscadores @eb '
bibliotecas di!itales.
El presente trabajo tiene dos objeti"os principales# $) Realiar un estudio detallado de las
principales t%cnicas& modelos ' arquitecturas& as como de los criterios de e"aluacin de los
Sistemas de Recuperacin de Informacin( )) Realiar un anlisis ' e"aluacin de cuatro
aplicaciones de SRI que sobresalen en el medio. El resultado de los estudios que se realicen
permitirn dise6ar un Sistema de Recuperacin de Informacin para la Biblioteca de la
7acultad de In!eniera de Sistemas e Informtica& ' posteriormente para la Biblioteca 8entral
de la 9ni"ersidad /acional 3a'or de San 3arcos.
<a estructura del presente artculo es la si!uiente# En la seccin ) se dan las definiciones ms
destacadas de los Sistemas de Recuperacin de Informacin& en las secciones + ' A se
describen los dos modelos ms utiliados en el dise6o de los SRI# $) El 3odelo Booleano& '
)) El 3odelo del Espacio :ectorial. En la seccin > se presentan las principales t%cnicas de
los SRI en la ;EB& la seccin B corresponde a la E"aluacin de los SRI& en la C se hace un
anlisis de los resultados& ' finalmente en la seccin D se bosquejan las conclusiones '
trabajos futuros.
%. De&#n#c#ones !e S#se'as !e Rec"(erac#$n !e In&or'ac#$n
1esde el punto de "ista de un Sistema de Informacin podemos definir estos Sistemas como
el conjunto de componentes (soft@are& hard@are& personas& procedimientos& datos& '
comunicaciones) que interact=an& ' cu'os objeti"os son el almacenamiento ptimo de !randes
"ol=menes de informacin (principalmente documentos& =ltimamente tambi%n informacin
multimedia)& ' la recuperacin eficiente de informacin ante las consultas de los usuarios.
:arias definiciones de los SRI se han dado desde su formaliacin en los a6os $E>?&
especialmente marcados por el a"ance de
la tecnolo!a a tra"%s del tiempo& ' tambi%n desde
los puntos de "ista de los autores. 0eniendo en
cuenta que es multidisciplinaria& en donde
inter"ienen para su dise6o !eneralmente la
Bibliotecolo!a& la <in!Fstica& ' 8iencias de la
8omputacin e Informtica& 9n resumen
importante de las diferentes definiciones lo encontramos en G3artne 3. 7rancisco )???H.
-qu presentamos al!unas de las definiciones ms destacadas.
1os de los autores ms citados por los especialistas en la materia son Ierard Salton ' Ricardo
BaeaJKates. Este =ltimo autor& "erdadera referencia en este campo (donde ha "enido
preocupndose especialmente del tema de las estructuras de datos ' de los m%todos de acceso
a los mismos)& a la hora de definir la recuperacin de informacin& en lu!ar de proponer una
definicin propia& hace uso de la elaborada por Salton# 4la recuperacin de la informacin
tiene que ver con la representacin, almacenamiento, organizacin y acceso a los tem de
informacin5 GSalton& $ED+H.
Salton indica que& en principio& no deben e*istir limitaciones a la naturalea del objeto
informati"o ' BaeaJKates incorpora la refle*in si!uiente# 4la representacin ' or!aniacin
debera pro"eer al usuario un fcil acceso a la informacin en la que se encuentre interesado.
1esafortunadamente& la caracteriacin de la necesidad informati"a de un usuario no es un
problema sencillo de resol"er5 GBaeaJKates& $EEEH.
-l!unos autores presentan la definicin de Sistemas de Recuperacin de Informacin como
sinnimo de la Recuperacin de Datos& influenciados por el punto de "ista de las bases de
datos( sin embar!o& e*isten "arias diferencias entre ambos t%rminos. <a tabla $ sintetia las
diferencias fundamentales entre ambos conceptos#
Rec"(erac#$n !e !aos
Rec"(erac#$n !e #n&or'ac#$n
-cierto (correspondencia) E*acta .arcial& la mejor
Inferencia -l!ebraica Inducti"a
3odelo 1eterminstico .osibilstico
<en!uaje de consulta 7uertemente Estructurado Estructurado o /atural
Especificacin de la
consulta
.recisa Imprecisa
Error en la respuesta Sensible Insensible
0abla $# 1iferencias entre recuperacin de datos ' recuperacin de informacin
<os modelos de Sistemas de Recuperacin de informacin que se utilian con ma'or
frecuencia en el dise6o de los SRI son# $) El 3odelo Booleano& ' )) El 3odelo del Espacio
:ectorial. <a descripcin de ambos modelos& son tema de las si!uientes dos secciones.
). Mo!elo *ooleano
El modelo booleano es uno de los primeros modelos ' el ms utiliado de los SRI. En este
modelo& un documento se encuentra representado por un conjunto de Palabras Claves
(palabras con un "alor semntico)& las cuales pueden ser e*tradas de un documento& de una
parte de %ste o de sus meta datos. I!ualmente& la consulta es un !rupo de palabras cla"es
GSalton I. K 3cIill 3& $ED+H. Ieneralmente se utilian arcivos inversos para almacenar las
palabras cla"es.
<os archi"os in"ersos contienen los si!uientes campos# palabra cla"e o t%rmino ndice
(describe al documento)& un identificador de documento (debe ser =nico para cada
documento)& ' un identificador de campo (donde se encuentra la palabra cla"e) G3artne 3.
7rancisco& )???H. En un sistema booleano las consultas de los usuarios contienen operadores
l!icos (K& 2& /2)& ' as un motor de b=squeda re!resa aquellos documentos que cumplen
con los aspectos l!icos de la consulta.
AR+UITECTURA
En un SRI ha' dos instancias# $) El almacenamiento de los documentos& ' )) <a recuperacin
de informacin desde la solicitud del usuario En la fi!ura $ se ilustran las dos instancias del
proceso de almacenamiento ' recuperacin basado en el modelo Booleano GBaeaJKates '
RibeiroJ/eto $EEEH. $) 1esde el punto de "ista del almacenamiento del documento en el SRI
"an a ocurrir los si!uientes procesos#
$. - cada documento que entra se le asi!na un Identificador
). Se identifican las palabras contenidas en el documento
+. Se e*clu'en las palabras "acas
A. Se LcortanL las palabras& es decir& se e*traen las races de las palabras
>. Se establece un peso de ponderacin para cada rai
B. 7inalmente las races debidamente ponderadas se introducen en la base de datos
7i!ura $. :ista funcional del modelo booleano
)) 8uando el usuario lle"a a cabo una operacin de recuperacin de informacin& se realiarn
los si!uientes procesos#
1. El usuario en funcin de sus necesidades ' con"eniencias lle"a a cabo una serie de
juicios de rele"ancia para confeccionar su ecuacin de b=squeda& a'udndose de las
prestaciones que le proporciona el Interfa de B=squeda.
2. <a ecuacin de b=squeda& una "e introducida& se descompone en sus partes
fundamentales.
3. <os t%rminos cla"e empleados en la ecuacin de b=squeda son LcortadosL para e*traer
de ellos sus races ' de esta forma proceder a su localiacin en la base de datos.
4. 9na "e localiados los distintos subconjuntos de documentos asociados a los
t%rminos cla"e& se lle"an a cabo las operaciones booleanas pertinentes& que han sido
introducidas por el usuario en la ecuacin de b=squeda.
5. .osteriormente los documentos pueden alinearse para su presentacin se!=n un
ranMin! determinado.
El modelo booleano da como resultado los documentos que parecen rele"antes ante la
consulta de un usuario& sin embar!o no dice que tan rele"ante es un documento ' as asume
que %stos tienen el mismo !rado de importancia& es ah donde radica una de las principales
des"entajas del modelo. 2tra de las dificultades que presenta el modelo booleano tradicional
es la dificultad en la elaboracin de consultas& debido a que %stas estn basadas en operadores
booleanos ' no todos los usuarios estn familiariados con esta forma de consulta. 2tro
problema radica en el poco control que ha' sobre el tama6o de la salida producida por una
consulta& esto ocasiona que se ten!a una cantidad mu' pobre de ellos. -dicionalmente& en el
modelo booleano no ha' pro"isiones para lo!rar una asi!nacin de pesos a los t%rminos& esto
quiere decir que todos los t%rminos son considerados siempre como de i!ual importancia.
-l!unas de las des"entajas descritas& fueron eliminadas en el modelo "ectorial( aunque& el
modelo "ectorial no presenta la capacidad de formular consultas utiliando los diferentes
operadores booleanos. Es a partir de esta falta& que nace la idea de e*tender el modelo para
tener el modelo booleano e*tendido.
Mo!elo *ooleano E,en!#!o

El modelo booleano e*tendido& como su nombre lo dice& es una e*tensin del modelo
booleano tradicional. .odemos decir que se trata de una mecla del modelo booleano
tradicional con el modelo "ectorial& debido a que inclu'e la funcionalidad de los pesos de
cada t%rmino en los documentos& con la capacidad de formular consultas con operadores
booleanos.
-. Mo!elo !el Es(ac#o Vecor#al
Se!=n este modelo cada e*presin del len!uaje natural puede representarse como un "ector de
pesos de t%rminos& en donde un t%rmino es la unidad mnima de informacin& por ejemplo una
palabra o la ra sintctica de una palabra. <a asi!nacin de pesos a los t%rminos& indican su
presencia o importancia en el documento o en la coleccin de documentos. Nabiendo "arias
t%cnicas para asi!nar pesos& una de ellas es la frecuencia del t%rmino& es decir& el n=mero de
"eces que aparece el t%rmino en un documento. En el si!uiente ejemplo se muestra la
representacin de un documento ' una consulta mediante "ectores de pesos#
1ocumento O ( pesoPdePt%rminoPl& pesoPdePt%rminoP)& ...& pesoPdePt%rminoPn )
8onsulta O ( pesoPdePt%rminoPl& pesoPdePt%rminoP)& ...& pesoPdePt%rrninoPn )
.ara determinar la similitud que e*iste entre un documento ' una consulta se calcula la
distancia que e*isten entre los "ectores que los representan( a menor distancia& ma'or
similitud. .ara calcular esa distancia se aplica el 0eorema del 8oseno GBaeaJKates '
RibeiroJ/eto $EEEH#
8uando el resultado de la aplicacin de la frmula anterior se apro*ima a la unidad&
quiere decir que los "ectores son mu' similares. 8omo acabamos de "er& calcular la
similitud entre un documento ' una consulta es tan fcil como calcular la distancia entre
dos "ectores. Sin embar!o& esos "ectores deben representar lo mejor posible tanto a los
documentos como a la consulta.
AR+UITECTURA
1e forma mu' !eneral ' didctica se presenta a continuacin los pasos que se realian en el
proceso de almacenamiento ' recuperacin en el modelo "ectorial. En la fi!ura ) se presenta
la !rfica de la "ista funcional del modelo.
$. Se analian los documentos ' se transforman a una representacin interna de cada uno.
). Se analia la consulta ' se transforma a una representacin interna.
+. - partir de las representaciones obtenidas en los pasos anteriores se calcula el !rado de
similitud entre cada documento ' la consulta.
A. Se recuperan los documentos que !uardan ma'or similitud con la consulta del usuario.
7i!ura ). :ista funcional del modelo del espacio "ectorial.
Un e.e'(lo !e e,racc#$n / selecc#$n !e 0r'#nos
<os "ectores estn formados por Lpesos de t%rminosL. El primer paso es esco!er qu% t%rminos
se esco!en. .or ejemplo& esco!emos como t%rminos cada una de las palabras en los si!uientes
documentos#
doc$ O L3a6ana ser un da estupendo& me "o' de pescaL
doc) ! L3e !usta ms la noche que el daL
doc+ O L.aco ser al!uien el da de ma6anaL
t%rminos O (ma6ana& ser& un& da& estupendo& me& "o'& de& "acaciones& !usta& ms& la& noche&
que& el& para& al!uien)
- cada t%rminos de cada uno de los documentos se le asi!na un peso. .or ejemplo& podemos
asi!nar un 1 si el t%rmino aparece en el documento& ' un O si no aparece. Entonces& los
"ectores quedan de la si!uiente manera#
doc$ O ( $&$&$&$&$&$&$&$&$&?&?&?&?&?&?&?&? )
doc) O ( ?&?&?&$&?&$&?&?&?&$&$&$&$&$&$&?&? )
doc+ O ($&$&?&$&?&?&?&$&?&?&?&?&?&?&$&$&$)
Si se desea hacer la si!uiente consulta O Lfotos de .aco de nocheL
K asi!nando los pesos seleccionados& la representacin quedara de la si!uiente forma#
consulta O (?&?&?&?&?&?&?&$&?&?&?&?&$&?&?&$&?)
- continuacin calcularamos la distancia del "ector de la consulta con el "ector de cada
documento& ' de"ol"eramos los documentos ordenados de ma'or a menor similitud.
.rocesos ms detallados de una "ista funcional del modelo& se!uiran al menos los si!uientes
pasos#
$. Eliminar si!nos de puntuacin& etiquetas N03<& etc.& dejando solamente las palabras
de cada documento
). -plicar listas de parada (listas con las palabras de uso ms frecuente del idioma del
te*to& como artculos& preposiciones& etc.) para eliminar las palabras ms habituales
(aportan menos representati"idad al documento).
+. -plicar e*tractores de races "stemmers#, pro!ramas que reducen cada palabra a su ra
eliminando prefijos& sufijos& terminaciones "erbales.
A. 8alcular el poder de discriminacin de cada t%rmino (es decir& la capacidad de separar
documentos consultando si tiene o no cada t%rmino)
>. 9tiliar tesauri que a!rupan los t%rminos en un solo concepto por t%rmino (de esta
manera todos los t%rminos sinnimos se sustitu'en por uno solo)
B. 8alcular el peso de cada t%rmino (suelen realiarse clculos basados en la frecuencia
con que aparece cada t%rmino& tanto en un documento como en toda la coleccin).
C. -si!nar a cada documento los pesos correspondientes a cada t%rmino
D. Representar la consulta ' calcular la similitud.
E. 2rdenar ' mostrar resultados
$?. -plicar realimentacin por rele"ancia (reco!er informacin del usuario acerca de los
resultados para que el sistema la aplique en sus clculos)
1. S#se'as !e Rec"(erac#$n !e In&or'ac#$n en la 2E*
Internet& la red de redes& alber!a en sus computadoras ser"idoras millones de documentos de
informacin. :arias de las t%cnicas de almacenamiento ' recuperacin de informacin que se
utilian en los SRI tradicionales se han heredado en internet. <a ma'ora de los sistemas de
b=squeda en internet utilian el modelo de espacio "ectorial para el almacenamiento de los
documentos( mientras que ha' dos formas bsicas de buscar informacin en la @eb GBaeaJ
Kates ' RibeiroJ/eto $EEEH& mediante# $) <os 'oores !e b3s4"e!a& ' )) <os !#recor#os.
<os 'oores !e b3s4"e!a (searc engine) son sofisticadas aplicaciones que manejan !randes
bases de datos de referencias a p!inas @eb& recopiladas por medio de un proceso automtico&
es decir sin inter"encin humana. 9no o "arios a!entes de b=squeda (robots o cra@lers)
recorren la @eb& a partir de una direccin inicial de un documento e*traen las direcciones de
todos los documentos que estan referenciados por enlaces. 1e esta manera& los robots
recopilan direcciones ' !eneran etiquetas que permiten su inde*acin ' almacenamiento en la
base de datos. -"anados al!oritmos de b=squeda analian las p!inas que tienen en sus bases
de datos ' proporcionan el resultado ms apropiado a una b=squeda. <os motores ms
populares son# $oogle& %ltavista& &ycos& etc.
<os !#recor#os son aplicaciones controladas por humanos que manejan !randes bases de
datos que contienen direcciones de p!inas& ttulos& descripciones& etc. <as direcciones son
clasificadas en subdirectorios de cate!oras temticas. <as cate!oras presentan un listado de
enlaces a las p!inas referenciadas en el buscador. El directorio ms !rande ' famoso es
Kahoo.
El 'oor !e b3s4"e!a 5OO5LE
I22I<E es uno de los Sistemas de recuperacin en la @eb mas utiliados& no solo por la
eficiencia en la b=squeda de informacin de los usuarios& sino tambien por el dise6o de su
arquitectura& el que es concebido para realiar un uso eficiente del espacio de almacenamiento
' para prote!er a los ndices& para que no se con"iertan en un elemento lento ' operati"o. Este
motor de b=squeda que fue desarrollado en la 9ni"ersidad de Stanford en 8alifornia& utilia el
3odelo del Espacio :ectorial para el proceso de almacenamiento ' recuperacin de la
informacin G3artne 3. 7rancisco )???H.
El objeti"o primordial del dise6o de Ioo!le no es otro que mejorar estos ndices de precisin
en la recuperacin de la informacin '& adems& mejorar la presentacin de los documentos
recuperados de manera que& los primeros sean los ms directamente relacionados con las
necesidades de informacin planteadas por los usuarios.
1estacan dos !randes caractersticas en Ioo!le#
En primer lu!ar& Ioo!le hace uso de la conecti"idad de la ;eb para calcular un !rado
de calidad de cada p!ina& esta !raduacin se denomina 'PageRank' (coincide con el
nombre del al!oritmo de ranMin! empleado por este motor de b=squeda).
En se!undo lu!ar& Ioo!le utilia esta propia capacidad de cone*in de los documentos
@ebs para mejorar los resultados de b=squeda.
El al!oritmo Pa6eran7 8PR9 asume que el n=mero de enlaces que una p!ina proporciona
tiene mucho que "er con la calidad de la misma. .a!eRanM puede ser pensado como un
modelo del comportamiento del usuario. 2tra justificacin intuiti"a de .a!eRanM es que una
p!ina puede tener un alto coeficiente de .a!eRanM si e*isten muchas p!inas que apuntan a
ella& o si ha' un n=mero al!o menor de p!inas que apuntan a ella pero que posean& a su "e&
un alto ni"el de .a!eRanM. 1e forma intuiti"a& aquellas p!inas mu' citadas son p!inas que
"ale la pena consultar '& en cambio& aquellas que slo posean un enlace son p!inas de poco
inter%s para su consulta.
:C$'o b"sca #n&or'ac#$n 5oo6le;
Se debe de recordar que el objeti"o de la b=squeda no es otro que proporcionar una alta
efecti"idad& ' que el usuario lo primero que percibe es la precisin de los resultados de la
b=squeda. El proceso de e"aluacin de la pre!unta que lle"a a cabo Ioo!le es el si!uiente#
$. 1escomposicin (parsin!) de la pre!unta.
). 8on"ersin de las palabras a @ordI1S (identificadores de palabras)
+. <ocaliacin de la posicin de cada palabra en un barril de almacenamiento
A. E*ploracin de las listas de documentos hasta localiar un documento que conten!a todos
los t%rminos de b=squeda
>. 8lculo del ran!o de este documento para esta pre!unta
B. 9na "e lle!ados al final del barril de almacenamiento& se "uel"e al inicio repitiendo los
pasos A ' > para cada palabra de la ecuacin de b=squeda
C. 9na "e calculados todos los ran!os& procede a ordenarlos de ma'or a menor '
presentarlos al usuario.
<. Eval"ac#$n !e los SRI
:arias medidas han sido propuestas para e"aluar a los SRI& sin embar!o dos de esas medidas
son ampliamente utiliadas# <a e*hausti"idad ' la precisin. En ambos casos& la medida se
basa en la rele"ancia de los documentos recuperados( es decir& que tanto se ha satisfecho la
necesidad de informacin de los usuarios& quienes hacen la consulta. K aunque siempre se
dice que la rele"ancia es un criterio subjeti"o& debido a que diferentes personas asi!naran
diferentes "alores de rele"ancia a un documento& siempre se toma en cuenta en cualquier
m%todo de e"aluacin de los SRI.
<a e*hausti"idad o 4recall5& cu'o "alor asociado se obtiene de di"idir el n=mero de
documentos rele"antes que satisfacen una consulta& entre el total de documentos rele"antes
contenidos en la base de datos. .or ejemplo& suponiendo que en la base de datos e*isten A?
documentos rele"antes para una consulta de un usuario& ' que el sistema de recuperacin
obtiene )? documentos rele"antes( por lo tanto la e*hausti"idad es de )?QA?& es decir >?R.
<a precisin& se obtiene de di"idir el n=mero de documentos rele"antes recuperados entre el
n=mero total de documentos recuperados. .or ejemplo& suponiendo que un SRI contiene A?
documentos rele"antes que satisfacen una consulta dada& ' el sistema de recuperacin
solamente obtiene +? documentos& de los cuales slo )? son rele"antes( entonces la presicin
del sistema es de )?Q+?& es decir BCR.
<os SRI tienden a ma*imiar la e*hausti"idad ' la precisin de forma simultnea& para ello se
han presentado diferentes m%todos& que han a'udado a que los sistemas actuales puedan
atender las solicitudes de los usuarios cada "e en menos tiempo. 9n m%todo comprende el
uso de !rafos de e*hausti"idadJprecisin& donde un eje es para la e*hausti"idad ' otro para la
precisin. <a fi!ura + muestra un ejemplo de tales puntos que estn in"ersamente
relacionados. Esto es& cuando la precisin sube& la e*hausti"idad baja ' "ice"ersa.
7i!ura +. <a E*hausti"idad ' la precisin estn in"ersamente relacionados.
9na medida de e"aluacin combinada de e*hausti"idad ' precisin es la desarrollada por
G:an Rijsber!en $ECEH& que se define de la si!uiente manera#
E O $ J G($ S b)) . R Q (b) . S R)H
1onde T. O precisin& R O e*hausti"idad o rellamadaU& ' b es una medida de la importancia
relati"a& para un usuario& de e*hausti"idad ' precisin. <os in"esti!adores eli!en "alores de E
que ellos esperan que reflejarn la rellamada ' precisin que interese al usuario tpico. .or
ejemplo& si los "alores de b se encuentran en ni"eles de ?.>?& nos indica que un usuario estu"o
dos "eces tan interesado en la precisin como en la rellamada& ' si el "alor de b fuera )& nos
indica que un usuario estu"o tan interesado en la rellamada como en la precisin.
2tros criterios de e"aluacin que se consideran& aquellos relacionados con la estructura de
datos ' al!ortimos de recuperacin& son# <a eficacia en la ejecucin& ' <a eficiencia del
almacenamiento. <a eficacia en la ejecucin es medida por el tiempo que toma un SRI para
realiar una operacin. Este parmetro es importante en un SRI& debido a que un lar!o tiempo
de recuperacin interfiere con la utilidad del sistema& lle!ando a alejar a los usuarios del
mismo si es lento.
<a eficiencia del almacenamiento es medida por el n=mero de b'tes que se precisan para
almacenar los datos. El espacio !eneral& una medida com=n de medir la eficacia del
almacenamiento& es la ran del tama6o del ndice de los archi"os ms el tama6o de los
archi"os del documento sobre el tama6o de los archi"os del documento. <as "alores del
espacio !eneral que oscilan entre los "alores $&> ' + son tpicas de los SRI basados en los
archi"os in"ersos.
-dicionalmente& G<ancaster $EC+H propuso que los criterios para la e"aluacin de los SRI
deberan estar basados en los si!uientes factores# $) 8obertura o alcance& )) E*hausti"idad& +)
.recisin& A) 0iempo de respuesta& >) Esfuero del usuario& ' B) 7ormato de presentacin.
=. Res"la!os
El presente trabajo nos ha permitido hacer una e*hausti"a re"isin de los SRI. <as funciones
ms importantes en %stos sistemas son#
a) el almacenamiento ptimo de !randes "ol=menes de informacin (principalmente
documentos& =ltimamente tambi%n informacin multimedia)& '
b) la recuperacin eficiente de informacin ante las consultas de los usuarios.
1os son los modelos ms utiliados en su dise6o# a) El modelo booleano& ' b) El 3odelo de
espacio "ectorial.
El modelo booleano esta caracteriado por la utiliacin de palabras claves ' tablas
de ndices para el almacenamiento ' recuperacin de la informacin( as tambien el
uso de operadores l!icos para las consultas de los usuarios. En el proceso de
recuperacin de un documento& el criterio de relevancia prima para la seleccin de un
documento. .ara ello& "arias t%cnicas estadsticas han sido implementadas para
determinar la rele"ancia de un documento.
Se!=n el modelo de espacio "ectorial cada documento se re!istra en un "ector de
t%rminos& ' una coleccin de documentos forman una matr de t%rminos& en donde un
t%rmino es la unidad mnima de informacin& por ejemplo una palabra. .ara medir la
importancia de un t%rmino en un documento& se asi!nan pesos a cada uno de los
t%rminos. El modelo establece ciertos criterios de similitud para comparar que tan
parecidos son dos t%rminos& o dos documentos. 9n criterio para determinar la similitud
que e*iste entre un documento ' una consulta es calcular la distancia que e*isten entre los
"ectores que los representan.
<os sistemas de recuperacin en la @eb utilian !eneralmente el modelo de espacio "ectorial
para el almacenamiento de los documentos. 1os formas bsicas de buscar informacin en la
@eb son los motores de b=squeda& ' los directorios. -mbas formas manejan !randes bases de
datos que contienen principalmente direcciones e informacin de p!inas.
<os motores de b=squedas son sofistificados pro!ramas que realian la b=squeda de
informacin en la @eb de forma automtica& mediante los robots de b=squeda.
<os directorios son aplicaciones controladas por humanos& que manejan subdirectorios
de cate!oras temticas con enlaces a p!inas referenciadas.
El estudio de los SRI& tambi%n nos permite plantear el anlisis ' e"aluacin de cuatro sistemas
de recuperacin que sobresalen# ,-R.-/0-& SIS-& 1I-<2I ' S3-R0.
,-R.-/0- es un SRI basado en el modelo de espacio "ectorial& desarrollado en la
uni"ersidad de Salamanca& Espa6a G7i!uerola 8.& -lonso V.& ' Wao -.& )???H. En la
7i!ura A se obser"a el proceso de Indiacin en el sistema ,-R.-/0-.
SIS-& Sistema para la Indiacin Semiautomtica es un sistema de inde*acin&
desarrollado en la uni"ersidad .olit%cnica de :alencia& Espa6a GIilJ<ei"a I.& )??+H.
1I-<2I& es un SRI @eb comercial para distribucin de informacin electrnica.
S3-R0 es Sistema de anlisis automtico ' de recuperacin de te*tos& uno de los
sistemas pioneros de los SRI GSalton I.& $ECBH.
7i!ura A. .roceso de Indiacin en el sistema ,-R.-/0-.
>. Concl"s#ones / raba.os &""ros
<a in"esti!acin ha dado lu!ar al estudio detallado de la e"olucin& t%cnicas de
almacenamiento ' recuperacin& as como de los criterios de e"aluacin de los Sistemas de
Recuperacin de Informacin. El estudio tambi%n ha lle"ado a un anlisis de las t%cnicas de
inde*acin necesarios para el almacenamiento de los documentos.
El trabajo ha permitido la seleccin de cuatro sistemas de recuperacin desarrollados para su
estudio ' e"aluacin# ,-R.-/0-& SIS-& 123-I/ ' S3-R0. El resultado de este estudio
permitir presentar las bondades ' limitaciones de cada uno de ellos& ' seleccionar el dise6o
ms adecuado& de acuerdo a nuestras necesidades& de un Sistema de Recuperacin de
Informacin para la Biblioteca de la 7acultad de In!eniera de Sistemas e Informtica& '
posteriormente para la Biblioteca 8entral de la 9ni"ersidad /acional 3a'or de San 3arcos.
Re&erenc#as *#bl#o6r?&#cas
BaeaJKates& R. and RibeiroJ/eto& B. 3odern Information Retrie"al. 3ar'land# -ddisonJ;esle'J<on!man
.ublishin! co& $EEE.
BaeaJKates R.' 1a"is Emilio. RanMin! Ilobal de .!inas ;eb Basado en -tributos de los Enlaces( 8<EI )??A&
D p!inas.
Brin& S. and .a!e& <. 0he anatom' of a lar!eJscale h'perte*tual ;eb search en!ine. 8omputer /etsorMs and
IS1/ S'stems& +?& $EED. p. $?CJ$$C
8hu& N. and Rosenthal& 3. LSearch en!ines for the ;;;# - comparati"e stud' and e"aluation methodolo!'L
En http#QQ@@@.asis.or!QannualJEBQElectronic.roceedin!sQchu.html
1el!ado 1omn!ue 43ecanismos de recuperacin de Informacin en la @@@5& 9ni"ersidad de Islas Baliares&
Espa6a. $EED. http#QQdmi.uib.esQpeopleQadelaidaQticeQmodulBQmemfin.pdf
7i!uerola 8.& -lonso V.& ' Wao -. 1ise6o de un motor de recuperacin de la informacin para uso e*perimental
' educati"o. BI1 /um.A junio )???.
7raMes ;.B. ' Baea Kates R. 4Information Retrie"al# data structures and al!orithms5. .rentice Nall $EED.
IilJ<ei"a I. Sistema para la Indiacin Semiautomtica de -rtculos de Re"ista sobre
Biblioteconoma ' 1ocumentacin (SIS-). II Vornadas sobre 0ratamiento ' Recuperacin de Informacin&
3adrid (<e!an%s)& Septiembre )??+.
<ancaster& 7. ;. X ;arner& -.V. Information retrie"al toda'. -rlin!ton& :-# Information Resources. $EC+.
3artine 3.7. ' Rodri!ue 3. V. Sntesis ' crtica de las e"aluaciones de la efecti"idad de los motores de
b=squeda en la ;eb. )??+. http#QQInformationR.netQirQDJ)Qpaper$AD.html
3artne 3%nde 7rancisco Va"ier. Sistemas de -lmacenamiento ' Recuperacin de Informacin&
http#QQ@@@.um.esQ!ti@ebQfjmmQsari)???.htm )???.
3edina /ieto& 3ara -u*ilio. 0esis de 3aestra& EIR-I# Espacio Irupal con Referencistas ' -!entes como
apo'o a la In"esti!acin& http#QQinfo.pue.udlap.m*QYtesisQmspQ
/otess& I.R. Searc engine statistics. Boeman& 30# /otess.com.
http#QQ@@@.searchen!inesho@do@n.comQstatsQ )??)
.rietoJ1ia& R. and -R-/I2& I. 1omain -nal's's# -cquisition of Reusable Information for Soft@are
8onstruction. /e@ KorM# IEEE .ress& $EE$.
Salton I. 0he S3-R0 s'stem. Enc'clopedia of <ibrar' and Information Science $ED?.
Salton I. K 3cIill 3. Introduction to 3odern Information Retrie"al. 3c. Ira@JNill. $ED+.
:an Rijsber!en& 8.V. Information Retrie"al. <ondon# Butter@orths& $ECE.
Whan!& 1. and 1on!& K. -n efficient al!orithm to ranM @eb resources. En
http#QQ@@@E.or!Q@EcdromQ)>$Q)>$.html
1I-<2I @@@.dialo!.com
SearchEn!ine;atch.com 0he major search en!ines Vupitermedia 8orporation.
http#QQ@@@.searchen!ine@atch.comQlinMsQmajor.html. )??)

S-ar putea să vă placă și

  • Manual de Usuario
    Manual de Usuario
    Document16 pagini
    Manual de Usuario
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Nota Informativa
    Nota Informativa
    Document14 pagini
    Nota Informativa
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Proyecto de Investigacion
    Proyecto de Investigacion
    Document10 pagini
    Proyecto de Investigacion
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • La Matriz de Marco Lógico
    La Matriz de Marco Lógico
    Document5 pagini
    La Matriz de Marco Lógico
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Manual de Usuario
    Manual de Usuario
    Document16 pagini
    Manual de Usuario
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Curriculum
    Curriculum
    Document2 pagini
    Curriculum
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Articulo Sri
    Articulo Sri
    Document13 pagini
    Articulo Sri
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Manual Etapa V
    Manual Etapa V
    Document12 pagini
    Manual Etapa V
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • C. Multivariado
    C. Multivariado
    Document1 pagină
    C. Multivariado
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Tarea de Redes
    Tarea de Redes
    Document7 pagini
    Tarea de Redes
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Carta de Horarios de La Bolsaa de Trabajo
    Carta de Horarios de La Bolsaa de Trabajo
    Document1 pagină
    Carta de Horarios de La Bolsaa de Trabajo
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Sistema Distribuido
    Sistema Distribuido
    Document12 pagini
    Sistema Distribuido
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Eduardo
    Eduardo
    Document14 pagini
    Eduardo
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Manual Etapa III
    Manual Etapa III
    Document12 pagini
    Manual Etapa III
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Manual Etapa IV
    Manual Etapa IV
    Document10 pagini
    Manual Etapa IV
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Manual Etapa II
    Manual Etapa II
    Document14 pagini
    Manual Etapa II
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Manual Etapa I
    Manual Etapa I
    Document14 pagini
    Manual Etapa I
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Historia Unsm
    Historia Unsm
    Document6 pagini
    Historia Unsm
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • Diagrama de Flujo
    Diagrama de Flujo
    Document1 pagină
    Diagrama de Flujo
    Lisbeth Santillan Davila
    Încă nu există evaluări
  • 03.estructura de Los Documentos DTD
    03.estructura de Los Documentos DTD
    Document48 pagini
    03.estructura de Los Documentos DTD
    Brandon Alexis Quiroz Rodriguez
    Încă nu există evaluări
  • Logica Matematica
    Logica Matematica
    Document87 pagini
    Logica Matematica
    jlondonop5097
    50% (2)
  • Curso de Logica - Espanhol
    Curso de Logica - Espanhol
    Document35 pagini
    Curso de Logica - Espanhol
    Jhonny Gonzalo Mamani Quispe
    Încă nu există evaluări
  • Que Es or
    Que Es or
    Document3 pagini
    Que Es or
    Lisbeth Santillan Davila
    Încă nu există evaluări