Sunteți pe pagina 1din 7

ColCat: integrar para facilitar

Filipe Manuel dos Santos Bento


Servios de Documentao Universidade de Aveiro 3810-193 Aveiro Tel: 234 370 346 E-mail: filipe@doc.ua.pt

RESUMO

ColCat (http://cc.doc.ua.pt): sistema de pesquisa meta-bibliogrfica distribuda; pesquisa simultnea e integrada nos catlogos de vrias bibliotecas nacionais e estrangeiras de referncia. Os motores de pesquisa na web tm a informao nas suas bases de dados limitada web superficial (visible web), conjunto de pginas estticas ou pginas cujo contedo sempre o mesmo para uma determinada URL. Os diferentes contedos que uma pgina dinmica pode ter, que variam de acordo com uma pesquisa ou aco do utilizador, no so visveis para os spiders dos motores de pesquisa de pginas web como o Google ou o Sapo. por isso que estes contedos se dizem estar na web profunda (traduo livre de "deep web") ou web invisvel (invisible web). O ColCat pesquisa e recupera os contedos que esto na chamada web profunda dos OPACs, sem uma recolha prvia: para os OPACs que no dispem de meios de acesso directo para pesquisa e recuperao de registos, via z39.50 ou web services, o ColCat simula a interaco de um utilizador humano com os servidores remotos. Isto permite adicionalmente que, se um registo fr adicionado num desses servidores remotos, no segundo imediato a mesma pesquisa no ColCat j o apresenta, caso este corresponda ao que se est a pesquisar. Motivao, enquadramento, desenvolvimento, divulgao, funcionalidades, demonstrao, futuro e curiosidades, so os tpicos principais desta apresentao. Vantagens e desvantagens de cada mtodo so apresentadas na anlise comparativa "Pesquisa Integrada versus Integrao de Registos". Um terceiro mtodo, modelo entre os dois anteriores, Integrao de Registos via Metadata Harvesting, apresentado.
PALAVRAS-CHAVE: pesquisa bibliogrfica, pesquisa

termos de pesquisa, envio da lista de resultados por email, envio dos dados para pedido E.I.B. (Emprstimo Interbibliotecas), apresentao dos 10 primeiros registos de cada catlogo e acesso directo aos mesmos e a exportao dos registos para o software de gesto de referncias bibliogrficas EndNote, so algumas das suas caractersticas.

Ilustrao 1: interface de pesquisa integrada do ColCat Motivao A motivao original para o desenvolvimento do ColCat visava, numa primeira instncia, a resposta s necessidades dos profissionais das Bibliotecas, como ferramenta de ajuda na localizao de obras e acesso ao registo bibliogrfico associado. Oferecer um ponto de entrada nico onde o Servio EIB pudesse localizar de uma forma rpida e eficaz, a obra pretendida, e os catalogadores e indexadores pudessem verificar, respectivamente, os dados bibliogrficos e descritores atribudos noutras bibliotecas a um determinado documento. Mediante a divulgao ao grande pblico, imediatamente se verificou que havia uma maior motivao para dar continuidade sustentada ao seu desenvolvimento: providenciar o fcil acesso informao, uma componente vital da misso dos Servios / Centros de Documentao. Por muito forte que seja a sua literacia digital, o utilizador comum no tem conhecimentos especficos de como pesquisar em cada OPAC.

distribuda, pesquisa integrada, catlogo colectivo.

Uma maior eficcia e rapidez na procura de informao, pesquisa simultnea em catlogos de vrias bibliotecas nacionais e estrangeiras e disponibilizao de um leque variado de fontes de informao, so as mais-valias deste projecto, pioneiro a nvel nacional. Este servio engloba algumas funcionalidades que permitem encontrar a agulha no palheiro: sugesto de

Soluo: pesquisa integrada Sem pesquisa integrada (tambm chamada de federada ou distribuda, pelas suas caractersticas inerentes), o utilizador no s confrontado com vrios OPACs, cada um com a sua URL, mas tambm com vrias interfaces (muitas vezes, com opes de pesquisa dispares, mesmo tendo como base o mesmo Sistema de Gesto Integrada de Bibliotecas, SGIB). Por outro lado, cada sistema tem o seu prprio motor de pesquisa, logo implementa diferentes mtodos de pesquisa para obter os mesmos resultados. Um grau extra de complexidade pode ainda ser verificado quando um OPAC representa uma srie de bases de dados (acervos), sejam estas lgicas (subdivises de uma maior, por tipologia de documento ou espao fsico, por exemplo) ou fsicas (existncia autnoma, estando cada uma, geralmente, associada a espao fsico). Este grau de profundidade acaba, na prtica, por ser retirado pelo sistema local, pois este associa os resultados numa s lista final. Contudo, como o acesso sem pesquisa integrada um acesso sequencial, o utilizador tem que analisar os resultados obtidos em cada OPAC, um-a-um, cada um com os seus formatos de visualizao prprios. Ilustrao 3: com pesquisa integrada (esquema adaptado de Clinton, 2005)

Enquadramento Em Maio de 1999 o Grupo de Estudo Arquitectura e Servios do Catlogo Distribudo, apresentou Comisso Instaladora da RUBI (Rede Universitria de Bibliotecas e Informao, http://rubi.doc.ua.pt) uma proposta de implementao de um motor de busca de informao bibliogrfica baseado no protocolo z39.50 (Bento, et al., 1999). A falta de financiamento pelas entidades competentes levou a que este projecto no tivesse sido implementado. Perante a mudana do paradigma tecnolgico, com as Bibliotecas a disponibilizarem o acesso via web aos seus catlogos, nasceu uma nova motivao para a implementao deste servio. Assim aparece o projecto com nome de cdigo ColCat, desenvolvido nos Servios de Documentao da Universidade de Aveiro como um projecto fora de horas, para implementao de um modelo simplificado do servio preconizado pelo Grupo de Estudo supra-mencionado.

Ilustrao 2: sem pesquisa integrada (esquema adaptado de Clinton, 2005) Por muito eficazes que sejam os SGIBs dos diferentes OPACs, a enorme diversidade de opes enumeradas acima, acaba por se traduzir num conjunto de dificuldades com o qual o utilizador se depara quando necessita de efectuar uma pesquisa em vrias Bibliotecas. Processo demorado, desorientao sentida pelo utilizador comum e mesmo algum esforo para os profissionais da informao, devero ser duas das principais, cuja lista , provavelmente, encabeada por uma to simples como a ausncia de uma viso geral, ponto de referncia actualizado com a listagem dos vrios catlogos (URLs). Com pesquisa integrada, o utilizador pode abstrair-se dos diferentes graus de complexidade acima mencionados e se concentrar apenas no que pretende pesquisar, que termos usar e qual o campo mais apropriado. Tudo o resto efectuado por um agente de pesquisa. Este encarrega-se de traduzir o pedido do utilizador para diferentes equaes de pesquisa de acordo com os requisitos de cada OPAC, bem como de integrar as diferentes respostas numa lista de resultados nica.

Desenvolvimento Iniciado em Outubro de 2002 como um projecto pessoal de investigao e exerccio de programao, o ColCat foi sempre pensado como uma ferramenta a disponibilizar em acesso livre e gratuito. No incio de 2004, surge um novo impulso perante a mudana de paradigma tecnolgico verificada, com cada vez mais Bibliotecas com OPACs acessveis em linha, um aumento exponencial da velocidade das comunicaes na internet (passmos de 128Kb para Gigas em poucos anos) e os servidores com maior capacidade de processamento, logo, muito mais rpidos. ColCat - pesquisa na web profunda dos OPACs Os diferentes contedos que uma pgina dinmica pode ter, desde algumas unidades a vrias dezenas de milhes de resultados diferentes em grandes bases de dados, que variam de acordo com uma pesquisa ou aco do utilizador, no so visveis para os "spiders" (robots dos

motores de busca que percorrem a web, saltando de link em link, indexando as pginas encontradas). por isso que estes contedos se dizem estar na web profunda (traduo livre de "deep web") ou web invisvel (Barker, 2006). O ColCat pesquisa e recupera os contedos que esto na chamada web profunda dos OPACs, sem uma recolha prvia. Ao contrrio dos motores de pesquisa, que indexam contedos da web, faz tudo em tempo real, simulando a interaco de um utilizador humano com os servidores remotos, para os que no tm um servidor z39.50. Isto feito de tal modo que estes servidores no conseguem distinguir o ColCat de um utilizador normal. Isto permite ainda que, se um registo for adicionado num desses servidores remotos, no segundo imediato a mesma pesquisa no ColCat j apresenta esse registo, caso este corresponda a essa pesquisa. A sua base de inteligncia permite-lhe "ler" e "compreender" as respostas dos servidores remotos, tendo sido "treinado" para saber analisar as diferentes respostas de cada um deles. nesta inteligncia que est o seu real valor, permitindo ao ColCat analisar os diferentes resultados dos vrios catlogos remotos; diferentes, quer no formato dos dados, quer no modo de apresentao.

Outubro 2004, a divulgao ganha um novo flego com a difuso dentro da UA feita pelos Servios de Documentao, via e-mail para a lista de todos os utilizadores da Universidade de Aveiro. Mediante esta difuso, os Servios de Relaes Externas da Universidade Aveiro analisaram o ColCat e prepararam um press release para a Lusa e imprensa local. Este foi o momento catalizador da divulgao a nvel nacional e internacional do ColCat: TV, Rdio e Jornais (dirios locais e nacionais); sites de Bibliotecas nacionais; sites internacionais (Brasil e Canad) e blogs (@ua_online, 2004, Cienciapt.NET, 2004, Correio da Manh, 2004, Jornal de Noticias, 2004, On Line News - Aveiro, 2004, Panorama Brasil, 2004, Prncipe, 2004a). Um blog em especial, Rato da Biblioteca, acompanha o desenvolvimento do ColCat e o seu autor, Pedro Prncipe, reporta essa divulgao (Prncipe, 2004b): TERA-FEIRA, NOVEMBRO 09, 2004 O Colcat foi notcia! O Colcat foi notcia! Em agncias de notcias... lusa.pt, em pginas web ligadas ao Ensino Superior... universia.pt, cienciapt.net, acabra.net, cienciahoje.pt, em

Implementao O uso de uma implementao modular possibilita um elevado grau de flexibilidade e ajuste, permitindo a adio de qualquer OPAC disponvel em linha (html, web service [xml] ou z39.50), bem como de funcionalidades extra como a sugesto de termos de pesquisa ou a exportao para software de gesto de referncias bibliogrficas, entre outras. Se bem que, num momento inicial, a sua construo se baseou numa aproximao bottom up (de baixo para cima), em que os servios oferecidos e as suas potencialidades derivaram do que o cdigo ia permitindo fazer, rapidamente se colocou o enfoque nas funcionalidades pretendidas e na arquitectura identificativa do servio integrado oferecido ao utilizador, desenho top down (de cima para baixo), uma vez explorado o seu potencial, expandindo-o a outras tecnologias como SOAP, OpenURL, SRW/SRU (ZING, Z39.50 International: Next Generation) (The Library of Congress, 2007).

jornais nacionais... publico.pt, jornal de notcias, correio da manh, nas notcias regionais... moliceiro.com, online news mais aveiro, recente dirio motor de de Aveiro, em publicaes bibliogrfica brasileiras... panoramaBrasil... "Colcat o nome do pesquisa desenvolvido pelos Servios de Documentao da UA". A eficcia desta divulgao comprovada pelas estatsticas de uso do ColCat. Em dois anos (18 de Janeiro 2005 a 21 de Janeiro 2007), foram realizadas mais de 70 mil pesquisas diferentes que envolveram quase 714 mil consultas a servidores remotos.

Funcionalidades Este projecto foi desde incio encarado como um espao de inovao e testes de novas funcionalidades no processo de pesquisa e obteno dos resultados em catlogos web. Uma dessas funcionalidades a sugesto de termos de pesquisa quando esta no d resultados. Recorrendo ao dicionrio suporte de um dos maiores motores de busca (internacional), dinamicamente actualizado, o ColCat oferece sugestes a termos incorrectamente escritos ou de termos alternativos, podendo o utilizador lanar a pesquisa com o(s) termo(s) sugerido(s) a partir do link no(s) mesmo(s).

Divulgao Apesar de ter entrado em fase de testes em finais de 2002, e de ter sido divulgado internamente nos Servios de Documentao da UA e do Grupo de Utilizadores Nacionais do Aleph (actual Associao Portuguesa de Produtos Ex-Libris, USE.pt), o projecto ColCat ficou em Stand-by at ao incio de 2004. Nessa altura, o projecto foi reactivado e foi apresentado um poster no VIII Congresso BAD (Bento, 2004a). Em

Ilustrao 4: sugesto de termos de pesquisa Recuperando os primeiros 10 registos de alguns OPACs, logo se verificou que, estando na posse destes dados, seria possvel implementar algumas funcionalidades que permitem a continuao do fluxo de informao para outros ramais. Ilustrao 7: n obras encontradas em cada OPAC Seguindo o investimento feito nesta rea pela Universidade de Aveiro com a aquisio do software de gesto de referncias bibliogrficas, , o ColCat exporta os registos pretendidos (dentro dos primeiros 10 devolvidos pelos OPACs remotos) para este software ou outros que sigam a norma RIS.

Ilustrao 5: primeiros 10 registos Alm de ser possvel ver o registo completo no OPAC remoto, uma dessas funcionalidades, identificada como muito til para o utilizador final, a do envio dos dados bibliogrficos para pedido E.I.B. Ilustrao 8: registos exportados para o EndNote Como ltimo exemplo das funcionalidades, a integrao com recursos digitais; na pgina de resultados possvel aceder a pesquisas pr-parametrizadas em vrios servios externos para obteno do documento pretendido em formato digital.

Ilustrao 9: integrao com recursos digitais Ilustrao 6: dados para pedido E.I.B Uma relao das vrias obras encontradas e links para a respectiva pgina de resultados, enviada por e-mail, outra das funcionalidades. De referir que a integrao no passa s do ColCat para fontes externas, mas tambm possvel de fontes externas para a pesquisa no ColCat. Um exemplo disso a opo que a EBSCO disponibiliza na sua plataforma EBSCOhost: o utilizador pode procurar que Bibliotecas assinam o peridico onde esse artigo foi publicado (EBSCO Industries, 2007).

Pesquisa Integrada versus Integrao de Registos 1. Dinmica da Pesquisa 1.1 Integrao de Registos (Repositrio Central) Na integrao de registos a pesquisa mais rpida que na pesquisa integrada. Contudo, os seus registos e respectiva actualizao dependem da frequncia com que as instituies cooperantes enviam lotes de novos registos / registos alterados. Ilustrao 10: links na plataforma EBSCOhost para pesquisa no ColCat Tal invoca o ColCat j com o valor do ISSN preenchido, tendo apenas o utilizador que escolher quais as Bibliotecas a pesquisar.

Ilustrao 12: Repositrio Central, pesquisa rpida, mas carregamento por lotes mais lento e pesado Em termos prticos, um Repositrio Central nunca tem uma cpia exacta de todos os registos presentes nas instituies cooperantes, num determinado momento, devido a esta actualizao em lotes (que pode ser feita apenas mensalmente ou em perodos de tempo mais dilatados). Ou seja, a pesquisa tende a ser mais rpida, mas a incorporao de registos lenta e o processo pesado. 1.2 Pesquisa Integrada (Federada/Distribuda) O processo de pesquisa mais lento, mas os resultados que mostra so actualizados ao segundo. A eventual desvantagem deste processo a ocorrncia de falhas espordicas na comunicao com os OPACs e a no recuperao dos seus registos.

Ilustrao 11: pesquisa por ISSN, a partir da plataforma EBSCOhost Research Databases Curiosidades Desenvolvido na ntegra "fora de horas", o custo imputvel a este projecto virtualmente zero. Inclusive, o servidor que o aloja um PC Linha branca com CPU Intel Pentium III a 800MHz que j no estava em uso (avariado). No entanto, actualmente, a carga distribuda com um Pentium III Xeon a 1 GHz (servidor que aloja parte da rede de webs, internet dos SDUA) (Bento, 2004b). Cerca de 50 ficheiros de servios e parametrizaes (includes), totalizando menos de 1MB, so os suficientes para implementar o ColCat como est actualmente (Janeiro de 2007). Futuro: colaborao! Uma Biblioteca no precisa de contribuir activamente para ter o seu OPAC pesquisvel no ColCat. Contudo, ser sempre muito bem-vinda a colaborao na definio de polticas para futuros desenvolvimentos, bem como em actividades mais prticas como monitorizao, controlo de qualidade, alertas para ajustes pontuais.

Ilustrao 13: Pesquisa Integrada, pesquisa mais lenta, mas mostra os registos que cada OPAC fonte tem nesse momento

Nestes casos, a aco de submeter novamente a pesquisa (fazer refresh) pode recuperar os mesmos. Isto , a pesquisa mais lenta do que nos Repositrios Centrais, mas a recuperao de registos um processo mais eficaz, mostrando sempre os registos tal como esto na fonte nesse momento. Dinmica da Pesquisa vantagem: Pesquisa Integrada 2. Flexibilidade / funcionalidades 2.1 Integrao de Registos (Repositrio Central) Dada a integrao na base de dados nica, num Repositrio Central possvel ter quantos ndices de pesquisa se desejar (de um campo especfico ou de vrios no mesmo ndice). Adicionalmente, identificar e agrupar existncias duplicadas pode ser um procedimento que corre aquando da importao, apenas atribundo uma nova existncia fsica (exemplar, cota) a um registo bibliogrfico j presente na base, no caso de uma entrada duplicada. A vantagem adicional a facilidade na aplicao do critrio desejado para a ordenao dos registos. A longo prazo, tem a vantagem nica que permitir a preservao dos registos dos diferentes OPACs fonte (arquivo / para memria futura). 2.2 Pesquisa Integrada Para que seja possvel a sua integrao, a pesquisa integrada limitada aos ndices comuns maior parte dos diferentes OPACs. Ao contrrio do Repositrio Central, cada OPAC pesquisado pode enviar os registos de acordo com o seu prprio critrio de ordenao. O critrio mais comum o da data decrescente de entrada no sistema. A grande vantagem destes sistemas no guardam nenhum registo localmente e qualquer alterao no registo fonte logo vista, no segundo imediato, pelo utilizador. Flexibilidade / funcionalidades vantagem: Integrao de Registos 3. Manuteno 3.1 Integrao de Registos (Repositrio Central) Dependendo do somatrio do nmero de registos que cada Instituio cooperante partilha, geralmente a base de dados que os armazena no Repositrio Central requer uma elevada manuteno (incluindo pesados backups alguns GigaBytes), alm de um servidor com elevada capacidade de processamento por forma a responder

eficazmente s pesquisas efectuadas sobre milhes de registos. Caso o sistema ou verses do mesmo, mude em algum dos OPACs fonte, o Repositrio Central no necessita de efectuar qualquer adaptao, uma vez que os lotes de registos que recebe geralmente esto num formato standard (ISO2709). Neste caso, o nus da responsabilidade de actualizao das funes associadas exportao de registos, fica do lado de cada Instituio cooperante. 3.2 Pesquisa Integrada Dado o seu funcionamento em tempo real, com um agente a recuperar os registos mediante a equao de pesquisa submetida pelo utilizador, nestes sistemas no existem registos locais que necessitem de ficar guardados. Como registos locais temos apenas os que esto em uso no momento para uma determinada pesquisa ou os que tiverem sido guardados pelo utilizador no seu espao pessoal, caso o sistema possua essa funcionalidade. De resto, as cpias de segurana resumem-se a apenas algumas pginas web, pequenos ficheiros de configurao e cdigo. Requer adaptao pontual caso haja uma mudana de sistema ou verso em algum dos OPACs fonte, mesmo que esta seja muito reduzida (3, 4 valores, no caso do acesso por z39.50). Manuteno vantagem: empate 3 via: Modelo Hbrido O principal ponto fraco do modelo clssico de um Repositrio Central a dependncia em relao ao envio de registos por parte das Instituies cooperantes. Uma possvel soluo para colmatar esta falha ser um modelo que recorra a tcnicas de Metadata Harvesting, em uso nos Repositrios OpenAcess de produo cientfica, via protocolo OAI-PMH (Lagoze, et al., 2004).

Ilustrao 14: Integrao de Registos via Metadata Harvesting Neste caso, o Repositrio Central altera a sua componente pr-activa de sensibilizar as Instituies cooperantes para enviarem os seus registos para uma

mais automatizada e sem dependncia de terceiros: recuperar diariamente os registos novos / alterados desde a ltima consulta. Por se assemelhar a uma colheita, dizse que o motor do Repositrio ceifa os registos (executa um Harvesting) dos diferentes OPACs fonte. A referida dependncia das Instituies, e sua aco no processo, cofina-se fase de implementao, devendo estas integrar nos seus OPACs a possibilidade de se efectuar uma pesquisa por janela temporal (com informao da data de alterao do registo) e de apresentarem os seus registos num formato de transporte (XML). Referncias Barker, Joe - Invisible or Deep Web: What it is, Why it exists, How to find it, and Its inherent ambiguity. [Em linha]. (2006). [Consult. 25/01/2007]. Disponvel na internet: <http://www.lib.berkeley.edu/TeachingLib/Guides/Intern et/InvisibleWeb.html>. Bento, Filipe - ColCat: Catlogo Colectivo Distribudo. [Em linha]. (2004a). [Consult. 25/01/2007]. Disponvel na internet: <http://sapp.telepac.pt/apbad/congresso8/post2.pdf>. Bento, Filipe - ColCat: LogFile. [Em linha]. (2004b). [Consult. 25/01/2007]. Disponvel na internet: <http://cc.doc.ua.pt/ColCat/logfile.htm>. Bento, Filipe; Ramos, Victor; Graa, Eugnia Arquitectura e Servios do Catlogo Distribudo da RUBI. [Em linha]. (1999). [Consult. 25/01/2007]. Disponvel na internet: <http://rubi.ua.pt/docms/ge212/ge212_proposta.htm>. Cienciapt.NET - Biblioteca da UA com inovador motor de pesquisa. [Em linha]. (2004). [Consult. 15/01/2007]. Disponvel na internet: <http://www.cienciapt.net/noticiasdesc.asp?id=3283>. Clinton, Peter - Federated Searching: Extending our Reach. [Em linha]. (2005). [Consult. 25/01/2007]. Disponvel na internet: <http://www.library.utoronto.ca/its/presentations/petercli nton/may16-05.ppt>. Correio da Manh - UNIVERSIDADE DE AVEIRO CRIA MOTOR DE PESQUISA BIBLIOGRFICA. [Em linha]. (2004). [Consult. 15/01/2007]. Disponvel na internet: <http://www.correiomanha.pt/comentario.asp?idCanal=9 2&id=136272>. EBSCO Industries - EBSCOhost Research Databases. [Em linha]. (2007). [Consult. 25/01/2007]. Disponvel na internet: <http://search.epnet.com/>.

Jornal de Noticias - Universidade de Aveiro lana motor de pesquisa. [Em linha]. (2004). [Consult. 25/01/2007]. Disponvel na internet: <http://jn2.sapo.pt/textos/out70811.asp>. Lagoze, Carl, et al. - The Open Archives Initiative Protocol for Metadata Harvesting. [Em linha]. (2004). [Consult. 25/01/2007]. Disponvel na internet: <http://www.openarchives.org/OAI/openarchivesprotocol .html>. On Line News - Aveiro - UA DESENVOLVE MOTOR DE BUSCA PIONEIRO. [Em linha]. (2004). [Consult. Disponvel na internet: <http://www.oln.pt/noticias.asp?id=4923&secc=1>. Panorama Brasil - Universidade de Aveiro desenvolveu motor de pesquisa bibliogrfica. [Em linha]. (2004). [Consult. 25/01/2007]. Disponvel na internet: <http://www.panoramabrasil.com.br/noticia_completa.as p?p=conteudo/txt/2004/10/25/21176982.htm>. Prncipe, Pedro - Meta-X: pesquisa meta-bibliogrfica distribuda. [Em linha]. (2004a). [Consult. 25/01/2007]. Disponvel na internet: <http://ratodebiblioteca.blogspot.com/2004/10/meta-xpesquisa-meta-bibliogrfica.html>. Prncipe, Pedro - O Colcat foi notcia! [Em linha]. (2004b). [Consult. 25/01/2007]. Disponvel na internet: <http://ratodebiblioteca.blogspot.com/2004/11/o-colcatfoi-notcia.html>. The Library of Congress - SRU: Search and Retrieve via URL (Standards, Library of Congress). [Em linha]. (2007). [Consult. 26/01/2007]. Disponvel na internet: <http://www.loc.gov/standards/sru/>.

S-ar putea să vă placă și