Sunteți pe pagina 1din 39

Marius Mruteri Documentare online

DOCUMENTARE ONLINE
I. CUTARE INFORMAIEI PE INTERNET - NOIUNI INTRODUCTIVE Cutarea informaiei pe Web, n contextul actual al evoluiei Internetului (miliarde de pagini existente n cadrul a milioane de situri) nu este o sarcin tocmai uoar, din cauza faptului c aproape de fiecare data serviciul de cutare ales ne returneaz mii sau zeci de mii de legturi, cele mai multe cu informaie steril (mai corect spus nerelevant din punctul nostru de vedere).

Fig. 1. Problematica cutrii informaiei pe Web Acest material pleac de la premiza c ai experimentat deja o situaie de acest gen i ncearc s v ajute trasndu-v nite jaloane pentru a v putea optimiza cutarea de informaie pe Web. Dup parcurgerea acestui capitol ar trebui s fii familiarizai cu urmtoarele aspecte: cum indexeaz serviciile de cutare informaia publicat pe Web diferenele existente ntre diferitele tehnici de cutare, respectiv diferenele dintre diferitele baze de date Web cum s selectai termenii cheie potrivii pentru cutare cum s folosii diferitele unelte puse la dispoziie de diversele motoare de cutare, combinndu-le n mod optim

Marius Mruteri Documentare online Ce este o baz de date Web (Web database) ? O baz de date Web este o list organizat de pagini web. O astfel de list poate fi imaginat ca un gigantic repertoar ce conine un surogat al fiecrei pagini nregistrate n list (practic pri mici din acea pagin, cum ar fi titlul, antetul etc). Crearea aceste liste cu surogate ale paginilor poart numele de indexare i fiecare baz de date web o realizeaz n stilul su caracteristic. n general, bazele de date web conin astfel de astfel de surogate pentru un numr imens de pagini web (de la cteva milioane la cteva miliarde de pagini). Pentru utilizatorul final, baza de date web furnizeaz o interfa ce are ca i caracteristic fie un cmp special n care utilizatorul tasteaz cuvintele dup care va efectua cutarea (vezi interfaa cu utilizatorul de la Google), fie o list cu directoare din care utilizatorul poate alege legtura dorit (vezi Yahoo directories). Trebuie menionat ns faptul c (aproape) fiecare baz de date web folosete metode de indexare diferite, respectiv interfee de cutare diferite. Metode de indexare Principial, exist dou modaliti mai importante de indexare a informaiei n timpul generrii bazelor de date web: indexarea full-text, respectiv indexarea manual (human indexing). Indexarea full-text Aa cum i spune i numele, indexarea full-text se caracterizeaz prin includerea tuturor cuvintelor dintr-o pagin n baza de date pentru cutare, cu ajutorul unor programe speciale de calculator numite pianjeni sau roboi (spiders sau robots). Altavista i Google folosesc pe scar larg aceast tehnic de indexare. Indexarea full-text ne permite astfel s regsim toate referirile la un anumit termen din documentul indexat. Pe de alt parte ns, cutarea dup termeni generici n baze de date web ce folosesc indexarea de tip full-text va duce la returnarea a numeroase pagini cu informaie steril, cu alte cuvinte nerelevant pentru autorul cutrii. Indexare manual Spre deosebire de tehnica de indexare de mai sus, n cazul indexrii manuale (human indexing) o persoan examineaz paaginile ce urmeaz a fi indexate i decide asupra ctorva cuvinte (fraze) cheie ce descriu cel mai bine informaia coninut n respectiva pagin. Aceasta permite utilizatorului s regseasc mai multe legturi utile n urmaa cutrii, tocmai pentru c un om i o nu o main a ales cuvintele cheie ce au fost incluse n indexul bazei de date. n mod obinuit acest tehnic de indexare este folosit cu precdere n cazul serviciilor de directoare de pe web, ce vor fi tratate mai trziu n lucrare (vezi Yahoo directories sau Magellan).

Marius Mruteri Documentare online Pianjeni, roboi sau oameni ? Cum selecteaz bazele de date web ce pagini vor fi indexate ? Deoarece, aa cum tim, nu exist un Sistem Central de Comand al Internetului, nu exist nici un loc anume unde aceste servicii de cutare s nvee despre paginile web nou aprute. Din aceast cauz foarte multe servicii de cutare folosesc programe automate, numite "spiders" or "robots" (pianjeni sau roboi), ce cltoresc de la site la site ( = a se citi coleci de pagini web) cutnd pagini WWW nou aprute sau modificate substanial. Unii roboi caut pagini noi numai n seciunile sitului intitulate "What's New" sau "What's Hot" i le folosesc numai pe acestea pentru a indexa respectivele situri, n timp ce ali roboi examineaz metodic fiecare legtur ce duc la o anumit pagin, respectiv ce pleac de la acea pagin. De la caz la caz, n funcie i de serviciul de cutare, paginile furnizate de acetio roboi pot fi exluse manual de la indexare dac nu ndeplinesc anumite criterii considerate importante de deintorii serviciului de cutare. Ca urmare a utilizrii acestor tehnici sunt create n principal trei clase de baze de date web: baze de date ce monitorizeaz TOATE categoriile de pagini WWW baze de date ce monitorizeaz NUMAI paginile WWW considerate populare (n principiu cele cu numr mare de vizitatori) baze de date ce monitorizeaz NUMAI paginile WWW ce ndeplinesc anumite criterii (legate fie de calitatea informaiei furnizate, fie de tipul de informaie urmrit ex. medical, tiinific, tiri etc)

Marius Mruteri Documentare online II. UNELTE PENTRU CUTAREA INFORMAIEI PE INTERNET Exist o multitudine de unelte disponibile pentru cutarea informaiei pe WEB: search engines (motoare de cutare), subject directories (servicii de directoare) / virtual libraries (biblioteci virtuale), invisible (deep) web databases (baze de date web invizibile), metasearch engines (motoare de meta-cutare), etc. Dintre acestea, cel mai mare numr de utilizatori le ntrunesc primele dou unelete: motoarele de cutare, respectiv serviciile de directoare. i. Motoare de cutare Un motor de cutare este, aa cum am vzut, o baz de date coninnd pagini Web ce pot fi regsite pe baza unor cuvinte cheie i care continu s scaneze Internetul, cu ajutorul unor programe automate (spiders, robots) n cutare de pagini noi. Informaia rezultat n urma activitii roboilor este apoi indexat i stocat n baza de date.

Fig. 2. Motorul de cutare AlltheWeb Motoare de cutare renumite: Google (www.google.com) AlltheWeb (www.alltheweb.com) MSN (www.msn.com) Teoma (www.teoma.com) AltaVista (www.altavista.com) WiseNut (www.wisenut.com)

Marius Mruteri Documentare online ii. Directoare web (anuare online, repertoare tematice) Un serviciu de directoare web (numit uneori i subject directory - director de subiecte) este o colecie de pagini Web selecionate i organizate ierarhic n categorii de subiecte de ctre un editor uman. Mai mult, un concept i mai selectiv este cel de bibliotec virtual, care este un director web ce include legturi spre pagini cu informaie de nalt specializare, pe domenii alese de editor (bibliotecarul virtual). Este evident faptul c serviciile de directoare acoper i indexeaz o poriune mult mai mic din paginile WEB existente, comparativ cu motoarele de cutare. Dar folosirea lor poate duce la regsirea unor rezultate ale cutrii mult mai relevante pentru utilizator. Cele mai extinse servicii de directoare web indexeaz cel mult cteva milioane de pagini, comparativ cu cele cteva miliarde indexate de ctre motoarele de cutare mai importante. Serviciile de directoare NU interogheaz direct paginile WEB, ci caut mai degrab n interiorul bazei lor de date. Din acest motiv, rezultatul cutrii poate duce la returnarea unor rezultate expirate, care uneori nu mai au relevan, pagina original suferind ntre timp schmbri majore de coninut sau chiar putnd s dispar. Trebuie menionat ns c o serie de motoare de cutare sunt de fapt unelte hibride, fiind n acelai timp att motoare de cutare ct i servicii de directoare (Google, de exemplu, unul dintre cele mai cunoscute motoare de cutare, are i un serviciu de directoare, bazat pe soluia Open Directory Project).

Fig. 3. Serviciul de directoare Open Directory Project

Marius Mruteri Documentare online Dintre serviciile de directoare web, mai cunoscute sunt cele de mai jos: Yahoo! (www.yahoo.com) Google Directory (www.google.com) Open Directory Project (ODP) (http://dmoz.org) Zeal (www.zeal.com) JoeAnt (www.joeant.com) Gimpsy (www.gimpsy.com) MOTOARELE DE CUTARE VERSUS SERVICII DE DIRECTOARE Pn acum am vzut cum indexeaz bazele de date web paginile. n urmtoarele rnduri vom vedea cum acceseaz utilizatorul aceste pagini. Cele mai uzuale modaliti de accesare a acestor pagini se regsesc n aa numitele motoare de cutare, respectiv n aa numitele directoare web (numite i anuare n cazul anumitor traduceri). Modalitilor de cutare a informaiei -prezentare comparativ Motoarele de cutare permit utilizatorului s foloseasc orice termeni de cutare (combinaie de termeni) dorete, motorul cutnd aceti termeni n baza de date i returnnd paginile care conin aceste combinaii de termeni. Spre deosebire de motoarele de cutare, serviciile de directoare web au paginile organizate n baza de date pe subiecte (o bun comparaie ar fi cea cu structura anuarelor de tip Pagini Aurii). Paginile cu informaia dorita pot fi selectate navignd prin acest arbore de directoare. Navigarea prin structura directoarelor web poate fi un foarte bun start pentru cutarea informaiei dorite, cu condiia ca topicul ales sa fie ales ca subiect pentru o arborescen de directoare (de exemplui veti gsi cu uurin un arbore de directoare dedicat sectorului educational n orice serviciu de directoare web, ns nu vei gsi prea uor un arbore de directoare dedicat s zicem consumului de droguri) ATENIE uneori se pot produce confuzii cu privire la modul de cutare folosit de un anumit serviciu. Astfel renumitul site Yahoo include att un motor de cutare ct i un arbore de directoare web. Diferena fa de un motor de cutare obinuit este dat de faptul c motorul de cutare al Yahoo caut cuvintele cheie doar n interiorul directoarelor web din baza de date a Yahoo. Din acest motiv motorul de cutare al sitului poate fi folosit cel mult pentru a identifica zona din arborele de directoare ce conine informaia dorit. Prezentarea rezultatelor n ambele cazuri, odat ce ai introdus termenii de cutare, serverul i caut n baza de date web indexat i v returneaz lista cu rezultate. Din cauza multitudinii de legturi cu informaie sterila (nerelevant pentru utilizatorul ce a efectuat cutarea), trebuie subliniate dou concepte deosebit de importante ce servesc la evaluarea listei cu rezultate ale cutrii: rata de relevan (relevancy ranking), respectiv rezumatul (abstract) ce nsoete legtura ctre pagin.

Marius Mruteri Documentare online Rata de relevan (Relevancy Ranking) Paginile gsite n urma cutrii sunt aproape ntotdeauna prezentate n ordinea relevanei lor, n conformitate cu termenii dup care s-a efectuat cutarea. Algoritmii dup care este cuantificat rata de relevan difer de la sit la sit i, n general, nu sunt fcui publici. Pentru a v face ns o idee imaginai-v un exemplu simplu:paginile vor fi considerate cu att mai relevante (i de vor fi mai sus n lista cu rezultate) cu ct termenul(ii) de cutare se regsete de mai multe ori n acea pagin. Pe baza ratei de relevan computerul (serverul) care face cutarea va acorda fiecrui document ce conine termenii dorii o rat de relevan i, n final, va lista primele acele pagini considerate a fi cu cea mai mare relevan. Din acest motiv nu trebuie s ne facem griji dac o anumit cutare returneaz o list cu 10 milioane de rezultate. Primele 20 - 40 de pagini sunt probabil cele mai relevante din punctul de vedere al termenilor folositi pentru cutare. Totodat ns putem vedea importana fantastic a alegerii celor mai potrivii termeni de cutare. Cu ct aslegem cei mai potrivii termeni pentru a aefectua cutarea, cu att vom obine rezultate cu o relevan mai mare. Rezumatele paginilor (Abstracts) n cazul celor mai multe servicii de cutare web putei s observai c aproape fiecare legtur spre o pagin considerat relevant este nsoit de un scurt rezumat al coninutului, multe servicii recurgnd chiar la sublinierea (ngoarea) termenilor folosii n respectivul rezumat. Dac acest scurt rezumat nu ar exista ne-am putea pune ntrebarea ce caut legtura respectiv n lista cu rezultate, respectiv am fi obligai s pierdem mai mult timp urmnd fiecare legtur pentru a vedea ce fel de infoemaie conine. Oricum trebuie menionat faptul c, chiar i atunci cnd exist i este afiat, acest rezumat al paginii este mult mai scurt dect coninutul paginii aflat n baza de date web. De aceea de cele mai multe ori nu vom putea aprecia adevrata relevan a informaiei coninute n acea pagin dect deschiznd-o.

Fig. 4. Importana rezumatelor (abstracts) pentru evaluarea rezultatelor cutrii

Marius Mruteri Documentare online ALTE UNELTE DE CUTARE A INFORMAIEI PE WEB iii. Biblioteci virtuale: Biblioteci virtuale de uz general:

Librarians' Index to the Internet (www.lii.org) INFOMINE (www.infomine.com) Internet Public Library (www.ipl.org) The WWW Virtual Library (vlib.org) Academic Info (www.academicinfo.net) Internet Scout Project (scout.wisc.edu) BUBL Link (academic resources) (bubl.ac.uk/link/)

Fig. 5. Librarians' Index to the Internet bibliotec virtual de uz general

Marius Mruteri Documentare online

Biblioteci virtuale de specialitate (orientate spre anumite domenii): Project Gutenberg (www.gutenberg.org) - beletristic National Academies Press (www.nap.edu) - tiin Free books for doctors (www.fb4d.com) - medicin The free management library (www.managementhelp.org) - management

Fig. 6. Free Management Library bibliotec virtual de specialitate

iv. Invisible (deep) Web Reprezint colecii de informaii online stocate n baze de date accesibile pe Web, dar care, din diferite motive, nu sunt indexate de motoarele de cutare tradiionale. Aceste servicii pot fi ntlnite i sub numele de servicii speciale de cutare (specially search engines). Exemple de astfel de colecii sunt: ProFusion (www.profusion.com) Invisible-web (www.invisible-web.net) Complete Planet (www.completeplanet.com) Resource Discovery Network (www.rdn.ac.uk) Direct Search (http://www.freepint.com/gary/direct.htm)

Marius Mruteri Documentare online

Fig. 7. Invisible Deep Web

v. Motoare de meta-cutare (metasearch engine) Un motor de meta-cutare este o unealt de cutare care trimite cerea dumneavoastr simultan ctre mai multe motoare de cutare clasice, servicii de directoare web i uneoari care spre colecii de tip invisible web. Dup colectarea rezultatelor cutrii de la toate serviciile apelate, motoarele de meta-cutare elimin legturile aflate n duplicat i, conform unui algoritm propriu combin rezultatele ntro singur list, acordndu-le i o rat de relevan. Datorit faptului c majoritatea motoarelor de meta-cutare iau n considerare numai primele 10-20 de legturi din lista furnizat de ffiecare motor de cutare apelat, ne putem atepta la rezultate excelente ale cutrii, din punctul de vedere al relevanei. Din pcate ns, nu toate motoarele de cutare i serviciile de directoare web suport o serie tehnici de cutare avansat (cum ar fi cutarea dup fraze sau folosirea operatorilor logici). Din acest motiv, dac cutarea se face folosind aceste tehnici avansate, motorul de metacutare nu va primi nici un rezultat din partea motoarelor apelate ce nu folosesc astfel de tehnici de lucru. Din cele menionate mai sus, reiese clar c motoarele de metacutare NU au propriile baze de date web, ci le folosesc pe cele ale serviciilor apelate. Tot din acest motiv, motoarele de meta-cutare nu permit nscrierea maanual a unei pagini (site) n baza de date, lucur posibil n cazul motoarelor de cutare clasice.

10

Marius Mruteri Documentare online

Fig. 8. Motorul de meta-cutare metasearch.com Unele dintre cele mai cunoscute motoare de meta-cutare sunt: Metasearch (www.metasearch.com) ez2Find (www.ez2find.com) Vivisimo (www.vivisimo.com) MetaCrawler (www.metacrawler.com) InfoGrid (www.infogrid.com) Infonetware (www.infonetware.com) iBoogie (www.iboogie.tv)

11

Marius Mruteri Documentare online vi. Utilitare de cutare de tip desktop Un tip special de motoare de meta-cutare sunt utilitarele de cutare de tip desktop (client side search software). Practic, spre deosebire de motoarele de metacautare online, aceste utilitare sunt programe ce pot fi descrcate de pe Internet i instalate pe propriul calculator (local). Principiul lor de funcionare este oarecum similar cu al motoarelor de meta-cutare.

Fig. 9. Utilitare de cutare de tip desktop Copernic Cteva dintre cele mai utilizate utilitare de acest fel sunt: Google Desktop (desktop.google.com) Copernic (www.copernic.com) Arrow Search (www.rt-software.co.uk/arrow_search/) WebFerret (www.ferretsoft.com/download.htm) ProtoSearch (www.npccenterprises.com/products/protosearch2.shtml) Ca o concluzie general, motoarele de meta-cutare sunt unelte complementare excelente, ns datorit unor considerente (numr relativ mic de legturi luate n considerare de la fiecare serviciu apelat, imposibilitatea de a folosi eficient tehnici avansate de cutare etc ) NU pot elimina necesitatea folosirii unor motoare de cutare clasice.

12

Marius Mruteri Documentare online III. CE UNELTE DE CUTARE S FOLOSIM ? 1. Dac cunoatei exact ce tip de informaie dorii s aflai, este recomandat folosirea motoarelor de cutare. De exemplu pentru a gsi informaii despre viroze sau despre preedinii Romniei putei folosi motoarele de cutare, deoarece informaia nu este suficient de specific pentru a fi subiectul unui arbore de directoare, dar este domeniul este suficient de bine conturat pentru a nu fi necesar recurgerea la un motor de meta-cutare.

Fig. 10. Utilizarea motoarelor de cutare (186000 de legturi) versus servicii de directoare (13 legturi) n cazul informaiilor despre virusul sinciial respirator

2. Dac vei cuta informaii despre un anumit termen sau o combinaie obscur de termeni i dorii o analiz exaustiv a temei analizate, este de preferat recurgerea la motoare de meta-cutare, ce pot apela simultan mai multe servicii web (10 -12 motoare de cutare sau directoare web). De exemplu, cutarea dup termenul vibrion (vezi Vibrionul holerei), Yahoo a returnat 7790 legturi dintre care chiar prima legtur se referea la altceva dect vibrionul holerei.

13

Marius Mruteri Documentare online

Fig. 11. Rezultatele cutrii enunate mai sus n urma utilizrii serviciului Yahoo n contrapondere, aceeai cutare pe metasearch.com, a returnat 5340 legturi, prima referin fiind legat chiar de definirea termenului vibrion. De remarcat c metasearch.com recomand i sinonimul vibrio ca posibil termen de cutare.

Fig. 12. Rezultatele cutrii enunate mai sus n urma utilizrii motorului de cutare Google
14

Marius Mruteri Documentare online 3. Dac dorii s cutai informaii generale despre subiecte cu grad ridicat de popularitate, este indicat folosirea serviciilor de directoare web. Astfel dac dorii informaii despre astmul bronic n general , este mult mai indicat s folositi serviciul de directoare Yahoo, n care putei naviga cu uurin, informaia este bine organizat i exist i faciliti de cutare prin arborele de directoare.

Fig. 13. Yahoo Directory 4. Dac dorii, informaii pertinente legate de anumite domenii ale literaturii, tiinei etc este preferabil folosirea serviciilor tip bibliotec virtual.

Fig. 14. National Academy Press bibliotec tiinific virtual

15

Marius Mruteri Documentare online 5. Dimpotriv, dac dorii informaii n timp real sau informaii al cror coninut se schimb dinamic (tiri, prognoze meteo, mersul trenurilor) folosii baze de date web specializate (invisible or deep web).

Fig. 15. Modaliti de utilizare a serviciilor oferite de diverse baze de date de tip Invisible Web

Exist un numr de cteva mii de motoare de cutare, sute de motoare de meta-cutare, servicii de directoare web sau baze de date specializate. Alegerea din start a celei mai potrivite modaliti de cutare a informaiei poate face diferena dintre o cautare cu succes a informaiei dorite i o experien frustrant datorit pierderii de timp i a posibilelor confuzii. Mai mult, n ultimul timp muli dintre deintorii de astfel de servicii au ales s i diversifice activitatea furniznd mai multe servicii sub aceiai interfa utilizator. Astfel s-a cristalizat un nou concept, acela de PORTAL WEB. Portalul Web Sub acest termen se nelege n general un site WEB ce ofer o gam larg de servicii i resurse online, cum ar fi: e-mail, forumuri de discuii, motoare de cutare, directoare web, comer electronic etc (a se vedea www.yahoo.com, unul dintre cele mai cunoscute servicii de cutare, transformat ntr-un portal). Dac primele portaluri (cum ar fi AOL Amerca Online) furnizau la nceput acees pe Internet i servicii de email, mai nou majoritatea motoarelor de cutare tradiionale s-au transformat n portaluri Web, ce ofer o mare varietate de servicii, n dorina de a-i lrgi astfel baza de utilizatori.

16

Marius Mruteri Documentare online

Fig. 16. Portalul InfoGrid de remarcat multitudinea serviciilor oferite (servicii de cutare, directoare Web, e-mail, chat, news etc)

17

Marius Mruteri Documentare online IV. UTILIZAREA MOTOARELOR DE CUTARE Aa cum am vzut sunt dou modaliti mai importante prin care un utilizator poate interoga o baz de date web: folosind csua de interogare a unui motor de cutare (aa-numita tehnic type-in-a-box), respectiv selectnd anumite opiuni dintr-o structura arborescent de directoare. Acest capitol va analiza facilitile oferite de prima variant, de altfel cea mai utilizat cale de regsire a informaiilor pe Web, cu scopul de a v ajuta s sesizai diferenele dintre diferitele motoare de cutare, devenind astfel utilizatori mai eficieni ai acestui tip serviciu. Putem deosebi patru pai n utilizarea unui motor de cutare: 1. traducerea nevoilor dumneavoastr de informare n termeni cheie introdui n csua de cutare a motorului folosit 2. folosirea unor modaliti de combinare a termenilor de cutare, pentu a furniza calculatorului (serverului) ct mai mult informaie despre ceea ce dorii s cutai 3. analiza rezultatelor cutarii 4. rafinarea termenilor de cutare i repetarea interogrii, dac rezultatele obinute nu v satisfac Aceti pai pot fi repetai de cte ori este nevoie, pn cnd ai gsit ceea ce v interesa sau pn cnd vei decide c ai epuizat resursele indexate de motorul de cutare folosit i este necesar s ncercai un alt tip de serviciu. NOT: Tehnicile de lucru prezentate mai jos pot fi utilizate n cazul majoritii serviciilor de cutare disponibile pe Web. Exist ns posibilitatea ca o anumit modalitate de lucru s NU fie disponibil n cadrul unui anumit motor de cutare. De aceea v recomand clduros ca, nainte de a ncepe lucrul cu un motor de cutare, s vizitai legtura spre seciunea HELP (Ajutor) a acelui motor, pentru a identifica n detaliu tehnicile de cutare disponibile. 1. Traducerea nevoilor dumneavoastr de informare n termeni cheie Tehnologia de azi a motoarelor de cutare nu ne permite, din nefericire, s formulm necesitile noastre de informare aa cum am dori. Nu putem scrie n csua de cutare a motorului google.ro, de exemplu Vreau s cumpr un calculator . Secretul const n a folosi termeni de cutare ct mai simpli i mai specifici cu putin. Putei face asta urmnd sugestiile de mai jos: i. - gndii-v la ce dorii s cutai i focalizai-v asupra a ceea ce dorii s obinei. Probabil c nu dorii s achiziionai orice tip de calculator i de oriunde. De aceea n locul formulrii Vreau s cumpr un calculator ieftin vei putea spune mai degrab Vreau s cumpr un calculator Pentium IV la pre bun din Romnia. Gndii-v ct mai detaliat la ceea ce vrei s aflai. Pentru a cuta cu succes informaia, ns, trebuie s fii n acelai timp ct mai concii. ii. spargei interogarea dumneavoastr iniial n ct mai multe faete, n ncercarea de a o reduce la numai civa termeni cheie. Dac doi termeni sunt similari, este bine s i combinai ntr-unul singur (vezi termenii calculator i Pentium IV). Aceasta va simplifica cutarea focaliznd-o pe ideile cu adevrat importante. Astfel conform exemplului nostru, ar putea fi suficient s folosim termenii vnd, calculator, Pentium IV, pre. (termenul pre este un cuvnt specific romnesc, deci ar putea permite

18

Marius Mruteri Documentare online excluderea paginilor care nu sunt n romn i subliniaz ideea de tranzacie comercial; termenul Pentium IV poate nlocui eventual i termenul calculator, riscnd cel mult s aflm eventual i preul unor procesoare Pentium IV). Aceaste trucuri vor simplifica cutarea, focaliznd-o asupra ideilor importante. Odat ce ai urmat aceti doi pai avei deja termenii de baz ai cutrii termeni cheie ce pot fi suficient de ilustrativi pentru a exprima ntreaga idee de la care ai pornit. Din nefericire lucrurile nu sunt ntotdeauna att de simple. Exist nc o serie de alte aspecte ce trebuie luate n considerare atunci cnd alegei termenii cheie dup care vei efectua cutarea: Sinonimele Va fi de un real folos dac vei utiliza sinonime pentru fiecare termen de cutare. Urmnd aceast idee putei ncerca i ofer pentru vnd, PC, computerpentru calculator, PIV pentru Pentium IV etc. Cu ct vei gsi mai multe sinonime pentru termenii folosii i le vei utiliza n cutare, cu att va crete ansa de a gsi exact ceea ce v intereseaz. n ceea ce privete utilizarea sinonimelor n cutare trebuie ns subliniat faptul c este bine s avei incluse n cutare aproximativ acelai numr de sinonime pentru fiecare termen, cu excepia cazului n care dorii s dai greutate mai mare unui anumit termen, tehnic pe care o vom discuta mai trziu. Omonime Trebuie acordat o maxim atenie cuvintelor care au mai multe sensuri (cum ar fi vesel/vesel sau Ion/ion). Computerul nu va nelege diferena i nu poate specifica contextul n care este folosit cuvntul. Astfel, o cutare simpl dup cuvntul ion ne va returna att pagini ce prezint informaii ioni (ca noiune din domeniul chimiei), dar i posibile pagini personale ale unor oameni avnd prenumele de Ion sau chiar instituii care au ca sigla cuvntul ION (de exemplu Institute of Navigation).

Fig. 17. Influena omonimelor asupra relevanei rezultatelor cutrii

19

Marius Mruteri Documentare online Dialectele unei anumite limbi Dac termenii folosii sunt scrii diferit n diferite dialecte ale unei limbi, cutarea trebuie s in cont de toate aceste forme. S lum un exemplu din limba englez i diferitele sale dialecte (engleza american, britanic, canadian): cuvinte ca color/colour sau catalog/catalogue v vor permite s selectai numai pagini aparinnd vorbitorilor unui dialect sau altuia. Dac dorii includerea tuturor paginilor ce conin toate formele cuvntului, va trebui s includei ambele variante ca termeni cheie.

Fig. 18. Influena dialectelor unei limbi asupra rezultatelor cutrii Trunchierea cuvintelor Aceast tehnic urmrete cuvintele ce pot avea forme multiple ( cum ar fi woman i women in englez la singular i plural). Putei regsi n urma cutrii ambele cuvinte , prin folosirea unor simboluri ca de exemplu * (wom*n). Din nefericire alte motoare de cutare folosesc simboluri diferite pentru a semnifica trunchierea cuvintelor, lucru care trebuie luat n considerare. De asemenea, anumite motoare de cutare, cum este Lycos nu accept dect aa numita tehnica "righttruncation", adic trunchierea NUMAI la sfritul cuvntului ( de exemplu child$, pentru forme ca children, child, childlike, childhood). Aceast tehnic de lucru permite folosirea celei mai simple forme ale cuvntului mpreun cu simbolurile pentru trunchiere, pentru a regsi toate formele n care apare cuvntul respectiv.

20

Marius Mruteri Documentare online 2. Modaliti de combinare a termenilor de cutare Motoarele de cutare v pun n mod obinuit la dispoziie posibilitatea de a specifica o serie de relaii ntre termenii de cutare. Specificarea acestor relaii poate ajuta serverul s ordoneze lista de rezultate ntr-o ordine mult mai relevant pentru dumneavoastr (cu alte cuvinte crete ansa ca primele legturi din lista cu rezultate ale cutrii s fie exact ceea ce cutai). Putei face acest lucru folosind urmtoarele tehnici: cutarea dup fraze, folosirea logicii booleene (operatori logici), folosirea logicii pseudo-booleene, creterea importanei unui termen (aa numitul term-weighting) Cutarea dup fraze Este una dintre cele mai performante tehnici de combinare a termenilor de cutare, fiind recomandat folosirea ei de cte ori este posibil. Atunci cnd stabilii termenii dup care vei efectua cutarea, dac este important a numit ordine a cuvntului n construcia frazei, este suficient s puneti secvena respectiv n ghilimele ( ), simboluri folosite de majoritatea motoarelor de cutare pentru cutarea dup se poate fraze. Atunci cnd poate fi folosit, cutarea dup fraze este una dintre cele mai puternice modaliti de cretere a relevanei rezultatelor cutrii. Exemplu: Dac vei dori s citii online cartea The comedy of errors de William Shakespeare, probabil vei obine cele mai bune rezultate introducnd n fereastra de cutare urmtoarea secven: William Shakespeare The comedy of errors online, aa cum putei vedea n exemplul de mai jos:

Fig. 19. Cutarea dup fraze

21

Marius Mruteri Documentare online Logica boolean (Folosirea operatorilor logici) Chiar dac formularea din titlu pare menit s v sperie, nu v lsai nelai folosirea acestei tehnici de cutare este extrem de simpl. Practic sunt folosite cuvintele (operatorii logici) AND, OR i NOT (atenie, scrise cu MAJUSCULE), pentru a indica bazei de date web existena unei anumite relaii ntre termenii dup care se efectueaz cutarea. Operatorul AND prin folosirea acestui operator ntre doi termeni de cutare, transmitei bazei de date o cerere de genul: Vreau s gsesc toate paginile care conin OBLIGATORIU ambii termeni, INDIFERENT de ordinea n care apar n pagin. Dac o pagin conine NUMAI unul ditre termeni, nu m intereseaz. n cazul nostru, cutarea propus anterior, poate fi formulat asttfel:vnd AND calculator. Dac am folosi numai unul dintre termeni, rezultatele cutrii ar fi cu siguran nerelevante. Operatorul OR folosirea acestui operator indic motorului necesitatea unei cutri mai extinse, cu retunarea tuturor legturilor ce conin unul SAU altul dintre termenii cutrii. Operatorul OR este foarte util n specificarea sinonimelor pentru termenii dorii.

Exemplu: vnd AND PC OR computer OR calculator

Un aspect important de remarcat este felul n care am folosit operatorii AND i OR pentru a combina termenii cutarii n scopul creterii ansei de a obine rezultate ct mai relevante. Astfel este indicat folosirea operatorului OR ntre sinonimele termenilor cutrii, respectiv a operatorului AND ntre termeni diferii ca semnificaie. Relevana rezultatelor va crete dac vom fi i mai specifici, ca n exemplul Exemplu: vnd AND PC OR computer OR calculator AND magazin online urmtor: Observai combinarea folosirii operatorilor logici cu tehnica de cutare dup fraze (termenul specificat n ghilimele). Uneori ne este de folos i gruparea termenilor n paranteze, pe baza semnificaiei lor (sinonime). Exemplu de mai sus devine astfel: Exemplu: vnd AND (PC OR computer OR calculator) AND magazin online Operatorul NOT - operatorul poate fi folosit n anumite circumstane, cum ar fi ndeprtarea din rezultate a unei semnificaii generate de un termen omonim. n cazul omonimelor vesel= ustensile de buctrie, vesel=voioas, putem exclude unele rezultate nerelevante printr-o cutare de genul:

22

Marius Mruteri Documentare online

Exemplu: ( femeie OR persoan) AND (vesel NOT buctrie). Vom exclude astfel rezultatele cu legturi spre pagini cu informaie nerelevant ca n exemplul ...este genul de persoan care cumpr mult vesel de buctrie. Nu uitai de gruparea termenilor negaiei n paranteze ! Un alt exemplu este excluderea anumitor contexte legate de unul din termenii cutrii, ca n exemplu Exemplu: Leonardo Da Vinci NOT (picturi AND tablouri). O astfel de cutare indic faptul c dorim alte informaii legate de Leonardo Da Vinci dect cele legate de pictura sa. Deoarece tehnicile prezentate mai sus reprezint concepte eseniale pentru cutrea pe Web, este foarte important ca, nainte de a merge mai departe, s v asigurai c ai reinut corect cnd i cum trebuie utilizai operatorii logici (booleeni): operatorul AND - pentru combinarea termenilor cutrii cu scopul de a focaliza cutarea pe subiectul dorit de noi; operatorul OR - n special n cazul sinonimelor, pentru a mri aria de cutarea prin posibilitatea de a regsi pagini care s conin unul sau mai multe sinonime ale termenului dorit; opearatorul NOT - pentru excluderea anumitor contexte legate de unul din termenii cutrii.

NOT: Atenie ! Nu toate motoarele de cutare v permit folosirea acestei tehnici, n timp ce alte motoare de cutare o folosesc ca tehnic implicit, prin adugarea unui AND invizibil ntre termenii folosii pentru cutare (aanumitul AND/OR invizibil). Acest lucru va avea ca efect afiarea n primul rnd a legturilor care conin TOI termenii i abia apoi a legturilor ce conin doar o parte din termenii cutai. (pentru aceste motoare vnd calculator vnd AND calculator) Logica pseudo-boolean Deoarece folosirea operatorilor logici AND, OR i NOT poate prea destul de complicat, multe motoare de cutare permit utilizarea aa-numitului limbaj natural pentru formularea scopului cutrii, limbaj ce implic folosirea a dou simboluri (+ i - ) pentru operaii pseudo-booleene. Astfel, dac vei aduga semnul + naintea unui termen de cutare sau naintea unei fraze incluse n ghilimele, aceasta va nsemna c respectivul termen TREBUIE s se regseasc neaprat n toate legturile returnate. Se poate observa c are o utilizare destul de apropiat cu a operatorului logic AND. Poate fi folosit cu succes dac dorii de pild informaii despre o anumit persoan. Exemplu: + Leonardo da Vinci painter, sculptor, architect, engineer

23

Marius Mruteri Documentare online O astfel formulare a cutrii ar putea crete ansele de a gsi n cadrul aceleiai legturi mai multe informaii despre opera de o mare diversitate, a lui Leonardo da Vinci. n urma unei astfel de cutri, motorul va returna TOATE legturile din baza de date ce conin numele Leonardo da Vinci, i le va ordona n lista cu rezultate n funcie de ceilali termeni pe care aceste pagini i conin sau nu. Folosirea semnului naintea unui termen de cutare (sau a unei fraze) va nsemna c acesta NU trebuie s se regseasc n coninutul niciuneia din paginile (legturile) returnate. Are deci o utilizare simular operatorului logic NOT. Creterea importanei anumitor termeni (term weighting) Un ultim pas legat de combinarea termenilor cutrii este stabilirea importanei lor n cadrul opeaiunii de cutare. Tehnica se bazeaz pe sublinierea importanei anumitor termeni n comparaie cu restul termenilor folosii. Prin aceast tehnic putei comunica motorului de cutare c anumii termeni de cutare sunt mai importani dect alii. Pentru exemplul considerat de noi, legat de cumprarea unui calculator, s-ar putea s considerm termenul Pentium IV ca fiind foarte important, n sensul c dorim s cumprm nu orice fel de calculator ci unul de ultim generaie. Diferitele motoare de cutare utilizeaz, evident, tehnici diferite pentru a face aceasta. Ca regul general ns, cu ct avem un numr mai mare de sinonime pentru un anumit termen de cutare, cu att acesta va fi considerat mai important de ctre motorul de cutare, evident din punct de vedere al ratei de relevan. Astfel dac dorim s cumprm un calculator neaprat Pentium IV, este bine s formulm cutarea n felul urmtor: Exemplu: vnd AND calculator AND (Pentium IV OR PIV OR Intel PIV)

Tehnici de limitare a ariei de cutare Una dintre cele mai puternice faciliti oferite de majoritatea motoarelor de cutare este capabilitatea de a controla ce pagini Web (situri) vor fi sau nu luate n considerare ntr-o cutare. i. Cutarea n anumite locaii (situri). S presupunem c dorim s aflm o serie de informaii despre astm, folosind numai resursele aflate la dispoziie pe situl National Institute of Health (nih.gov). Vom folosi n cadrul motorului de cutare Google comanda site: , combinat cu tehnicile i operatorii menionai anteriori: Exemplu: site:nih.gov asthma

24

Marius Mruteri Documentare online

Fig. 20. Tehnici de limitare a ariei de cutare - Cutarea n anumite locaii Ca rezultat. Google va lista toate paginile ce conin cuvntul asthma indexate din domeniul nih.gov. Vom afla astfel c exist n cadrul NIH instituii specializate numite National Institute of Allergies and Infectious Diseases (NIAID), respectiv National Heart, Lung and Blood Institute (NHBLI) ce au cte un subdomeniu (site) propriu (niaid.nih.gov, nhlbi.nih.gov), putnd astfel s restrngem i mai mult cutarea. S presupunem c dorim s gsim modaliti sau ghiduri de tratament al astmului, folosind situl NHBLI. Vom formula cutarea, conform celor nvate anterior: Exemplu: site:nhlbi.nih.gov asthma AND (treatment OR guidelines OR management)

25

Marius Mruteri Documentare online

Fig. 21. Tehnici de limitare a ariei de cutare - cutarea n anumite locaii + combinarea termenilor de cutare folosind operatori logici Trebuie remarcat faptul c n acest fel am restrns lista cu rezultate, de la peste 300000 de legturi la doar 436. Dac vom analiza prima cerere, vom constata c exist o serie de legturi ce duc spre articole de prezentare general a bolii (de tipul What is asthma? sau Asthma Basic). Dac dorim eliminarea unor astfel de articole putem formula cutarea astfel: Exemplu: site:nhlbi.nih.gov asthma -"What is asthma" -basic

n acelai fel putem construi expresii care s exclud un anumit sit din rezultatele cutrii: Exemplu: asthma AND (treatment OR guidelines OR management) -site:nih.gov

Astfel am cutat modaliti de tratament al astmului n alte locaii de pe Internet dect nih.gov.

26

Marius Mruteri Documentare online

Fig. 22. Tehnici combinate de limitare a ariei de cutare - folosirea operatorului - Dac, n final am dori s aflm i opiniile altor surse de informaie medical online asupra tratamentului astmului, ar trebuie s formulm cutarea astfel: Exemplu: asthma AND (treatment OR guidelines OR management) -site:nih.gov

27

Marius Mruteri Documentare online

Fig. 23. Tehnici combinate de limitare a ariei de cutare - folosirea operatorului + ii. Cutarea pe baza adresei URL (Uniform Resource Locator) Uneori dorim s gsim pagini cu un anumit subiect, la o anumit locaie. O comand care ne poate ajuta este comanda inurl: Astfel, inurl:stanford.edu asthma AND (treatment OR guidelines OR management)

ne permite s regsim pagini despre tratamentul astmului ce au n adresa URL obligatoriu cuvintele stanford.edu. iii. Cutarea dup cuvintele din titlul paginii Dac pn acum termenii erau cutai oriunde n pagin, putem folosi comanda title: (sau intitle: n alte motoare de cutare), pentru a fora cutarea termenilor DOAR n tilul paginii.

28

Marius Mruteri Documentare online

Fig. 24. Tehnici de limitare a ariei de cutare - folosirea operatorului intitle: iv. Cutarea dup tipul de fisiere S presupunem c dorim s regsim toate documentele legate de tratamentul astmului ce sunt n formatul pdf (Adobe Portble document format). Putem face aceasta folosind comanda filetype: . asthma AND treatment OR guidelines OR management filetype:pdf

29

Marius Mruteri Documentare online

Fig. 25. Tehnici de limitare a ariei de cutare - folosirea operatorului filetype: 3. Analiza rezultatelor cutrii Odat ce avei n fa lista cu rezultatele cutrii, chiar dac nu sunt (foarte) relevante, nu dezarmai. Este bine s urmrii rapid primele 10 30 de legturi, analiznd n primul rnd URL-ul, apoi scurtul rezumat afiat pentru fiecare legtur. Dac informaia pare interesant putei ncerca s vizitai primele 2-5 legturi, pentru a v lmuri dac informaia coniut este relevant pentru dumneavoastr. Dac nici una dintre acestea nu este relevant pentru dumneavoastr, ncercai s combinai altfel termenii cutrii, s ncercai eventual (i) ali termeni de cutare sau, pur i simplu, s ncercai folosirea unui alt motor de cutare. n general, regula de aur a cutrii pe Web poate fi formulat astfel: cu ct petrecei mai mult timp selectnd i combinnd termenii de cutare, cu att vei petrece mai puin timp analiznd lista cu rezultate (pentru simplul motiv c ele vor avea un grad mai ridicat de relevan). Atunci cnd analizai lista cu rezultate focalizai-v atenia asupra adreselor (URL) paginile cu adrese foarte similare provin probabil din cadrul aceluiai site i pot fi, deci neglijate, odat ce ai vizitat acel site. Paginile ce conin formulri de genul "Re: XXXXXXXX", provin cel mai frecvent din arhivele unor liste de discuii (e-mail) i pot fi neglijate de cele mai multe ori. Cele mai folositoare pagini sunt cele care conin ele nsele legturi spre acelai subiect sau subiecte similare celui cutat. O alt modalitate este cutarea unor pagini de tip FAQ (frequently asked questions), legate de subiectul dorit de dumneavoastr. De obicei astfel de pagini

30

Marius Mruteri Documentare online conin informaii importante sau cel puin o introducere n domeniul de care suntei interesai. De ce trebuie s evaluai paginile rezultate n urma cutrii pe Web? - n general aproape orice cutare se soldeaz o list ce conine sute, mii sau zeci mii de legturi. - multe pagini nu sunt aduse la zi, riscnd astfel s pierdei mult timp filtrnd informaii deja depite - informaia publicat pe cele mai multe situri NU este evaluat de ctre cineva autorizat (evaluare peer-reviewed) - trebuie s avei n vedere faptul c este extrem de simplu ca oricine s publice pagini de Internet, n acest moment neexistnd nici o modalitate de a controla n vreun fel calitatea respectivei informaii. Modaliti de evaluare nainte de a deschide o anumit pagin... Analizai atent adresa paginii (URL): - este vorba de un site sau de pagini personale? (dac conine semne ca ~ sau % poate fi vorba de utilizatori sau membri ai unei organizaii ) - este numele de domeniu potrivit pentru coninutul paginii respective ( de exemplu edu, org, gov dac dorii anumite informaii tiinifice din surse autorizate) - este pagina publicat de o organizaie credibil de a furniza acel tip de informaie ( de exemplu este credibil s citii tiri de pe o pagina a sitului cnn.com ) - provine acea informaie de la o surs (organizaie, agenie, instituie) credibil n domeniul respectiv (de exemplu, este foarte probabil s gsii informaie medical credibil pe situl National Institute of Health www.nih.gov, informaii despre Uniunea European pe paginile sitului www.europa.int etc). Dup ce ai deschis o anumit pagin... - putei afla cine a scris-o ? (numele autorului, instituia...ai auzit vreodat de acea instituie?); o simpl adres de e-mail a autorului NU este de regul suficient. - exist pe sit dovezi asupra pertinenei informaiei publicate, respectic a competenei n domeniu a celui ce a publicat-o ? (cutai pe sit legturi de tipul About us Philosophy Background Biography) - este informaia de pe pagina respectiv destul de la zi ? (cutai s gsii n cadrul paginii o informaie de genul last updated: 12.11.2004 Indicatori ai calitii unei pagini Web: - surse bibliografice bine documentate (legturi, note de subsol, referine bibliografice) - sunt cele de mai sus similare cu cele gsite n publicaii tiprite ? - aigurai-v c informaia gsit nu a fost modificat sau chiar falsificat (exist meniunea unei versiuni tiprite a documentului ? poate fi ea obinut ? - existena unor legturi spre pagini similare

31

Marius Mruteri Documentare online Ce spun alii despre acea pagin (acea legtur) ? Din fericire, unele motoare de cutare, cum ar fi Google, ne pun la dispoziie o unealt extrem de eficace pentru a afla cte legturi exist spre pagina pe care tocmai o analizm (cu alte cuvinte cte referiri sunt c alii consider pagina respectiv ca avnd un coninut suficient de credibil pentru a fi citat ). Unealta menionat este comanda link: De exemplu pentru cutarea link:www.nih.gov

Google va returna peste 59000 de referiri, fa de numai 82 n cazul Ministerului Sntii din Romnia.

Fig. 26. Evaluarea rezultatelor cutrii prin folosirea operatorului link: ntrebai-v care ar putea fi scopul pentru care a fost publicat aceast pagin ... - pentru informarea cu date exacte i fapte a publicului asupra unui anumit subiect ? - pentru a lmuri unele probleme ? - pentru a vinde ceva ? - pentru a discredita o alt surs de informare ? - pentru a parodia pe cineva sau ceva... ? ntrebarea final pe care trebuie s o punei este urmtoarea : mi este util informaia pe care am gsit-o n acea pagin ? Servete ea scopului meu ?

32

Marius Mruteri Documentare online 4. Continuarea cutrii Aa cum am spus anterior, dac nici una dintre legturi nu este relevant pentru dumneavoastr, ncercai s combinai altfel termenii cutrii, s ncercai eventual (i) ali termeni de cutare sau, pur i simplu, s ncercai folosirea unui alt motor de cutare. Dac dorii s schimbai termenii de cutare i suntei n pan de inspiraie n legtur cu identificarea unor noi termeni ce ar fi potrivii, o sugestie bun este s examinai coninutul unei pagini Web la care avei acces i care conine informaia dorit pentru a vedea termenii folosii (eventual sinonime, fraze etc). Aceast manevr ar putea fi util n identificarea unor noi termeni pentru cutare. Dac lista cu rezultate este prea extins, este indicat s repetai cutarea folosind mai muli termeni combinai prin operatorul AND. Dac lista cu rezultate este prea srac, renunai la termenii mai putin importani i/sau schimbai modul de combinare a lor (modul n care folosiia AND/OR). Dac n list regsii foarte multe legturi ce conin informaii numai despre anumii termeni de cutare, n timp ce ali termeni lipsesc din rezultate, aceasta nseamn c respectivii termeni au prea mult greutate (term-weight) i este indicat s renunai la o serie de sinonime ale lor. Atenie ns la faptul c prea puini termeni de cutare folosii pot scdea specificitatea nseamn de cele mai multe ori lips de specificitate, respectiv un numr mare de legturi n lista cu rezultate, de cele mai multe ori lipsite de relevan. Trebuie remarcat faptul c anumite motoare (Google de exemplu) permit, odat cu afisarea listei cu rezultate, alegerea unei opiuni de genul pagini similare (similar pages). Prin folosirea acestei faciliti, putei restrnge rapid cutarea la un grup relevant de documente. Aceast opiune este extrem de util dac avei probleme cu identificarea unor sinonime ale termenilor cutrii. Odat ce ai identificat o pagin cu informaii utile, putei gsi cu uurin altele similare. Concluzii Motoarele de cutare sunt probabil cea mai utilizat cale de accesare a informaiei stocate n bazele de date Web. Principalii pai necesari pentru a utiliza eficient un motor de cutare sunt urmtorii: 1. Formulai-v atent nevoia de informare. ncercai s facei aceasta ct mai simplu i specific cu putin 2. Spargei cererea de mai sus ntr-o serie de termeni de cutare 3. Gsii sinonime pentru fiecare termen identificat 4. Atunci cnd este posibil, recurgei la fraze (termeni specificai n ghilimele) 5. Combinai sinonimele termenilor de cutare prin intermediul operatorului OR i legai aceste combinaii prin intermediul operatorului AND 6. Analizai circa 30 de rezultate nainte de a cuta din nou 7. Dac este posibil, nainte de a rencepe cutarea, folosii pagini cu informaie similar celei cutate pentru a identifica noi termeni de cutare i sinonime ale acestora

33

Marius Mruteri Documentare online V. UTILIZAREA SERVICIILOR DE DIRECTOARE WEB

n literatura romnesc de specialitate sunt cunoscute i sub numele de anuare online sau repertoare tematice valide. Aa cu am ma spus, serviciile de directoare Web constituie o veritabil baz de date cu documente clasate pe categorii si subcategorii. Indexate manual sau automat (mai rar), ele sunt foarte mult utilizate pentru cutari simple sau complexe. Un anuar de cutare tematic ghideaz utilizatorul printre temele disponibile, nainte de a alege contextul cercetrii finale. Contrar motoarelor de cutare, serviciile de directoare Web indexeaz de obicei site-uri complete, ncepand de la pagina de primire (Home page). Aceast modalitate de lucru este pus la dispoziie de servicii de cutare extrem de cunoscute, cum ar fi Yahoo sau Magellan. Au avantajul c pun la dispoziia utilizatorului un set de resurse existente despre un anumit subiect colectate, indexate i n acelai timp, extrem de bine organizate. Astfel dac un subiect de interes pentru utilizator exist deja n arborescena de directoare a serviciului, este foarte probabil ca aceast cale s fie i cea mai rapid pentru a gsi informaii cu grad ridicat de relevan. Utilizarea acestui serviciu este extrem de simpl: utilizatorul nu are dect s exxamineze lista de opiuni arborescente pus la dispoziie i s selecteze domeniul cel mai apropiat de nevoia lui de informare. Prin alegerea acestei opiuni (legturi) va trece apoi la urmtorul nivel de detaliu al serviciului de directoare unde va avea posibilitatea s selecteze un domeniu i mai apropiat de ceeace cut. Utilizatorul va putea s continue n acest fel, pe nivele din ce n ce mai ridicate de detaliu, pn cnd fie va gsi o serie de legturi cu informaie util, fie va ajunge la o fundtur, adic o ramur a arborelui de directoare ce nu conine informaie relevant pentru el. Cu ajutorul butonului "BACK" al browserului poate reveni oricnd la un nivel superior al arborelui de directoare pentru a relua cutarea spre o alt zon a repertoarului tematic. Cutarea informaiei n respectivul director poate fi considerat ncheiat atunci cnd utilizatorul s-a ntors la meniul de pornire i nu mai are la dispoziie nici o legtur neexplorat deja. Dac aceast modalitate de cutare nu v satisface, majoritatea directoarelor Web pun la dispoziie i o csu de cutare rapid (type-in-box). Cutarea rapid n directoarele Web Trebuie spus c aceast cutare NU este similar celei folosite pentru motoarele de cutare descrise anterior. Cutarea se produce ntr-o colecie mult mai mic de date (de obicei structura directoarelor i descrierea acestora) i, de aceea, cutarea se face oarecum diferit. - putei folosi cutarea rapid n primul rnd pentru a afla dac exist vreun director cu informaii despre subiectul de interes pentru dumneavoastr. - cutarea trebuie s fie ct mai simpl cu putin. De obicei un singur termen ce reflect cel mai bine subiectul dorit este suficient. Dac nu gsii nici un rezultat, ncercai un sinonim al termenului anterior.

34

Marius Mruteri Documentare online n general, nu este recomandat folosirea temenilor multiplii sau a combinaiilor de termeni; un director Web este ceva simular unui repertoar de tip Pagini Aurii v gndii la un domeniu i deschidei la pagina ce conine informaii din domeniul respectiv. Dac nu gsii nimic, ncercai alt termen. Folosirea mai multor termeni sau a unor combinaii nu duce dect la o list confuz de rezultate, cu grad sczut de relevan. n plus, introducei termenii de cutare n forma cea mai simpl cu putin i evitai folosirea operatorilor AND, OR sau a frazelor (chiar i atunci cnd serviciul folosit o permite).

Fig. 27. Modaliti de utilizare a serviciilor de directoare Web

Dezavantaje ale directoarelor Web Dei sunt simplu de utilizat i includ i faciliti de cutare, directoarele Web au (cel puin n acest moment al evoluiei lor) cteva dezavantaje ce trebuie subliniate: - indexarea datelor n directoarele web se face de obicei manual (sub coordonarea unui editor) i nu automat, ca n cazul motoarelor de cutare. Intrrile noi se actualizeaz greu, putnd dura chiar luni pn s apar n structura de directoare. - dac nu ai ghicit termenul folosit de editor pentru pagina (tema, subiectul) respectiv, aceasta va fi foarte greu de gsit. - paginile ce trateaz subiecte multiple pot fi regsite frecvent doar ntr-un singur arbore de directoare, conform subiectului considerat ca fiind principal, celelalte subiecte fiind n consecin cvasi-ignorate. -bazele de date sunt semnificativ mai mici dect n cazul motoarelor de cutare (zeci sau sute de mii de pagini pentru directoarele web, yeci de milioane de pagini pentru motoarele de cutare).

35

Marius Mruteri Documentare online Din aceste motive, pentru orice cutare exaustiv, n special asupra unor subiecte ce nu sunt foarte cunoscute (mediatizate), este bine s se fac cu ajutorul unor motoare de cutare importante, n detrimentul directoarelor Web. CONCLUZII: Directoarele Web sunt locuri excelente de pornire n cutarea informaiei pe Internet, cu condiia s gsii un arbore de directoare care s trateze tema cutat (subiectul dorit). Dac ns tema cutat nu a fost selecionat de editorul serviciului ca rdcin pentru un arbore de directoare, este de preferat s renunai la folosirea acestui tip de serviciu de cutare i s recurgei la un motor de cutare. Ca regul general este recomandat s v ncepei cutarea informaiei pe Internet folosind un arbore de directoare i s recurgei abia apoi, dac este necesar, la un motor de cutare, ce dispune de mult mai mult informaie indexat n bazele de date, dar necesit o experien mult mult mai mare din partea utilizatorului, pentru aputea fi utilizat eficient.

36

Marius Mruteri Documentare online VI. CRITERII DE SELECIE A BAZELOR DE DATE WEB Este evident c bazele de date Web folosite de serviciile de cutare a informaiei pe Internet NU sunt la fel. Ele difer una de cealalt prin urmtoarele aspecte: Caracteristici Mrimea bazei de folosite Observaii date Directoarele Web folosesc n general baze de date mai mici Bazele de date web de mrime medie pot conine pagini pe care altele mai mari le-au scpat din atenie Este greu de cutat eficient n bazele de date Web de mari dimensiuni Toate tipurile de pagini baze de date Web de de Tipul paginilor indexate uz general Pagini populare servicii utile pentru a gsi informaii fierbini (tiri, meteo etc) Pagini cu informaie intit, de nalt calitate Servicii utile pentru mediul academic i tiinific Full-text Cutare dup termeni specifici Metoda de indexare (combinare de termeni) - motoare de cutare Indexare manual n servicii de directoare Web Modul de acces al Servicii de directoare Web indicate ca punct de pornire pentru cutare utilizatorilor la serviciu Motoare de cutare mai performante, conin mai mult informaie indexat, mai dificil de folosit Capabilitile motorului de Operatori logici unele motoare de cutare Nu permit utilizarea acestora cutare Operatori psudo-booleeni cele mai multe motoare permit folosirea acestei metode de cutare folosind limbajul natural Cutarea dup fraze una dintre cele mai performante metode de cutare Creterea importanei termenilor de cutare (Term weighting) dac poate fi folosit crete semnificativ relevana rezultatelor Trunchierea termenilor cele mai multe motoare o permit Relevana informaiei unele servicii returneaz Prezentarea rezultatelor numrul de termeni regsit n fiecare legtur i calculeaz un scor privitor la relevana legturii Rezumate pot diferi ca ntindere, n funcie de serviciul de cutare Continuarea cutrii unele motoare ofer o opiune foarte util: pagini similare

37

Marius Mruteri Documentare online Aa cum se poate observa, exist o multitudine de criterii ce caracterizeaz o baz de date Web, astfel c anumite nevoi de informare necesit folosirea unui anumit tip de baz de date Web, respectiv a unui anumit tip de serviciu de cutare. n principiu, nu este recomandat folosirea aceluiai serviciu de cutare pentru toate tipurile de cutare pe care le facei, tot aa cum nu folosii un singur dicionar pentru orice tip de traducere. Sopul acestui capitol introductiv este de a v ajuta s decidei care este unealta cea mai potrivit pentru a cuta ceea ce dorii, respectiv de v nsui modalitile de baz pentru a folosi eficient serviciul de cutare ales.

38

Marius Mruteri Documentare online BIBLIOGRAFIE 1. Danny Sullivan - Power Searching For Anyone Online book, http://searchenginewatch.com/facts/article.php/2156031, 2001 2. Debbie Flanagan Web Search Strategies - Online book, http://www.learnwebskills.com/search/main.html, 2004 3. *** - Google Guide Online book, http://www.googleguide.com 4. E. Coiera - Guide to Medical Informatics, the Internet and Telemedicine, Chapman & Hall, London, (1997). 5. E. Coiera - Information Economics and the Internet, Journal American Medical Informatics Association, 7, 215-221, 2000 6. Jalobeanu M. - "WWW n nvmnt: Instruirea prin Internet, Cum cutm i Cum publicm pe Web", Ed. CCD, Cluj-Napoca, 2001

39

S-ar putea să vă placă și