Sunteți pe pagina 1din 39

Marius Mruteri Documentare online

DOCUMENTARE ONLINE
I. CUTARE INFORMAIEI PE INTERNET - NOIUNI INTRODUCTIVE
Cutarea informaiei pe Web, n contextul actual al evoluiei Internetului
(miliarde de pagini existente n cadrul a milioane de situri) nu este o sarcin tocmai
uoar, din cauza faptului c aproape de fiecare data serviciul de cutare ales ne
returneaz mii sau zeci de mii de legturi, cele mai multe cu informaie steril (mai
corect spus nerelevant din punctul nostru de vedere).

Fig. 1. Problematica cutrii informaiei pe Web


Acest material pleac de la premiza c ai experimentat deja o situaie de acest
gen i ncearc s v ajute trasndu-v nite jaloane pentru a v putea optimiza
cutarea de informaie pe Web.
Dup parcurgerea acestui capitol ar trebui s fii familiarizai cu urmtoarele
aspecte:
-

cum indexeaz serviciile de cutare informaia publicat pe Web


diferenele existente ntre diferitele tehnici de cutare, respectiv diferenele
dintre diferitele baze de date Web
cum s selectai termenii cheie potrivii pentru cutare
cum s folosii diferitele unelte puse la dispoziie de diversele motoare de
cutare, combinndu-le n mod optim

Marius Mruteri Documentare online


Ce este o baz de date Web (Web database) ?
O baz de date Web este o list organizat de pagini web. O astfel de list
poate fi imaginat ca un gigantic repertoar ce conine un surogat al fiecrei pagini
nregistrate n list (practic pri mici din acea pagin, cum ar fi titlul, antetul etc).
Crearea aceste liste cu surogate ale paginilor poart numele de indexare i
fiecare baz de date web o realizeaz n stilul su caracteristic. n general, bazele de
date web conin astfel de astfel de surogate pentru un numr imens de pagini web
(de la cteva milioane la cteva miliarde de pagini).
Pentru utilizatorul final, baza de date web furnizeaz o interfa ce are ca i
caracteristic fie un cmp special n care utilizatorul tasteaz cuvintele dup care va
efectua cutarea (vezi interfaa cu utilizatorul de la Google), fie o list cu directoare
din care utilizatorul poate alege legtura dorit (vezi Yahoo directories). Trebuie
menionat ns faptul c (aproape) fiecare baz de date web folosete metode de
indexare diferite, respectiv interfee de cutare diferite.
Metode de indexare
Principial, exist dou modaliti mai importante de indexare a informaiei n
timpul generrii bazelor de date web: indexarea full-text, respectiv indexarea
manual (human indexing).
Indexarea full-text
Aa cum i spune i numele, indexarea full-text se caracterizeaz prin
includerea tuturor cuvintelor dintr-o pagin n baza de date pentru cutare, cu ajutorul
unor programe speciale de calculator numite pianjeni sau roboi (spiders sau
robots). Altavista i Google folosesc pe scar larg aceast tehnic de indexare.
Indexarea full-text ne permite astfel s regsim toate referirile la un anumit
termen din documentul indexat. Pe de alt parte ns, cutarea dup termeni generici
n baze de date web ce folosesc indexarea de tip full-text va duce la returnarea a
numeroase pagini cu informaie steril, cu alte cuvinte nerelevant pentru autorul
cutrii.
Indexare manual
Spre deosebire de tehnica de indexare de mai sus, n cazul indexrii manuale
(human indexing) o persoan examineaz paaginile ce urmeaz a fi indexate i decide
asupra ctorva cuvinte (fraze) cheie ce descriu cel mai bine informaia coninut n
respectiva pagin. Aceasta permite utilizatorului s regseasc mai multe legturi utile
n urmaa cutrii, tocmai pentru c un om i o nu o main a ales cuvintele cheie ce au
fost incluse n indexul bazei de date.
n mod obinuit acest tehnic de indexare este folosit cu precdere n cazul
serviciilor de directoare de pe web, ce vor fi tratate mai trziu n lucrare (vezi Yahoo
directories sau Magellan).

Marius Mruteri Documentare online


Pianjeni, roboi sau oameni ?
Cum selecteaz bazele de date web ce pagini vor fi indexate ?
Deoarece, aa cum tim, nu exist un Sistem Central de Comand al
Internetului, nu exist nici un loc anume unde aceste servicii de cutare s nvee
despre paginile web nou aprute. Din aceast cauz foarte multe servicii de cutare
folosesc programe automate, numite "spiders" or "robots" (pianjeni sau roboi), ce
cltoresc de la site la site ( = a se citi coleci de pagini web) cutnd pagini WWW
nou aprute sau modificate substanial.
Unii roboi caut pagini noi numai n seciunile sitului intitulate "What's
New" sau "What's Hot" i le folosesc numai pe acestea pentru a indexa respectivele
situri, n timp ce ali roboi examineaz metodic fiecare legtur ce duc la o anumit
pagin, respectiv ce pleac de la acea pagin. De la caz la caz, n funcie i de
serviciul de cutare, paginile furnizate de acetio roboi pot fi exluse manual de la
indexare dac nu ndeplinesc anumite criterii considerate importante de deintorii
serviciului de cutare.
Ca urmare a utilizrii acestor tehnici sunt create n principal trei clase de baze de
date web:
-

baze de date ce monitorizeaz TOATE categoriile de pagini WWW


baze de date ce monitorizeaz NUMAI paginile WWW considerate
populare (n principiu cele cu numr mare de vizitatori)
baze de date ce monitorizeaz NUMAI paginile WWW ce ndeplinesc
anumite criterii (legate fie de calitatea informaiei furnizate, fie de tipul de
informaie urmrit ex. medical, tiinific, tiri etc)

Marius Mruteri Documentare online


II. UNELTE PENTRU CUTAREA INFORMAIEI PE INTERNET
Exist o multitudine de unelte disponibile pentru cutarea informaiei pe
WEB: search engines (motoare de cutare), subject directories (servicii de
directoare) / virtual libraries (biblioteci virtuale), invisible (deep) web databases
(baze de date web invizibile), metasearch engines (motoare de meta-cutare), etc.
Dintre acestea, cel mai mare numr de utilizatori le ntrunesc primele dou unelete:
motoarele de cutare, respectiv serviciile de directoare.
i. Motoare de cutare
Un motor de cutare este, aa cum am vzut, o baz de date coninnd pagini
Web ce pot fi regsite pe baza unor cuvinte cheie i care continu s scaneze
Internetul, cu ajutorul unor programe automate (spiders, robots) n cutare de pagini
noi. Informaia rezultat n urma activitii roboilor este apoi indexat i stocat n
baza de date.

Fig. 2. Motorul de cutare AlltheWeb


Motoare de cutare renumite:
Google (www.google.com)
AlltheWeb (www.alltheweb.com)
MSN (www.msn.com)
Teoma (www.teoma.com)
AltaVista (www.altavista.com)
WiseNut (www.wisenut.com)

Marius Mruteri Documentare online


ii. Directoare web (anuare online, repertoare tematice)
Un serviciu de directoare web (numit uneori i subject directory - director de
subiecte) este o colecie de pagini Web selecionate i organizate ierarhic n categorii
de subiecte de ctre un editor uman. Mai mult, un concept i mai selectiv este cel de
bibliotec virtual, care este un director web ce include legturi spre pagini cu
informaie de nalt specializare, pe domenii alese de editor (bibliotecarul virtual).
Este evident faptul c serviciile de directoare acoper i indexeaz o poriune
mult mai mic din paginile WEB existente, comparativ cu motoarele de cutare. Dar
folosirea lor poate duce la regsirea unor rezultate ale cutrii mult mai relevante
pentru utilizator.
Cele mai extinse servicii de directoare web indexeaz cel mult cteva milioane
de pagini, comparativ cu cele cteva miliarde indexate de ctre motoarele de cutare
mai importante. Serviciile de directoare NU interogheaz direct paginile WEB, ci
caut mai degrab n interiorul bazei lor de date. Din acest motiv, rezultatul cutrii
poate duce la returnarea unor rezultate expirate, care uneori nu mai au relevan,
pagina original suferind ntre timp schmbri majore de coninut sau chiar putnd s
dispar.
Trebuie menionat ns c o serie de motoare de cutare sunt de fapt unelte
hibride, fiind n acelai timp att motoare de cutare ct i servicii de directoare
(Google, de exemplu, unul dintre cele mai cunoscute motoare de cutare, are i un
serviciu de directoare, bazat pe soluia Open Directory Project).

Fig. 3. Serviciul de directoare Open Directory Project

Marius Mruteri Documentare online


Dintre serviciile de directoare web, mai cunoscute sunt cele de mai jos:
Yahoo! (www.yahoo.com)
Google Directory (www.google.com)
Open Directory Project (ODP) (http://dmoz.org)
Zeal (www.zeal.com)
JoeAnt (www.joeant.com)
Gimpsy (www.gimpsy.com)
MOTOARELE DE CUTARE VERSUS SERVICII DE DIRECTOARE
Pn acum am vzut cum indexeaz bazele de date web paginile. n
urmtoarele rnduri vom vedea cum acceseaz utilizatorul aceste pagini.
Cele mai uzuale modaliti de accesare a acestor pagini se regsesc n aa numitele
motoare de cutare, respectiv n aa numitele directoare web (numite i anuare n
cazul anumitor traduceri).
Modalitilor de cutare a informaiei -prezentare comparativ
Motoarele de cutare permit utilizatorului s foloseasc orice termeni de
cutare (combinaie de termeni) dorete, motorul cutnd aceti termeni n baza de
date i returnnd paginile care conin aceste combinaii de termeni.
Spre deosebire de motoarele de cutare, serviciile de directoare web au
paginile organizate n baza de date pe subiecte (o bun comparaie ar fi cea cu
structura anuarelor de tip Pagini Aurii). Paginile cu informaia dorita pot fi selectate
navignd prin acest arbore de directoare. Navigarea prin structura directoarelor web
poate fi un foarte bun start pentru cutarea informaiei dorite, cu condiia ca topicul
ales sa fie ales ca subiect pentru o arborescen de directoare (de exemplui veti gsi
cu uurin un arbore de directoare dedicat sectorului educational n orice serviciu de
directoare web, ns nu vei gsi prea uor un arbore de directoare dedicat s zicem
consumului de droguri)
ATENIE uneori se pot produce confuzii cu privire la modul de cutare folosit de
un anumit serviciu. Astfel renumitul site Yahoo include att un motor de cutare ct i
un arbore de directoare web. Diferena fa de un motor de cutare obinuit este dat
de faptul c motorul de cutare al Yahoo caut cuvintele cheie doar n interiorul
directoarelor web din baza de date a Yahoo.
Din acest motiv motorul de cutare al sitului poate fi folosit cel mult pentru a
identifica zona din arborele de directoare ce conine informaia dorit.
Prezentarea rezultatelor
n ambele cazuri, odat ce ai introdus termenii de cutare, serverul i caut n
baza de date web indexat i v returneaz lista cu rezultate. Din cauza multitudinii de
legturi cu informaie sterila (nerelevant pentru utilizatorul ce a efectuat cutarea),
trebuie subliniate dou concepte deosebit de importante ce servesc la evaluarea listei
cu rezultate ale cutrii: rata de relevan (relevancy ranking), respectiv rezumatul
(abstract) ce nsoete legtura ctre pagin.

Marius Mruteri Documentare online


Rata de relevan (Relevancy Ranking)
Paginile gsite n urma cutrii sunt aproape ntotdeauna prezentate n ordinea
relevanei lor, n conformitate cu termenii dup care s-a efectuat cutarea. Algoritmii
dup care este cuantificat rata de relevan difer de la sit la sit i, n general, nu sunt
fcui publici. Pentru a v face ns o idee imaginai-v un exemplu simplu:paginile
vor fi considerate cu att mai relevante (i de vor fi mai sus n lista cu rezultate) cu ct
termenul(ii) de cutare se regsete de mai multe ori n acea pagin.
Pe baza ratei de relevan computerul (serverul) care face cutarea va acorda
fiecrui document ce conine termenii dorii o rat de relevan i, n final, va lista
primele acele pagini considerate a fi cu cea mai mare relevan. Din acest motiv nu
trebuie s ne facem griji dac o anumit cutare returneaz o list cu 10 milioane de
rezultate. Primele 20 - 40 de pagini sunt probabil cele mai relevante din punctul de
vedere al termenilor folositi pentru cutare. Totodat ns putem vedea importana
fantastic a alegerii celor mai potrivii termeni de cutare. Cu ct aslegem cei mai
potrivii termeni pentru a aefectua cutarea, cu att vom obine rezultate cu o
relevan mai mare.
Rezumatele paginilor (Abstracts)
n cazul celor mai multe servicii de cutare web putei s observai c aproape
fiecare legtur spre o pagin considerat relevant este nsoit de un scurt rezumat al
coninutului, multe servicii recurgnd chiar la sublinierea (ngoarea) termenilor
folosii n respectivul rezumat. Dac acest scurt rezumat nu ar exista ne-am putea
pune ntrebarea ce caut legtura respectiv n lista cu rezultate, respectiv am fi
obligai s pierdem mai mult timp urmnd fiecare legtur pentru a vedea ce fel de
infoemaie conine.
Oricum trebuie menionat faptul c, chiar i atunci cnd exist i este afiat, acest
rezumat al paginii este mult mai scurt dect coninutul paginii aflat n baza de date
web. De aceea de cele mai multe ori nu vom putea aprecia adevrata relevan a
informaiei coninute n acea pagin dect deschiznd-o.

Fig. 4. Importana rezumatelor (abstracts) pentru evaluarea rezultatelor cutrii

Marius Mruteri Documentare online


ALTE UNELTE DE CUTARE A INFORMAIEI PE WEB
iii. Biblioteci virtuale:
Biblioteci virtuale de uz general:

Librarians' Index to the Internet (www.lii.org)


INFOMINE (www.infomine.com)
Internet Public Library (www.ipl.org)
The WWW Virtual Library (vlib.org)
Academic Info (www.academicinfo.net)
Internet Scout Project (scout.wisc.edu)
BUBL Link (academic resources) (bubl.ac.uk/link/)

Fig. 5. Librarians' Index to the Internet bibliotec virtual de uz general

Marius Mruteri Documentare online

Biblioteci virtuale de specialitate (orientate spre anumite domenii):


Project Gutenberg (www.gutenberg.org) - beletristic
National Academies Press (www.nap.edu) - tiin
Free books for doctors (www.fb4d.com) - medicin
The free management library (www.managementhelp.org) - management

Fig. 6. Free Management Library bibliotec virtual de specialitate

iv. Invisible (deep) Web


Reprezint colecii de informaii online stocate n baze de date accesibile pe
Web, dar care, din diferite motive, nu sunt indexate de motoarele de cutare
tradiionale. Aceste servicii pot fi ntlnite i sub numele de servicii speciale de
cutare (specially search engines). Exemple de astfel de colecii sunt:
ProFusion (www.profusion.com)
Invisible-web (www.invisible-web.net)
Complete Planet (www.completeplanet.com)
Resource Discovery Network (www.rdn.ac.uk)
Direct Search (http://www.freepint.com/gary/direct.htm)

Marius Mruteri Documentare online

Fig. 7. Invisible Deep Web

v. Motoare de meta-cutare (metasearch engine)


Un motor de meta-cutare este o unealt de cutare care trimite cerea
dumneavoastr simultan ctre mai multe motoare de cutare clasice, servicii de
directoare web i uneoari care spre colecii de tip invisible web. Dup colectarea
rezultatelor cutrii de la toate serviciile apelate, motoarele de meta-cutare elimin
legturile aflate n duplicat i, conform unui algoritm propriu combin rezultatele ntro singur list, acordndu-le i o rat de relevan.
Datorit faptului c majoritatea motoarelor de meta-cutare iau n considerare
numai primele 10-20 de legturi din lista furnizat de ffiecare motor de cutare apelat,
ne putem atepta la rezultate excelente ale cutrii, din punctul de vedere al relevanei.
Din pcate ns, nu toate motoarele de cutare i serviciile de directoare web
suport o serie tehnici de cutare avansat (cum ar fi cutarea dup fraze sau folosirea
operatorilor logici). Din acest motiv, dac cutarea se face folosind aceste tehnici
avansate, motorul de metacutare nu va primi nici un rezultat din partea motoarelor
apelate ce nu folosesc astfel de tehnici de lucru.
Din cele menionate mai sus, reiese clar c motoarele de metacutare NU au
propriile baze de date web, ci le folosesc pe cele ale serviciilor apelate. Tot din acest
motiv, motoarele de meta-cutare nu permit nscrierea maanual a unei pagini (site) n
baza de date, lucur posibil n cazul motoarelor de cutare clasice.

10

Marius Mruteri Documentare online

Fig. 8. Motorul de meta-cutare metasearch.com


Unele dintre cele mai cunoscute motoare de meta-cutare sunt:
Metasearch (www.metasearch.com)
ez2Find (www.ez2find.com)
Vivisimo (www.vivisimo.com)
MetaCrawler (www.metacrawler.com)
InfoGrid (www.infogrid.com)
Infonetware (www.infonetware.com)
iBoogie (www.iboogie.tv)

11

Marius Mruteri Documentare online


vi. Utilitare de cutare de tip desktop
Un tip special de motoare de meta-cutare sunt utilitarele de cutare de tip
desktop (client side search software). Practic, spre deosebire de motoarele de metacautare online, aceste utilitare sunt programe ce pot fi descrcate de pe Internet i
instalate pe propriul calculator (local). Principiul lor de funcionare este oarecum
similar cu al motoarelor de meta-cutare.

Fig. 9. Utilitare de cutare de tip desktop Copernic


Cteva dintre cele mai utilizate utilitare de acest fel sunt:
Google Desktop (desktop.google.com)
Copernic (www.copernic.com)
Arrow Search (www.rt-software.co.uk/arrow_search/)
WebFerret (www.ferretsoft.com/download.htm)
ProtoSearch (www.npccenterprises.com/products/protosearch2.shtml)
Ca o concluzie general, motoarele de meta-cutare sunt unelte
complementare excelente, ns datorit unor considerente (numr relativ mic de
legturi luate n considerare de la fiecare serviciu apelat, imposibilitatea de a folosi
eficient tehnici avansate de cutare etc ) NU pot elimina necesitatea folosirii unor
motoare de cutare clasice.

12

Marius Mruteri Documentare online


III. CE UNELTE DE CUTARE S FOLOSIM ?
1. Dac cunoatei exact ce tip de informaie dorii s aflai, este recomandat
folosirea motoarelor de cutare. De exemplu pentru a gsi informaii despre viroze
sau despre preedinii Romniei putei folosi motoarele de cutare, deoarece
informaia nu este suficient de specific pentru a fi subiectul unui arbore de
directoare, dar este domeniul este suficient de bine conturat pentru a nu fi necesar
recurgerea la un motor de meta-cutare.

Fig. 10. Utilizarea motoarelor de cutare (186000 de legturi) versus servicii de


directoare (13 legturi) n cazul informaiilor despre virusul sinciial respirator

2. Dac vei cuta informaii despre un anumit termen sau o combinaie obscur
de termeni i dorii o analiz exaustiv a temei analizate, este de preferat
recurgerea la motoare de meta-cutare, ce pot apela simultan mai multe servicii
web (10 -12 motoare de cutare sau directoare web).
De exemplu, cutarea dup termenul vibrion (vezi Vibrionul holerei), Yahoo a
returnat 7790 legturi dintre care chiar prima legtur se referea la altceva dect
vibrionul holerei.

13

Marius Mruteri Documentare online

Fig. 11. Rezultatele cutrii enunate mai sus n urma utilizrii serviciului Yahoo
n contrapondere, aceeai cutare pe metasearch.com, a returnat 5340 legturi,
prima referin fiind legat chiar de definirea termenului vibrion.
De remarcat c metasearch.com recomand i sinonimul vibrio ca posibil
termen de cutare.

Fig. 12. Rezultatele cutrii enunate mai sus n urma utilizrii motorului de cutare
Google
14

Marius Mruteri Documentare online


3. Dac dorii s cutai informaii generale despre subiecte cu grad ridicat de
popularitate, este indicat folosirea serviciilor de directoare web. Astfel dac dorii
informaii despre astmul bronic n general , este mult mai indicat s folositi serviciul
de directoare Yahoo, n care putei naviga cu uurin, informaia este bine organizat
i exist i faciliti de cutare prin arborele de directoare.

Fig. 13. Yahoo Directory


4. Dac dorii, informaii pertinente legate de anumite domenii ale literaturii,
tiinei etc este preferabil folosirea serviciilor tip bibliotec virtual.

Fig. 14. National Academy Press bibliotec tiinific virtual

15

Marius Mruteri Documentare online


5. Dimpotriv, dac dorii informaii n timp real sau informaii al cror coninut
se schimb dinamic (tiri, prognoze meteo, mersul trenurilor) folosii baze de date
web specializate (invisible or deep web).

Fig. 15. Modaliti de utilizare a serviciilor oferite de diverse baze de date de tip
Invisible Web

Exist un numr de cteva mii de motoare de cutare, sute de motoare de


meta-cutare, servicii de directoare web sau baze de date specializate. Alegerea din
start a celei mai potrivite modaliti de cutare a informaiei poate face diferena
dintre o cautare cu succes a informaiei dorite i o experien frustrant datorit
pierderii de timp i a posibilelor confuzii.
Mai mult, n ultimul timp muli dintre deintorii de astfel de servicii au ales s
i diversifice activitatea furniznd mai multe servicii sub aceiai interfa utilizator.
Astfel s-a cristalizat un nou concept, acela de PORTAL WEB.
Portalul Web
Sub acest termen se nelege n general un site WEB ce ofer o gam larg de
servicii i resurse online, cum ar fi: e-mail, forumuri de discuii, motoare de cutare,
directoare web, comer electronic etc (a se vedea www.yahoo.com, unul dintre cele
mai cunoscute servicii de cutare, transformat ntr-un portal). Dac primele portaluri
(cum ar fi AOL Amerca Online) furnizau la nceput acees pe Internet i servicii de email, mai nou majoritatea motoarelor de cutare tradiionale s-au transformat n
portaluri Web, ce ofer o mare varietate de servicii, n dorina de a-i lrgi astfel baza
de utilizatori.

16

Marius Mruteri Documentare online

Fig. 16. Portalul InfoGrid de remarcat multitudinea serviciilor oferite (servicii de


cutare, directoare Web, e-mail, chat, news etc)

17

Marius Mruteri Documentare online


IV. UTILIZAREA MOTOARELOR DE CUTARE
Aa cum am vzut sunt dou modaliti mai importante prin care un utilizator
poate interoga o baz de date web: folosind csua de interogare a unui motor de
cutare (aa-numita tehnic type-in-a-box), respectiv selectnd anumite opiuni dintr-o
structura arborescent de directoare.
Acest capitol va analiza facilitile oferite de prima variant, de altfel cea mai
utilizat cale de regsire a informaiilor pe Web, cu scopul de a v ajuta s sesizai
diferenele dintre diferitele motoare de cutare, devenind astfel utilizatori mai eficieni
ai acestui tip serviciu.
Putem deosebi patru pai n utilizarea unui motor de cutare:
1. traducerea nevoilor dumneavoastr de informare n termeni cheie introdui
n csua de cutare a motorului folosit
2. folosirea unor modaliti de combinare a termenilor de cutare, pentu a furniza
calculatorului (serverului) ct mai mult informaie despre ceea ce dorii s
cutai
3. analiza rezultatelor cutarii
4. rafinarea termenilor de cutare i repetarea interogrii, dac rezultatele
obinute nu v satisfac
Aceti pai pot fi repetai de cte ori este nevoie, pn cnd ai gsit ceea ce v
interesa sau pn cnd vei decide c ai epuizat resursele indexate de motorul de
cutare folosit i este necesar s ncercai un alt tip de serviciu.
NOT: Tehnicile de lucru prezentate mai jos pot fi utilizate n cazul majoritii
serviciilor de cutare disponibile pe Web. Exist ns posibilitatea ca o anumit
modalitate de lucru s NU fie disponibil n cadrul unui anumit motor de
cutare. De aceea v recomand clduros ca, nainte de a ncepe lucrul cu un
motor de cutare, s vizitai legtura spre seciunea HELP (Ajutor) a acelui
motor, pentru a identifica n detaliu tehnicile de cutare disponibile.
1. Traducerea nevoilor dumneavoastr de informare n termeni cheie
Tehnologia de azi a motoarelor de cutare nu ne permite, din nefericire, s
formulm necesitile noastre de informare aa cum am dori. Nu putem scrie n csua
de cutare a motorului google.ro, de exemplu Vreau s cumpr un calculator .
Secretul const n a folosi termeni de cutare ct mai simpli i mai specifici cu
putin. Putei face asta urmnd sugestiile de mai jos:
i. - gndii-v la ce dorii s cutai i focalizai-v asupra a ceea ce dorii s obinei.
Probabil c nu dorii s achiziionai orice tip de calculator i de oriunde. De aceea n
locul formulrii Vreau s cumpr un calculator ieftin vei putea spune mai degrab
Vreau s cumpr un calculator Pentium IV la pre bun din Romnia. Gndii-v ct
mai detaliat la ceea ce vrei s aflai. Pentru a cuta cu succes informaia, ns, trebuie
s fii n acelai timp ct mai concii.
ii. spargei interogarea dumneavoastr iniial n ct mai multe faete, n ncercarea
de a o reduce la numai civa termeni cheie. Dac doi termeni sunt similari, este bine
s i combinai ntr-unul singur (vezi termenii calculator i Pentium IV). Aceasta va
simplifica cutarea focaliznd-o pe ideile cu adevrat importante. Astfel conform
exemplului nostru, ar putea fi suficient s folosim termenii vnd, calculator, Pentium
IV, pre. (termenul pre este un cuvnt specific romnesc, deci ar putea permite

18

Marius Mruteri Documentare online


excluderea paginilor care nu sunt n romn i subliniaz ideea de tranzacie
comercial; termenul Pentium IV poate nlocui eventual i termenul calculator,
riscnd cel mult s aflm eventual i preul unor procesoare Pentium IV).
Aceaste trucuri vor simplifica cutarea, focaliznd-o asupra ideilor importante.
Odat ce ai urmat aceti doi pai avei deja termenii de baz ai cutrii
termeni cheie ce pot fi suficient de ilustrativi pentru a exprima ntreaga idee de la care
ai pornit.
Din nefericire lucrurile nu sunt ntotdeauna att de simple. Exist nc o serie de alte
aspecte ce trebuie luate n considerare atunci cnd alegei termenii cheie dup care
vei efectua cutarea:
Sinonimele
Va fi de un real folos dac vei utiliza sinonime pentru fiecare termen de
cutare. Urmnd aceast idee putei ncerca i ofer pentru vnd, PC,
computerpentru calculator, PIV pentru Pentium IV etc. Cu ct vei gsi mai
multe sinonime pentru termenii folosii i le vei utiliza n cutare, cu att va crete
ansa de a gsi exact ceea ce v intereseaz.
n ceea ce privete utilizarea sinonimelor n cutare trebuie ns subliniat
faptul c este bine s avei incluse n cutare aproximativ acelai numr de sinonime
pentru fiecare termen, cu excepia cazului n care dorii s dai greutate mai mare
unui anumit termen, tehnic pe care o vom discuta mai trziu.
Omonime
Trebuie acordat o maxim atenie cuvintelor care au mai multe sensuri (cum ar fi
vesel/vesel sau Ion/ion). Computerul nu va nelege diferena i nu poate specifica
contextul n care este folosit cuvntul. Astfel, o cutare simpl dup cuvntul ion ne
va returna att pagini ce prezint informaii ioni (ca noiune din domeniul chimiei),
dar i posibile pagini personale ale unor oameni avnd prenumele de Ion sau chiar
instituii care au ca sigla cuvntul ION (de exemplu Institute of Navigation).

Fig. 17. Influena omonimelor asupra relevanei rezultatelor cutrii

19

Marius Mruteri Documentare online


Dialectele unei anumite limbi
Dac termenii folosii sunt scrii diferit n diferite dialecte ale unei limbi, cutarea
trebuie s in cont de toate aceste forme. S lum un exemplu din limba englez i
diferitele sale dialecte (engleza american, britanic, canadian): cuvinte ca
color/colour sau catalog/catalogue v vor permite s selectai numai pagini aparinnd
vorbitorilor unui dialect sau altuia. Dac dorii includerea tuturor paginilor ce conin
toate formele cuvntului, va trebui s includei ambele variante ca termeni cheie.

Fig. 18. Influena dialectelor unei limbi asupra rezultatelor cutrii


Trunchierea cuvintelor
Aceast tehnic urmrete cuvintele ce pot avea forme multiple ( cum ar fi woman i
women in englez la singular i plural). Putei regsi n urma cutrii ambele cuvinte ,
prin folosirea unor simboluri ca de exemplu * (wom*n).
Din nefericire alte motoare de cutare folosesc simboluri diferite pentru a semnifica
trunchierea cuvintelor, lucru care trebuie luat n considerare. De asemenea, anumite
motoare de cutare, cum este Lycos nu accept dect aa numita tehnica "righttruncation", adic trunchierea NUMAI la sfritul cuvntului ( de exemplu child$,
pentru forme ca children, child, childlike, childhood).
Aceast tehnic de lucru permite folosirea celei mai simple forme ale cuvntului
mpreun cu simbolurile pentru trunchiere, pentru a regsi toate formele n care apare
cuvntul respectiv.

20

Marius Mruteri Documentare online


2. Modaliti de combinare a termenilor de cutare
Motoarele de cutare v pun n mod obinuit la dispoziie posibilitatea de a
specifica o serie de relaii ntre termenii de cutare. Specificarea acestor relaii poate
ajuta serverul s ordoneze lista de rezultate ntr-o ordine mult mai relevant pentru
dumneavoastr (cu alte cuvinte crete ansa ca primele legturi din lista cu rezultate
ale cutrii s fie exact ceea ce cutai).
Putei face acest lucru folosind urmtoarele tehnici: cutarea dup fraze, folosirea
logicii booleene (operatori logici), folosirea logicii pseudo-booleene, creterea
importanei unui termen (aa numitul term-weighting)
Cutarea dup fraze
Este una dintre cele mai performante tehnici de combinare a termenilor de cutare,
fiind recomandat folosirea ei de cte ori este posibil. Atunci cnd stabilii termenii
dup care vei efectua cutarea, dac este important a numit ordine a cuvntului n
construcia frazei, este suficient s puneti secvena respectiv n ghilimele ( ),
simboluri folosite de majoritatea motoarelor de cutare pentru cutarea dup se poate
fraze. Atunci cnd poate fi folosit, cutarea dup fraze este una dintre cele mai
puternice modaliti de cretere a relevanei rezultatelor cutrii.
Exemplu: Dac vei dori s citii online cartea The comedy of errors de William
Shakespeare, probabil vei obine cele mai bune rezultate introducnd n fereastra de
cutare urmtoarea secven: William Shakespeare The comedy of errors
online, aa cum putei vedea n exemplul de mai jos:

Fig. 19. Cutarea dup fraze

21

Marius Mruteri Documentare online


Logica boolean (Folosirea operatorilor logici)
Chiar dac formularea din titlu pare menit s v sperie, nu v lsai nelai
folosirea acestei tehnici de cutare este extrem de simpl. Practic sunt folosite
cuvintele (operatorii logici) AND, OR i NOT (atenie, scrise cu MAJUSCULE),
pentru a indica bazei de date web existena unei anumite relaii ntre termenii dup
care se efectueaz cutarea.
Operatorul AND prin folosirea acestui operator ntre doi termeni de
cutare, transmitei bazei de date o cerere de genul: Vreau s gsesc toate paginile
care conin OBLIGATORIU ambii termeni, INDIFERENT de ordinea n care apar n
pagin. Dac o pagin conine NUMAI unul ditre termeni, nu m intereseaz.
n cazul nostru, cutarea propus anterior, poate fi formulat asttfel:vnd AND
calculator. Dac am folosi numai unul dintre termeni, rezultatele cutrii ar fi cu
siguran nerelevante.
Operatorul OR folosirea acestui operator indic motorului necesitatea unei
cutri mai extinse, cu retunarea tuturor legturilor ce conin unul SAU altul dintre
termenii cutrii. Operatorul OR este foarte util n specificarea sinonimelor pentru
termenii dorii.

Exemplu: vnd AND PC OR computer OR calculator

Un aspect important de remarcat este felul n care am folosit operatorii AND i


OR pentru a combina termenii cutarii n scopul creterii ansei de a obine rezultate
ct mai relevante. Astfel este indicat folosirea operatorului OR ntre sinonimele
termenilor cutrii, respectiv a operatorului AND ntre termeni diferii ca
semnificaie.
Relevana rezultatelor va crete dac vom fi i mai specifici, ca n exemplul
Exemplu: vnd AND PC OR computer OR calculator AND magazin online
urmtor:
Observai combinarea folosirii operatorilor logici cu tehnica de cutare dup
fraze (termenul specificat n ghilimele).
Uneori ne este de folos i gruparea termenilor n paranteze, pe baza semnificaiei lor
(sinonime). Exemplu de mai sus devine astfel:
Exemplu: vnd AND (PC OR computer OR calculator) AND magazin
online
Operatorul NOT - operatorul poate fi folosit n anumite circumstane, cum ar
fi ndeprtarea din rezultate a unei semnificaii generate de un termen omonim. n
cazul omonimelor vesel= ustensile de buctrie, vesel=voioas, putem exclude
unele rezultate nerelevante printr-o cutare de genul:

22

Marius Mruteri Documentare online

Exemplu: ( femeie OR persoan) AND (vesel NOT buctrie).


Vom exclude astfel rezultatele cu legturi spre pagini cu informaie
nerelevant ca n exemplul ...este genul de persoan care cumpr mult vesel de
buctrie. Nu uitai de gruparea termenilor negaiei n paranteze !
Un alt exemplu este excluderea anumitor contexte legate de unul din termenii cutrii,
ca n exemplu
Exemplu: Leonardo Da Vinci NOT (picturi AND tablouri).
O astfel de cutare indic faptul c dorim alte informaii legate de Leonardo
Da Vinci dect cele legate de pictura sa.
Deoarece tehnicile prezentate mai sus reprezint concepte eseniale pentru
cutrea pe Web, este foarte important ca, nainte de a merge mai departe, s v
asigurai c ai reinut corect cnd i cum trebuie utilizai operatorii logici
(booleeni): operatorul AND - pentru combinarea termenilor cutrii cu scopul de
a focaliza cutarea pe subiectul dorit de noi; operatorul OR - n special n cazul
sinonimelor, pentru a mri aria de cutarea prin posibilitatea de a regsi pagini
care s conin unul sau mai multe sinonime ale termenului dorit; opearatorul
NOT - pentru excluderea anumitor contexte legate de unul din termenii cutrii.

NOT: Atenie ! Nu toate motoarele de cutare v permit folosirea acestei


tehnici, n timp ce alte motoare de cutare o folosesc ca tehnic implicit, prin
adugarea unui AND invizibil ntre termenii folosii pentru cutare (aanumitul AND/OR invizibil). Acest lucru va avea ca efect afiarea n primul rnd
a legturilor care conin TOI termenii i abia apoi a legturilor ce conin doar o
parte din termenii cutai. (pentru aceste motoare vnd calculator vnd AND
calculator)
Logica pseudo-boolean
Deoarece folosirea operatorilor logici AND, OR i NOT poate prea destul de
complicat, multe motoare de cutare permit utilizarea aa-numitului limbaj natural
pentru formularea scopului cutrii, limbaj ce implic folosirea a dou simboluri (+ i
- ) pentru operaii pseudo-booleene.
Astfel, dac vei aduga semnul + naintea unui termen de cutare sau naintea
unei fraze incluse n ghilimele, aceasta va nsemna c respectivul termen TREBUIE s
se regseasc neaprat n toate legturile returnate. Se poate observa c are o utilizare
destul de apropiat cu a operatorului logic AND. Poate fi folosit cu succes dac dorii
de pild informaii despre o anumit persoan.
Exemplu: + Leonardo da Vinci painter, sculptor, architect, engineer

23

Marius Mruteri Documentare online


O astfel formulare a cutrii ar putea crete ansele de a gsi n cadrul
aceleiai legturi mai multe informaii despre opera de o mare diversitate, a lui
Leonardo da Vinci.
n urma unei astfel de cutri, motorul va returna TOATE legturile din baza
de date ce conin numele Leonardo da Vinci, i le va ordona n lista cu rezultate n
funcie de ceilali termeni pe care aceste pagini i conin sau nu.
Folosirea semnului naintea unui termen de cutare (sau a unei fraze) va nsemna
c acesta NU trebuie s se regseasc n coninutul niciuneia din paginile (legturile)
returnate. Are deci o utilizare simular operatorului logic NOT.
Creterea importanei anumitor termeni (term weighting)
Un ultim pas legat de combinarea termenilor cutrii este stabilirea
importanei lor n cadrul opeaiunii de cutare. Tehnica se bazeaz pe sublinierea
importanei anumitor termeni n comparaie cu restul termenilor folosii. Prin aceast
tehnic putei comunica motorului de cutare c anumii termeni de cutare sunt mai
importani dect alii. Pentru exemplul considerat de noi, legat de cumprarea unui
calculator, s-ar putea s considerm termenul Pentium IV ca fiind foarte important,
n sensul c dorim s cumprm nu orice fel de calculator ci unul de ultim generaie.
Diferitele motoare de cutare utilizeaz, evident, tehnici diferite pentru a face aceasta.
Ca regul general ns, cu ct avem un numr mai mare de sinonime pentru un
anumit termen de cutare, cu att acesta va fi considerat mai important de ctre
motorul de cutare, evident din punct de vedere al ratei de relevan.
Astfel dac dorim s cumprm un calculator neaprat Pentium IV, este bine s
formulm cutarea n felul urmtor:
Exemplu: vnd AND calculator AND (Pentium IV OR PIV OR Intel
PIV)

Tehnici de limitare a ariei de cutare


Una dintre cele mai puternice faciliti oferite de majoritatea motoarelor de
cutare este capabilitatea de a controla ce pagini Web (situri) vor fi sau nu luate n
considerare ntr-o cutare.
i. Cutarea n anumite locaii (situri).
S presupunem c dorim s aflm o serie de informaii despre astm, folosind
numai resursele aflate la dispoziie pe situl National Institute of Health (nih.gov).
Vom folosi n cadrul motorului de cutare Google comanda site: , combinat cu
tehnicile i operatorii menionai anteriori:
Exemplu: site:nih.gov asthma

24

Marius Mruteri Documentare online

Fig. 20. Tehnici de limitare a ariei de cutare - Cutarea n anumite locaii


Ca rezultat. Google va lista toate paginile ce conin cuvntul asthma
indexate din domeniul nih.gov. Vom afla astfel c exist n cadrul NIH instituii
specializate numite National Institute of Allergies and Infectious Diseases (NIAID),
respectiv National Heart, Lung and Blood Institute (NHBLI) ce au cte un
subdomeniu (site) propriu (niaid.nih.gov, nhlbi.nih.gov), putnd astfel s restrngem
i mai mult cutarea.
S presupunem c dorim s gsim modaliti sau ghiduri de tratament al
astmului, folosind situl NHBLI. Vom formula cutarea, conform celor nvate
anterior:
Exemplu: site:nhlbi.nih.gov asthma AND (treatment OR guidelines OR
management)

25

Marius Mruteri Documentare online

Fig. 21. Tehnici de limitare a ariei de cutare - cutarea n anumite locaii +


combinarea termenilor de cutare folosind operatori logici
Trebuie remarcat faptul c n acest fel am restrns lista cu rezultate, de la peste
300000 de legturi la doar 436.
Dac vom analiza prima cerere, vom constata c exist o serie de legturi ce
duc spre articole de prezentare general a bolii (de tipul What is asthma? sau
Asthma Basic). Dac dorim eliminarea unor astfel de articole putem formula
cutarea astfel:
Exemplu: site:nhlbi.nih.gov asthma -"What is asthma" -basic

n acelai fel putem construi expresii care s exclud un anumit sit din
rezultatele cutrii:
Exemplu: asthma AND (treatment OR guidelines OR management) -site:nih.gov

Astfel am cutat modaliti de tratament al astmului n alte locaii de pe


Internet dect nih.gov.

26

Marius Mruteri Documentare online

Fig. 22. Tehnici combinate de limitare a ariei de cutare - folosirea operatorului -


Dac, n final am dori s aflm i opiniile altor surse de informaie medical
online asupra tratamentului astmului, ar trebuie s formulm cutarea astfel:
Exemplu: asthma AND (treatment OR guidelines OR management) -site:nih.gov

27

Marius Mruteri Documentare online

Fig. 23. Tehnici combinate de limitare a ariei de cutare - folosirea operatorului


+
ii. Cutarea pe baza adresei URL (Uniform Resource Locator)
Uneori dorim s gsim pagini cu un anumit subiect, la o anumit locaie. O
comand care ne poate ajuta este comanda inurl:
Astfel,
inurl:stanford.edu asthma AND (treatment OR guidelines OR management)

ne permite s regsim pagini despre tratamentul astmului ce au n adresa URL


obligatoriu cuvintele stanford.edu.
iii. Cutarea dup cuvintele din titlul paginii
Dac pn acum termenii erau cutai oriunde n pagin, putem folosi
comanda title: (sau intitle: n alte motoare de cutare), pentru a fora cutarea
termenilor DOAR n tilul paginii.

28

Marius Mruteri Documentare online

Fig. 24. Tehnici de limitare a ariei de cutare - folosirea operatorului intitle:


iv. Cutarea dup tipul de fisiere
S presupunem c dorim s regsim toate documentele legate de tratamentul
astmului ce sunt n formatul pdf (Adobe Portble document format). Putem face
aceasta folosind comanda filetype: .
asthma AND treatment OR guidelines OR management filetype:pdf

29

Marius Mruteri Documentare online

Fig. 25. Tehnici de limitare a ariei de cutare - folosirea operatorului filetype:


3. Analiza rezultatelor cutrii
Odat ce avei n fa lista cu rezultatele cutrii, chiar dac nu sunt (foarte)
relevante, nu dezarmai. Este bine s urmrii rapid primele 10 30 de legturi,
analiznd n primul rnd URL-ul, apoi scurtul rezumat afiat pentru fiecare legtur.
Dac informaia pare interesant putei ncerca s vizitai primele 2-5 legturi, pentru
a v lmuri dac informaia coniut este relevant pentru dumneavoastr.
Dac nici una dintre acestea nu este relevant pentru dumneavoastr, ncercai
s combinai altfel termenii cutrii, s ncercai eventual (i) ali termeni de
cutare sau, pur i simplu, s ncercai folosirea unui alt motor de cutare.
n general, regula de aur a cutrii pe Web poate fi formulat astfel: cu ct
petrecei mai mult timp selectnd i combinnd termenii de cutare, cu att vei
petrece mai puin timp analiznd lista cu rezultate (pentru simplul motiv c ele vor
avea un grad mai ridicat de relevan).
Atunci cnd analizai lista cu rezultate focalizai-v atenia asupra adreselor
(URL) paginile cu adrese foarte similare provin probabil din cadrul aceluiai site i
pot fi, deci neglijate, odat ce ai vizitat acel site.
Paginile ce conin formulri de genul "Re: XXXXXXXX", provin cel mai
frecvent din arhivele unor liste de discuii (e-mail) i pot fi neglijate de cele mai multe
ori.
Cele mai folositoare pagini sunt cele care conin ele nsele legturi spre acelai
subiect sau subiecte similare celui cutat.
O alt modalitate este cutarea unor pagini de tip FAQ (frequently asked
questions), legate de subiectul dorit de dumneavoastr. De obicei astfel de pagini

30

Marius Mruteri Documentare online


conin informaii importante sau cel puin o introducere n domeniul de care suntei
interesai.
De ce trebuie s evaluai paginile rezultate n urma cutrii pe Web?
- n general aproape orice cutare se soldeaz o list ce conine sute, mii sau zeci mii
de legturi.
- multe pagini nu sunt aduse la zi, riscnd astfel s pierdei mult timp filtrnd
informaii deja depite
- informaia publicat pe cele mai multe situri NU este evaluat de ctre cineva
autorizat (evaluare peer-reviewed)
- trebuie s avei n vedere faptul c este extrem de simplu ca oricine s publice pagini
de Internet, n acest moment neexistnd nici o modalitate de a controla n vreun fel
calitatea respectivei informaii.
Modaliti de evaluare
nainte de a deschide o anumit pagin...
Analizai atent adresa paginii (URL):
- este vorba de un site sau de pagini personale? (dac conine semne ca ~ sau % poate
fi vorba de utilizatori sau membri ai unei organizaii )
- este numele de domeniu potrivit pentru coninutul paginii respective ( de exemplu
edu, org, gov dac dorii anumite informaii tiinifice din surse autorizate)
- este pagina publicat de o organizaie credibil de a furniza acel tip de informaie (
de exemplu este credibil s citii tiri de pe o pagina a sitului cnn.com )
- provine acea informaie de la o surs (organizaie, agenie, instituie) credibil n
domeniul respectiv (de exemplu, este foarte probabil s gsii informaie medical
credibil pe situl National Institute of Health www.nih.gov, informaii despre
Uniunea European pe paginile sitului www.europa.int etc).
Dup ce ai deschis o anumit pagin...
- putei afla cine a scris-o ? (numele autorului, instituia...ai auzit vreodat de acea
instituie?); o simpl adres de e-mail a autorului NU este de regul suficient.
- exist pe sit dovezi asupra pertinenei informaiei publicate, respectic a competenei
n domeniu a celui ce a publicat-o ? (cutai pe sit legturi de tipul About us
Philosophy Background Biography)
- este informaia de pe pagina respectiv destul de la zi ? (cutai s gsii n cadrul
paginii o informaie de genul last updated: 12.11.2004
Indicatori ai calitii unei pagini Web:
- surse bibliografice bine documentate (legturi, note de subsol, referine
bibliografice)
- sunt cele de mai sus similare cu cele gsite n publicaii tiprite ?
- aigurai-v c informaia gsit nu a fost modificat sau chiar falsificat (exist
meniunea unei versiuni tiprite a documentului ? poate fi ea obinut ?
- existena unor legturi spre pagini similare

31

Marius Mruteri Documentare online


Ce spun alii despre acea pagin (acea legtur) ?
Din fericire, unele motoare de cutare, cum ar fi Google, ne pun la dispoziie o
unealt extrem de eficace pentru a afla cte legturi exist spre pagina pe care tocmai
o analizm (cu alte cuvinte cte referiri sunt c alii consider pagina respectiv ca
avnd un coninut suficient de credibil pentru a fi citat ). Unealta menionat este
comanda link:
De exemplu pentru cutarea
link:www.nih.gov

Google va returna peste 59000 de referiri, fa de numai 82 n cazul Ministerului


Sntii din Romnia.

Fig. 26. Evaluarea rezultatelor cutrii prin folosirea operatorului link:


ntrebai-v care ar putea fi scopul pentru care a fost publicat aceast pagin ...
- pentru informarea cu date exacte i fapte a publicului asupra unui anumit subiect ?
- pentru a lmuri unele probleme ?
- pentru a vinde ceva ?
- pentru a discredita o alt surs de informare ?
- pentru a parodia pe cineva sau ceva... ?
ntrebarea final pe care trebuie s o punei este urmtoarea : mi este
util informaia pe care am gsit-o n acea pagin ? Servete ea scopului meu ?

32

Marius Mruteri Documentare online


4. Continuarea cutrii
Aa cum am spus anterior, dac nici una dintre legturi nu este relevant
pentru dumneavoastr, ncercai s combinai altfel termenii cutrii, s ncercai
eventual (i) ali termeni de cutare sau, pur i simplu, s ncercai folosirea unui alt
motor de cutare.
Dac dorii s schimbai termenii de cutare i suntei n pan de inspiraie n legtur
cu identificarea unor noi termeni ce ar fi potrivii, o sugestie bun este s examinai
coninutul unei pagini Web la care avei acces i care conine informaia dorit pentru
a vedea termenii folosii (eventual sinonime, fraze etc). Aceast manevr ar putea fi
util n identificarea unor noi termeni pentru cutare.
Dac lista cu rezultate este prea extins, este indicat s repetai cutarea
folosind mai muli termeni combinai prin operatorul AND.
Dac lista cu rezultate este prea srac, renunai la termenii mai putin
importani i/sau schimbai modul de combinare a lor (modul n care folosiia
AND/OR).
Dac n list regsii foarte multe legturi ce conin informaii numai despre
anumii termeni de cutare, n timp ce ali termeni lipsesc din rezultate, aceasta
nseamn c respectivii termeni au prea mult greutate (term-weight) i este indicat s
renunai la o serie de sinonime ale lor. Atenie ns la faptul c prea puini termeni de
cutare folosii pot scdea specificitatea nseamn de cele mai multe ori lips de
specificitate, respectiv un numr mare de legturi n lista cu rezultate, de cele mai
multe ori lipsite de relevan.
Trebuie remarcat faptul c anumite motoare (Google de exemplu) permit,
odat cu afisarea listei cu rezultate, alegerea unei opiuni de genul pagini similare
(similar pages).
Prin folosirea acestei faciliti, putei restrnge rapid cutarea la un grup
relevant de documente. Aceast opiune este extrem de util dac avei probleme cu
identificarea unor sinonime ale termenilor cutrii. Odat ce ai identificat o pagin cu
informaii utile, putei gsi cu uurin altele similare.
Concluzii
Motoarele de cutare sunt probabil cea mai utilizat cale de accesare a
informaiei stocate n bazele de date Web. Principalii pai necesari pentru a utiliza
eficient un motor de cutare sunt urmtorii:
1. Formulai-v atent nevoia de informare. ncercai s facei aceasta ct mai
simplu i specific cu putin
2. Spargei cererea de mai sus ntr-o serie de termeni de cutare
3. Gsii sinonime pentru fiecare termen identificat
4. Atunci cnd este posibil, recurgei la fraze (termeni specificai n ghilimele)
5. Combinai sinonimele termenilor de cutare prin intermediul operatorului OR
i legai aceste combinaii prin intermediul operatorului AND
6. Analizai circa 30 de rezultate nainte de a cuta din nou
7. Dac este posibil, nainte de a rencepe cutarea, folosii pagini cu informaie
similar celei cutate pentru a identifica noi termeni de cutare i sinonime ale
acestora

33

Marius Mruteri Documentare online


V. UTILIZAREA SERVICIILOR DE DIRECTOARE WEB

n literatura romnesc de specialitate sunt cunoscute i sub numele de anuare


online sau repertoare tematice valide.
Aa cu am ma spus, serviciile de directoare Web constituie o veritabil baz
de date cu documente clasate pe categorii si subcategorii. Indexate manual sau
automat (mai rar), ele sunt foarte mult utilizate pentru cutari simple sau complexe.
Un anuar de cutare tematic ghideaz utilizatorul printre temele disponibile, nainte de
a alege contextul cercetrii finale. Contrar motoarelor de cutare, serviciile de
directoare Web indexeaz de obicei site-uri complete, ncepand de la pagina de
primire (Home page).
Aceast modalitate de lucru este pus la dispoziie de servicii de cutare
extrem de cunoscute, cum ar fi Yahoo sau Magellan. Au avantajul c pun la dispoziia
utilizatorului un set de resurse existente despre un anumit subiect colectate, indexate
i n acelai timp, extrem de bine organizate. Astfel dac un subiect de interes pentru
utilizator exist deja n arborescena de directoare a serviciului, este foarte probabil ca
aceast cale s fie i cea mai rapid pentru a gsi informaii cu grad ridicat de
relevan.
Utilizarea acestui serviciu este extrem de simpl: utilizatorul nu are dect s
exxamineze lista de opiuni arborescente pus la dispoziie i s selecteze domeniul
cel mai apropiat de nevoia lui de informare. Prin alegerea acestei opiuni (legturi) va
trece apoi la urmtorul nivel de detaliu al serviciului de directoare unde va avea
posibilitatea s selecteze un domeniu i mai apropiat de ceeace cut. Utilizatorul va
putea s continue n acest fel, pe nivele din ce n ce mai ridicate de detaliu, pn cnd
fie va gsi o serie de legturi cu informaie util, fie va ajunge la o fundtur, adic
o ramur a arborelui de directoare ce nu conine informaie relevant pentru el.
Cu ajutorul butonului "BACK" al browserului poate reveni oricnd la un nivel
superior al arborelui de directoare pentru a relua cutarea spre o alt zon a
repertoarului tematic.
Cutarea informaiei n respectivul director poate fi considerat ncheiat
atunci cnd utilizatorul s-a ntors la meniul de pornire i nu mai are la dispoziie nici o
legtur neexplorat deja.
Dac aceast modalitate de cutare nu v satisface, majoritatea directoarelor
Web pun la dispoziie i o csu de cutare rapid (type-in-box).
Cutarea rapid n directoarele Web
Trebuie spus c aceast cutare NU este similar celei folosite pentru
motoarele de cutare descrise anterior. Cutarea se produce ntr-o colecie mult mai
mic de date (de obicei structura directoarelor i descrierea acestora) i, de aceea,
cutarea se face oarecum diferit.
- putei folosi cutarea rapid n primul rnd pentru a afla dac exist vreun
director cu informaii despre subiectul de interes pentru dumneavoastr.
- cutarea trebuie s fie ct mai simpl cu putin. De obicei un singur termen ce
reflect cel mai bine subiectul dorit este suficient. Dac nu gsii nici un
rezultat, ncercai un sinonim al termenului anterior.

34

Marius Mruteri Documentare online


-

n general, nu este recomandat folosirea temenilor multiplii sau a


combinaiilor de termeni; un director Web este ceva simular unui repertoar de
tip Pagini Aurii v gndii la un domeniu i deschidei la pagina ce conine
informaii din domeniul respectiv. Dac nu gsii nimic, ncercai alt termen.
Folosirea mai multor termeni sau a unor combinaii nu duce dect la o list
confuz de rezultate, cu grad sczut de relevan. n plus, introducei termenii
de cutare n forma cea mai simpl cu putin i evitai folosirea operatorilor
AND, OR sau a frazelor (chiar i atunci cnd serviciul folosit o permite).

Fig. 27. Modaliti de utilizare a serviciilor de directoare Web

Dezavantaje ale directoarelor Web


Dei sunt simplu de utilizat i includ i faciliti de cutare, directoarele Web
au (cel puin n acest moment al evoluiei lor) cteva dezavantaje ce trebuie subliniate:
- indexarea datelor n directoarele web se face de obicei manual (sub coordonarea
unui editor) i nu automat, ca n cazul motoarelor de cutare. Intrrile noi se
actualizeaz greu, putnd dura chiar luni pn s apar n structura de directoare.
- dac nu ai ghicit termenul folosit de editor pentru pagina (tema, subiectul)
respectiv, aceasta va fi foarte greu de gsit.
- paginile ce trateaz subiecte multiple pot fi regsite frecvent doar ntr-un singur
arbore de directoare, conform subiectului considerat ca fiind principal, celelalte
subiecte fiind n consecin cvasi-ignorate.
-bazele de date sunt semnificativ mai mici dect n cazul motoarelor de cutare (zeci
sau sute de mii de pagini pentru directoarele web, yeci de milioane de pagini pentru
motoarele de cutare).

35

Marius Mruteri Documentare online


Din aceste motive, pentru orice cutare exaustiv, n special asupra unor
subiecte ce nu sunt foarte cunoscute (mediatizate), este bine s se fac cu ajutorul
unor motoare de cutare importante, n detrimentul directoarelor Web.
CONCLUZII:
Directoarele Web sunt locuri excelente de pornire n cutarea informaiei pe
Internet, cu condiia s gsii un arbore de directoare care s trateze tema cutat
(subiectul dorit).
Dac ns tema cutat nu a fost selecionat de editorul serviciului ca
rdcin pentru un arbore de directoare, este de preferat s renunai la folosirea
acestui tip de serviciu de cutare i s recurgei la un motor de cutare.
Ca regul general este recomandat s v ncepei cutarea informaiei pe
Internet folosind un arbore de directoare i s recurgei abia apoi, dac este necesar,
la un motor de cutare, ce dispune de mult mai mult informaie indexat n bazele de
date, dar necesit o experien mult mult mai mare din partea utilizatorului, pentru
aputea fi utilizat eficient.

36

Marius Mruteri Documentare online


VI. CRITERII DE SELECIE A BAZELOR DE DATE WEB
Este evident c bazele de date Web folosite de serviciile de cutare a
informaiei pe Internet NU sunt la fel. Ele difer una de cealalt prin urmtoarele
aspecte:
Caracteristici
Mrimea bazei de
folosite

Observaii
date Directoarele Web folosesc n general baze de date
mai mici
Bazele de date web de mrime medie pot conine
pagini pe care altele mai mari le-au scpat din
atenie
Este greu de cutat eficient n bazele de date Web de
mari dimensiuni
Toate tipurile de pagini baze de date Web de de
Tipul paginilor indexate
uz general
Pagini populare servicii utile pentru a gsi
informaii fierbini (tiri, meteo etc)
Pagini cu informaie intit, de nalt calitate
Servicii utile pentru mediul academic i tiinific
Full-text Cutare dup termeni specifici
Metoda de indexare
(combinare de termeni) - motoare de cutare
Indexare manual n servicii de directoare Web
Modul
de
acces
al Servicii de directoare Web indicate ca punct de
pornire pentru cutare
utilizatorilor la serviciu
Motoare de cutare mai performante, conin mai
mult informaie indexat, mai dificil de folosit
Capabilitile motorului de Operatori logici unele motoare de cutare Nu
permit utilizarea acestora
cutare
Operatori psudo-booleeni cele mai multe motoare
permit folosirea acestei metode de cutare folosind
limbajul natural
Cutarea dup fraze una dintre cele mai
performante metode de cutare
Creterea importanei termenilor de cutare (Term
weighting) dac poate fi folosit crete
semnificativ relevana rezultatelor
Trunchierea termenilor cele mai multe motoare o
permit
Relevana informaiei unele servicii returneaz
Prezentarea rezultatelor
numrul de termeni regsit n fiecare legtur i
calculeaz un scor privitor la relevana legturii
Rezumate pot diferi ca ntindere, n funcie de
serviciul de cutare
Continuarea cutrii unele motoare ofer o
opiune foarte util: pagini similare

37

Marius Mruteri Documentare online


Aa cum se poate observa, exist o multitudine de criterii ce caracterizeaz o
baz de date Web, astfel c anumite nevoi de informare necesit folosirea unui anumit
tip de baz de date Web, respectiv a unui anumit tip de serviciu de cutare.
n principiu, nu este recomandat folosirea aceluiai serviciu de cutare pentru
toate tipurile de cutare pe care le facei, tot aa cum nu folosii un singur dicionar
pentru orice tip de traducere.
Sopul acestui capitol introductiv este de a v ajuta s decidei care este
unealta cea mai potrivit pentru a cuta ceea ce dorii, respectiv de v nsui
modalitile de baz pentru a folosi eficient serviciul de cutare ales.

38

Marius Mruteri Documentare online


BIBLIOGRAFIE
1. Danny Sullivan - Power Searching For Anyone Online book,
http://searchenginewatch.com/facts/article.php/2156031, 2001
2. Debbie Flanagan Web Search Strategies - Online book,
http://www.learnwebskills.com/search/main.html, 2004
3. *** - Google Guide Online book, http://www.googleguide.com
4. E. Coiera - Guide to Medical Informatics, the Internet and Telemedicine,
Chapman & Hall, London, (1997).
5. E. Coiera - Information Economics and the Internet, Journal American
Medical Informatics Association, 7, 215-221, 2000
6. Jalobeanu M. - "WWW n nvmnt: Instruirea prin Internet, Cum cutm
i Cum publicm pe Web", Ed. CCD, Cluj-Napoca, 2001

39

S-ar putea să vă placă și