Sunteți pe pagina 1din 57

CAP. 9.

C UTAREA INFORMA IEI PE


INTERNET

Curs:
Tehnologia informa iei
în cercetare

Mat. Gabriela MAILAT


Ing. Corina POP
Prof.dr.ing. Elena HELEREA
1
CUPRINS

1. Introducere
2. Ce este o „baz de date Web”
3. Metode de indexare
4. Programe de selectare
5. Unelte pentru c utarea informa iei pe
internet
6. Concluzii
2
Introducere

World Wide Web, prescurtat WWW, este cea


mai important component a Internetului.
Este o interfa multimedia ce presupune
posibilitatea accesului la surse ce includ
grafice i figuri, imagini, sunete i filme –
bazate pe tehnologia hypertext.
Leag documentele între ele prin conexiuni,
formând un p ienjeni (web).
3
Introducere

G sirea documentelor pe Web este dificil :


– nu exist un format standard de descriere
a resurselor din Internet
– Exist diferite instrumente de c utare care
opereaz în moduri diferite.
Nu este o metod indicat pentru reg sirea
informa iilor referitoare la un anumit subiect.

4
Introducere

Instrumentele de c utare folosesc


urm toarele metode de reg sire a
informa iilor: c utarea dup cuvinte cheie
sau expresii, mecanismele booleene,
proximitatea, trunchierea etc.
Reg sirea unei resurse folosind adresa
(URL) este util i rapid dar
exist posibilitatea modific rii URL-ului
datorit caracterului dinamic al Internet-ului.

5
Ce este o „baz de date Web”
(Web database) ?

O „baz de date Web” este o list organizat


de pagini web. O astfel de list poate fi
imaginat ca un gigantic repertoar ce con ine
un “surogat” al fiec rei pagini înregistrate în
list (practic p r i mici din acea pagin , cum
ar fi titlul, antetul etc).

6
Ce este o „baz de date Web”
(Web database) ?

Crearea acestei liste cu surogate ale


paginilor poart numele de indexare i
fiecare baz de date web o realizeaz în
stilul s u caracteristic.

7
Ce este o „baz de date Web”
(Web database) ?

Pentru utilizatorul final, baza de date web


furnizeaz o interfa ce are ca i
caracteristic fie
un “câmp” special în care utilizatorul tasteaz
cuvintele dup care va efectua c utarea
(vezi interfa a cu utilizatorul de la Google),
o list cu “directoare” din care utilizatorul
poate alege leg tura dorit (vezi Yahoo
directories).
8
Metode de indexare

Exist dou modalit i mai importante de


indexare a informa iei în timpul gener rii
bazelor de date web:
– indexarea full-text
– indexarea “manual ”.

9
Metode de indexare

Indexarea full-text se caracterizeaz prin


includerea tuturor cuvintelor dintr-o pagin în
baza de date pentru c utare, cu ajutorul unor
programe speciale de calculator numite
“p ianjeni sau robo i” (spiders sau robots).
Altavista i Google folosesc pe scar larg
aceast tehnic de indexare.
Indexarea full-text permite s reg sim toate
referirile la un anumit termen din documentul
indexat.
10
Metode de indexare

Indexarea “manual ”
În acest caz o persoan examineaz paginile ce
urmeaz a fi indexate i decide asupra câtorva
cuvinte (fraze) cheie ce descriu cel mai bine
informa ia con inut în respectiva pagin .
Permite utilizatorului s reg seasc mai multe
leg turi utile în urma c ut rii, tocmai pentru c
un om i nu o ma in a ales cuvintele cheie ce
au fost incluse în indexul bazei de date.
11
Metode de indexare

Aceast tehnic de indexare este folosit în


cazul serviciilor de directoare de pe web
(Yahoo directories sau Magellan).

12
Programe de selectare
(Cum selecteaz bazele de date web ce
pagini vor fi indexate ?)

Foarte multe servicii de c utare folosesc


programe automate, numite "spiders" sau
"robots" (p ianjeni sau robo i), ce c l toresc
de la site la site ( = a se citi colec íi de pagini
web) c utând pagini WWW nou ap rute sau
modificate substan ial.

13
Programe de selectare

Exist trei clase de baze de date web:


baze de date ce monitorizeaz TOATE categoriile
de pagini WWW ;
baze de date ce monitorizeaz NUMAI paginile
WWW considerate populare (în principiu cele cu
num r mare de vizitatori);
baze de date ce monitorizeaz NUMAI paginile
WWW ce îndeplinesc anumite criterii (legate fie de
calitatea informa iei furnizate, fie de tipul de
informa ie urm rit – ex. medical , tiin ific , tiri etc).
14
Unelte pentru c utarea informa iei pe
Internet

i. Motoare de c utare
ii. Directoare web (anuare online, repertoare
tematice)
iii. Biblioteci virtuale
iv. Invisible (deep) Web
v. Motoare de meta-c utare (metasearch engine)
vi. Utilitare de c utare de tip desktop

15
Unelte pentru c utarea informa iei pe Internet

i. Motoare de c utare
Un motor de c utare este definit ca un
“serviciu” de reg sire a informa iilor stocate
în bazele lor de date, care descrie
principalele resurse din Web.

O alt defini ie:

16
Unelte pentru c utarea informa iei pe Internet

Un motor de c utare este o baz de date


con inând pagini Web ce pot fi reg site pe
baza unor cuvinte cheie i care continu s
scaneze Internetul, cu ajutorul unor
programe automate (spiders, robots) în
c utare de pagini noi. Informa ia rezultat în
urma activit ii robo ilor este apoi indexat i
stocat în baza de date.

17
Unelte pentru c utarea informa iei pe Internet

La lansarea unei c ut ri se exploreaz de


fapt con inutul bazelor de date, în care sunt
stocate informa ii colectate automat de robo i
i nu Web-ul în mod direct.
Se recomand utilizarea a cel pu in dou
utilitare pentru aceea i cerere formulat
datorit modului propriu de func ionare a
fiec rui motor de c utare i a paginilor web
existente (diferite de la un utilitar la altul).

18
Unelte pentru c utarea informa iei pe Internet

Motoarele de c utare se împart în dou categorii:


1. Motoare care func ioneaz dup modelul
directorului (arborelui de subiecte), de fapt dup
un ghid web în care loca iile sunt organizate pe
subiecte i subsubiecte, într-o structur
ierarhic , pornind de la un subiect general i
ajungând la subiecte cu caracter din ce în ce
mai specifice.

19
Unelte pentru c utarea informa iei pe Internet

2. Motoare care func ioneaz dup modelul


indexului de c utare, în cazul c rora soft-urile sunt
cale care efectueaz c utarea dup cuvinte cheie,
bazându-se pe tehnici de indexare computeriate,
rezultatele ob inute fiind prezentate într-una sau
mai multe pagini web, care ofer o list de loca ii
aranjat în ordinea probabilit ii de potrivire a ceea
ce se caut .

20
Unelte pentru c utarea informa iei pe Internet

Motoare de c utare renumite:


Google (www.google.com)
AlltheWeb (www.alltheweb.com)
MSN (www.msn.com)
Teoma (www.teoma.com)
AltaVista (www.altavista.com)
WiseNut (www.wisenut.com)

21
Unelte pentru c utarea informa iei pe Internet

ii. Directoare web (anuare online, repertoare


tematice)

Un serviciu de directoare web este o colec ie de


pagini Web selec ionate i organizate ierarhic în
categorii de subiecte de c tre un editor uman.
Un concept mai selectiv este cel de bibliotec
virtual , care este un director web ce include leg turi
spre pagini cu informa ie de înalt specializare, pe
domenii alese de editor.
22
Unelte pentru c utarea informa iei pe Internet

Serviciile de directoare acoper i indexeaz


o por iune mult mai mic din paginile WEB
existente, comparativ cu motoarele de
c utare. Dar folosirea lor poate duce la
reg sirea unor rezultate ale c ut rii mult mai
relevante pentru utilizator.

23
Unelte pentru c utarea informa iei pe Internet

Cele mai extinse servicii de directoare web


indexeaz cel mult câteva milioane de
pagini, comparativ cu cele cîteva miliarde
indexate de c tre motoarele de c utare mai
importante. Serviciile de directoare NU
interogheaz direct paginile WEB, ci caut în
interiorul bazei lor de date. Rezultatul c ut rii
poate duce la returnarea unor rezultate, care
nu mai au relevan .

24
Unelte pentru c utarea informa iei pe Internet

O serie de motoare de c utare sunt de fapt


unelte hibride, fiind în acela i timp atât
motoare de c utare cât i servicii de
directoare (Google™, de exemplu, unul
dintre cele mai cunoscute motoare de
c utare, are i un serviciu de directoare,
bazat pe solu ia Open Directory Project).

25
Unelte pentru c utarea informa iei pe Internet

Dintre serviciile de directoare web, mai


cunoscute sunt :
Yahoo! (www.yahoo.com)
Google™ Directory (www.google.com)
Open Directory Project (ODP) (http://dmoz.org)
Zeal (www.zeal.com)
JoeAnt (www.joeant.com)
Gimpsy (www.gimpsy.com)
26
Unelte pentru c utarea informa iei pe Internet

Motoare de c utare versus servicii


de directoare
Cele i de accesare a
paginilor WEB sesc în a a numitele
motoare de c utare, respectiv în a a
numitele directoare web.

27
Unelte pentru c utarea informa iei pe Internet

Modalit i de c utare a informa iei

Motoarele de c utare permit utilizatorului s


foloseasc orice termeni de c utare
(combina ie de termeni) dore te, motorul
c utând ace ti termeni în baza de date i
returnând paginile care con in aceste
combina ii de termeni.

28
Unelte pentru c utarea informa iei pe Internet

Servicii de directoare web

Serviciile de directoare web au paginile


organizate în baza de date pe subiecte.
Paginile cu informa ia dorit pot fi
selectate navigând prin acest arbore de
directoare.

29
Unelte pentru c utarea informa iei pe Internet

Navigarea prin structura directoarelor web


poate fi un foarte bun început pentru c utarea
informa iei dorite, cu condi ia ca topicul ales sa
fie considerat ca subiect pentru o
arborescen de directoare.

30
Unelte pentru c utarea informa iei pe Internet

Site-ul Yahoo include atât un motor de


c utare cât i un arbore de directoare web.
Diferen a fa de un motor de c utare
obi nuit este dat de faptul c motorul de
c utare al Yahoo caut cuvintele cheie doar
în interiorul directoarelor web din baza de
date a Yahoo.
31
Unelte pentru c utarea informa iei pe Internet

Din acest motiv motorul de c utare al site-


ului poate fi folosit cel mult pentru a identifica
zona din arborele de directoare ce con ine
informa ia dorit .

32
Unelte pentru c utarea informa iei pe Internet

Prezentarea rezultatelor

Odat ce au fost introdu i termenii de c utare,


serverul îi caut în baza de date web indexat i
returneaz lista cu rezultate.
Din cauza multitudinii de leg turi cu informa ie
nerelevant pentru utilizatorul ce a efectuat
c utarea, trebuie subliniate dou concepte deosebit
de importante în evaluarea listei cu rezultate ale
c ut rii: rata de relevan (relevancy ranking),
respectiv rezumatul (abstract) ce înso e te leg tura
c tre pagin .
33
Unelte pentru c utarea informa iei pe Internet

Paginile g site în urma c ut rii sunt


aproape întotdeauna prezentate în
ordinea relevan ei lor, în conformitate cu
termenii dup care s-a efectuat c utarea.

34
Unelte pentru c utarea informa iei pe Internet

În cazul celor mai multe servicii de c utare


web se poate observa c aproape fiecare
leg tur spre o pagin considerat relevant
este înso it de un scurt rezumat al
con inutului, multe servicii recurgând chiar la
sublinierea (îngo area) termenilor folosi i în
respectivul rezumat.

35
Unelte pentru c utarea informa iei pe Internet

iii. Biblioteci virtuale


a) Biblioteci virtuale de „uz general”:
Librarians' Index to the Internet (www.lii.org)
INFOMINE (www.infomine.com)
Internet Public Library (www.ipl.org)
The WWW Virtual Library (vlib.org)
Academic Info (www.academicinfo.net)
Internet Scout Project (scout.wisc.edu)
BUBL Link (academic resources) (bubl.ac.uk/link/)
36
Unelte pentru c utarea informa iei pe Internet

b)Biblioteci virtuale de specialitate


(orientate spre anumite domenii):
Project Gutenberg (www.gutenberg.org) - beletristic
National Academies Press (www.nap.edu) - tiin
Free books for doctors (www.fb4d.com) - medicin
The free management library
(www.managementhelp.org) - management

37
Unelte pentru c utarea informa iei pe Internet

iv. Invisible (deep) Web

Reprezint colec ii de informa ii online


stocate în baze de date accesibile pe Web,
dar care, din diferite motive, nu sunt indexate
de motoarele de c utare tradi ionale. Aceste
servicii pot fi întâlnite i sub numele de
servicii speciale de c utare (specially search
engines).
38
Unelte pentru c utarea informa iei pe Internet

ProFusion (www.profusion.com)
Invisible-web (www.invisible-web.net)
Complete Planet (www.completeplanet.com)
Resource Discovery Network
(www.rdn.ac.uk)
Direct Search
(http://www.freepint.com/gary/direct.htm)
http://www.resourceshelf.com/

39
Unelte pentru c utarea informa iei pe Internet

v. Motoare de meta-c utare


(metasearch engine)

Un motor de meta-c utare este o unealt de


c utare care trimite cerea dumneavoastr
simultan c tre mai multe motoare de c utare
clasice, servicii de directoare web i uneori
spre colec ii de tip invisible web.
40
Unelte pentru c utarea informa iei pe Internet

Dup colectarea rezultatelor c ut rii de la toate


serviciile apelate, motoarele de meta-c utare elimin
leg turile aflate în duplicat i, conform unui algoritm
propriu combin rezultatele într-o singur list ,
acordându-le i o rat de relevan .
Majoritatea motoarelor de meta-c utare iau în
considerare numai primele 10-20 de leg turi din lista
furnizat de fiecare motor de c utare apelat,
rezultatele c ut rii vor fi foarte bune, din punctul de
vedere al relevan ei.
41
Unelte pentru c utarea informa iei pe Internet

Motoarele de meta-c utare NU au propriile


baze de date web, ci le folosesc pe cele ale
serviciilor apelate.
Motoarele de meta-c utare nu permit
înscrierea manual a unei pagini (site) în baza
de date.

42
Unelte pentru c utarea informa iei pe Internet

Unele dintre cele mai cunoscute motoare de


meta-c utare sunt:
Metasearch (www.metasearch.com)
ez2Find (www.ez2find.com)
Vivisimo (www.vivisimo.com)
MetaCrawler (www.metacrawler.com)
InfoGrid (www.infogrid.com)
Infonetware (www.infonetware.com)
iBoogie (www.iboogie.tv)

43
Unelte pentru c utarea informa iei pe Internet

vi. Utilitare de c utare de tip desktop


Un tip special de motoare de meta-c utare sunt
utilitarele de c utare de tip desktop (client side
search software). Aceste utilitare sunt programe ce
pot fi desc rcate de pe Internet i instalate pe
propriul calculator (local). Principiul lor de
func ionare este oarecum similar cu al motoarelor de
meta-c utare.

44
Unelte pentru c utarea informa iei pe Internet

Câteva dintre cele mai utilizate utilitare de acest fel sunt:


Google Desktop (desktop.google.com)
Copernic (www.copernic.com)
Arrow Search (www.rt-software.co.uk/arrow_search/)
WebFerret (www.ferretsoft.com/download.htm)
ProtoSearch
(www.npccenterprises.com/products/protosearch2.shtml)

45
Unelte pentru c utarea informa iei pe Internet

Motoarele de meta-c utare sunt unelte


complementare excelente, îns datorit unor
considerente (num r relativ mic de leg turi
luate în considerare de la fiecare serviciu
apelat, imposibilitatea de a folosi eficient
tehnici avansate de c utare etc. ) NU pot
elimina necesitatea folosirii unor motoare de
c utare clasice.

46
Unelte pentru c utarea informa iei pe Internet

CE UNELTE DE C UTARE SE FOLOSESC ?


1. Dac cunoa te i exact ce tip de informa ie dori i
s afla i, este recomandat folosirea motoarelor
de c utare.
De exemplu pentru a g si informa ii despre pal sau
wood pute i folosi motoarele de c utare, deoarece
informa ia nu este suficient de specific pentru a fi
subiectul unui arbore de directoare, dar domeniul
este suficient de bine conturat pentru a nu fi
necesar recurgerea la un motor de meta-c utare.
47
Unelte pentru c utarea informa iei pe Internet

2. Dac ve i c uta informa ii despre un


anumit termen sau o combina ie de
termeni i dori i o analiz exhaustiv a
temei analizate, este de preferat recurgerea
la motoare de meta-c utare, ce pot apela
simultan mai multe servicii web (10 -12
motoare de c utare sau directoare web).
De exemplu, c utarea dup termenul
composite (vezi composite plates)

48
Unelte pentru c utarea informa iei pe Internet

3. Dac dori i s c uta i informa ii generale despre


subiecte cu grad ridicat de popularitate, este
indicat folosirea serviciilor de directoare web.
Astfel dac dori i informa ii despre industrial plants,
este mult mai indicat s folositi serviciul de
directoare Yahoo, în care pute i naviga cu u urin ,
informa ia este bine organizat i exist i facilit i
de c utare prin arborele de directoare.

49
Unelte pentru c utarea informa iei pe Internet

4. Dac dori i, informa ii pertinente legate


de anumite domenii ale literaturii, tiin ei
etc. este preferabil folosirea serviciilor tip
bibliotec virtual .

50
Unelte pentru c utarea informa iei pe Internet

5. Dimpotriv , dac dori i informa ii în timp


real sau informa ii al c ror con inut se
schimb dinamic ( tiri, prognoze meteo,
mersul trenurilor) folosi i baze de date web
specializate (invisible or deep web).

51
Unelte pentru c utarea informa iei pe Internet

Mul i dintre de in torii de servicii WEB au


ales s î i diversifice activitatea furnizând
mai multe servicii sub aceea i interfa
utilizator.
Astfel s-a cristalizat un nou concept, acela de
PORTAL WEB.

52
Unelte pentru c utarea informa iei pe Internet

Portalul Web
Sub acest termen se în elege în general un
site WEB ce ofer o gam larg de servicii i
resurse online, cum ar fi: e-mail, forumuri de
discu ii, motoare de c utare, directoare web,
comer electronic etc. (a se vedea
www.yahoo.com, unul dintre cele mai
cunoscute servicii de c utare, transformat
într-un portal).

53
Concluzii – Motoare de c utare

Motoarele de c utare sunt probabil cea mai utilizat cale


de accesare a informa iei stocate în bazele de date Web.
Principalii pa i necesari pentru a utiliza eficient un motor
de c utare sunt urm torii:
1. Formula i-v atent nevoia de informare. Încerca i s
face i aceasta cât mai simplu i specific cu putin ;
2. “Sparge i” cererea de mai sus într-o serie de termeni
de c utare;
3. G si i sinonime pentru fiecare termen identificat;

54
Concluzii – Motoare de c utare

4. Atunci când este posibil, recurge i la fraze (termeni


specifica i în ghilimele);
5. Combina i sinonimele termenilor de c utare prin
intermediul operatorului OR i lega i aceste combina ii
prin intermediul operatorului AND;
6. Analiza i circa 30 de rezultate înainte de a c uta din
nou;
7. Dac este posibil, înainte de a reîncepe c utarea,
folosi i pagini cu informa ie similar celei c utate
pentru a identifica noi termeni de c utare i sinonime
ale acestora.
55
Concluzii – Directoare web

Directoarele Web sunt locuri excelente de


pornire în c utarea informa iei pe Internet, cu
condi ia s g si i un arbore de directoare care
s trateze tema c utat (subiectul dorit).
Dac îns tema c utat nu a fost selec ionat
de editorul serviciului ca „r d cin ” pentru un
arbore de directoare, este de preferat s
renun a i la folosirea acestui tip de serviciu de
c utare i s recurge i la un motor de c utare.

56
Concluzii – Directoare web

Ca regul general este recomandat s v


începe i c utarea informa iei pe Internet
folosind un arbore de directoare i s
recurge i abia apoi, dac este necesar, la un
motor de c utare, ce dispune de mult mai
mult informa ie indexat în bazele de date,
dar necesit o experien mult mai mare din
partea utilizatorului, pentru a putea fi utilizat
eficient.

57

S-ar putea să vă placă și