Sunteți pe pagina 1din 57

1

CAP. 9. CUTAREA INFORMAIEI PE


INTERNET
Curs:
Tehnologia informatiei
n cercetare
Mat. Gabriela MAILAT
Ing. Corina POP
Prof.dr.ing. Elena HELEREA
2
CUPRINS
1. Introducere
2. Ce este o baz de date Web
3. Metode de indexare
4. Programe de selectare
5. Unelte pentru cutarea informaiei pe
internet
6. Concluzii
3
Introducere
World Wide Web, prescurtat WWW, este cea
mai important component a Internetului.
Este o interfat multimedia ce presupune
posibilitatea accesului la surse ce includ
grafice i figuri, imagini, sunete i filme
bazate pe tehnologia hypertext.
Leag documentele ntre ele prin conexiuni,
formnd un pienjeni (web).
4
Gsirea documentelor pe Web este dificil:
nu exist un format standard de descriere
a resurselor din Internet
Exist diferite instrumente de cutare care
opereaz n moduri diferite.
Nu este o metod indicat pentru regsirea
informatiilor referitoare la un anumit subiect.
Introducere
5
Instrumentele de cutare folosesc
urmtoarele metode de regsire a
informatiilor: cutarea dup cuvinte cheie
sau expresii, mecanismele booleene,
proximitatea, trunchierea etc.
Regsirea unei resurse folosind adresa
(URL) este util i rapid dar
existposibilitatea modificrii URL-ului
datorit caracterului dinamic al Internet-ului.
Introducere
6
Ce este o baz de date Web
(Web database) ?
O baz de date Web este o list organizat
de pagini web. O astfel de list poate fi
imaginat ca un gigantic repertoar ce contine
un surogat al fiecrei pagini nregistrate n
list (practic prti mici din acea pagin, cum
ar fi titlul, antetul etc).
7
Ce este o baz de date Web
(Web database) ?
Crearea acestei liste cu surogate ale
paginilor poart numele de indexare i
fiecare baz de date web o realizeaz n
stilul su caracteristic.
8
Ce este o baz de date Web
(Web database) ?
Pentru utilizatorul final, baza de date web
furnizeaz o interfat ce are ca i
caracteristic fie
un cmp special n care utilizatorul tasteaz
cuvintele dup care va efectua cutarea
(vezi interfata cu utilizatorul de la Google),
o list cu directoare din care utilizatorul
poate alege legtura dorit (vezi Yahoo
directories).
9
Metode de indexare
Exist dou modalitti mai importante de
indexare a informatiei n timpul generrii
bazelor de date web:
indexarea full-text
indexarea manual.
10
Metode de indexare
Indexarea full-text se caracterizeaz prin
includerea tuturor cuvintelor dintr-o pagin n
baza de date pentru cutare, cu ajutorul unor
programe speciale de calculator numite
pianjeni sau roboti (spiders sau robots).
Altavista i Google folosesc pe scar larg
aceast tehnic de indexare.
Indexarea full-text permite s regsim toate
referirile la un anumit termen din documentul
indexat.
11
Metode de indexare
Indexarea manual
n acest caz o persoan examineaz paginile ce
urmeaz a fi indexate i decide asupra ctorva
cuvinte (fraze) cheie ce descriu cel mai bine
informatia continut n respectiva pagin.
Permite utilizatorului s regseasc mai multe
legturi utile n urma cutrii, tocmai pentru c
un om i nu o main a ales cuvintele cheie ce
au fost incluse n indexul bazei de date.
12
Metode de indexare
Aceast tehnic de indexare este folosit n
cazul serviciilor de directoare de pe web
(Yahoo directories sau Magellan).
13
Programe de selectare
(Cum selecteaz bazele de date web ce
pagini vor fi indexate ?)
Foarte multe servicii de cutare folosesc
programe automate, numite "spiders" sau
"robots" (pianjeni sau roboti), ce cltoresc
de la site la site ( = a se citi colecti de pagini
web) cutnd pagini WWW nou aprute sau
modificate substantial.
14
Programe de selectare
Exist trei clase de baze de date web:
baze de date ce monitorizeaz TOATE categoriile
de pagini WWW;
baze de date ce monitorizeaz NUMAI paginile
WWW considerate populare (n principiu cele cu
numr mare de vizitatori);
baze de date ce monitorizeaz NUMAI paginile
WWW ce ndeplinesc anumite criterii (legate fie de
calitatea informatiei furnizate, fie de tipul de
informatie urmrit ex. medical, tiintific, tiri etc).
15
Unelte pentru cutarea informaiei pe
Internet
i. Motoare de cutare
ii. Directoare web (anuare online, repertoare
tematice)
iii. Biblioteci virtuale
iv. Invisible (deep) Web
v. Motoare de meta-cutare (metasearch engine)
vi. Utilitare de cutare de tip desktop
16
Unelte pentru cutarea informaiei pe Internet
i. Motoare de cutare
Un motor de cutare este definit ca un
serviciu de regsire a informatiilor stocate
n bazele lor de date, care descrie
principalele resurse din Web.
O alt definitie:
17
Un motor de cutare este o baz de date
continnd pagini Web ce pot fi regsite pe
baza unor cuvinte cheie i care continu s
scaneze Internetul, cu ajutorul unor
programe automate (spiders, robots) n
cutare de pagini noi. Informatia rezultat n
urma activittii robotilor este apoi indexat i
stocat n baza de date.
Unelte pentru cutarea informaiei pe Internet
18
La lansarea unei cutri se exploreaz de
fapt coninutul bazelor de date, n care sunt
stocate informatii colectate automat de roboti
i nu Web-ul n mod direct.
Se recomand utilizarea a cel putin dou
utilitare pentru aceeai cerere formulat
datorit modului propriu de functionare a
fiecrui motor de cutare i a paginilor web
existente (diferite de la un utilitar la altul).
Unelte pentru cutarea informaiei pe Internet
19
Motoarele de cutare se mpart n dou categorii:
1. Motoare care functioneaz dup modelul
directorului (arborelui de subiecte), de fapt dup
un ghid web n care locatiile sunt organizate pe
subiecte i subsubiecte, ntr-o structur
ierarhic, pornind de la un subiect general i
ajungnd la subiecte cu caracter din ce n ce
mai specifice.
Unelte pentru cutarea informaiei pe Internet
20
2. Motoare care functioneaz dup modelul
indexului de cutare, n cazul crora soft-urile sunt
cale care efectueaz cutarea dup cuvinte cheie,
bazndu-se pe tehnici de indexare computeriate,
rezultatele obtinute fiind prezentate ntr-una sau
mai multe pagini web, care ofer o list de locatii
aranjat n ordinea probabilittii de potrivire a ceea
ce se caut.
Unelte pentru cutarea informaiei pe Internet
21
Unelte pentru cutarea informaiei pe Internet
Motoare de cutare renumite:
Google (www.google.com)
AlltheWeb (www.alltheweb.com)
MSN (www.msn.com)
Teoma (www.teoma.com)
AltaVista (www.altavista.com)
WiseNut (www.wisenut.com)
22
Unelte pentru cutarea informaiei pe Internet
ii. Directoare web (anuare online, repertoare
tematice)
Un serviciu de directoare web este o colectie de
pagini Web selectionate i organizate ierarhic n
categorii de subiecte de ctre un editor uman.
Un concept mai selectiv este cel de bibliotec
virtual, care este un director web ce include legturi
spre pagini cu informatie de nalt specializare, pe
domenii alese de editor.
23
Unelte pentru cutarea informaiei pe Internet
Serviciile de directoare acoper i indexeaz
o portiune mult mai mic din paginile WEB
existente, comparativ cu motoarele de
cutare. Dar folosirea lor poate duce la
regsirea unor rezultate ale cutrii mult mai
relevante pentru utilizator.
24
Unelte pentru cutarea informaiei pe Internet
Cele mai extinse servicii de directoare web
indexeaz cel mult cteva milioane de
pagini, comparativ cu cele cteva miliarde
indexate de ctre motoarele de cutare mai
importante. Serviciile de directoare NU
interogheaz direct paginile WEB, ci caut n
interiorul bazei lor de date. Rezultatul cutrii
poate duce la returnarea unor rezultate, care
nu mai au relevant.
25
Unelte pentru cutarea informaiei pe Internet
O serie de motoare de cutare sunt de fapt
unelte hibride, fiind n acelai timp att
motoare de cutare ct i servicii de
directoare (Google, de exemplu, unul
dintre cele mai cunoscute motoare de
cutare, are i un serviciu de directoare,
bazat pe solutia Open Directory Project).
26
Unelte pentru cutarea informaiei pe Internet
Dintre serviciile de directoare web, mai
cunoscute sunt :
Yahoo! (www.yahoo.com)
Google Directory (www.google.com)
Open Directory Project (ODP) (http://dmoz.org)
Zeal (www.zeal.com)
JoeAnt (www.joeant.com)
Gimpsy (www.gimpsy.com)
27
Unelte pentru cutarea informaiei pe Internet
Motoare de cutare versus servicii
de directoare
Cele mai uzuale modalitti de accesare a
paginilor WEB se regsesc n aa numitele
motoare de cutare, respectiv n aa
numitele directoare web.
28
Unelte pentru cutarea informaiei pe Internet
Modaliti de cutare a informaiei
Motoarele de cutare permit utilizatorului s
foloseasc orice termeni de cutare
(combinatie de termeni) dorete, motorul
cutnd aceti termeni n baza de date i
returnnd paginile care contin aceste
combinatii de termeni.
29
Unelte pentru cutarea informaiei pe Internet
Servicii de directoare web
Serviciile de directoare web au paginile
organizate n baza de date pe subiecte.
Paginile cu informatia dorit pot fi
selectate navignd prin acest arbore de
directoare.
30
Unelte pentru cutarea informaiei pe Internet
Navigarea prin structura directoarelor web
poate fi un foarte bun nceput pentru cutarea
informatiei dorite, cu conditia ca topicul ales sa
fie considerat ca subiect pentru o
arborescent de directoare.
31
Unelte pentru cutarea informaiei pe Internet
v
Site-ul Yahoo include att un motor de
cutare ct i un arbore de directoare web.
Diferenta fat de un motor de cutare
obinuit este dat de faptul c motorul de
cutare al Yahoo caut cuvintele cheie doar
n interiorul directoarelor web din baza de
date a Yahoo.
32
Unelte pentru cutarea informaiei pe Internet
Din acest motiv motorul de cutare al site-
ului poate fi folosit cel mult pentru a identifica
zona din arborele de directoare ce contine
informatia dorit.
33
Unelte pentru cutarea informaiei pe Internet
Prezentarea rezultatelor
Odat ce au fost introdui termenii de cutare,
serverul i caut n baza de date web indexat i
returneaz lista cu rezultate.
Din cauza multitudinii de legturi cu informatie
nerelevant pentru utilizatorul ce a efectuat
cutarea, trebuie subliniate dou concepte deosebit
de importante n evaluarea listei cu rezultate ale
cutrii: rata de relevan (relevancy ranking),
respectiv rezumatul (abstract) ce nsotete legtura
ctre pagin.
34
Unelte pentru cutarea informaiei pe Internet
Paginile gsite n urma cutrii sunt
aproape ntotdeauna prezentate n
ordinea relevantei lor, n conformitate cu
termenii dup care s-a efectuat cutarea.
35
Unelte pentru cutarea informaiei pe Internet
n cazul celor mai multe servicii de cutare
web se poate observa c aproape fiecare
legtur spre o pagin considerat relevant
este nsotit de un scurt rezumat al
continutului, multe servicii recurgnd chiar la
sublinierea (ngoarea) termenilor folositi n
respectivul rezumat.
36
iii. Biblioteci virtuale
a) Biblioteci virtuale de uz general:
Librarians' Index to the Internet (www.lii.org)
INFOMINE (www.infomine.com)
Internet Public Library (www.ipl.org)
The WWW Virtual Library (vlib.org)
Academic Info (www.academicinfo.net)
Internet Scout Project (scout.wisc.edu)
BUBL Link (academic resources) (bubl.ac.uk/link/)
Unelte pentru cutarea informaiei pe Internet
37
b) Biblioteci virtuale de specialitate
(orientate spre anumite domenii):
Project Gutenberg (www.gutenberg.org) - beletristic
National Academies Press (www.nap.edu) - tiint
Free books for doctors (www.fb4d.com) - medicin
The free management library
(www.managementhelp.org) - management
Unelte pentru cutarea informaiei pe Internet
38
iv. Invisible (deep) Web
Reprezint colectii de informatii online
stocate n baze de date accesibile pe Web,
dar care, din diferite motive, nu sunt indexate
de motoarele de cutare traditionale. Aceste
servicii pot fi ntlnite i sub numele de
servicii speciale de cutare (specially search
engines).
Unelte pentru cutarea informaiei pe Internet
39
ProFusion (www.profusion.com)
Invisible-web (www.invisible-web.net)
Complete Planet (www.completeplanet.com)
Resource Discovery Network
(www.rdn.ac.uk)
Direct Search
(http://www.freepint.com/gary/direct.htm)
http://www.resourceshelf.com/
Unelte pentru cutarea informaiei pe Internet
40
v. Motoare de meta-cutare
(metasearch engine)
Un motor de meta-cutare este o unealt de
cutare care trimite cerea dumneavoastr
simultan ctre mai multe motoare de cutare
clasice, servicii de directoare web i uneori
spre colectii de tip invisible web.
Unelte pentru cutarea informaiei pe Internet
41
Dup colectarea rezultatelor cutrii de la toate
serviciile apelate, motoarele de meta-cutare elimin
legturile aflate n duplicat i, conform unui algoritm
propriu combin rezultatele ntr-o singur list,
acordndu-le i o rat de relevant.
Majoritatea motoarelor de meta-cutare iau n
considerare numai primele 10-20 de legturi din lista
furnizat de fiecare motor de cutare apelat,
rezultatele cutrii vor fi foarte bune, din punctul de
vedere al relevantei.
Unelte pentru cutarea informaiei pe Internet
42
Motoarele de meta-cutare NU au propriile
baze de date web, ci le folosesc pe cele ale
serviciilor apelate.
Motoarele de meta-cutare nu permit
nscrierea manual a unei pagini (site) n baza
de date.
Unelte pentru cutarea informaiei pe Internet
43
Unele dintre cele mai cunoscute motoare de
meta-cutare sunt:
Metasearch (www.metasearch.com)
ez2Find (www.ez2find.com)
Vivisimo (www.vivisimo.com)
MetaCrawler (www.metacrawler.com)
InfoGrid (www.infogrid.com)
Infonetware (www.infonetware.com)
iBoogie (www.iboogie.tv)
Unelte pentru cutarea informaiei pe Internet
44
vi. Utilitare de cutare de tip desktop
Un tip special de motoare de meta-cutare sunt
utilitarele de cutare de tip desktop (client side
search software). Aceste utilitare sunt programe ce
pot fi descrcate de pe Internet i instalate pe
propriul calculator (local). Principiul lor de
functionare este oarecum similar cu al motoarelor de
meta-cutare.
Unelte pentru cutarea informaiei pe Internet
45
Cteva dintre cele mai utilizate utilitare de acest fel sunt:
Google Desktop (desktop.google.com)
Copernic (www.copernic.com)
Arrow Search (www.rt-software.co.uk/arrow_search/)
WebFerret (www.ferretsoft.com/download.htm)
ProtoSearch
(www.npccenterprises.com/products/protosearch2.shtml)
Unelte pentru cutarea informaiei pe Internet
46
Motoarele de meta-cutare sunt unelte
complementare excelente, ns datorit unor
considerente (numr relativ mic de legturi
luate n considerare de la fiecare serviciu
apelat, imposibilitatea de a folosi eficient
tehnici avansate de cutare etc. ) NU pot
elimina necesitatea folosirii unor motoare de
cutare clasice.
Unelte pentru cutarea informaiei pe Internet
47
CE UNELTE DE CUTARE SE FOLOSESC ?
1. Dac cunoatei exact ce tip de informaie dorii
s aflai, este recomandat folosirea motoarelor
de cutare.
De exemplu pentru a gsi informatii despre pal sau
wood puteti folosi motoarele de cutare, deoarece
informatia nu este suficient de specific pentru a fi
subiectul unui arbore de directoare, dar domeniul
este suficient de bine conturat pentru a nu fi
necesar recurgerea la un motor de meta-cutare.
Unelte pentru cutarea informaiei pe Internet
48
2. Dac veti cuta informaii despre un
anumit termen sau o combinaie de
termeni i dorii o analiz exhaustiv a
temei analizate, este de preferat recurgerea
la motoare de meta-cutare, ce pot apela
simultan mai multe servicii web (10 -12
motoare de cutare sau directoare web).
De exemplu, cutarea dup termenul
composite (vezi composite plates)
Unelte pentru cutarea informaiei pe Internet
49
3. Dac doriti s cutati informaii generale despre
subiecte cu grad ridicat de popularitate, este
indicat folosirea serviciilor de directoare web.
Astfel dac doriti informatii despre industrial plants,
este mult mai indicat s folositi serviciul de
directoare Yahoo, n care puteti naviga cu uurint,
informatia este bine organizat i exist i facilitti
de cutare prin arborele de directoare.
Unelte pentru cutarea informaiei pe Internet
50
4. Dac doriti, informaii pertinente legate
de anumite domenii ale literaturii, tiinei
etc. este preferabil folosirea serviciilor tip
bibliotec virtual.
Unelte pentru cutarea informaiei pe Internet
51
5. Dimpotriv, dac doriti informaii n timp
real sau informaii al cror coninut se
schimb dinamic (tiri, prognoze meteo,
mersul trenurilor) folositi baze de date web
specializate (invisible or deep web).
Unelte pentru cutarea informaiei pe Internet
52
Multi dintre detintorii de servicii WEB au
ales s i diversifice activitatea furniznd
mai multe servicii sub aceeai interfat
utilizator.
Astfel s-a cristalizat un nou concept, acela de
PORTAL WEB.
Unelte pentru cutarea informaiei pe Internet
53
Portalul Web
Sub acest termen se ntelege n general un
site WEB ce ofer o gam larg de servicii i
resurse online, cum ar fi: e-mail, forumuri de
discutii, motoare de cutare, directoare web,
comert electronic etc. (a se vedea
www.yahoo.com, unul dintre cele mai
cunoscute servicii de cutare, transformat
ntr-un portal).
Unelte pentru cutarea informaiei pe Internet
54
Concluzii Motoare de cutare
Motoarele de cutare sunt probabil cea mai utilizat cale
de accesare a informatiei stocate n bazele de date Web.
Principalii pai necesari pentru a utiliza eficient un motor
de cutare sunt urmtorii:
1. Formulati-v atent nevoia de informare. ncercati s
faceti aceasta ct mai simplu i specific cu putint;
2. Spargeti cererea de mai sus ntr-o serie de termeni
de cutare;
3. Gsiti sinonime pentru fiecare termen identificat;
55
4. Atunci cnd este posibil, recurgeti la fraze (termeni
specificati n ghilimele);
5. Combinati sinonimele termenilor de cutare prin
intermediul operatorului OR i legati aceste combinatii
prin intermediul operatorului AND;
6. Analizati circa 30 de rezultate nainte de a cuta din
nou;
7. Dac este posibil, nainte de a rencepe cutarea,
folositi pagini cu informatie similar celei cutate
pentru a identifica noi termeni de cutare i sinonime
ale acestora.
Concluzii Motoare de cutare
56
Concluzii Directoare web
Directoarele Web sunt locuri excelente de
pornire n cutarea informatiei pe Internet, cu
conditia s gsiti un arbore de directoare care
s trateze tema cutat (subiectul dorit).
Dac ns tema cutat nu a fost selectionat
de editorul serviciului ca rdcin pentru un
arbore de directoare, este de preferat s
renuntati la folosirea acestui tip de serviciu de
cutare i s recurgeti la un motor de cutare.
57
Ca regul general este recomandat s v
ncepeti cutarea informatiei pe Internet
folosind un arbore de directoare i s
recurgeti abia apoi, dac este necesar, la un
motor de cutare, ce dispune de mult mai
mult informatie indexat n bazele de date,
dar necesit o experient mult mai mare din
partea utilizatorului, pentru a putea fi utilizat
eficient.
Concluzii Directoare web

S-ar putea să vă placă și