Documente Academic
Documente Profesional
Documente Cultură
Un spider îsi începe cautarea prin web pornind de obicei de la o lista cu servere intens utilizate si
cu pagini web foarte populare. Spider-ul va începe cu un site popular, indexând cuvintele din
pagini si urmând toate legaturile gasite în site-ul respectiv, ajungând în acest fel sa traverseze si
sa indexeze partea cea mai utilizata a web-ului. Mentinerea unui sistem rapid însemna de
asemenea construirea unui sistem care sa alimenteze spider-ii cu informatii. Astfel, Google.com
initial avea un server dedicat pentru a oferi URL-uri spider-ilor. Google avea de asemenea si
propriul server DNS, translatarea numelor în adrese fiind semnificativ mai rapida, micsorând în
acelasi timp si întârzierile datorate retelelor. Alti spider-i folosesc alte procedee pentru indexare,
permitând, spre exemplu, spider-ilor sa opereze mai rapid sau sa permita utilizatorilor sa caute
mai eficient sau ambele. De exemplu, unii spider-i mentin o lista de cuvinte din titlu, subtitlu si
legaturi, împreuna cu cele mai utilizate 100 de cuvinte din pagina si fiecare cuvânt din primele
20 de linii de text. Se pare ca Lycos utilizeaza aceasta modalitate de indexare a continutului
paginilor web.
Alte sisteme, precum AltaVista.com, merg în alta directie, indexând toate cuvintele din pagina,
inclusiv toate cuvintele de legatura sau "nesemnificative". Aceasta împingere catre
completitudine are si alte modalitati de functionare, mai ales prin utilizarea meta-tag-urilor.
Meta-tag-urile permit proprietarului unei pagini sa specifice cuvintele cheie si conceptele sub
care va fi indexata pagina respectiva. Acest lucru poate fi folositor în cazul în care cuvintele din
pagina pot avea doua sau mai multe semnificatii, meta-tag-urile ghidând motorul de cautare în
alegerea celei mai corecte semnificatii pentru cuvintele respective. Exista de asemenea si
anumite pericole în utilizarea acestor tag-uri, deoarece un proprietar neatent sau fara scrupule ar
putea adauga meta-tag-uri care sa se potriveasca celor mai populare subiecte, fara ca acestea sa
aiba nimic cu continutul în sine al paginii. Pentru o protectie împotriva acestei practici, spider-ii
coreleaza de obicei continutul paginii cu meta-tag-urile, respingând tag-urile care nu se potrivesc
cu cuvintele din pagina.
Toate cele de mai sus presupun faptul ca proprietarul paginii sau site-ului doreste ca pagina/site-
ul sa fie inclus în rezultatele activitatii motoarelor de cautare. De multe ori proprietarii nu doresc
includerea într-un motor de cautare major sau nu doresc indexarea anumitor pagini dintr-un site.
Pentru acest lucru a fost dezvoltat protocolul de excludere al robotilor (robot exclusion protocol).
Acest protocol, implementat în sectiunea de meta-tag-uri de la începutul unei pagini web,
comunica robotului de cautare sa nu indexeze pagina si/sau sa nu urmareasca nici unul din link-
urile din pagina respectiva.
Dupa ce spider-ii au terminat sarcina de gasire a informatiilor în paginile web (trebuie sa notam
faptul ca aceasta sarcina nu se termina niciodata - din cauza naturii mereu schimbatoare a web-
ului, spider-ii indexeaza pagini în permanenta), motorul de cautare trebuie sa stocheze
informatiile adunate într-o modalitate utilizabila. În cel mai simplu caz, un motor de cautare doar
va stoca cuvintele si URL-ul unde au fost gasite. În realitate, acest lucru ar face dintr-un motor
de cautare unul cu utilizari limitate, deoarece nu ar exista nici o modalitate de a spune daca acel
cuvânt a fost utilizat într-un context important sau unul trivial în pagina respectiva, nici daca acel
cuvânt a fost utilizat o singura data sau de mai multe ori, sau daca pagina contine legaturi catre
alte pagini cu acel cuvânt. Cu alte cuvinte, nu ar fi nici o posibilitate de a construi un clasament
care ar încerca sa prezinte cele mai utile pagini la începutul listei de rezultate.
Pentru a crea si afisa cele mai utile rezulte, cele mai multe motoare de cautare stocheaza mult
mai multe date decât cuvântul si URL-ul în care a fost gasit. Un motor ar putea stoca numarul de
aparitii al cuvântului în pagina, putând de asemenea sa asigneze câte o "greutate" fiecarei intrari,
cu valori mai mari atasate cuvintelor care apar catre începutul documentului, în subtitluri,
legaturi, meta-tag-uri sau titlul paginii. Fiecare motor de cautare comercial are diferite formule
sau modalitati pentru asignarea greutatii pentru cuvintele din index. Acesta este unul din
motivele pentru care o cautare dupa acelasi cuvânt în motoare de cautare diferite va produce liste
de rezultate diferite, cu paginile prezentate în ordini diferite, chiar daca sunt indexate aceleasi
pagini.
Fara a tine cont de combinatia precisa de informatii aditionale stocate de un motor de cautare,
datele vor fi stocate în mod codat, pentru a economisi spatiul de stocare. De exemplu,
documentul original de prezentare al Google.com utiliza 2 bytes, fiecare din 8 biti, pentru a stoca
informatii referitoare la greutate: cuvântul era scris cu litere mari, marimea fontului, pozitia sau
alte informatii necesare clasificarii. Fiecare factor putea lua 2 sau 3 biti în cei 2 bytes, având ca
rezultat stocarea unui volum mare de informatii într-un spatiu foarte compact.