Motoare de Cautare

Motoare de căutare
0
1.Introducere
Un motor de căutare poate fi descris ca unul sau mai multe servere cu

ajutorul cărora sunt indexate pagini web, sunt stocate o mulţime de
informaţii şi apoi sunt furnizate liste de pagini.
Dacă dorim să căutăm o informaţie într-un motor de căutare trebuie
formulată o interogare în care să existe o frază sau un cuvânt cât mai
apropiat ca înţeles de ceea ce căutăm. Cu ajutorul bazei de date pe care o are,
maşina va afişa pe ecran o listă cu un număr mare de legături(uneori chiar
mii) către site-uri web care conţin fraza sau cuvântul cheie folosit. Această
listă e împărţită în pagini pe care nu vom găsi mai mult de 10-20 de
rezultate, afişate în ordinea relevanţei lor, în funcţie de un algoritm
caracteristic fiecărui sistem.
Desigur, motoarele de căutare nu ne dau întotdeauna răspunsul pe care
îl dorim. În măsura relevanţei lor, paginile sunt adăugate la finalul listei de
rezultate, de aceea, se poate întampla să dureze un timp până să găsim
informaţiile dorite.
2.Elemente de bază
Fiecare motor are trei elemente de bază:
Primul este păianjenul sau cum mai este numit robot sau vierme
(‘spider’, ‘robot’, ‘crawler’). Acesta este o componentă principală şi foarte
importantă care citeste fiecare pagină şi reţine legăturile spre alte pagini.
Acţiunea robotului este una neîncetată deoarece multe din paginile vizitate
îşi modifică legăturile astfel încât pot apărea legături( link-uri) noi sau alte
pagini chiar să dispară definitiv. De aceea robotul se întoarce după un
interval de timp(între o lună şi două luni) pentru a verifica dacă nu s-a
produs o modificare în site-urile deja vizitate.
Aceste componente au o capacitate de citire şi de prelucrare a datelor
foarte mare, după spusele producătorilor, “roboţii rapizi de la Altavista au
capacitatea de a citi 1 GB de text pe secundă , respectiv 3 milioane de pagini
web pe zi .”
Întreg procesul creat de acest robot, păianjen este numit ‘spidering’ şi
ajută la definirea performanţelor unui motor de căutare.
Cea de-a doua componentă a sistemului este indexul sau catalogul.
Toate informaţiile găsite de robot (cuvintele cheie, porţiuni de text din
paginile vizitate, etc.) sunt adăugate indexului. Acesta este folosit ca o bază
mare de date în care fiecare pagină apare ca o nouă înregistrare în care vor
1
apărea titlul şi numele paginii respective, cuvinte cheie, legături spre alte
pagini, precum si porţiuni din text care diferă de la un motor la altul.
Atunci cand robotul găseste noi informaţii despre o pagină oarecare,
indexul este actualizat corespunzător cu noile informaţii.
De multe ori se întâmplă că, deşi robotul a vizitat o pagină cu noi
modificări, indexul să nu fie actualizat, atunci pagina nu e încă ‘indexată’. În
acest caz pagina respectivă nu este disponibilă la o eventuală căutare de
către utilizatori.
Cel de-al treilea element principal este software-ul de căutare, un
program prin care se caută prin milioanele de pagini înregistrate în index şi
se afişează rezultatul căutării sub forma unor legături în ordinea pe care o
consideră cea mai relevantă.
3.Modul de funcţionare
Aceste sisteme folosesc algoritmii astfel încât căutarea prin pagini se

face aproape instantaneu iar rezultatul este constituit doar din acele pagini
care prezinta interes în legătură cu cuvântul cheie sau fraza din care e
alcătuită interogarea.
În articolul lui Danny Sullivan din iulie 2003 despre modul de
funcţionare a sistemelor de căutare şi modul în care acestea ‘rânduiesc’
paginile web, se face comparaţia dintre un bibliotecar şi un motor de
căutare. Însa, în primul caz, interogarea se face mult mai simplu, chiar prin
mai multe întrebări. Din păcate, în cazul motoarelor de căutare, acestea nu
au posibilitatea de a pune mai multe întrebări pentru a focaliza căutarea
noastră.
În cazul în care fiecare sistem trebuie să găsească răspunsuri din sute
de milioane de pagini web, acestea urmează un set de reguli, numit algoritm.
Acesta este ţinut secret de către companiile producătoare, dar majoritatea
urmează, în general, aceleaşi reguli.
În privinţa listei de rezultate, robotul reţine fiecare legătură a paginii
X către pagina Y ca un vot dat de X pentru Y, astfel, lista este ordonată în
funcţie de voturile fiecărei pagini web (cele cu un număr de voturi mai mare
sunt situate în faţa listei). Regula principală după care se alcătuieşte acest
algoritm de votare implică locaţiile si frecvenţele cuvintelor cheie în fiecare
legătură. Precum în cazul bibliotecarului, care, după aflarea cererii caută
cartea după un anume titlu, la fel procedează şi sistemele de căutare în web.
Acestea consideră pagina mai relevantă aceea care are cuvântul cheie în
titlul paginii HTML. De asemenea ţin cont de găsirea subiectului căutat la
începutul paginii, în titlul articolului respectiv sau cel putin în primele
2
paragrafe. Aceste reguli se bazează pe faptul că dacă o anume pagină este
relevantă cu subiectul atunci cuvântul cheie trebuie să se afle la începutul ei.
Un alt element important care reflectă relevanţa unei pagini este
frecvenţa. Sistemul analizează de câte ori apare în cadrul paginii cuvântul
cheie în legătură cu alte cuvinte. Cu cât frecvenţa acestora este mai mare, cu
atât pagina este pusă mai în faţă în lista de rezultate.
Motoarele de căutare funcţionează după aceeaşi metodă de votare,
însă, fiecare adaugă “esenţa” algoritmului. De aceea putem găsi rezultate
diferite de la motoare la motoare pentru aceeaşi căutare. De asemenea unele
sisteme au un index mai complex, sau indexarea se face mai des decât la
altele.
Paginile care conţin “search engine spamming” pot fi sancţionate sau
chiar excluse. Un asemenea exemplu este scrierea unui cuvânt de o suta de
ori pe pagină pentru a creşte frecvenţa. Sistemele analizează de asemenea
sfârşiturile de pagină, deoarece unii webmasteri încearcă să “înşele” metoda
de votare, iar alţii construiesc link-uri artificiale pentru a creşte propriul vot.
O altă metodă este de a declasa paginile mai puţin vizitate pentru a le clasa
într-o poziţie mai bună pe cele mai mult vizitate.
4.Cum ne înregistrăm la un motor de căutare( “Search engines

submission”)?
Indiferent de tipul site-ului pe care îl deţinem, a-l înregistra la un

motor de căutare înseamnă că acel sistem va ştii de pagina noastră şi nu
neapărat că vom avea un vot bun, de la început.
Înregistrarea se poate face gratuit, dar, pentru a avea un vot mai bun şi
totodată pentru ca pagina să aibă un trafic mai bun, se pot alege programe
specializate. Pentru aceasta trebuie să atribuim site-ului un buget(minim
300$/an-yahoo), ceea ce ne asigură că înregistrarea se va face mult mai
repede iar votul(rank-ul) este unul dintre cele mai bune.
Lansarea prin directoare se face destul de simplu, dar lista cu
înregistrările de pagini noi sau modificările făcute se actualizează mult mai
greu; aceasta din cauza firească a timpului necesar evaluării şi comentării
fiecărei pagini de către redactori. De cele mai multe ori aceste comentarii se
rezumă la câteva rânduri, deoarece aceşti redactori analizează tipul site-ului
şi titlul acestuia, şi nu etichetele META. Avantajul înscrierii în astfel de
cataloage este că foarte multi oameni se uită prin ele, acestea fiind împărţite
în categorii şi subcategorii, pesoana poate găsi cu siguranţă ceea ce doreşte.
Un alt avantaj al înscrierii este acela că robotul motorului de căutare va
putea găsi pagina relevantă şi o va înscrie în propria listă gratuit. Înscrierea
3
presupune o scurtă pregătire a paginii şi anume o prezentare în câteva
cuvinte a întregului web site, care să conţină şi câteva cuvinte cheie după
care potenţialii utilizatori ar putea căuta.
Lansarea prin Yahoo este simplă şi benefică deoarece, după cum am
mai spus, aceasta poate creşte votul, Yahoo având propriul său director şi
propriul său robot. Aceasta înscriere se poate face în două moduri:
“Standard” care este gratuită, şi la care are acces oricine, şi “Yahoo Express”
care necesită o anumită taxă de înscriere. În cazul în care site-ul este descris
ca unul comercial, Yahoo solicită o taxă de 299$ pe an, iar înscrierea nu este
garantată întotdeauna(foarte puţine site-uri nu sunt acceptate, în special cele
“indecente”). O anume reevaluare a paginii se va face peste un an, când se
va cere plătirea unei noi taxe. În cazul în care taxa nu este platită, site-ul va
dispărea din catalogul respectiv, dar nu şi din cel al robotului. De asemenea,
dacă pagina e de mare interes, alte linkuri importante pot avea legături spre
site-ul nostru. Dacă acesta este unul necomercial, taxa va fi cerută o singură
dată, la început. Pentru a uşura lansarea există un ghid pe web, “open
directory”, acesta fiind opţional pentru majoritatea motoarelor de căutare.
Înregistrarea la acest “open directory” este gratuită. De asemenea, (precum
în cazul Yahoo) va trebui să aşteptăm după un răspuns de confirmare care
apare în aproximativ trei săptămâni. Dacă pagina web nu apare, înseamnă că
ea nu a fost acceptată şi va trebui facută o nouă înscriere.
La fel ca în cazul precedent, înregistrarea prin Google se poate face
gratuit, prin creerea unor legături pe pagini care sunt bine cotate, robotii
urmăresc aceste legături iar dacă gasesc o pagină bine realizata aceasta este
adăugată indexului. O altă metodă gratuită este prin înregistrarea site-ului la
directoare, de unde motoarele de căutare sigur vor prelua URL-ul.
Şi mai simplă este lansarea prin Teoma, un motor de căutare care
listează cele mai bune rezultate iar înscrierea se face prin crearea de legături
de către alte site-uri.
5. Înscrierea prin liste plătite
Majoritatea motoarelor de căutare acceptă liste plătite. Oricine doreşte

să se afirme repede(într-o zi sau chiar mai puţin) poate plăti o sumă pentru a
fi în topul listei. Dacă acestă sumă este depăşită, pagina va fi listată pe un
loc inferior(în cazul în care persoana respectivă nu măreşte de asemenea
suma). Oferta (Overture) este una din soluţiile tentante prin care orice site
poate ajunge în topul listei într-o scurtă perioadă de timp.
4
6.Cum obţinem un loc mai bun în listă
Oricine are un web site doreste ca acesta să fie cât mai vizitat. În
privinţa motoarelor de căutare un site este cu atât mai mult accesat cu cât se
află în faţa listei de rezultate. De aceea lupta cea mai aprigă se dă pentru
primele 10 locuri, de cele mai multe ori pentru prima pagină.
Un element principal în creşterea relevanţei unei pagini îl constituie
“cuvintele cheie ţintă”. Această frază constituită din două sau mai multe
cuvinte, descrie exact conţinutul fiecărei pagini a site-ului, şi este totodată
fraza cu care se compară, prin fiecare software, conţinutul interogării.
Trebuie luat în considerare faptul că dacă această frază e constituită dintr-un
singur cuvânt, lista de rezultatele va fi foarte complexă iar şansele de a
apărea în topul primilor 10, scad semnificativ.
Fraza care constituie cuvintele cheie ţintă trebuie să aibă locaţia bine
definită şi totodată benefică. Spun acest lucru deoarece este foarte important
iar ideea de a pune aceste cuvinte în locul titlului HTML duce la scăderea
ranking-ului chiar dacă o pagina este relavantă sau nu. Locul de poziţionare
al cuvintelor cheie este cu atât mai bun cu cât acesta se află la începutul
paginii, chiar în primele paragrafe( lucru care îmbunătăţeste imaginea site-
ului în faţa sistemului de căutare). Trebuie să avem grijă la folosirea
tabelelor, deoarece motorul de căutare le citeste pe rând, fapt care face ca
locul cuvintelor cheie să fie mult mai jos pe pagină decat le vedem noi.
Subiectul paginii trebuie să fie în legătură cu titlul paginii. Aceasta
înseamnă că pagina respectivă trebuie să contină text HTML. Chiar dacă
folosirea de elemente grafice face ca, de multe ori, pagina să arate mult mai
bine, relevanţa lor nu este mai ridicată, ci dimpotrivă, lipsa textului HTML
este ineficientă din punctul de vedere al majoritaţii sistemelor de căutare, dar
şi al vizitatorilor. Acest text trebuie să fie vizibil, adică să aibă un font
normal şi o culoare diferită de cea a background-ului. Altfel, în cazul în care
sistemul detecteaza o astfel de pagină, aceasta va fi exclusă din index.
Pentru ca o pagină să fie considerată relevantă, aceasta trebuie să
conţină legături HTML spre pagini similare sau spre alte secţiuni ale site-
ului, care vor fi urmărite de sistem şi apreciate corespunzător.
5
7. Etichetele Meta
Etichetele Meta sunt acele informaţii care sunt situate în zona de

început a paginii web. Aceste informaţii, spre deosebire de titlul paginii, nu
sunt vizibile şi nici interesante pentru utilizatori.
Iata câteva exemple:
1.
<HEAD>
<TITLE>Stamp Collecting World</TITLE>
<META name="description" content="Everything you wanted to know
about stamps, from prices to history.">
<META name="keywords" content="stamps, stamp collecting, stamp
history, prices, stamps for sale">
</HEAD>
2.
<HEAD>
<TITLE>Page I Don't Want In Search Engines</TITLE>
<META NAME="ROBOTS" CONTENT="NOINDEX">
</HEAD>
După cum putem observa această zonă conţine mai multe secţiuni,
toate cuprinse între etichetele <HEAD>(pentru începutul zonei) şi
</HEAD>(pentru sfârşitul zonei).
Etichetele <TITLE > şi </TITLE> delimitează zona în care se află
titlul HTML, titlu care va apărea în bara de sus a ferestrei în care este
deschisă pagina web, dar şi în lista de pagini favorite. De asemenea acesta
mai apare şi în titlul paginii respective din lista de rezultate, precum putem
vedea în urmatorul exemplu, în care, în lista de rezultate(listată de Teoma)
apare o anume pagină despre etichetele Meta, pagină care are titlul: “How
To Use HTML Meta Tags” al site-ului: http://www.searchenginewatch.com
6
Precum am spus şi mai sus, titlul HTML este un element principal
pentru motoarele de căutare în vederea deciderii votului pentru relevanta
paginii.
Etichetele Meta de descriere sunt de asemenea foarte importante
deoarece permit descrierea paginii pentru sistemele care suportă
eticheta(majoritatea motoarelor suportă, însă, cele care folosesc cel mai mult
această etichetă sunt AltaVista, AllTheWeb şi Teoma. Se poate da şi un
contraexemplu: Google nu ia în considerare aceste etichete). Aceasta
etichetă este reprezentată de cuvintele <name="description"> iar descrierea
în sine trebuie scrisă în interiorul ghilimelelor după cuvantul <content=>
conţinând în general între 200 şi 250 de caractere. Descrierea va apărea de
asemenea, după cum se poate observa şi în exemplul de mai sus, în lista de
rezultate, sub titlul HTML al paginii.
Un alt element al exemplului de mai sus este eticheta Meta de cuvinte
cheie. Aceasta ajută, doar la unele motoare (Inktomi, Teoma), prin faptul că
permite adăugarea de text descriptiv sistemului pe langă conţinutul paginii
respective. Trebuie menţionat că această etichetă va fi folosită doar pentru
adăugarea unor cuvinte care nu apar în conţinutul paginii. La fel ca mai sus,
în exemplu, eticheta Meta de cuvinte cheie este reprezentata de grupul
<name="keywords">, iar cuvintele cheie propriu-zise sunt scrise între
ghilimele după < content=>.
Etichetele Meta roboţi sunt de asemenea foarte folosite, de aceea
merită să le menţionez în această scurtă listă. Aceste etichete sunt folosite
pentru a specifica faptul că o anumită pagină nu dorim să fie indexată, de
aceea majoritatea sistemelor de căutare folosesc această etichetă. De aceea
titlul paginii este în concordanţă cu aceasta idee. Precum în cazurile
precedente, eticheta în sine este reprezentată prin grupul:
< NAME="ROBOTS" >.
Desigur există o mulţime de alte etichete Meta care sunt mai puţin
folosite. Dintre ele menţionez: "author", "channel" şi "date" prin care este
observat codul sursă al paginilor, "Dublin Core".
7
8. Topul celor mai bune motoare de căutare şi directoare
 Google (http://www.google.com/)
 Yahoo (http://www.yahoo.com )
 Ask Jeeves (http://www.askjeeves.com )
 AllTheWeb.com (http://www.alltheweb.com )
 AOL Search (http://www.aolsearch.aol.com )
 HotBot (http://www.hotbot.com )
 Teoma (http://www.teoma.com )
 AltaVista (http://www.altavista.com )
 Gigablast (http://www.gigablast.com )
 LookSmart (http://www.looksmart.com )
 Lycos (http://www.lycos.com )
 MSN Search (http://search.msn.com )
 Netscape Search (http://search.netscape.com )
 Open Directory (http://dmoz.org )
Acestea sunt cele mai bune soluţii în cazul în care avem de căutat o
informaţie.
8
9. Bibliografie
 http://searchenginewatch.com/webmasters/
 http://optimizare.insoft.ro/
 http://www.resurse.com
 http://www.afaceri.net/WEBDESIGN/PROMOVARE/Motoare_
de_cautare.htm
9
Cuprins:
Introducere………………………………………………………………1
Elemente de bază………………………………………………………..1
Modul de funcţionare……………………………………………………2
Cum ne înregistrăm la un motor de căutare……………………………..3
Înscrierea prin liste plătite……………………………………………….4
Cum obţinem un loc mai bun în listă……………………………………5
Etichetele Meta…………………………………………………………..6
Topul celor mai bune motoare de căutare şi directoare………………….8
Bibliografie………………………………………………………………9
10

Motoare de Cautare

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Motoare de Cautare

Încărcat de

Drepturi de autor:

Formate disponibile

Motoare de căutare

Un motor de căutare poate fi descris ca unul sau mai multe servere cu

Fiecare motor are trei elemente de bază:

Aceste sisteme folosesc algoritmii astfel încât căutarea prin pagini se

4.Cum ne înregistrăm la un motor de căutare( “Search engines

Indiferent de tipul site-ului pe care îl deţinem, a-l înregistra la un

5. Înscrierea prin liste plătite

Majoritatea motoarelor de căutare acceptă liste plătite. Oricine doreşte

Etichetele Meta sunt acele informaţii care sunt situate în zona de

Cum ne înregistrăm la un motor de căutare……………………………..3

Înscrierea prin liste plătite……………………………………………….4

Cum obţinem un loc mai bun în listă……………………………………5

Topul celor mai bune motoare de căutare şi directoare………………….8

S-ar putea să vă placă și