Documente Academic
Documente Profesional
Documente Cultură
0
1.Introducere
2.Elemente de bază
Primul este păianjenul sau cum mai este numit robot sau vierme
(‘spider’, ‘robot’, ‘crawler’). Acesta este o componentă principală şi foarte
importantă care citeste fiecare pagină şi reţine legăturile spre alte pagini.
Acţiunea robotului este una neîncetată deoarece multe din paginile vizitate
îşi modifică legăturile astfel încât pot apărea legături( link-uri) noi sau alte
pagini chiar să dispară definitiv. De aceea robotul se întoarce după un
interval de timp(între o lună şi două luni) pentru a verifica dacă nu s-a
produs o modificare în site-urile deja vizitate.
Aceste componente au o capacitate de citire şi de prelucrare a datelor
foarte mare, după spusele producătorilor, “roboţii rapizi de la Altavista au
capacitatea de a citi 1 GB de text pe secundă , respectiv 3 milioane de pagini
web pe zi .”
Întreg procesul creat de acest robot, păianjen este numit ‘spidering’ şi
ajută la definirea performanţelor unui motor de căutare.
Cea de-a doua componentă a sistemului este indexul sau catalogul.
Toate informaţiile găsite de robot (cuvintele cheie, porţiuni de text din
paginile vizitate, etc.) sunt adăugate indexului. Acesta este folosit ca o bază
mare de date în care fiecare pagină apare ca o nouă înregistrare în care vor
1
apărea titlul şi numele paginii respective, cuvinte cheie, legături spre alte
pagini, precum si porţiuni din text care diferă de la un motor la altul.
Atunci cand robotul găseste noi informaţii despre o pagină oarecare,
indexul este actualizat corespunzător cu noile informaţii.
De multe ori se întâmplă că, deşi robotul a vizitat o pagină cu noi
modificări, indexul să nu fie actualizat, atunci pagina nu e încă ‘indexată’. În
acest caz pagina respectivă nu este disponibilă la o eventuală căutare de
către utilizatori.
Cel de-al treilea element principal este software-ul de căutare, un
program prin care se caută prin milioanele de pagini înregistrate în index şi
se afişează rezultatul căutării sub forma unor legături în ordinea pe care o
consideră cea mai relevantă.
3.Modul de funcţionare
2
paragrafe. Aceste reguli se bazează pe faptul că dacă o anume pagină este
relevantă cu subiectul atunci cuvântul cheie trebuie să se afle la începutul ei.
Un alt element important care reflectă relevanţa unei pagini este
frecvenţa. Sistemul analizează de câte ori apare în cadrul paginii cuvântul
cheie în legătură cu alte cuvinte. Cu cât frecvenţa acestora este mai mare, cu
atât pagina este pusă mai în faţă în lista de rezultate.
Motoarele de căutare funcţionează după aceeaşi metodă de votare,
însă, fiecare adaugă “esenţa” algoritmului. De aceea putem găsi rezultate
diferite de la motoare la motoare pentru aceeaşi căutare. De asemenea unele
sisteme au un index mai complex, sau indexarea se face mai des decât la
altele.
Paginile care conţin “search engine spamming” pot fi sancţionate sau
chiar excluse. Un asemenea exemplu este scrierea unui cuvânt de o suta de
ori pe pagină pentru a creşte frecvenţa. Sistemele analizează de asemenea
sfârşiturile de pagină, deoarece unii webmasteri încearcă să “înşele” metoda
de votare, iar alţii construiesc link-uri artificiale pentru a creşte propriul vot.
O altă metodă este de a declasa paginile mai puţin vizitate pentru a le clasa
într-o poziţie mai bună pe cele mai mult vizitate.
3
presupune o scurtă pregătire a paginii şi anume o prezentare în câteva
cuvinte a întregului web site, care să conţină şi câteva cuvinte cheie după
care potenţialii utilizatori ar putea căuta.
Lansarea prin Yahoo este simplă şi benefică deoarece, după cum am
mai spus, aceasta poate creşte votul, Yahoo având propriul său director şi
propriul său robot. Aceasta înscriere se poate face în două moduri:
“Standard” care este gratuită, şi la care are acces oricine, şi “Yahoo Express”
care necesită o anumită taxă de înscriere. În cazul în care site-ul este descris
ca unul comercial, Yahoo solicită o taxă de 299$ pe an, iar înscrierea nu este
garantată întotdeauna(foarte puţine site-uri nu sunt acceptate, în special cele
“indecente”). O anume reevaluare a paginii se va face peste un an, când se
va cere plătirea unei noi taxe. În cazul în care taxa nu este platită, site-ul va
dispărea din catalogul respectiv, dar nu şi din cel al robotului. De asemenea,
dacă pagina e de mare interes, alte linkuri importante pot avea legături spre
site-ul nostru. Dacă acesta este unul necomercial, taxa va fi cerută o singură
dată, la început. Pentru a uşura lansarea există un ghid pe web, “open
directory”, acesta fiind opţional pentru majoritatea motoarelor de căutare.
Înregistrarea la acest “open directory” este gratuită. De asemenea, (precum
în cazul Yahoo) va trebui să aşteptăm după un răspuns de confirmare care
apare în aproximativ trei săptămâni. Dacă pagina web nu apare, înseamnă că
ea nu a fost acceptată şi va trebui facută o nouă înscriere.
La fel ca în cazul precedent, înregistrarea prin Google se poate face
gratuit, prin creerea unor legături pe pagini care sunt bine cotate, robotii
urmăresc aceste legături iar dacă gasesc o pagină bine realizata aceasta este
adăugată indexului. O altă metodă gratuită este prin înregistrarea site-ului la
directoare, de unde motoarele de căutare sigur vor prelua URL-ul.
Şi mai simplă este lansarea prin Teoma, un motor de căutare care
listează cele mai bune rezultate iar înscrierea se face prin crearea de legături
de către alte site-uri.
4
6.Cum obţinem un loc mai bun în listă
Oricine are un web site doreste ca acesta să fie cât mai vizitat. În
privinţa motoarelor de căutare un site este cu atât mai mult accesat cu cât se
află în faţa listei de rezultate. De aceea lupta cea mai aprigă se dă pentru
primele 10 locuri, de cele mai multe ori pentru prima pagină.
Un element principal în creşterea relevanţei unei pagini îl constituie
“cuvintele cheie ţintă”. Această frază constituită din două sau mai multe
cuvinte, descrie exact conţinutul fiecărei pagini a site-ului, şi este totodată
fraza cu care se compară, prin fiecare software, conţinutul interogării.
Trebuie luat în considerare faptul că dacă această frază e constituită dintr-un
singur cuvânt, lista de rezultatele va fi foarte complexă iar şansele de a
apărea în topul primilor 10, scad semnificativ.
Fraza care constituie cuvintele cheie ţintă trebuie să aibă locaţia bine
definită şi totodată benefică. Spun acest lucru deoarece este foarte important
iar ideea de a pune aceste cuvinte în locul titlului HTML duce la scăderea
ranking-ului chiar dacă o pagina este relavantă sau nu. Locul de poziţionare
al cuvintelor cheie este cu atât mai bun cu cât acesta se află la începutul
paginii, chiar în primele paragrafe( lucru care îmbunătăţeste imaginea site-
ului în faţa sistemului de căutare). Trebuie să avem grijă la folosirea
tabelelor, deoarece motorul de căutare le citeste pe rând, fapt care face ca
locul cuvintelor cheie să fie mult mai jos pe pagină decat le vedem noi.
Subiectul paginii trebuie să fie în legătură cu titlul paginii. Aceasta
înseamnă că pagina respectivă trebuie să contină text HTML. Chiar dacă
folosirea de elemente grafice face ca, de multe ori, pagina să arate mult mai
bine, relevanţa lor nu este mai ridicată, ci dimpotrivă, lipsa textului HTML
este ineficientă din punctul de vedere al majoritaţii sistemelor de căutare, dar
şi al vizitatorilor. Acest text trebuie să fie vizibil, adică să aibă un font
normal şi o culoare diferită de cea a background-ului. Altfel, în cazul în care
sistemul detecteaza o astfel de pagină, aceasta va fi exclusă din index.
Pentru ca o pagină să fie considerată relevantă, aceasta trebuie să
conţină legături HTML spre pagini similare sau spre alte secţiuni ale site-
ului, care vor fi urmărite de sistem şi apreciate corespunzător.
5
7. Etichetele Meta
1.
<HEAD>
<TITLE>Stamp Collecting World</TITLE>
<META name="description" content="Everything you wanted to know
about stamps, from prices to history.">
<META name="keywords" content="stamps, stamp collecting, stamp
history, prices, stamps for sale">
</HEAD>
2.
<HEAD>
<TITLE>Page I Don't Want In Search Engines</TITLE>
<META NAME="ROBOTS" CONTENT="NOINDEX">
</HEAD>
După cum putem observa această zonă conţine mai multe secţiuni,
toate cuprinse între etichetele <HEAD>(pentru începutul zonei) şi
</HEAD>(pentru sfârşitul zonei).
Etichetele <TITLE > şi </TITLE> delimitează zona în care se află
titlul HTML, titlu care va apărea în bara de sus a ferestrei în care este
deschisă pagina web, dar şi în lista de pagini favorite. De asemenea acesta
mai apare şi în titlul paginii respective din lista de rezultate, precum putem
vedea în urmatorul exemplu, în care, în lista de rezultate(listată de Teoma)
apare o anume pagină despre etichetele Meta, pagină care are titlul: “How
To Use HTML Meta Tags” al site-ului: http://www.searchenginewatch.com
6
Precum am spus şi mai sus, titlul HTML este un element principal
pentru motoarele de căutare în vederea deciderii votului pentru relevanta
paginii.
Etichetele Meta de descriere sunt de asemenea foarte importante
deoarece permit descrierea paginii pentru sistemele care suportă
eticheta(majoritatea motoarelor suportă, însă, cele care folosesc cel mai mult
această etichetă sunt AltaVista, AllTheWeb şi Teoma. Se poate da şi un
contraexemplu: Google nu ia în considerare aceste etichete). Aceasta
etichetă este reprezentată de cuvintele <name="description"> iar descrierea
în sine trebuie scrisă în interiorul ghilimelelor după cuvantul <content=>
conţinând în general între 200 şi 250 de caractere. Descrierea va apărea de
asemenea, după cum se poate observa şi în exemplul de mai sus, în lista de
rezultate, sub titlul HTML al paginii.
Un alt element al exemplului de mai sus este eticheta Meta de cuvinte
cheie. Aceasta ajută, doar la unele motoare (Inktomi, Teoma), prin faptul că
permite adăugarea de text descriptiv sistemului pe langă conţinutul paginii
respective. Trebuie menţionat că această etichetă va fi folosită doar pentru
adăugarea unor cuvinte care nu apar în conţinutul paginii. La fel ca mai sus,
în exemplu, eticheta Meta de cuvinte cheie este reprezentata de grupul
<name="keywords">, iar cuvintele cheie propriu-zise sunt scrise între
ghilimele după < content=>.
Etichetele Meta roboţi sunt de asemenea foarte folosite, de aceea
merită să le menţionez în această scurtă listă. Aceste etichete sunt folosite
pentru a specifica faptul că o anumită pagină nu dorim să fie indexată, de
aceea majoritatea sistemelor de căutare folosesc această etichetă. De aceea
titlul paginii este în concordanţă cu aceasta idee. Precum în cazurile
precedente, eticheta în sine este reprezentată prin grupul:
< NAME="ROBOTS" >.
Desigur există o mulţime de alte etichete Meta care sunt mai puţin
folosite. Dintre ele menţionez: "author", "channel" şi "date" prin care este
observat codul sursă al paginilor, "Dublin Core".
7
8. Topul celor mai bune motoare de căutare şi directoare
Google (http://www.google.com/)
Yahoo (http://www.yahoo.com )
Ask Jeeves (http://www.askjeeves.com )
AllTheWeb.com (http://www.alltheweb.com )
AOL Search (http://www.aolsearch.aol.com )
HotBot (http://www.hotbot.com )
Teoma (http://www.teoma.com )
AltaVista (http://www.altavista.com )
Gigablast (http://www.gigablast.com )
LookSmart (http://www.looksmart.com )
Lycos (http://www.lycos.com )
MSN Search (http://search.msn.com )
Netscape Search (http://search.netscape.com )
Open Directory (http://dmoz.org )
Acestea sunt cele mai bune soluţii în cazul în care avem de căutat o
informaţie.
8
9. Bibliografie
http://searchenginewatch.com/webmasters/
http://optimizare.insoft.ro/
http://www.resurse.com
http://www.afaceri.net/WEBDESIGN/PROMOVARE/Motoare_
de_cautare.htm
9
Cuprins:
Introducere………………………………………………………………1
Elemente de bază………………………………………………………..1
Modul de funcţionare……………………………………………………2
Etichetele Meta…………………………………………………………..6
Bibliografie………………………………………………………………9
10