Sunteți pe pagina 1din 64

Cuprins

Glosar de termeni

Backlinks (Linkuri Inbound)


Linkuri (legături) provenite de la o altă pagina web către pagina proprie.

Cloaking
Modalitate prin care se serveste o versiune a unei pagini către un vizitator uman şi o versiune
diferită motoarelor de căutare.

Crawler (Spider)
Motoarele de căutare folosesc "crawlere" pentru a trece de la o pagină web la alta prin linkuri
întîlnite în pagini. Paginile descoperite sunt apoi indexate pe baza unui algoritm şi indexate în baza de
date.

Cuvînt cheie (Keyword)


Un cuvînt sau frază introdus în motoarele de cautare cu scopul de a găsi cele mai relevante
pagini web ce contin acest cuvant/fraza. O pagina web trebuie optimizata pentru aceste cuvinte cheie.

Index
Lista paginilor web indexate de un motor de cautare.

Linkuri Outbound
Linkuri din propria pagina către alte pagini web.

PageRank (PR)
O valoare (intre 1 si 10) atribuită de către Google fiecarei pagini web din baza de date.
PageRank-ul este calculat de către Google folosind un algoritm matematic, bazat pe numarul si
calitatea (determinata de acelasi motor de cautare) linkurilor către pagina respectiva.

PPC (Pay Per Click)


O modalitate de promovare a unui site (de obicei prin intermediul unui motor de cautare) ce
consta în plasarea unui link si o scurta descriere în SERP, alaturi de rezultatele "naturale". Aceste
linkuri sunt plasate separat, de obicei în partea dreapta. plata se face în functie de numarul de clickuri.
Robot
Un robot este un program care ruleaza automat si indeplineste o anumita sarcina fara interventie
umana si care stie sa reactioneze în diferite situatii. Un exemplu de robot este webcrawler-ul (program
folosit de motoarele de cautare pentru a descoperi noi pagini web).

SEO (Search Engines Optimization)


Optimizarea pentru motoarele de căutare. Se referă la optimizarea unui site web în vederea
obţinerii unui maxim de vizibilitate în motoarele de căutare.

SEM (Search Engines Marketing)


Marketing pentru motoarele de căutare. Totalitatea acţiunilor întreprinse pentru a atrage cît mai
mulţi vizitatori - potenţiali clienţi prin intermediul motoarelor de căutare.

SERP (Search Engine Results Pages)


Paginile cu rezultatele căutarii după un anumit cuvînt cheie. Se referă la rezultatele afişate de
motoarele de căutare în formatul ales de utilizator, ţinînd cont de opţinunile personale setate de acesta.

Taguri Alt
Scurt atribut al unei imagini. Textul afişat la pozitionarea cursorului peste o imagine. Acest text
este afisat în locul imaginii atunci cînd browserul este setat să nu afişeze imaginile dintr-o pagina web.
Tag-urile ALT (provenit din alternative) sunt utile atat vizitatorilor cît şi motoarelor de căutare.

Taguri Meta (Meta Tag)


O eticheta pentru documentele HTML, cu informaţii referitoare la acea pagina web. Tagurile
Meta nu afecteaza modul în care pagina este afisata, în schimb stocheaza informaţii precum autorul
paginii, data ultimei actualizari, limba în care este scrisa pagina, o descriere sumara a paginii precum si
cuvinte cheie pentru continutul paginii. Unele motoare de cautare folosesc informaţiile din meta pentru
a indexa paginile web.
Introducere

Societatea informaţională este societatea în care producerea şi consumul de informaţie este cel
mai important tip de activitate, informaţia este recunoscută drept resursă principală, tehnologiile
informaţiei şi comunicaţiilor sînt tehnologii de bază, iar mediul informaţional, împreună cu cel social şi
cel ecologic – un mediu de existenţă a omului.
Societatea informaţională reprezintă o nouă etapă a civilizaţiei umane, un nou mod de viaţă
calitativ superior, care implică folosirea intensă a informaţiei în toate sferele activităţii şi existenţei
umane. Societatea informaţională permite accesul larg la informaţie ai membrilor săi, un nou mod de
lucru şi de cunoaştere.
În secolul XX, cel mai mare eveniment tehnologic şi social în acelaşii timp a fost apariţia
Internetului. Drăgănescu [1] afirmă că „în esenţă societatea informaţională este societatea care se
bazează pe Internet”. Web-ul a devenit un nou mediu de publicare a informaţiei. Site-urile web sînt
folosite pentru a promova companiile şi produsele sale, presta servicii şi informaţii, facilita
comunicarea.
Motoarele de căutare sunt unele dintre cele mai populare destinatii de pe Web iar acest lucru
este de înteles, având în vedere cantitatile vaste de informaţii aflate la dispoziţia utilizatorilor şi nevoia
de ajutor în filtrarea conţinutului online. Rezultat al unor realizări tehnice semnificative, motoarele de
căutare sunt totodată înrudite cu procese sociale şi institutii care influenţează felul lor de funcţionare şi
utilizare.
Motoarele de căutare sunt printre cele mai accesate site-uri. Milioane de oameni recurg la ele
pentru a găsi continuturi în fiecare zi, introducând miliarde de termeni de căutare în fiecare luna. De
fapt, folosirea motoarelor de căutare rivalizează cu ail-ul pentru cea mai comună activitate întreprinsă
de utilizatorii de Internet. Oamenii se îndreaptă zi de zi către motoarele de căutare pentru a găsi
informaţii despre evenimente actuale, preocupări legate de sănătate, produse, servicii guvernamentale,
dezastre naturale, noii lor vecini, posibili angajaţi sau parteneri, şi o multitudine de alte subiecte,
variind de la mondene pâna la cele mai serioase. Cu toate acestea, în afara rolului lor central în
accesarea informatiei, puţine cercetari din domeniul optimizării şi promovării paginilor web s-au axat
pe dimensiunile non-tehnice ale motoarelor de căutare, pe companiile care le gestionează sau pe
practicile utilizatorilor care se bazeaza pe ele.
Un asemenea demers trebuie sa fie un efort interdisciplinar, datorită multiplelor dimensiuni ale
întrebărilor relevante, variind de la cine foloseşte motoare de căutare şi în ce scopuri până la distribuţia
abilităţilor necesare pentru utilizarea motoarelor de căutare, precum şi dacă tot conţinutul are şanse
egale de a fi inclus în listele de rezultate ale acestor instrumente sau dacă ele pot fi manipulate. În mod
deloc surprinzător, aria largă de problematici ridicate de motoarele de căutare atrage diverse grupuri de
cercetători[3].
Ce ştim deja? Graţie cercetărilor existente ştim că folosirea motoarelor de căutare e una dintre
activităţile favorite ale utilizatorilor de Internet[4]. Mai ştim şi că, atunci când sunt întrebaţi despre
abilităţile lor de căutare, mulţi utilizatori au tendinţa să fie încrezători în sine, deşi cercetări asupra
comportamentului persoanelor care caută informaţii online tind să observe discrepanţe în functie de
atributele utilizatorilor. Totodată, jurnalele căutărilor sugerează că majoritatea utilizatorilor nu au o
abordare prea sofisticată a actului de căutare, ci adesea se rezumă la a folosi doar unu sau doi termeni
pentru căutare.
În ceea ce priveste rolul motoarelor de căutare în canalizarea atentiei utilizatorilor, deşi
cercetatorii au început sa ia în considerare posibilele implicatii cruciale ale acestor servicii cu ani în
urma, puţine lucrări empirice au urmat pentru a examina gradul în care motoarele de căutare pot sau nu
să discrimineze între anumite tipuri de conţinut, favorizându-le, poate în mod injust, pe unele. Câteva
studii de caz au examinat cenzura anumitor tipuri de materiale, în special privind contexte naţionale,
din partea unora dintre motoare, dar există puţine lucrări sistematice care să analizeze materialele mai
puţin controversate şi respectiv şansele lor de a fi incluse.
Noile tendinţe arată că piaţa motoarelor de căutare se restrânge, şi mai puţini jucatori importanţi
ca niciodată ghideaza comportamentul online al utilizatorilor. Acest lucru sugerează ca deciziile luate
exclusiv de puţinii jucători din acest peisaj pot avea repercusiuni considerabile asupra materialelor care
sunt cu adevărat la îndemâna utilizatorilor. În consecinţă, o analiză critică asupra factorilor care
determină criteriile de includere şi excludere a rezultatelor căutării, precum şi asupra felului în care
utilizatorii le abordează devine din ce în ce mai importantă pentru a întelege mai bine cum accesul
utilizatorilor la conţinut e mediat de o mînă de servicii comerciale.
Acest studiu serveşte ca un îndrumar pentru optimizarea şi promovarea site-urilor în motoarele
de căutare. Concluziile deduse sunt bazate pe o cercetare şi culegere a datelor independentă. Din cauza
naturii proprii a relevanţei algoritmilor motoarelor de căutare, procesele evidenţiate pot să nu
încorporeze toate tehnicile de optimizare şi de spam.
Metoda de cercetare

În acest capitol este descrisă metodologia de cercetare. La început se explică alegerea unei
multiple cercetări pe o perioadă de timp. Mai tîrziu se elucidează conceptele teoretice. Întrebările
apărute în timpul cercetării sunt realizate operaţional în practică.

Abordarea cercetării

Primul pas în modelarea cercetării empirice a fost alegerea unei strategii generale de colecţie a
datelor. Din toate strategiile posibile ca studiile de caz, experimentele, analiza arhivelor şi
chestionarele, diferite opţiuni pot fi considerate utile. Este ştiut faptul că alegerea strategiei de cercetare
este bazată pe stabilirea a minimum trei ipoteze (condiţii) de cercetare, care la rîndul lor trebuie să aibă
o legătură explicită cu teoriile din partea teoretică. De asemenea, ipotezele nu trebuie să se suprapună,
trebuie să fie într-un raport de excluziune una faţă de cealaltă. În următoarele subcapitole vor fi
analizate trei ipoteze de cercetare ţînînd seama de premisele şi scopurile studiului cercetării, întrebări şi
mediu. Într-u realizarea acesteia, voi explica treptat de ce abordarea studiilor de caz este cea mai
potrivită.
În primul rînd, diferite întrebări de cercetare (cum?, de ce?, cine?, ce?, unde?, cîte?, cît de
mult?) în majoritatea cazurilor se referă la diferite strategii de cercetare. Întrebările utilizate în această
cerctare sunt de genul “cum?”, “cît”, “cît de mult” şi “în ce condiţii?”. Pentru aceste tipuri de întrebări
de cercetare, se consideră chestionarele, analiza arhivelor şi studiile de caz ca fiind strategii de
cercetare similare. În altă ordine de idei, datorită informatizării, mediul virtual în care are loc studiul,
denotă faptul că chestionarele nu sunt o opţiune realizabilă.
A doua condiţie ce determină potrivirea diferitelor strategii de cercetare este nivelul de control
al cercetătorului asupra comportamentului evenimentelor. Experimentele sunt realizate de obicei cînd
cercetătorul poate manipula variabilele independente într-o manieră directă, precisă şi sistematică. E
dificil, de exemplu, sa studiem zona de acoperire a motoarelor de căutare deoarece o selectie la
întâmplare a site-urilor e imposibila, datorită faptului ca nu dispunem de o listă comprehensiva a
tuturor site-urilor existente. Deoarece motoarele de căutare ţin în confindenţialitate algoritmii lor de
căutare şi mai mult, ansamblul de factori utilizaţi în algoritmii lor este pasibil unor schimbări continue
şi obscure, este imposibil să ştim ce este şi ce nu este acoperit de diversele servicii. De asemenea este
practic imposibil de a simula situaţiile actuale de cercetare într-un mediu controlabil. De fapt, în
anumite cazuri, rezultatele variaza în functie de utilizator şi localizarea acestuia, astfel încât, un studiu
efectuat pe un dispozitiv, într-o locatie şi de către un anumit utilizator, poate fi imposibil de reprodus
pe un alt dispozitiv, în alte circumstante, chiar şi la puţin timp dupa căutarea initiala. Acest lucru pune
probleme semnificative pentru reproducerea rezultatelor cautarii, principiu de baza al cercetarii
stiintifice. De asemenea, atît timp cît scopul principal al acestei cercetări este de a asigura specialiştii IT
şi marketologii cu cunoştinţe practice, este de a duce această cercetare în mediul actual al paginilor
web, sau altfel spus în Internet. Luînd toate aceste în consideraţie, experimentul pare a nu fi o strategie
potrivită de cercetare pentru acest studiu.
A treia condiţie care ar trebui de luat în consideraţie în determinarea strategiei de cercetare este
concentrarea asupra evenimenteleor curente. În acest caz, această condiţie favorizează în particular
utilizarea unui studiu de caz. Deoarece istoria motoarelor de căutare este relativ scurtă şi întrebuinţarea
şi caractersiticele motoarelor de căutare s-au schimbat de la prima apariţie a lor, datele şi documentele
istorice sunt insuficiente. Mai mult, deoarece această cercetare utilizează combinaţii de date noi şi
specifice atît asupra site-urilor web, cît şi motoarelor de căutare, ar fi dificil de găsit aceste combinaţii
în arhive.
În concluzie, s-a constatat că, avînd condiţiile particulare ale acestei cercetări putem spune că
abordarea stiudiului de caz este cea mai potrivită alegere; este potrivită pentru întrebările de cercetare,
culegerea de experimente nefiind o opţiune reală şi caracterul modern al cercetării face dificilă
utilizarea arhivelor.

Provocări metodologice

Toate domeniile se confrunta cu provocari metodologice, dar şi noile arii de cercetare trebuie sa
abordeze teren neexplorat, ceea ce adauga complexitate demersului lor. Exista puţine date necesare
pentru a examina chestiuni importante privind aspectele sociale ale motoarelor de căutare, în pofida
faptului ca motoarele însele genereaza seturi voluminoase de date bazate pe jurnalul actiunilor
efectuate de utilizatori. Motivele pentru care exista puţine date rezultate din cercetari academice sunt
diverse, iar acestea includ restrictii impuse de drepturile de proprietate precum şi alti factori discutati
mai jos.
Companiile care gestioneaza motoare de căutare au cantitati enorme de date despre utilizarea
serviciilor lor, dar aceste date sunt în general cu drept de proprietate şi sunt rareori puse la dispozitia
cercetatorilor. Companiile sunt foarte preocupate sa tina sub anonimat aceste date, proces nu fara
însemnatate şi care necesita eforturi considerabile. De exemplu, în 2006, cercetatori de la AOL au facut
public un set de date aparent anonime care continea peste 20 de milioane de termeni de căutare
introdusi de peste 650000 de utilizatori, în decursul a trei luni pentru a folosi drept resurse comunitatii
non-comerciale, în scopuri de cercetare. [4]
Totuşi, datorită detaliilor din setul de date (inclusiv numere de identificare atasate fiecarei
cautari), o analiză a condus la identificarea unora dintre utilizatori. Având în vedere reactiile
controversate şi repercusiunile acestui caz, e chiar mai puţin probabil ca pe viitor asemenea informaţii
sa mai fie puse de către companii la dispozitia cercetatorilor.
Chiar daca jurnalele de cautari ar fi mai lesne accesibile, tot ar exista limite referitor la câte am
putea afla despre utilizatori doar din studierea acestora. Asemenea date sunt rareori însotite de tipuri de
covariabile despre atributele utilizatorilor care fac posibile anumite tipuri de analiza minutioasa. Mai
mult, datorită faptului ca utilizatorii nu sunt distribuiti la întâmplare pe motoare de căutare, daca avem
informaţii despre utilizatorii unui site, nu înseamna ca putem neaparat sa generalizam la toti utilizatorii
de Internet.
La un nivel diferit al analizei - atunci când studiul se concentreaza pe motorul de căutare
cercetatorii se confrunta cu alte provocari. E dificil, de exemplu, sa studiem zona de acoperire a
motoarelor de căutare deoarece o selectie la întâmplare a site-urilor e imposibila, datorită faptului ca nu
dispunem de o listă comprehensivă a tuturor site-urilor existente.
Scopul acestei cercetări este de a dezvolta o mai bună viziune a efectelor cauzate de unii factori
ai site-urilor în listarea lor ulterioară pe primele pagini rezultate din motoarele de căutare.
Motoarele de căutare

Importanţa motoarelor de căutare în Internet este similară ca acea a sistemelor de operare pentru
calculatoare.
Problema principală în Internet nu o mai reprezintă accesul la informaţie ci modul în care
aceasta este filtrată şi selectată în mod optim. Deoarece Internetul este un vast rezervor de informaţie
care nu beneficiază de un bibliotecar sau catalog, o importanţă crescânda în selectarea informaţiilor o
au serviciile de căutare. Statisticile arată că peste 80% din totalul de trafic către site-uri în Internet este
generat de motoarele de căutare. Dacă 8 din 10 utilizatori apelează la un serviciu de căutare pentru a
găsi informaţiile dorite, acelaşii numar de utilizatori se declară frustraţi de inabilitatea de a le obţine.
De aici importanţa crescânda în selectarea informaţiilor atât a serviciilor de căutare cât şi a filtrării
conţinutului informaţional de către utilizator, subiecte tratate în prezenta lucrare.
Motoarele de căutare indexează miliarde de pagini web, implicînd un număr echivalent de
termeni distincţi. Acestea răspund la zeci de milioane de întrebari în fiecare zi[6].
Web-ul creeaza noi provocări pentru obţinerea de informaţii. Cantitatea de informaţii de pe web
creşte într-un ritm alert, pe măsura numărului de noi utilizatori lipsiţi de experienţă în arta căutarii pe
web. De obicei, oamenii navigheaza pe web folosind graficul acestuia de link-uri, adeseori incepand cu
indici superiori calitativ, mentinuti de interventia umana, cum ar fi Yahoo! sau cu motoare de căutare.
Listele unde intervine mintea umana acopera subiecte diverse şi populare, dar sunt subiective,
costisitoare de intretinut şi mentinut, greu de imbunatatit şi nu pot acoperi toate subiectele ce tin de
domenii specializate (ezoterice). Motoarele de căutare automate, care se bazează pe potrivirea de
cuvinte-cheie, oferă, în mod obişnuit, prea multe rezultate neconcludente.

Motorul de căutare Google

Motorul de căutare Google este caracterizat de două trăsături importante care ajuta la producerea
de rezultate cu un grad ridicat de precizie. În primul rand, Google se foloseşte de structura de link-uri a
Web-ului pentru a calcula un indice calitativ al fiecarei pagini web. Această estimare a nivelului
calitativ se numeste PageRank. În al doilea rînd, Google utilizează link-urile pentru a îmbunătăţi
rezultatele căutarii.
Modul de funcţionare al sistemului

Este important pentru un motor de căutare să parcurga şi să indexeze eficient. Astfel, informaţia
poate fi permanent actualizată şi modificările majore aduse sistemului pot fi testate relativ repede.
Pentru Google, operaţiunile importante sunt Crawling (parcurgerea), Indexing (indexarea) şi Sorting
(sortarea). Este dificil de masurat cat a durat crawling-ul în total din cauza ca discurile au fost în
intregime completate, numele serverelor nu mai sunt functionale sau din cauza oricarei probleme care
putea determina oprirea sistemului.
Google este proiectat sa fie un motor de căutare scalabil. Scopul principal este acela de a oferi
rezultate de calitate pe fondul dezvoltarii rapide a World Wide Web. Google foloseste o serie de tehnici
pentru ameliorarea calitatii cautarii incluzand PR, textul link-ului şi alte informaţii apropiate. Mai
departe, Google reprezinta o arhitectura completa pentru adunarea paginilor web, indexarea lor şi
efectuarea de interogari asupra lor.
Cea mai mare problema cu care se confrunta astazi utilizatorii de motoare de căutare o
reprezinta calitatea rezultatelor pe care le primesc. Pe cand rezultatele sunt deseori amuzante şi largesc
orizontul utilizatorului, ele pot deveni şi frustrante şi pot consuma timp pretios. Google este destinat sa
ofere rezultate de o calitate superioara astfel incat Web-ul sa continue sa se dezvolte rapid, iar
informaţia sa poata fi găsita usor. Pentru a putea realiza acest lucru, Google utilizeaza frecvent
informaţia hipertextuala ce consta din structura de link-uri şi din textul link-urilor. Google foloseşte de
asemenea aproximarea şi informaţia despre fonturi. Analiza structurii de link-uri prin PageRank
permite Google să evalueze calitatea paginilor web. Utilizarea textului link-ului ca o descriere a ceea ce
indica link-ul contribuie la relevanţa si, intr-o anumita masura, la inaltul standard calitativ al
rezultatelor. în cele din urma, utilizarea unor informaţii asemanatoare ajuta la marirea gradului de
relevanţa al multor interogari.

Relevanţa rezultatelor şi PageRank-ul

Page Rank-ul este o notă virtuală pe care o are fiecare pagina în Google pentru a determina
relevanţa ei. Este clar ca o pagina cu multe link-uri care trimit la ea este o pagina importanta. Page
rank-ul unei pagini este dat de numărul de pagini care trimit la ea, de valoarea lor, şi de numarul de
link-uri de pe paginile respective.
Graficul de link-uri al web-ului este o resursa importanta care a ramas în mare parte neutilizata de
motoarele de căutare. Sun realizate hărţi continînd nu mai puţin de 518 milioane din aceste hyperlink-
uri, o mostra semnificativa a totalului. Aceste hărţi permit calcularea rapidă a PageRank-ului unei
pagini web, o măsura obiectivă a importanţei link-urilor care corespunde cu ideea subiectivă de
importanţă a oamenilor. Datorită acestei corespondenţe, PageRank-ul reprezintă o metodă excelentă de
stabilire a gradului de importanţă a rezultatelor căutărilor bazate pe cuvinte cheie. Pentru cele mai
populare subiecte, un text simplu care se potriveste cu căutarea şi care este limitat la titluri ale paginii
web este foarte bine reprezentat atunci cand PageRank stabileşte importanţa rezultatelor. Pentru
căutarile ce au la baza un text integral în sistemul principal Google, PageRank-ul este, de asemenea, de
mare ajutor.

Descrierea calculului PageRank

Literatura de specialitate referitoare la link-uri a fost raportata la web, în general prin


numerotarea link-urilor sau backlink-urilor unei pagini date. Acest lucru stabileste cu aproximatie
importanta sau calitatea unei pagini. PageRank extinde aceasta idee nu prin efectuarea unei numerotari
a link-urilor din toate paginile, ci prin stabilirea numarului de link-uri dintr-o pagina. PageRank este
definit dupa cum urmează:
Presupunem că pagina A este formata din paginile T1…Tn care se refera la aceasta (adica sunt
link-uri). Parametrul d este un factor de nivelare care se afla intre 0 şi 1. De obicei, stabilim valoarea
0.85 pentru acest factor. Mai multe detalii despre d sunt oferite în sectiunea urmatoare. De asemenea,
C(A) este definit ca un numar de link-uri care nu fac parte din pagina A. PageRank-ul paginii A este
dupa cum urmeaza:
PR(A) = (1-d) + d(PR(T1) / C(T1) + … + PR(Tn) / C(Tn))
Trebuie retinut ca PageRank formeaza o distributie a probabilitatii paginilor web, astfel ca suma
tuturor paginilor web ce tin de PageRank este 1.
PageRank sau PR(A) poate fi calculat utilizand un simplu algoritm repetabil şi care corespunde
principalului vector propriu al matricii link-ului normalizat al web-ului. De asemenea, un PageRank
pentru 26 milioane de pagini web poate fi calculat în cateva ore intr-un punct de lucru de marime
medie. Exista multe alte detalii care depasesc intentia acestei lucrari.
PageRank poate fi considerat un model al comportamentului utilizatorului. Sa presupunem ca
exista un navigator oarecare care viziteaza o pagina web aleasa la intamplare şi care acceseaza link-
urile, fara a reveni la pagina initiala: în cele din urma se va plictisi şi se va orienta spre alta pagina web
aleasa la intamplare. Probabilitatea ca acest navigator sa viziteze o pagina este reprezentata de
PageRank. Iar d, factorul de nivelare, reprezinta probabilitatea ca navigatorul sa se plictiseasca la
fiecare pagina accesata şi sa continue căutarea paginilor la intamplare. O variatie importanta este aceea
de a adauga doar factorul de nivelare d unei singure pagini sau unui grup de pagini. Acest lucru permite
personalizarea şi poate face aproape imposibila inducerea deliberata în eroare a sistemului pentru
obtinerea unui calificativ superior.
O altă explicaţie intuitivă este că o pagină poate avea un PageRank ridicat dacă există mai multe
pagini care fac referire la aceasta sau dacă există cîteva pagini care au un PageRank ridicat şi care o
recomandă. în mod intuitiv, paginile la care se face referire din multe colturi ale web-ului sunt
considerate importante. De asemenea, paginile care probabil au o singura referire de la gazda a Yahoo!
sunt considerate importante. Daca o pagina nu are un nivel calitativ ridicat sau are un link insuficient,
este mai mult decat probabil ca pagina gazda a Yahoo! nu va avea nici un link pentru aceasta.
PageRank face fata ambelor situatii şi chiar mai mult de atat prin propagarea recursiva a gradului de
importanta în intreaga structura de link-uri a web-ului.

Textul link-ului tratat de sistem

Textul link-ului este tratat într-un mod cu totul special de Google. Majoritatea motoarelor de
căutare asociaza textul link-ului cu pagina de care se leaga. în plus, el este asociat cu pagina pe care
link-ul respectiv o indică. Acest sistem prezinta mai multe avantaje. În primul rand, link-urile ofera
deseori descrieri mai precise ale paginilor web decat o fac paginile respective. în al doilea rand, link-
urile pot face referire la documente care nu pot fi indexate de un motor de căutare bazat pe text, cum ar
fi: imagini, programe sau baze de date. Acest lucru face posibila returnarea paginilor web care nici
macar nu au fost parcurse. Trebuie retinut ca paginile care nu au fost parcurse pot cauza probleme din
moment ce nu le-a fost niciodata verificata validitatea inainte de a fi oferite utilizatorului. în acest caz,
motorul de căutare poate oferi o pagina care nu a existat niciodata cu adevarat, dar care are hyperlink-
uri care fac referire la ea. Totusi, este posibil ca rezultatele sa fie sortate, astfel ca aceasta problema
apare rareori.
Ideea corelării textului link-ului cu pagina web la care se referă a fost implementată în World
Wide Web Worm [9], în special pentru că ajută la căutarea informaţiei de tip non-text şi măreşte aria de
acoperire a cautarii prin numarul mai redus de documente descarcate. Folosim propagarea de link-uri
deoarece textul link-ului poate contribui la oferirea de rezultate mai bune. Utilizarea eficienta a text-
ului link-ului este dificila din punct de vedere tehnic din cauza cantitatilor mari de date care trebuie
procesate. în procesul de parcurgere a 24 milioane de pagini, am indexat peste 259 de milioane de link-
uri.
În afara de PageRank şi de utilizarea textului link-ului, Google are şi alte trasaturi. Prima este
aceea ca are informaţii de baza pentru toate cautarile şi astfel utilizeaza, în mod frecvent, proximitatea
în procesul de căutare. A doua se refera la faptul ca Google are în vedere detaliile vizuale ale
prezentarii cum ar fi marimea fonturilor. Cuvintele scrise cu un font mai mare sau cu caractere
ingrosate sunt percepute altfel decat celelalte cuvinte. A treia trasatura este aceea ca se tine o evidenta a
intregului sir al paginilor HTML.

Arhitectura Google

Cea mai mare parte din Google este realizata în C sau C++ pentru eficienta şi poate rula atat în
Solaris, cat şi în Linux.
În Google parcurgerea web-ului (descărcarea de pagini) este făcută de mai multe crawlere
diferite. Exista un server URL care trimite listele de URL-uri ce trebuie găsite de crawlere. Paginile
web care sunt găsite sunt apoi returnate serverului de stocare, care le memoreaza. Acesta comprima
paginile şi le depune intr-o biblioteca. Orice pagina web are un numar de identificare numit docID, care
este oferit ori de cate ori un nou URL este analizat şi extras dintr-o pagina web. Functia de indexare
este realizata de indexer şi de sorter. Indexer-ul indeplineste o serie de functii. Citeste documentele din
biblioteca, decomprima docu-mentele şi le analizeaza. Fiecare document este convertit intr-o serie de
asocieri de cuvinte numite hit-uri. Acestea inregistreaza cuvantul şi pozitia sa în document,
aproximeaza dimensiunea fontului şi tipurile de litere folosite. Indexer-ul distribuie aceste hit-uri intr-o
serie de categorii, creand un index partial dezvoltat de sortare. Indexer-ul mai indeplineste şi o alta
functie importanta. Anali-zeaza toate link-urile din fiecare pagina web şi stocheaza informaţii
importante despre acestea intr-un fisier de link-uri. Acest fisier contine infor-matii suficiente pentru a
stabili unde ne indreapta link-ul respectiv, precum şi textul link-ului.
Figura 2.1 – Arhitectura Google [8]

Sistemul de analizare a URL-urilor citeste fisie-rul de link-uri şi converteste URL-urile relative


în URL-uri absolute si, respectiv, în docID-uri. Plasea-za textul link-ului în indexul initial care este
asociat cu docID-ul la care se refera link-ul. Acesta gene-reaza de asemenea o baza de date de link-uri
care nu sunt altceva decat corespondentele docID-urilor. Aceasta baza de link-uri este folosita pentru
calcu-larea PageRank-urilor pentru toate documentele.
Sorter-ul preia categoriile care sunt sortate de docID şi le clasifica dupa wordID pentru a forma
un index complementar (inverted index). Un pro-gram numit DumpLexicon preia aceasta lista
împreună cu lexiconul produs de indexer şi formeaza un lexicon nou care poate fi utilizat de searcher.
Searcher-ul este rulat de un server şi foloseste lexiconul construit de DumpLexicon împreună cu
indexul complementar şi PageRank pentru a raspunde intrebarilor.

Structurile majore de date ale sistemului

Structurile de date ale sistemului Google sunt optimizate astfel încît o colecţie amplă de
documente poate fi parcursă şi indexată cu puţin efort. Desi CPU-urile şi majoritatea ratelor de input
output s-au imbunatăţit, de-a lungul anilor o simpla căutare pe disc tot necesita 10 ms pentru a fi
realizată. Google este proiectat sa evite acest gen de cautari de cate ori este posibil, iar acest lucru a
avut o influenta considerabila asupra formatului structurilor de date.

Biblioteca motorului de căutare

Biblioteca contine HTML-ul integral al fiecarei pagini web. Fiecare pagina este comprimata
prin folosirea zlib. Optarea pentru o tehnica de compresie reprezinta echilibrul intre viteza şi proportia
comprimarii. Am ales viteza zlib dintr-o serie de imbunatatiri semnificative aduse comprimarii de bzip.
Rata compresiei bzip era de aproximativ 4 la 1 în biblioteca, în comparatie cu zlib care oferea o rata de
3 la 1. în biblioteca, documentele sunt stocate unul dupa altul şi sunt prefixate de docID, precizandu-li-
se lungimea şi URL-ul. Biblioteca nu solicită alte structuri de date care sa fie folosite pentru ca aceasta
sa fie accesata. Acest lucru contribuie la consistenta informatiei usurand dez-vol-tarea; putem
reconstrui toate celelalte struc-turi de date doar din biblioteca şi dintr-un fisier care listeaza erorile
crawler-ului.

Indexul documentelor

Indexul documentelor pastreaza informaţii despre fiecare document. Acesta este un index ISAM
(Index sequential access mode) cu o latime fixa, ordonat de un docID. Informaţia continuta de fiecare
scurta introducere include statutul curent al documentului, un indicator către biblioteca, o evidenta a
documentului şi statistici variate. Daca documentul a fost parcurs atunci contine un indi-cator către un
fisier cu multe variabile numit docinfo şi care cuprinde URL-ul şi titlul docu-mentului. în caz contrar,
indicatorul se indreapta către lista URL-urilor care cuprinde numai URL-uri. Aceasta hotarare de
design a fost luata în confor-mitate cu dorinta de a avea o structura compacta de date, precum şi cu
abilitatea de stabili un record de accesare unica a discului în timpul unei cautari.
În plus, exista un fisier care este folosit în convertirea URL-urilor în docID-uri. Acesta contine
o lista cu URL-uri împreună cu docID-ul cores-pun-zator şi este sortat de suma de control. Pentru a
găsi docID-ul unui anume URL, suma de control a URL-ului este calculata şi o căutare binara este
realizata pe fisierul de sume de control pentru identificarea docID-ului. URL-urile pot fi convertite în
docID-uri luand mai multe simultan prin alipirea la acest fisier. Aceasta este tehnica pe care cel ce
solutioneaza URL-uri o foloseste pentru a trans-forma URL-urile în docID-uri. Aceasta metodă de
abordare este importanta pentru că altfel trebuie sa efectuăm o căutare pentru fiecare link care, ţinand
cont de disc, ar dura mai mult de o luna pentru o bază de 322 milioane de link-uri.
Listele de hit-uri

O listă de hit-uri corespunde unei liste de aparitii ale unui anumit cuvant intr-un document,
incluzand informaţii despre pozitia, fontul şi tipul de litera folosit. Listele de hit-uri explica cea mai
mare parte a spatiului utilizat atat în indicele primar (forward index), cat şi în indicele comple-mentar
(inverted index).
Din aceasta cauza, este important sa le repre-zentam cat mai eficient posibil. Am luat în calcul
mai multe alternative pentru pozitia de codificare, font şi tipul de litera – codificarea simpla (un grup de
trei numere inetgrale), codificarea compacta (o serie de biti optimizati manual) şi codificarea
Huffmann. în final, am ales codificarea compactă optimizată manual deoarece necesită de departe mai
puţin spaţiu decat codificarea simplă şi mult mai puţina manipulare a biţilor decat codificarea
Huffmann.
Codificarea compactă foloseşte doi biţi pentru fiecare hit. Există doua tipuri de hit-uri: hit-uri
complexe (fancy hits) şi hit-uri simple (plain hits). Hit-urile complexe includ aparitia hit-urilor intr-un
URL, titlu, textul link-ului sau meta tag. Hit-urile simple includ restul. Un hit simplu consta dintr-un bit
referitor la tipul de litera, marimea fontului şi 12 biti de pozitii ale cuvantului intr-un document (toate
pozitiile ce depasesc 4095 sunt catalogate 4096). Marimea fontului este reprezentata relativ fata de
restul documentului utilizand 3 biti (doar 7 valori sunt de fapt folosite deoarece 111 este simbolul care
semnaleaza aparitia unui hit com-plex). Un hit complex consta intr-un bit referitor la tipul de litera,
marimea fontului este setata la 7 pentru a indica ca este vorba de un hit complex, 4 biti pentru
codificarea tipului de hit complex şi 8 biti de pozitie. Pentru hit-urile de tip anchor, cei 8 biti ai pozitiei
sunt impartiti în 4 biti pentru pozitie în link şi 4 biti pentru continutul docID-ului în care link-ul apare.
Aceasta ne ofera o sintagma redusa de căutare din moment ce nu exista multe link-uri pentru un anumit
cuvant. Trebuie sa actualizam metoda de stocare a hit-urilor anchor pentru permiterea unei rezolutii
mai mari în cadrul pozitiei şi campurilor de docID-uri. Folosim mari-mea fontului în legatura cu restul
documentului deoarece, atunci cand cautam, nu dorim listarea diferita a unor documente identice doar
pentru ca unul din documente este scris cu un font mai mare.
Lungimea unei liste de hit-uri este stocata inainte chiar de hit-urile în sine. Pentru a economisi
spatiu, lungimea listei de hit-uri este combinata cu wordID-ul în indexul primar şi cu docID-ul în
indexul complementar. Acest lucru o limiteaza la 8 şi respectiv 5 biti (exista o serie de trucuri care
permit ca 8 biti sa fie imprumutati din wordID). Daca lungimea este mai mare şi nu se poate incadra în
respectivii biti, atunci un cod de rezerva este folosit în acesti biti, iar urmatorii 2 biti vor contine
lungimea actuala.
Indexul primar al paginilor Web

Indexul primar este deja parţial sortat şi este stocat intr-o serie de categorii (am folosit 64).
Fiecare categorie contine o serie de wordID-uri. Daca un document contine cuvinte care tin de un
anumit barrel, docID-ul este intregistrat în cate-gorie urmat de o listă de wordID-uri cu liste de hit-uri
care corespund cuvintelor respective. Aceasta schema necesita mai mult spatiu de stocare din cauza
docID-urilor duplicate, dar diferenta este foarte mica pentru un numar considerabil de categorii şi
economiseste timp şi complexitate de codificare în faza finala de indexare făcută de sorter. Mergand
mai departe, în loc de a stoca wordID-urile actuale, stocam fiecare wordID ca o diferenta relativa de la
wordID-ul minim care se gaseste în categoria în care se afla şi wordID-ul. Astfel, putem folosi 24 biti
pentru wordID-uri în categorii nesortate, lasand 8 biti pentru lungimea listelor de hit-uri.

Indexul complementar al paginilor Web

Indexul complementar constă din aceleasi categorii ca şi indexul primar, cu diferenta ca aces-tea
au fost procesate de sorter. Pentru fiecare wordID valid, lexiconul contine un indicator către categoria
în care wordID-ul este inclus. Acest indicator se refera la o listă de docID-uri luate împreună cu listele
de hit-uri corespunzatoare. Aceasta listă reprezinta toate aparitiile acelui cuvant în toate documentele.
Pentru a pacurge sute de milioane de pagini web, Google are un sistem rapid (fast distributed
crawling). Un singur server URL ofera liste de URL-uri unui numar de crawlers (in general folosim în
jur de 3). Atat server-ul URL, cat şi crawler-ele sunt realizate în Python. Fiecare crawler tine în jur de
300 de conexiuni (connections) deschise simultan. Acest lucru este necesar pentru regăsirea paginilor
web la o viteza suficient de rapida. La viteze mari sistemul poate sa parcurga peste 100 de pagini pe
secunda utilizand 4 crawlere. Acesta se ridica la aproximativ 600K de date pe secunda. O actiune
importanta este reprezentata de verificarea DNS. Fiecare crawler mentine un cache DNS propriu, astfel
ca nu este nevoie sa se faca un control DNS inainte de parcurgerea fiecarui document. Fiecare dintre
sutele de conexiuni se poate afla în stadii diverse: verificarea DNS, conectarea la gazda, transmiterea
solicitarilor şi primirea raspunsurilor. Acesti factori fac din crawler o componenta complexa a
sistemului. Acesta foloseste IO asincron pentru a face fata solicitarilor şi un numar de secvente pentru
mutarea preluarilor de pagini din sectiune în sectiune.
Se adevereste astfel că rularea unui crawler care se conecteaza la mai mult de jumatate de
milion de servere şi care genereaza zeci de milioane de fisiere jurnal implica o cantitate considerabila
de e-mailuri şi apeluri telefonice. Datorită numarului mare de persoane care sunt online, exista
intotdeauna aceia care nu stiu ce este un crawler deoarece acesta este primul pe care il vad. Datorită
variatiei ridicate în paginile web şi în servere, este practic imposibil sa testezi un crawler fara sa-l rulezi
pe o parte considerabila a Internetului. Invariabil, apar sute de probleme obscure care se pot ivi pe o
singura pagina din tot web-ul şi pot cauza distrugerea crawler-ului sau mai rau, poate cauza o reactie
imprevizibila sau incorecta. Sistemele care acceseaza parti mari din Internet trebuie sa fie foarte solide
şi testate cu multa atentie. Din moment ce sistemele complexe cum sunt crawler-ele vor duce în mod
invariabil la aparitia problemelor, trebuie sa existe resurse semnificative dedicate citirii de e-mail-uri şi
rezolvarii problemelor din momentul în care acestea apar.

Porcesul de căutare

Scopul căutarii este acela de a oferi rezultate concludente în timp util. Multe dintre motoarele de
căutare comerciale par sa fi facut progrese considerabile din punct de vedere al eficientei. De aceea, ne
concentram mai mult pe calitate în cercetarea noastra, desi suntem de parere ca solutiile noastre se afla,
cu puţin mai mult efort, în progresie cu volumele comerciale. Procesul de evaluare al unei interogari
Google este indicat de Figura 4.
Pentru marcarea unei limite a timpului de raspuns, odata ce un anumit numar de documente care
se potrivesc cu interogarea (40.000 de obicei) este găsit, cel care a initiat căutarea poate merge direct la
punctul 8 din Figura 4. Aceasta inseamna ca este posibil ca rezultate neconcludente sa fie oferite în
schimb. în prezent, investigam alte metode pentru rezolvarea acestei probleme. în trecut, am sortat hit-
urile în concordanta cu PageRank, lucru care pare sa fi imbunatatit situatia.

Sistemul de clasificare al paginilor Web

Google păstreaza mult mai multe informaţii despre documentele web decat motoarele tipice de
căutare. Fiecare listă de hit-uri include pozitia, fontul şi informaţii despre tipul de litera folosit. în plus,
luam în calcul hit-urile dupa textul link-ului şi PageRank-ul documentului. Combinarea tuturor acestor
informaţii intr-un singur rezultat este dificila. Am conceput functia de ordonare astfel incat nici un
factor particular sa nu aiba o influenta prea mare. Sa luam mai intai cazul cel mai simplu - o interogare
cu un singur cuvant.
Pentru afisarea unui document folosind o interogare cu un singur cuvant, Google parcurge toate
listele de hit-uri ale documentului pentru cuvantul respectiv. Google considera fiecare hit ca apartinand
unuia dintre diversele tipuri (titlu, link, URL, fonturi mari şi fonturi mici de text simplu etc.), fiecare
dintre acestea avand grade diferite de importanta în functie de tipul din care face parte. Aceste grade de
importanta formeaza un vector indexat în functie de tip. Google numara hit-urile fiecarui tip din listă de
hit-uri. Apoi fiecare pozitie este reorganizata intr-un clasament în functie de importanta. Gradele de
importanta cresc liniar în functie de primele pozitii, dar se reduc repede astfel incat este relevant numai
un anume numar de aparitii. Este preluat produsul scalar al vectorului de ponderi de aparitii împreună
cu vectorul de ponderi de tipuri pentru a calcula un scor IR al documentului. în final, scorul IR este
combinat cu PageRank pentru a oferi un rezultat final al documentului.
Pentru o interogare alcatuita din mai multe cuvinte, situatia este şi mai complicata. în acest caz,
listele multiple de hit-uri trebuie parcurse simultan astfel incat hit-urile care sunt apropiate intr-un
document sunt plasate pe pozitii superioare fata de cele care sunt departate unele de altele. Hit-urile din
listele multiple sunt potrivite astfel incat hit-urile apropiate sunt puse împreună. Pentru fiecare set de
potriviri de hit-uri, se calculeaza o apropiere. Aceasta apropiere se bazeaza pe cat de departate sunt hit-
urile în cadrul documentului (sau link-ului), dar este clasificata în 10 clase cu valori diferite, mergand
de la o sintagma apropiata pana la ‘nu foarte aproape'. Se fac contorizari nu numai pentru fiecare tip de
hit, dar şi pentru fiecare tip şi apropiere. Fiecare pereche de tip şi apropiere are o pondere tip-apropiere.
Contorizarile sunt clasificate în functie de ponderile de aparitii şi este preluat produsul scalar pentru
ponderile de aparitii şi ponderile de tip-apropiere pentru realizarea unui scor IR. Toate aceste numere şi
matrice pot fi afisate odata cu rezultatele cautarii folosind o metoda speciala de corectare. Toate aceste
afisari sunt de foarte mare ajutor în dezvoltarea sistemului de ordonare.

Directoarele Web

Un serviciu de directoare web (numit uneori şi “subject directory“- director de subiecte) este o
colecţie de pagini Web selecţionate şi organizate ierarhic în categorii de subiecte de către un editor
uman. Mai mult, un concept şi mai selectiv este cel de bibliotecă virtuală, care este un director web ce
include legături spre pagini cu informaţie de înaltă specializare, pe domenii alese de editor
(bibliotecarul virtual). Este evident faptul că serviciile de directoare acoperă şi indexează o porţiune
mult mai mică din paginile WEB existente, comparativ cu motoarele de căutare. Dar folosirea lor poate
duce la regăsirea unor rezultate ale căutării mult mai relevante pentru utilizator. Cele mai extinse
servicii de directoare web indexează cel mult câteva milioane de pagini, comparativ cu cele cîteva
miliarde indexate de către motoarele de căutare mai importante. Serviciile de directoare NU
interoghează direct paginile WEB, ci caută mai degrabă în interiorul bazei lor de date. Din acest motiv,
rezultatul căutării poate duce la returnarea unor rezultate expirate, care uneori nu mai au relevanţă,
pagina originală suferind între timp schmbări majore de conţinut sau chiar putând să dispară.
Trebuie menţionat însă că o serie de motoare de căutare sunt de fapt unelte hibride, fiind în
acelaşii timp atât motoare de căutare cât şi servicii de directoare (Google™, de exemplu, unul dintre
cele mai cunoscute motoare de căutare, are şi un serviciu de directoare, bazat pe soluţia Open Directory
Project).

Figura 2.2 – Serviciul de directoare Open Directory Project

Dintre serviciile de directoare Web, mai cunoscute sunt cele de mai jos:
1. Yahoo! (www.yahoo.com)
2. Google™ Directory (www.google.com)
3. Open Directory Project (ODP) (http://dmoz.org)
4. Zeal (www.zeal.com)
5. JoeAnt (www.joeant.com)
6. Gimpsy (www.gimpsy.com)

În Anexa B sunt prezentate mai detaliat cele mai populare directoare Web.
Medote de optimizare şi promovare a site-urilor în Web

Marketingul motoarelor de căutare

Search Engine Marketing (SEM) reuneste un numar de servicii şi produse de web marketing. La
baza acestui concept stau managementul informatiei prezentate de către motoarele de căutare şi
modalitatea de inscriere a acesteia în directoarele web.
Strategiile SEM includ metode specifice SEO („Search Engine Optimization”) şi programele
afiliate. SEO („Serch Engine Optimization”) reprezinta suma procedeelor care determina afisarea unui
site în lista generata de motoarele de căutare pentru cautari specifice, definitorii profilului site-ului în
cauza.
În mediul on-line toate activităţile de promovare care implică motoarele de căutare intră în
categoria marketingului motoarelor de căutare (Search Engine Marketing, SEM pe scurt).
Promovarea unei organizaţii/produs/ brand cu motoarele de căutare este importantă în primul rând
pentru că este o metodă neintruzivă de marketing on-line: nu întrerupe în nici un fel activitatea
navigatorului (vizitatorul primeşte ceea ce caută, în momentul în care caută). În al doilea rând, este o
metodă bazată în întregime pe voluntariatul utilizatorului de Internet. Acesta decide ce legătură
urmează. În al treilea rând, permite o identificare a organizaţiei/produsului/brandului cât mai uşoară,
oferind posibilitatea de a cere detalii. Şi, nu în ultimul rând, SEM-ul este folosit atât pentru atragerea de
noi clienţi, cât şi pentru păstrarea celor existenţi, deoarece un site de succes, care să atragă cât mai
mulţi vizitatori şi să-i determine să revină, presupune furnizarea de informaţii utile şi de calitate,
actualizare permanentă a contţinutului, navigare uşoară, încărcare şi feedback rapid.
Marketingul motoarelor de căutare cuprinde o serie de metode, dintre care cele mai importante
sunt:
a) Search Engine Submissions (SES – Înscrierea în motoarele de căutare) – cuprinde
serviciile necesare înscrierii web site-ului în toate motoarele de căutare majore.
b) Search Engine Optimization (SEO - Optimizarea pentru motoarele de căutare) – se referă
la poziţionarea de top în motoarele de căutare. SEO este doar o parte a strategiei de promovare pe
Internet, însă este cea mai importantă.
c) Site Linking and Link Popularity (SLLP - Legarea către alte web site-uri şi popularitatea
web site-ului pe motoarele de căutare şi pe Internet) – strategiile pentru legături aduc mai mult trafic şi
ridică clasificarea în motoarele de căutare.
d) Search Engine Ranking Reports (SER - Raportarea clasării în motoarele de căutare) –
cum este clasificat şi ce poziţie ocupă website-ul în motoarle de căutare. În ceea ce priveşte implicarea
în sectorul de business, studii recente au constatat că utilizarea motoarelor de căutare este pilonul pe
care se sprijină luarea unei decizii de cumpărare, atât la nivel de afacere cât şi la nivel de utilizator[12].
În continuare sunt prezentate principalele programe afiliere (Figura 3.1):
1. CPA – Cost Per Action: vei fi platit de fiecare data cand un vizitator care ajunge de pe site-
ul propriu pe cel al advertiser-ului completeaza o actiune predefinita (o vanzare sau
inscrierea pe o listă).
2. CPM – Cost Per Thousand Impressions (M este 1000 în Latina): esti platit pentru fiecare
1000 de vizitatori care vad pagina pe care se afla un banner al advertiser-ului. Functioneaza
cel mai bine pentru site-uri cu subiect general şi foarte multi vizitatori.
3. CPC – Cost Per Click: plata se face pentru oricare vizitator trimis pe site-ul advertiser-ului
de pe site-ul tau prin intermediul unui banner sau unui link. Această metoda functioneaza
cel mai bine pe un site cu un subiect bine definit.

Figura 3.1 – Programele afiliere

Optimizarea pentru motoarele de căutare

"Optimizare pentru motoarele de căutare" provine din englezescul "Search engine optimization"
sau SEO şi a aparut dupa dezvoltarea rapida a internetului, în anii 90. Serviciul a aparut urmarea a
numarului crescut al paginilor web, şi a concurentei din ce în ce mai ridicate în spatiul virtual.
Scopul optimizarii web este acela de a pozitiona pagina web cat mai aproape de primul loc în
rezultatele motoarelor de căutare, pentru anumite cuvinte cheie. în functie de concurenta, o campanie
SEO considerata reusita pozitioneaza un site intre pozitiile 30 şi 1. Beneficiul major al unei campanii
SEO il reprezinta cresterea în mod natural a numarului de vizitatori vizati, vizitatori care e posibil sa fie
convertiti în clienti mult mai usor decat pe cale artificiala.

Factorii ce influenţează poziţionarea în motoare de căutare

Optimizarea pentru motoarele de căutare poate fi determinată ca modificarile facute în pagina


web, scopul fiind clar ca pagina sa se plaseze în topul rezultatelor motareler de căutare. Însa este o linie
invizibila ce disparte optimizare de spam al motorului de căuatre. Orace pagine ce este supusă
optimizarii nu trebuie să facă abuz asa precum sa nu fie interpretă de motarele de căutare ca spam.Dacă
pagina web o să fie interpretată de motorul de căutare ca spam ultima poate sa fie penalizată.Pagina
poate să fie exclusă din indexul motoruli de căutare şi ca reyultaat nu va fi vizitată de Crawler şi
evident ca nu va apare în rezultatele afişate de motorul de căutare, atît timp pina nu va fi adăugată din
nou în index.
Optmizarea motorului de căutare se poate împarţi în două categorii:
1. Optimizarea paginii web
2. Optimizarea site-lui web

Aceste categorii sunt dependente receproc. Toţi factorii în cadrul fiecarii categorii trebuie să fie
echilibraţi pentru a obţine o optimizare cuvenită al site-lui web.
Factorii ce facilitează un plasament mai bun al paginii web în rezultatele motarelor de căutare:
1. Cuvintele cheie
2. Tagul Title
3. Tagurile Meta
4. Textul din corpul paginii
5. Tagul Alt
6. Tagurile H1-H6
7. Bara de meniu
8. Analiza densităţii cuvintelor cheie
9. Validarea codului HTML
10. URL-uri relative şi absolute
11. Tabele în cod HTML
Factorii ce duc nemijlocit la un plasamnet mai bun al site-lui web în topul motorului de căutare:
1. Sitemap
2. Linkurile Inbound
3. Linkurile Outbound
4. Construirea legăturilor
5. Numele domeniului
6. Pagina de eroare 404
7. Pagina de redirectare 301
8. Fişierul Robots.txt
9. Search engine submission
10. Analiza vizitatorilor

Aceşti factori nu sunt discutaţi în nici o comanda. Fiecare factor este important şi are un rol
important la plasamentul sute-liu în plasamentul motorului de căutare.

Cuvintele cheie
Cuvintele cheie se defeniesc ca fiind cererile utilizatorilor către motorul de căutare pentru a găsi
informaţia de care au nevoie. Cercetările trebuie efectuate pentru a determina cei mai folosiţi termeni
de căutare şi acei termeni ce sunt utilizaţi rar. Odată determinati cuvintele cheie trebuie utilizaţi în
pagina insă fara a face abuzz pentru motarele de căutare.Motarele de căuatare sunt duşi în eroare prin
marirea densitaşii al cuvintelor cheie. [15].
O densitate mai mare a cuvintelor cheie pot aduce la o relevanţa mai mare. Este de dorit de a
cumpăra domain name pentru site astfle încît sa fie identic cu cuvîntul cheie. Aşa precum nomele
domeniului este primul factor luat în consideraţie de către algoritmii motareleor de căutare ce
determină relevanţa site-lui web.
O sursă bună pentru a identifica cuvintele cheie este www.wordtracker.com. Wordtracker oferă
presupuneri pe baza a mai mult de 300 milioane de cuvinte cheie. Seface o statistică dupa rezultatele a
120 de zile unde se ia în consideraţie numarul de cuvinte cheie şi numarul de apariţii presupuse.

Tag-ul Title
Tag-ul Title este o componentă foarte importantă pentru algoritmii de relevanţă a motarelor de
căutare, pentru a determina plasamentul. De asemenea este utlizat de motarele de căutare la afişarea
rezultatelor căutarii . Tagul trebuie să fie calitativ , adică probalilitatea de căutare a anume acest tag
Title sa tindă la maxim.În acelaşi timp tagul trebuie să reflecte inforamaţia completă ce este disponibilă
pe pagina web ca utilizatorul sa fie captivate a face clic anume pe lincul acesta. Este binevenit sa fie
mai multe taguri Title diferite în cadrul unui site, aşa precum tagul Title sa reflecte la maxim conţinitul
paginii web.

Figura 3.2 - Relaţia dintre Tagul Title şi motorul de căutare

Tag-urile Meta
Etichetele Meta sunt acele informaţii care sunt situate în zona de început a paginii web. Aceste
informaţii, spre deosebire de titlul paginii, nu sunt vizibile şi nici interesante pentru utilizatori. Câteva
exemple:

1.
<HEAD>
<TITLE>Stamp Collecting World</TITLE>
<META name="description" content="Everything you wanted to know about stamps,
from prices to history.">
<META name="keywords" content="stamps, stamp collecting, stamp history,
prices, stamps for sale">
</HEAD>

2.
<HEAD>
<TITLE>Page I Don't Want în Search Engines</TITLE>
<META NAME="ROBOTS" CONTENT="NOINDEX">
</HEAD>
După cum putem observa această zonă conţine mai multe secţiuni, toate cuprinse între etichetele
<HEAD>(pentru începutul zonei) şi </HEAD>(pentru sfârşitul zonei).
Etichetele <TITLE > şi </TITLE> delimitează zona în care se află titlul HTML, titlu care va
apărea în bara de sus a ferestrei în care este deschisă pagina web, dar şi în lista de pagini favorite. De
asemenea acesta mai apare şi în titlul paginii respective din lista de rezultate, precum putem vedea în
urmatorul exemplu, în care, în lista de rezultate(listată de Teoma) apare o anume pagină despre
etichetele Meta, pagină care are titlul: “De exemplu” al site-ului:
http://www.searchenginewatch.com
Precum am spus şi mai sus, titlul HTML este un element principal pentru motoarele de căutare
în vederea deciderii votului pentru relevanţa paginii. [17].
Etichetele Meta de descriere sunt de asemenea foarte importante deoarece permit descrierea
paginii pentru sistemele care suportă eticheta(majoritatea motoarelor suportă, însă, cele care folosesc
cel mai mult această etichetă sunt AltaVista, AllTheWeb şi Teoma. Se poate da şi un contraexemplu:
Google nu ia în considerare aceste etichete). Aceasta etichetă este reprezentată de cuvintele
<name="description"> iar descrierea în sine trebuie scrisă în interiorul ghilimelelor după cuvantul
<content=> conţinând în general între 200 şi 250 de caractere. Descrierea va apărea de asemenea,
după cum se poate observa şi în exemplul de mai sus, în lista de rezultate, sub titlul HTML al paginii.
Un alt element al exemplului de mai sus este eticheta Meta de cuvinte cheie. Aceasta ajută, doar
la unele motoare (Inktomi, Teoma), prin faptul că permite adăugarea de text descriptiv sistemului pe
langă conţinutul paginii respective. Trebuie menţionat că această etichetă va fi folosită doar pentru
adăugarea unor cuvinte care nu apar în conţinutul paginii. La fel ca mai sus, în exemplu, eticheta Meta
de cuvinte cheie este reprezentata de grupul <name="keywords">, iar cuvintele cheie propriu-zise sunt
scrise între ghilimele după < content=>.
Etichetele Meta roboţi sunt de asemenea foarte folosite, de aceea merită să le menţionez în
această scurtă listă. Aceste etichete sunt folosite pentru a specifica faptul că o anumită pagină nu dorim
să fie indexată, de aceea majoritatea sistemelor de căutare folosesc această etichetă. De aceea titlul
paginii este în concordanţă cu aceasta idee. Precum în cazurile precedente, eticheta în sine este
reprezentată prin grupul: < NAME="ROBOTS" >.
Textul Body
Body text, motoarele de căutare au obişnuinţă sa le placă codul pur HTML. Termenul falsificare
este folosit în contextul codului JavaScript inplementat, Flash şi Image files motarele de căutare nici nu
se starue a le interpreta necătind că aici ar pute fi o densitate sporită de Key terms. Ca exemplu logo- le
şi banerile al site-lor web unde în marea majoritate a cazurilor figurează numele domenului şi Key
terms.Cum am menţionat mai sus Key terms şi numele domenului jocă un rol important pentru
clasament , dar din păcate nu este interpretat conţinutul acestora de majoaritatea motarelpr de căutare.
Vorbind mai simplu “ce nu interpreteaza motorul de căutare tot asta nu exista pentru el ” .Aceste
conditii desugur nu se refră la utilizatorii ce accesază pajina, însa pentru crawler este regulă! Textul din
Flahs este interpretat doar de FAST Alltheweb.com. nici care alt motor de căutare nu face acest lucru
precum şi nu citeşte lincurile din Flash [9]. Asemenia lucruri se petrece cu codul JavaScript, incadrat în
fişiere HTML.Majoritatea motarelor de căutare ignora codul JavaScript şi lincurile ţin cadrul acestiu
cod [10]. Alt factor pentru interpretarea cuvintelor cheie ce figurează în body text, cu cît este mai mare
densitatea acestora cu atit este mai preeminc conţinutl raportat la cuvintele cheie.
Dacă am memorat factorii menţionaţi mai sus putem elabora o strategie. În continuare vor fi
descrise cîteva puncte:
1. Codul JavaScript trebuie inclus în fişier aparte. Aceasta e ste posibil prin utilizarea
tagului html
<SCRIPT LANGUAGE="JavaScript" SRC="myJavaScript.js"></SCRIPT>
2. Este nevoie de minimizat numarul de utilizari al Flash în cadrul unei pagini web.
3. Permanent trebuie de losit ALT atribute în IMG tags. HTML IMG tag este
<img src="myImage.gif" alt="My Image" />. Aceasta este forma generală a tăgului. În
scopuri de optimizare cred că ar fi mai bine de folosit <img alt="My Image"
src="myImage.gif" /> scopul ar fi de a deplasa fraza cît este de posibil mai aproape de
inceputul fişierului HTML , pentru ca în pagina web să fie marită densitatea cuvintelor
cheie.
4. Listele de stiluri sunt utilizate oproape de fiecare site pentru a inbunătaţi designul paginii
web. Aceasta ar putea influnţa benefic asupra utilizatorului aşa cum utilizatorul poate
găsi designul paginii plăcut şi agriabil. Conţinutul paginii web poate fi optimizat prin a
include fişierul CSS utilizind LINK HTML tag:
<LINK href="myStyleSheet.css" rel="stylesheet" type="text/css">
5. Tagurile Heading de asemenea joacă un rol important în conţinutul paginii web.Este de
dorit a include cuvintele cheie în interiorul H1 ...H6, deoarece 1-6 determină însenătatea
heading-liu. Utilizarea Font faces like bold, italic şi underline indică insemnatatea
textului şi este recomandat de a folosi este conţinut bogat 200-250 cuvinte [11].

Bara de meniu
Bara de meniu este legată de obicei cu cele mai importante pagini de pe site. Aşa precum
aproape fiecare pagină în cadrul site-lui dispune de meniu şi prin intermediul linkurilor au legatură cu
meniul. Acest fapt măreşte popularitatea acestor pagini în cadrul site-lui web. Aceste pagini trebuie să
aiba un conţinut bogat. Aceşti factori bineînţeles au o influenţă benefică la plasamnetul site-lui în topul
motarelor de căutare.

Analiza desităţii Cuvintelor Cheie


Fiecare motor de căutare deţine algoritmi proprii de analiză a densitaţii cuvintelor cheie
(keywords). Unele motare de căutare acceptă o densitate mai mare a cuvintelor cheie în cadrul paginii
web. Pe cînd altele, ca de exepmlu Google, pun restricţii mai reguroase la ce priveşte densitatea
acestora. Plasamentul cuvintelor cheie în diferite porţiuni de pagină web are efect diferit. Densitatea
cuvintelor cheie exagerată va fi interpretată de motorul de căutare ca spam şi site-ul va fi penalizat.
Google admite ca cel mult 2% din tot textul paginii să fie calificat ca cuvinte cheie. Pe cînd Yahoo şi
MSN Search admit ca densitatea cuvintelor cheie să nu depaşească 5% [12].
Un instrumentariu gratis pentru a verifica densitatea cuvintelor cheie în cadrul paginii web este
diponibil la www.searchengineworld.com/cgi-bin/kwda.cgi

Verificarea corectitudinea codului HTML


Esre forte bine ca codul HTML să fie verificat ănainte de a fi prezentat motareleor de căutare.
Chear dacă pagina vizual pare corectă aceasta poate sa aiba erori de sintasă, ce vor fi ignorate de
brauzericum ar fi Internet Explorer. Servicul gratuir disponibil pentru verificarea corectitudinii sintasei în
cadrul unei pagini web este disponibila pe validator.w3.org. Acest utilitar verifică W3C XHTML 1.0
şi returnează un mesaj detliat. Alt utilitar pentru verificarea corectetudinii de stiluluri este
disponibil la:
http://jigsaw.w3.org/css-validator/

URL-ul absolut şi cel relativ


Crawler-ul motarelor de căutare preferă URL-ul absolut inpotriva celiu relative. Crawler –le
motorelor de căutare pot ignora indexarea pajinilor web dacă se foloseste URL relativ. URL absolut
considerabil micşorează flexibilitatea site-lor web ce işi schimbă numele domenului. Asta se poate depaşi
dacă folosim o variabilă globală, ce va conţine numele domenului site-lui web, pentru generarea URL
absolut în cadrul site-lui web.

Tabele în cod HTML


Tabelele sunt utilizate la construcţia paginilor web, pentru a face aplasamentul blocurilor mai
organizate. Unii proectanţi web utilizază tabele în cadrul altor tabele, cu scop de simplificarea structurii
paginii ce uşureaza deservirea acestei pagini.Aceasta duce la marira volumului textului
necorespunzator conţinutului, ce duce la micşorarea densitaţii al cuvintelor cheie. Multe site-uri
aplasează meniul meniul în partea stingă sau în partea de sus.Aşa aplasament al meniuliu de asemenea
poate duce la micsorarea densitaţii cuvintelro cheie.

Sitemap
Sitemap al paginii web este pagina cu referinţe la fiecare pagină web din cadrul site-lui. Aceasă
pagină are o insemnătate deosebită în cadrul site-lui web. Odată ce Sitemap a fost vitită de spider ne
putem convinge de faptul că a fost indexat tot site-ul pagină cu pagină. La proectarea Sitemap este bine
de reşinut.
Sitemap-ul trebuie neapărat să conţină tag-uri de ancorare HTML.
Rferinţele (link) textuale trebuie să conţină cuvinte cheie, ce ţin de adresa paginii web. Textul
referiţei poate conţine conţinefrază identică ca şi TITLE tag. Textul referinţei este important aşa
precum indică, conţinutul paginii la care face referinţa. Textul referinţei este important şi din cauza că
este luat în consideraţie de de algoritmii de relevanţă al motarelor de căutare.
Sitemap-ul trebuie să fie vizibil pentru motarele de căutare. Asta însamană că ar trebui să existe
referinţe de la ficare pagina web la Sitemap şi că crawler trebuie să aibă permisiune de a indexa
Sitemap.
O referinţă tipică la Sitemap poate fi modelată conform exeplului ce urmează
<a href=”http://mysite.com/gallery.htm”>Gallery</a>
De evitat :
JavaScrip în anchor tag
<a href=”#” onclick=”gotoURL(‘gallery’)”>Gallery</a>
Flash în sitemap
Imagini în loc de textul referinţei
<a href=”http://mysite.com/gallery.htm”>
<img alt=”Gallery” src=”gallery.gif” />
</a>
Text ce nu corespunde referinţei
<a href=”http://mysite.com/gallery.htm”>Apasa aici</a>
Dacă sitemap-ul conţine mai mult de 100.000 de referinţ, sau fişierul este mai mare de 10MB, e
cazul a separa sitemap în mai multe pagini diferite. Un ghid util la construcţia sitemap-lor este
prezentat de Google şi este disponibil la
http://www.google.com/webmasters/sitemaps/docs/en/about.html. Este preferabil de a ţine cont de
indicaţiile cînd creăm un sitemap.

Linkurile Inbound
Pentru Google referinţele “ Inbound links ” determină PageRank-ul site-lui web. Fără referinţele
“ Inbound links ” orce site web este practic invizibil pentru motarele de căutare. Unica cale pentru
crowlr-ul motarelor de căutare spre un site web este de a urma referinţele “ Inbound links ” primite de
la un alt site web deja indexat. O alternativă ar fi o prezentare manuală pentru crawler. Deşi acest
procedeu este binevenit în acelaşii timp nu garanteaza rezultat sigur ca site-ul web va fi totuşi indexat.
Referinţele Inbound links din urmatorele surse contribue la un plasament mai favorabil la
motarele de căutare:
1. Toate catoalogele majore şi cele locale Yahoo, DMOZ, LookSmart, trade, business şi
directoarele industriale.
2. Furnizori, clienţii mulţumiţi precum şi partenerii.
3. Site-urile web, ce oferă servicii de sustinere.De exeplu. Site web ce oferă hosting
pentru site web.
4. Site-uri ce au legaturi, insa nici decum cele concurente. De exeplu site-uri ce ofera
programe de instruire pentru web-design.

Însă trebuie să înţelegem că nu orşice Inbound links au aceaşi pondere. Evident că Inbound links
sosit de la un site web industrial autoritar are o pondere mai mare ca acel sosit de la un mic site web
particular. Unele referinţe pot să aibă efect invers ( negativ ) pentru PageRank.
1. Link-uri de la FFA (gratis pentru toţi ) fac legături între pagini.
2. Link-uri de la ferme.
3. Link-uri de la paginile doorway.
Paginile doorway sunt pagini web create cu scop de a genera referinţe de linkuri Inbound de la
site-uri web. Aceste induc în eroare crawler-ul motarelor de căutare ce duce la un plasament mai bun
caz în care nu a fost detectat spamul.

Link-uri de pe forumurile de discuţie


Forumurile de asemenea pot folosi abuziv linkurile pentru a mări numărul de linkuri Inbound.
Majoritatea motareleor detectează spamul intenţionat şi abuziv ce are scop de a mări plasamentul. Ca
urmare site-urile detectate cu un comportament inadecvat sunt lipsiţi de dreptul de indexare.

Linkurile Outbound
Linkurile Outbound pot influinţa benefic asupra plasamentului site-lui web atit timp cît
referinţele indică la site-uri bune[10]. Site-uri bune pot fi considerate de exeplu situri web industriale ce
au fost caracterizate ca site-ri ce merită încredere. Unile site web practică un comortament ne estetic
maschind URL –ul lincurilor Outbound, folosind cod JavaScipt sau utilizind NOINDEX NOFOLLOW
în tagul robot din Meta Tag. Trebuie de evitat site-urile ce practica mascarea URL pentru ca pote să ne
joace un rol prost în plasament.

Eroarea 404
Eroarea 404 indică că pagina Web nu pote fi găsită. Spider-ul primieşte acest raspuns de la
server ca urmare a cererii de URL. Această pagina web obţine o relevanţă scazută. Mai mult ca atît
spider-ul nu mai face încercări de a accesa această pagina web.

Redecţionarea 301
Rederecţionarea 301 pentru spidere şi vizitarori, este o starategie prietenoasă pentru a
redirecşiona o pagină web la alta. Este susţinută de serverile Apache. 301 redirecţionare este
implementată specificînd URL-ul sursă şi cel a destinătarului în fişierul .htaccess. Rderictionarea 301
este interpretată ca deplasare pemanentă “moved permanently”. Acest procedeu trebuie să asigure
stabilitate în PageRank pentru site. Googele interpretează http://www.mysite.com şi http://mysite.com
ca URL –uri diferite ca rezultat Google indică relevanţă diferită pentru acelesi pagini web în
dependenţă dacă persistă www în numele domenuliu. Acasta presupune ca relevanţa pentru mysite.com
va fi distribuită între http://mysite.com şi http://www.mysite.com ca URL-ri separate.Deci efecutarea
redirecţionării 301 de la http://mysite.com la
Robots.txt (standard de excludere a roboţilor) este un fişier cu un set de instruţiuni ce specifică
crawler-ul de a ignora paginile web. La acelaşi efect se pote de ajuns utilizînd Robots meta tag.
Diferenţa consta în faptul ca Robots.txt este fisier cu locaţie centralizată ce determină instrutiunile ce
pot reduce deservirea. Fişierul Robots.txt permite de a bloca anumite directorii pentru indexare.
Aceasta este de fols paginilor web cu “member access web pages”. Un instrument gratuity este
disponibil la www.searchengineworld.com/cgi-bin/robotcheck.cgi. Validarea robots.txt este imortantă
ca acesta pote fi cauza ca pagina web este indexată ori din contra inaccesibilă pentru spider.
1. Prezentarea site-lui.
2. Lista de control a site-urilor web.
3. Site-ul este finisat şi optimizat.
4. Codul HTML este validat.
5. Au fost stabilite linkurile de intrare .
6. Descrierea site-lui web în mai puţin de 25 de cuvinte cu nu mai mult de 2-3 cvinte cheie.
7. Lista cuvintelor cheie.
8. Adresă de email, preferabil cu acelaşi nume al domenului ca şi situl web, pentru
raspunsuri de notificare de exemplu submit@mysite.com.

Nu este necesar de a prezenta fiecare pagină pe site. Multe motare de căutare preferă doar
prezentare pentru paginile dint top. Prezentare manuală este mai preferabilă ca cea automată.
Majoritatea motarelor oferă recomndari pentru aseminea prezentări. Este nevoie de a le studia atent
înainte de a purcede la prezentarea propriu zisă. Deseori preyentarea site-lui web este înterpretată de
motor de căutare ca spam. şi pote cauza penlitaţi din partea motorului de căutare. Reese că situl trebuie
prezentat dor odate pentru fiecare motor de căutare. După ce a fost efectuată prezentarea se recomandă
de a verifica email unde pot sa vina raport despre o prezentare nereuşită cu indicaţii despre greşelele
comise ce necesita corectare. Mai mult ca atît unele motare de căutare vac verificarea corectitudinii
adresei dupa fiecare prezentare.
De asemenea este preferabil ca sitemap-ul să fie prezentat la în Google. Acest tip de prezentare
inbunătăţeşte parcurgerea de către crawler, ce pote aduce la rezultate noi şi mai bune.
Analiza vizitatorilor este o parte importantă în deservirea site-lui web. www.statcounter.com
(29 US$ lunar ) este un serviciu contra plată ce oferă servicii de statistică a site-lui. Statistica include
aşa parametri cum ar fi poziţionarea geografică a vizitatorului, cuvintele cheie utilizate, paginile web
populare, sitem de operare, rezoluţia monitorului, precum şi timpul petrecut pe pagina şi orele de cu
cea mai mare densitate de vizitatori pentru fiecare zi.Aşa informaţie poate fi defolos pentru a crea
condiţii favorabile grupurilor de vizitatori, ce ar duce la faptul că vizitatorii vor petrece mai mult timp
pe pagină. De exeplu dacă ar fi disponibila informaţia despre rezoluţia utilizatorilor sar putea face
modificări în pagina astfel, ca să fie nevoie de minim de scrolling pentru vizionarea paginii în
îmtregime.

Tehnici ilegale de optimizare web

Tehnicile "ilegale" de optimizare web fac referire la anumite practici utilizate pentru a
îmbunătăţi poziţionarea (rankingul) unui site în cadrul motoarelor de căutare pe care acestea însă le
consideră ca fiind "imorale" datorită faptului că limitează şi direcţionează greşit ariile de căutare ale
utilizatorilor.
Nu există reglementări legale în această privinţă, motiv pentru care ele pot fi şi sunt folosite însă
pe propria raspundere. În general, cînd vorbim de tehnici ilegale de optimizare pentru motoarele de
căutare, vorbim despre acele practici care au ca şi rezultat buna poziţionare a unui site într-un timp
foarte scurt însa care, pe termen lung au ca efect banarea site-urilor din SERP (Search Engine Result
Pages).
În pofida faptului că există foarte multe motoare de căutare, toate folosesc cam aceleaşi
principii cînd este vorba despre evitarea tehnicilor despre care vorbim, generic numite "SEO
spamming".
Cuvantul "spam", din punctul de vedere al motoarelor de căutare sau în acest context, se referă
la orice practică "imorala", ce este folosită cu scopul de a îmbunătăţi Page Rank-ul şi poziţiile în
motoarele de căutare după anumite cuvinte cheie.
În cele ce urmeaza este descrisă o listă a metodelor de optimizare web considerate ca fiind
generatoare de “SEO spam” din punctul de vedere al motoarelor de căutare.

Text ascuns

Este tehnica prin care o parte a textului se adreseaza utilizatorilor (textul vizibil în pagina) iar o
altă parte a textului (ascuns) se adresează motoarelor de căutare. De obicei, textul adresat motoarelor de
căutare are un continut bogat în cuvintele cheie pentru care webmasterul doreste sa ajunga pe primele
pozitii în SERP.
Pentru texte invizibile se folosesc fonturi care au aceeaşi culoare cu fondul paginii, invizibile
pentru utilizator însă detectate de către motoarele de căutare.

IP Cloaking
IP Cloaking-ul se realizează prin două modalităţi principale: textul invizibil şi cloaking după
agentul utilizator (user agent). În ceea ce priveşte cloaking-ul în funcţie de user agent, utlizatorului îi
este afişată o pagină în timp ce roboţilor motoarelor de căutare le este data o pagină cu o rată de
conţinut foarte ridicat.

Folosirea excesivă a cuvintelor cheie


Tehnica se refera la repetarea excesivă a cuvintelor cheie în tag-urile title, meta şi keywords
precum şi la folosirea lor abuzivă în cadrul conţinutului.

Cuvinte cheie irelevante


Aceasta practică utilizează cuvinte cheie irelevante pentru domeniul de activitate al site-ului
care sunt însă deosebit de uzuale în căutările de dată recentă. Este de menţionat că Google publică
săptămînal o listă cu cele mai frecvente căutări. Tehnica are ca şi rezultat doar inducerea în eroare a
utilizatorului care este direcţionat către un site fără legătură cu ceea ce caută iniţial.

Pagini doorway

Sint pagini realizate special pentru a atrage robotii motoarelor de căutare şi utilizatorii, în
vederea unor rezultate mai bune. De obicei sunt optimizate doar pentru o frază sau un singur cuvînt
ţintind spre spiderii şi crawlerii motoarelor de căutare.

Text micşorat / text în tagurile ALT

Textul micşorat este inserat intenţionat în conţinutul paginii fiind inaccesibil utilizatorului însă
vizibil pentru motoarele de căutare.
Utilizarea textului în tag-urile ALT se referă la inserarea unei cantităţi mari de text în descrierea
ALT de asemenea inaccesibilă marii majorităţi a utilizatorilor însa detectată de motoarele de căutare.

Popup-uri excessive

Yahoo consideră utilizarea excesivă a popup-urilor ca spam. Aceasta este considerată ca o


capcană. Deaceea un site web trebuie sa folosească maxim 1-2 popup-uri pe pagină.
Oglinzile

Oglinzile (mirrors) sunt pagini diferite cu acelaşii conţinut şi aceeaşi denumire, scopul fiind
acela de a fi afişat de mai multe ori în SERP. Metoda are sens dacă paginile duplicate sunt înscrise în
motoare de căutare diferite realizîndu-se o optimizare web distinctă pentru fiecare în parte.

Înscriere repetată în motoarele de căutare

Se ştie că una dintre tehnicile de optimizare web a unui site se referă la “directory submission”
cu scopul de a crea cît mai multe IBL-uri spre site-ul tintă. Înscrierea repetată a unui site în acelaşii
director se numară printre metodele cele mai sigure de a primi un ban sau de a aştepta indexarea în
directoarele respective.
Tehnicile de optimizare web “ilegale” sau, mai corect spus, ”imorale” au fost şi vor fi utilizate.
Din fericire, motoarele de căutare încearcă să aducă mereu soluţii noi pentru detectarea spamming-ului
şi diferenţierea acestuia de optimizarea pentru motoare de căutare corect realizată.

Factorii ce afectează poziţionarea în motorul de căutare Google

Sunt peste 100 de factori care influenteaza ordinea afisarii siturilor în cautarile cu Google. Care
sunt acestia? Mai jos este prezentată o listă cu presupusi factori, aceasta listă fiind alcatuita de
webmasteri din întreaga lume, care au studiat îndelung comportamentul Google.[9]
1. Factori pozitivi pe pagină (Tabelul 3.1).
2. Factori negativi pe pagină (Tabelul 3.2)
3. Factori pozitivi în afara paginii (Tabelul 3.3)
4. Factori negativi în afara paginii (Tabelul 3.4)

Tabelul 3.1. Factori pozitivi pe pagină

Factor Factori pozitivi aflaţi pe Nota


pagina
Cuvinte cheie în:
1 Densitatea cuvintelor cheie în Trebuie sa aiba valori cuprinse între 5 şi 20 %.
corpul paginii ()
2 Densitatea individuala a Între 1% şi 3 % din totalul cuvintelor de pe pagină
cuvintelor cheie
3 Cuvintele cheie din tagurile De folosit cuvinte cheie în H1
H1 şi H3
4 Marimea textului cuvintelor Sunt considerate mai importante cele ingrosate,
cheie subliniate, aplecate, etc.
5 Distanta dintre cuvintele cheie Cuvintele cheie adiacente dau rezultate mai bune.
6 Ordinea cuvintelor cheie în in functie de fraza cautata
fraza.
7 Proeminenta cuvintelor cheie. Se obtin rezultate mai bune daca un cuvant cheie se
afla pe primele randuri din pagina şi deasemenea în
tagurile Meta.

Continuare Tabelul 3.1

Cuvinte cheie în Header


8 Cuvintele cheie din titlu 10 - 60 caractere. Nu folositi caractere speciale.
9 Cuvinte cheie în tagul sa nu aiba mai mult de 200 de caractere.
"description"
10 Cuvinte acheie în tagul sa nu depaseasca 200 de caractere.
"keyword"
Alti factori legati de
cuvintele cheie
11 Cuvinte cheie în tagul "alt" Trebuie sa descrie poza, nu trebuie sa fie prea mare.
12 Cuvinte cheie în URL Primul cuvint este cel mai important
13 Cuvinte cheie în numele de -foarte important
domeniu
14 Cuvinte cheie în linkurile către Linkuri cu numele "Pagine urmatoare" nu va ajuta cu
paginile sitului (anchor text) nimic la indexare.
Navigare - Linkuri interne
15 Toate paginile site-ului să fie
valide
16 Structura de arbore Să se poata ajunge din 2(maxim 4) clickuri în orice
pagina.
17 Stuctura de linkuri De asemenea paginile mai puţin importante trebuie
sa aiba linkuri intre ele.
Navigare - Linkuri externe
18 Cuvinte cheie în linkurile spre sa fie doar linkui spre situri bune.
alte situri
19 Toate linkurile externe valide
20 In total trebuie sa fie cel mult Google spune limita este 100, dar recent a inceput sa
100 de linkuri pe pagina. accepte 2-300.
Alti factori de pe pagina
21 Marimea fisierului Sa nu depaseasca 100K. Sunt preferate cele mai mici
de 40K .
22 Liniuţe în URL Cea mai buna metoda de a indica un spatiu.
Una sau doua = excelent pentru a separa cuvintele
cheie
4 sau mai multe = suspicios
23 Pagini noi Google prefera paginile noi mai ales la siturile de
stiri, licitatii, etc..
24 Frecventa update-urilor update-uri frecvente = indexare frecventa
25 Varietatea cuvintelor cheie Substativele trebuie puse la singular, plural,
articulate, nearticulate, verbele se conjuga
26 Cuvinte cheie şi sinonimele lor Sinonimele sunt tot cuvinte cheie.
27 Lungimea URL-ului Sunt preferate cele mai mici.
Tabelul 3.2. Factorii negativi aflaţi pe pagină

Factor Factori negativi aflaţi pe pagina Nota


1 Textul care apare numai pe poze Motoarele de căutare nu sunt capabile sa citeasca
textul din poze.
2 Situri afiliate In ultimul timp, siturile fara continut, care doar
promoveaza ofertele altor situri sunt considerate
"mai puţin importante".
3 Linkuri spre situri proaste. Evitati linkurile spre "fermele de linkuri", siturile
porno, etc.
4 Furtul de imagini sau text de pe alt Copyright - Google baneaza siturile care au furat
site. continut, în cazul în care cineva raporteaza acest
lucru.
5 Diluarea cuvintelor cheie Focalizarea asupra unui numar mare de cuvinte
cheie intr-o singura pagina, duce la pierderea
importantei adevaratelor cuvinte cheie,
6 Modificarea paginii Atunci cand editati o pagina(chiar şi cand
schimbati tema şi lasati acelasi continut), trebuie
sa va astepati la rezultate mai slabe la cautarile cu
google pentru cuvintele cheie din pagina
respectiva.
7 Pagini generate dinamic Trebuie sa scurtati URL-ul, sa reduceti numele
variabilelor,sa nu mai afisati ID-ul sesiunii, etc.
8 Folosirea excesiva a JavaScriptului Nu folositi pentru a redirectiona pagina sau
pentru a ascunde linkuri.
9 Pagini în Flash Motoarele de căutare nu sunt capabile sa citeasca
Flash-uri. Redacati şi o varianta HTML cu
acelasi continut.
10 Folosirea Frame-urilor Nu se indexeaza decat Frame-ul principal
11 Folosirea tagului "no index" Auto-excludere intentionata.
12 Linkuri de un singur pixel Este considerata tentativa de a pacali motoarele
de căutare.
13 Text invizibil Google avertizeaza impotriva acestei practici.
Dar nimeni nu a fost penalizat pana acum.
14 Pagini intermediare Nu trebuie sa folositi mai multe pagini cu cuvinte
cheie pentru a atrage vizitatorii către aceeasi
pagina principala.(Gateway, doorway page).
15 Duplicarea continutului Din mai multe pagini cu continut identic sau
aproape identic, Google o afiseaza în topul
rezultatelor pe cea mai veche.
Tabelul 3.3 - Factorii pozitivi aflaţi în afara paginii

Factor Factori pozitivi în afara paginii Nota


Pentru Linkuri:
1 PageRank-ul paginilor care au link Conteaza calitatea linkurilor mai mult decat
spre pagina cercetată. cantitatea.

2 Numarul de linkuri spre pagina Verificati pe Yahoo sau Google petru a afla numarul
cercetată ("backlinks") de "incoming links".
3 Numarul de linkuri cu pagerank >=
4.
4 Marirea vitezei cu care creste Cand nu mai apar linkuri noi spre situl tau,
numarul de linkuri. inseamna ca situl nu mai este activ.
Pentru fiecare link:
5 PageRank-ul paginii referal Inainte conta foarte mult acest lucru. Acum, acest
lucru nu mai este o certitudine.
6 Textul ancora al linkurior spre Pentru a fi numarul 1 în topul cautarilor pentru un
pagina ta. cuvant, nici macar nu trebuie sa ai acel cuvant pe
pagina. Care este explicatia?
7 Numarul de linkuri pe pagina Cu cat sunt mai puţine, cu atat mai bine... linkul spre
tine devine mai important.
8 Pozitia linkului în pagina Cu cat este mai sus, cu atat mai bine.
9 Densitatea cuvintelor cheie pe Important pentru cautarile pentru cunintele cheie.
pagina referal.
10 Titlul paginii referal Ar trebui sa aiba un titlu asemanator.
11 Link de la un site "Expert" Da un plus în rezultatele cautarilor daca pagina are
ca referal şi un site renumit în categoria respectiva.
12 Pagina referal sa fie din aceeasi Un link dintr-un site porno spre un site care vinde
categorie. flori nu are valoare prea mare.
13 Link din mapare de imagini Problematic...
14 Javascript link Problematic- poate fi considerat ca o tentativa de a
ascunde linkul.
Directoarele WEB:
15 Site listat în DMOZ? Siturile listate în DMOZ sunt selectate manual, deci
Google are incredere mare în continutul acestor
situri.
16 Categoria DMOZ? Daca este listat intr-o categorie gresita ar putea
aparea probleme.
17 Site listat în Yahoo Directory Pentru afisarea rezultatelor în cautari cu Google.
18 Site listed în LookSmart Directory Se da un plus la afisarea rezultatelor în cautari cu
Google.
19 Site listed în inktomi Folositi Pure Search pentru a verifica locul sitului la
inktomi.
20 Site listat în alte directoare(About, Se da un plus la afisarea rezultatelor în cautari cu
etc.) Google.
21 Site expert? (Hilltop) Site mare cu multe linkuri(incoming) de calitate.
22 Varsta sitului Un site vechi va avea paginile noi indexate mai
repede.
23 Varsta sitului(pentru cele noi) Se da un plus siturilor foarte noi (in prima luna).

Continuare Tabelul 3.

24 Structura sitului Influenteaza cautarile în functie de consistenta,


organizare, etc.
25 Site Map Harta sitului trebuie sa aiba cuvinte cheie în
ancorele linkurilor.
26 Marimea sitului Sunt preferate siturile cu multe pagini.
27 Tema sitului Nu uitati sa folositi cuvinte cheie acolo unde este
recomandat. Ati putea apela la o unealta de tipul
"keyword suggfestion".
Traficul pe site Acest lucru se detecteaza şi prin tool-bar.
28 Traficul numarul de vizitatori
29 Timpul petrecut pe pagina Timp mai mare = relevanţa mai mare a paginilor
30 Timpul petrecut pe domeniu Timp mai mare = relevanţa mai mare a domeniului.

Tabelul 3.4. Factorii negativi aflaţi în afara paginii

Factor Factori negativi în afara paginii Nota


1 Zero referali Prin completarea forumularului pus la dispozitie de
Google, situl va fi indexat în cateva luni. Dar este
singura solutie daca nu sunt referali spre siutul tau.
2 Cloaking Google promite ca va bana aceste situri
3 Afilieri, referali de proasta Google spune ca nu tine cont de linkurile care vin de
calitate. pe situri proaste, pentru ca webmasterul nu poate
controla acest lucru. Dar, practic, nu este chiar asa.
4 Furturile de domeniu Sunt unii care nu fura doar o pagina, ci intreg situl, pe
care il posteaza pe alt domeniu. Daca vi s-a intamplat
acest lucru, trimiteti o sesizare la Google şi situl
respectiv va fi banat.
5 Supraincarcarea serverelor 1000 de cautari (cu Google) pe zi de la acelasi IP este
Google. cel mai grav lucru pe care il poate face un webmaster.
Google poate bloca IP-ul.
6 Server Up-time>99.9% "THE PAGE CAN NOT BE FOUND" reprezinta un
motiv destul de bun pentru ca Google sa stearga din
cache o pagina.
7 Se termină spaţiul Google are un spatiu limitat pentru fiecare site, care
depinde în mare masura de toti factorii enumerati mai
sus. Deci nu poate indexa un forum cu 100.000 de
pagini.
Procesul de optimizare şi promovare a unui site

Fiecare profesionist independent sau firma specializata care ofera servicii de optimizare Web
are propria tehnica de optimizare şi implicit parcurge un traseu propriu.
Ideal, procesul de optimizare incepe cu o evaluare atenta a site-ului pentru care se executa
optimizarea şi a site-urilor concurente. Site-urile concurente pot fi site-uri care ofera acelasi tip de
servicii sau produse. în urma analizei acestor site-uri, se poate stabilii care vor fi cuvintele pentru care
se va optimiza.
Pentru a realiza optimizarea unui site, conţinutul acestuia trebuie să fie unic şi să fie bogat în
cuvinte cheie. După mai multe cercetări asupra proceselor SEO, am realizat unul propriu, după care ne
vom conduce în continuare pentru a optimiza şi promova un site (Figura 3.1)
Figura 3.1 – Procesul de Optimizare în Motoarele de căutare a unui site
În continuare sunt descrisi pasii ce descriu procesul de optimizare.

Pasul 1. Analiza site-ului Web


Este foarte necesar înainte de optimizare de realizat o analiză detaliată asupra site-ului.
Conţinutul, structura şi destinaţia traficului sunt verificate foarte atent.

Pasul 2. Identificarea şi definirea obiectivelor şi strategiei


Un lucru trebuie să fie clar — ce scop dorim să îndeplinim. Obiectivele, în special cele legate de
afaceri, variază de la generarea de noi comenzi, pentru a creşte vînzările. Obiectivul ar trebui de ţinut
mine în special la generarea cuvintelor cheie.

Pasul 3. Optimizarea cuvintelor cheie


O analiză extinsă este obligatorie la această fază. Selectăm o listă de cuvinte cheie doar după
analiza site-urilor concurenţilor, tag-urilor Meta, frazele ce conţin cuvintele cheie, etc. Doar atunci este
realizată o listă finală de cuvinte cheie.

Pasul 4. Optimizarea site-ului Web


Este necesar de optimizat paginile web cu cuvintele cheie selectate. Nu este obligatoriu şi
necesar de optimizat toate paginile. Site-ul Web trebuie să fie este "prietenos" cu motoarele de căutare.
Cît timp realizăm optimizarea paginii Web, este obligatoriul de cercetat cîmpurile ca “cuvintele cheie
Meta”, “descirierea Meta”, linkurile de pe pagină.

Pasul 5. Înregistrarea site-ului Web


Site-ul optimizat trebuie înregistrat în cele mai populare motoare de căutare şi directorii. În
acest mod site-ul va fi indexat. Odată ce este indexat, ne vom focaliza asupra ridicării poziţiei în
motoarele de căutare pentru cuvintele cheie selectate anterior.

Pasul 6. Construirea şi optimizarea legăturilor


Ridicarea vizibilităţii este ridicată prin construirea legăturilor Popularitatea site-ului este ridicată
la acest pas. Legăturile Inbound sunt unul din factorii esenţiali pentru optimizarea paginii Web.
Motoarele de căutare îşi îndreaptă atenţia asupra linkurilor Inbound al site-urilor populare în calcularea
rank-ului site-lui nostru.
Pasul 7. Rapoarte
Este necesare de creat rapoarte de pre-optimizare, la fel şi de post-optimizare. Unul este pentru
toate cuvintele cheie înainte de optimizare, cît şi după, pentru a înregistra şi a vedea foarte clar
schimbările ce au avut loc în timp (după optimizare).

Pasul 8. Planul analitic şi de acţiune


Este foarte important de analizat rapoartele principalelor motoare de căutare. Acestea ajută
foarte mult la realizarea planului de acţiuni. Cercetarea şi observarea asupra rapoartelor de poziţionare
este mai mult decît necesar datorită schimbărilor frecvente ce au loc în parametrii motoarelor de
căutare. Este riscul de a pierde popularitatea în orice moment.

Reluarea paşilor
Aceşti paşi urmează a fi repetaţi de fiecare dată cînd site-ul este schimbat, ori au loc schimbări
în motoarele de căutare. De asemenea trebuie sî fim siguri că motoarele de căutarea indexează site-ul
nostru, cît şi îl apreceează la nivel.
Studiu de caz. Portalul educaţional www.cuc.md

Promovarea şi optimizarea site-urilor pentru fiecare tematică are particularităţile sale. Site-ul
Clubului Moldovenesc de Jocuri Intelectuale www.cuc.md (Figura 4.1) face parte din categoria site-
urilor educaţionale. A fost lansat în februarie 2007 cu scopul de a populariza jocul intelectual Ce?
Unde? Cind? şi de a recruta noi membri.

Figura 4.1 – Portalul Educaţional www.cuc.md

În septembrie 2007 a ajuns să devină unul din cele mai populare portaluri educaţionale din
Republica Moldova, un factor decisiv fiind aplicarea tehnicilor de optimizare şi promovare.
În continuare este descris procesul de optimizare şi promovare a portalului, urmînd paşii
procesului de optimizare.

Pasul 1. Analiza site-ului


Portalul a fost creat şi este întreţinut în prezent cu ajutorul sistemului de management al
conţinutului Joomla, unul din cele mai puternice şi populare din lume. Deoarece iniţial site-ul conţinea
foarte puţină informaţie, analiza s-a axat în special pe design-ul paginii principale. A fost ales să fie
simplu, cu culori puţine, iar informaţia principală să fie accesibilă cît mai facil. În urma acestei analize
prealabile, s-a trecut la pasul 2, urmînd a fi formulate obiectivele şi strategiile.

Pasul 2. Definirea obiectivelor, strategiei


La această fază au loc definirea strategiei şi obiectivelor pe o perioadă anumită de timp. Astfel,
ca obiective au fost:
1. Indexarea paginii de principale motoare de căutare;
2. Ridicarea PageRank-ului la 2;
3. Ridicarea Rank-ului Alexa şi clasarea site-ului cît mai înaltă (să fie în topul primelor 50 site-
uri moldoveneşti);
4. Înscrierea în directoarele internaţionale şi moldoveneşti, în special DMOZ, Google, etc;
5. Creşterea numărului de linkuri indexate de principalele motoare de căutare: Google, MSN,
Yahoo;
6. Creşterea numarălui de linkuri inbound;
7. Promovarea offline;

Propunîndu-ne astfel aceste obiective pentru primele 6 luni, urmează în continuare a le îndeplini
prin diverse metode (cele ce sunt enunţate în fazele procesului de optimizare şi promovare)

Pasul 3. Analiza cuvintelor cheie


Au fost propuse iniţial pentru analiză şi promovare următoarele cuvinte cheie:
1) Ce Unde Cind;
2) Jocuri intelectuale;
3) Joc intelectual;
4) Jocuri Banalitati;
5) Cluburi intelectuale;
6) Cuc Moldova;

Cuvintele cheie au fost înscrise în MetaTag-uri, urmînd apoi a controla poziţia site-ului în
motoarele de căutare (în special Google). Desemenea s-a controlat ca densitatea cuvintelor să fie cît
mai mare, iar cele mai principale să fie evidenţiate prin bold
Pasul 4. Optimizarea site-ului
Optimizarea portalului a fost realizată prin:
1. Crearea unui design simplu;
2. Utilizarea cît mai puţină a obiectelor FLASH;
3. Indicarea în imagini a atributului ALT;
4. Folosirea MetaTag-urilor în fiecare pagină;
5. Mărimea paginilor să fie mai mică de 100K, încărcarea paginii să fie cît mai rapidă;
6. Adăugarea de conţinut;

Pasul 5. Înregistrarea în motoarele de căutare şi directoriile Web


La acest pas, care consider a fi unul din cele mai importante, s-a propus adăugarea portalului în
principalele motoare de căutare, cît şi în directoriile Web. Scopul acestui pas este ca site-ul să fie
indexat, urmînd apoi a ne focaliza asupra creşterii popularităţii site-ului.
Pentru aceasta, a fost nevoie de completarea datelor privind site-ul şi expedierea ulterioară a
informaţiilor administratorilor acestor directoare. Am ales în directorii ca portalul să fie înregistrat sub
categoria “Societate şi Cultură”. S-a observat că link-ul www.cuc.md a fost adăugat în Directoriul Web
DMOZ (Figura 4.2) după o lună din momentul înregistrării (a fost înregistrat pe 3 mai, a apărut la
începutul lunii iunie).
Figura 4.2 – Înregistrarea linkului www.cuc.md în directoriul Web DMOZ

După încă trei luni, acest link a apărut şi în directoriul Google (Figura 4.3).
Figura 4.3 – Link-ul www.cuc.md în directoriul Google

În directoarele moldoveneşti, a fost ales Ournet.md, care este cel mai mare şi cel mai popular
din Moldova. Dat fiind faptul că www.cuc.md este un portal educaţional care este realizat şi deţinut de
un grup de studenţi, categoria sub care va fi listat site-ul a fost aleasă “Organizaţii studenţeşti şi
grupuri” (Figura 4.4).
De menţionat că în urma adăugarii site-ului în directoriul DMOZ, a crescut brusc numarăul
link-urilor inbound în reţea, dat fiind faptul că numeroase directorii din lume folosesc informaţia listată
în directoriul DMOZ.
Figura 4.4 – Link-ul www.cuc.md în directoriul Ournet.md

Pasul 6. Constituirea şi optimizarea legăturilor


La această etapă a fost esenţial de constituit şi optimizat două tipuri de legături: externe şi
interne.
Cele externe se referă implicit la numărul de „backlink”-uri, crearea unei reţele de afiliaţi pentru
a aduce cît mai mulţi utilizatori externi pe site-ul propriu. Astfel, este definit „Programul de constituire
a legăturilor”, prin adăugarea de link-uri „outbound” ale altor site-uri, care la rîndul lor conţin link la o
pagină de pe site-ul nostru, de dorit pagina principală. Un exemplu este pagina Consilului Naţional al
Tineretului, unde este un link al site-ului nostru (Figura 4.5).
Figura 4.5 – Link-ul www.cuc.md pe pagina CNTM
De asemenea este foarte important de realizat şi o structură foarte bine realizată a link-urilor
interne. Link-urile de pe site-ul www.cuc.md sunt ierarhic constituite din 3 nivele, astfel, propagarea
PR-ului de pe pagina principală la o pagină de nivelul 3 este destul de enormă.

Pasul 7. Rapoartele
Pentru a vedea rezultatele obţinute în urmă paşilor urmaţi anterior, se realizează o statistică prin
intemediul diverselor instrumentare Web. Astfel, se poate de evidenţiat în timp evoluţia numărului de
pagini indexate de motorul de căutare Google.

Pagini Indexate in Google

1600
1400
1200
Nr. pagini

1000
800
600
400
200
0
rie

lie
e
t ie

ie

ie
ai

s t
ni
ril

br
gu
Iu
ua

ar

Iu
Ap

em
M

Au
br
Fe

pt
Se

Figura 4.6 – Evoluţia în timp a numărului de pagini indexate în Google


Se poate uşor de văzut că datorită şi creşterii link-urilor de pe site, are loc respectiv şi creşterea
numărului de pagini indexate de Google.
Cît priveşte evoluţia PR-ului, aici s-a observat unele evenimente. Astfel, din momentul indexării
site-ului pînă la atribuirea primului Rank au trecut aproximativ 4 luni, perioadă în care portalul era într-
o listă a site-urilor “suspecte” ale lui Google. Deoarece portalul este unul informativ şi nu de spam,
motorul l-a notat după această perioadă ca un site de încredere. La moment site-ul are PR-ul egal cu 2,
iar în timpul apropiat va ajunge şi la 4.
Este de menţionat evoluţia popularităţii site-ului în ratingul Alexa. La moment, în categoria
“Societate şi Cultură”, site-ul este situat pe locul 2. Per total, între site-urile moldoveneşti (cu conţinut
în limba română), www.cuc.md se situează pe locul 16. Acest rating este foarte important, deoarece
arată popularitatea site-ul în rîndul populaţiei din R.Moldova, iar poziţionarea curentă nu poate decît să
ne motiveze şi mai mult pentru realizarea altor tehnici de promovare şi optimizare.

Figura 4.7 – Popularitatea site-ului www.cuc.md după rating-ul Alexa

În tabelul 4.1 sunt enumerate principalele cuvinte cheie şi poziţia în SERP.

Tabelul 4.1 -- Cuvintele cheie şi poziţia în Google


Cuvîntele cheie Poziţia (Google)
Ce Unde Cind 1
Cluburi Intelectuale 1
Jocuri Banalitati 1
Jocuri Intelectuale 2
CUC Moldova 3
CUC md 6

Afişarea grafică se poate de văzut şi în Anexa A.


În final putem enumera următoarele rezultate:
Indexarea în Google, Yahoo, MSN: Da
Înregistrarea în DMOZ: Da
Alexa Rank: 298,319
Google PageRank: 2
Pagini Indexate (Google): 1500
Link-uri Inbound (Google): 340

Observăm astfel că obiectivele propuse iniţial la pasul 2 au fost realizate.

Pasul 8. Planul analitic şi planul de acţiune


Analizînd paşii de mai sus, se poate de planificat următoarele acţiuni:
1. Ridicarea PR-ului la 4;
2. Crearea Hărţii Site-ului;
3. Construirea legăturilor;
Concluzii

Deseori o cercetare interesanta ridica mai multe întrebari decât reuseste sa gaseasca răspunsuri.
Atât din punct de vedere al procesarii rezultatelor căutarii, cât şi al contextului social, mai sunt foarte
multe de explorat.
Trecerea la societatea informaţională implică sporirea volumului de informaţii şi accelerarea
comunicării, problema căutării informaţiei devine tot mai importantă. Web-ul a devenit un nou mediu
de publicare a informaţiei. Site-urile web sînt folosite pentru a promova companiile şi produsele sale,
presta servicii şi informaţii, facilita comunicarea. Acest studiu serveşte ca un îndrumător pentru
optimizarea şi promovarea site-urilor în motoarele de căutare.
În teză au fost descrise metode de optimizare şi promovare a paginilor Web, în special în
motoarele de căutare. S-a pus ca obiectiv cercetarea:
• motoarelor de căutare, sistemul Google fiind descris mai detaliat;
• metodologiei de cercetare empirică;
• tehnicilor de optimizare pentru motoarele de căutare;
• factorilor ce influenţează apariţia site-ului Web pe primele pagini ale motoarelor de căutare
după introducerea unor cuvinte cheie;
• metodelor de promovare în motoarele de căutare;
• marketingului în motoarele de căutare;

În baza metodelor cercetate a fost realizat un model al procesului de promovare şi optimizare a


Site-urilor. Pe baza acestui model a fost optimizat şi promovat un portal educaţional. Succesul
implementării acestor metode conturează importanţa lor în aducerea în evidenţă a informaţiei necesare.
Bibliografie

1. Mihai Drăgănescu, „Societatea informaţională şi a cunoaşterii. Vectorii societăţii


cunoaşterii” – [Resursă electronică]
http://www.academiaromana.ro/pro_pri/pag_com01socinf_tem.htm
2. Gabriela Grosseck, “Căutarea informaţiilor pe Internet” – [Resursă electronică]
www.revistaie.ase.ro/content/39/Grosseck.pdf
3. O. Burlaca, “Sistem de management al conţinutului Web” – [Resursă electronică]
www.cnaa.acad.md/files/theses/2006/4735/oleg_burlaca_thesis.pdf
4. D. Janssen, “The Effects of Affiliate Marketing Networks on Search Engine
Rankings” – [Electronic resource]
www.m4n.nl/documents/The_Effects_of_Affiliate_Marketing.pdf
5. И. Ашманов, А. Иванов, “Продвижение сайта в поисковых системах”, –
Москва, 2007.
6. E. Hargittai, “Dimensiuni sociale, politice, economice şi culturale ale motoarelor de
căutare” – [Resursă electronică]
http://www.ris.uvt.ro/Numarul7%202007/EHargittai.pdf
7. S. Buraga, “Robotii Web” – [Resursă electronică]
http://thor.info.uaic.ro/~busaco/publications/articles/roboti.pdf
8. Lee Underwood, “A Brief History of Search Engines” – [Electronic resource]
www.webreference.com/authoring/search_history/
9. GVU’s 10th www user survey graphs, “How Users Find out About WWW Pages” –
[Electronic resource]
www.gvu.gatech.edu/user_surveys/survey-1998-10/graphs/use/q52.htm
10. iProspect, “iProspect Search Engine User Attitudes” – [Electronic resource]
www.iprospect.com/premiumPDFs/iProspectSurveyComplete.pdf
11. Bruce Clay, Inc, “Search Engine Relationship Chart” – [Electronic resource]
www.bruceclay.com/searchenginerelationshipchart.htm
12. Danny Sullivan, “comScore Media Metrix Search Engine Ratings” –
[Electronic resource] www.searchenginewatch.com/reports/article.php/2156431
13. Insite by Lycos, “Search engine marketing guide” – [Electronic resource]
http://insite.lycos.com/tutorial.asp
14. Searchenginewatch.com, “Ten tips to the top of Google” – [Electronic resource]
www.searchenginewatch.com/searchday/article.php/2198931
15. Wayne Hulbert, “Keyword Density: SEO Considerations” – [Electronic resource]
www.webpronews.com/news/ebusinessnews/wpn4520050501KeywordDensitySEOc
onsiderations.html
16. Chris Sherman, “131 (Legitimate) Link Building Strategies” –
[Electronic resource]
www.searchenginewatch.com/searchday/article.php/2160301
17. Alexa, “Top Sites” – [Electronic resource] www.alexa.com/site/ds/top_500
18. Danny Sullivan, “Major Search Engines and Directories” – [Electronic resource]
www.searchenginewatch.com/links/article.php/2156221
19. Danny Sullivan, “Other Global Search Engines” – [Electronic resource]
www.searchenginewatch.com/links/article.php/2156281
20. Debbie Flanagan, “Web Search Strategies” – [Electronic resource]
http://www.learnwebskills.com/search/main.html
Anexa A – Rezultatele afişate de Google în cazul unor cuvinte cheie

Figura A.1 – Rezultatele căutării după cuvîntul cheie „Jocuri Intelectuale”


Figura A.2 – Rezultatele căutării după cuvîntul cheie „CUC Moldova”

Figura A.3 – Rezultatele căutării după cuvîntul cheie „Ce Unde Cind”
Figura A.4 – Rezultatele căutării după cuvîntul cheie „Cluburi Intelectuale”
Figura A.5 – Rezultatele căutării după cuvîntul cheie „cuc md”

Figura A.6 – Rezultatele căutării după cuvîntul cheie „Jocuri Banalitati”


Anexa B – Lista directoarelor web

Tabelul B-1 - Cele mai importante directoare Web din lume


No URL Preţul Data PR
1 www.dmoz.org/ Gratis 1999 8
2 dir.yahoo.com/ $299/an 1995 8
3 www.lii.org/ Gratis 1998 8
4 www.stpt.com/directory/ $99/an 1995 7
5 www.business.com/ $199/an 1998 7
6 www.cannylink.com/ $20 1997 0
7 www.americasbest.com/ $20 1998 0
8 www.joeant.com/ $40 2000 6
9 www.chiff.com/ $60/an 1998 6
10 www.jayde.com/ Gratis 1996 6
11 www.skaffe.com/ $45 2003 5
12 www.mavicanet.com/ Gratis 1999 4
13 www.ezilon.com/ $69 2002 6
14 www.botw.org/ $240 1996 7
15 www.avivadirectory.com/ $75/an 2005 6
16 www.elib.org/ $81 2003 7
17 directory.v7n.com/ $50 2004 6
18 www.rlrouse.com/ $50 2002 5
19 www.gimpsy.com/ $40 2001 5
20 www.goguides.org/ $40 2001 5
21 www.uncoverthenet.com/ $189 2004 6
22 www.qango.com/ $55 1998 5
23 www.bigall.com/ $15 2004 0
24 www.azoos.com/ $90 2001 5
25 www.clush.com/Dir/ $20/an 2004 7
26 www.illumirate.com/ Gratis 2003 5
27 www.businessseek.biz/ $12 2003 5
28 www.platinax.co.uk/directory/ $30 2004 6
29 www.informationoutpost.com/ $5 1998 4
30 www.thisisouryear.com/ $25 2000 5
31 www.abilogic.com/ $18 2003 5
32 www.sunsteam.com/ $75 1999 4
33 www.alivedirectory.com/ $50/an 2005 6
34 www.site-sift.com/ $50 2004 6
35 www.wowdirectory.com/ $43 2003 5

Tabelul B-2 – Cele mai importante directoare Web din Republica Moldova
No URL $ Data PR
1 www.ournet.md Gratis 1999 8
2 www.point.md Gratis 1995 8
3 www.allmoldova.com Gratis 1998 8
4 compass.mcc.md/en/ Gratis 1995 7
5 super.md Gratis 1998 7

S-ar putea să vă placă și