Sunteți pe pagina 1din 64

Cuprins

Glosar de termeni
Backlinks (Linkuri Inbound) Linkuri (legturi) provenite de la o alt pagina web ctre pagina proprie. Cloaking Modalitate prin care se serveste o versiune a unei pagini ctre un vizitator uman i o versiune diferit motoarelor de cutare. Crawler (Spider) Motoarele de cutare folosesc "crawlere" pentru a trece de la o pagin web la alta prin linkuri ntlnite n pagini. Paginile descoperite sunt apoi indexate pe baza unui algoritm i indexate n baza de date. Cuvnt cheie (Keyword) Un cuvnt sau fraz introdus n motoarele de cautare cu scopul de a gsi cele mai relevante pagini web ce contin acest cuvant/fraza. O pagina web trebuie optimizata pentru aceste cuvinte cheie. Index Lista paginilor web indexate de un motor de cautare. Linkuri Outbound Linkuri din propria pagina ctre alte pagini web. PageRank (PR) O valoare (intre 1 si 10) atribuit de ctre Google fiecarei pagini web din baza de date. PageRank-ul este calculat de ctre Google folosind un algoritm matematic, bazat pe numarul si calitatea (determinata de acelasi motor de cautare) linkurilor ctre pagina respectiva. PPC (Pay Per Click) O modalitate de promovare a unui site (de obicei prin intermediul unui motor de cautare) ce consta n plasarea unui link si o scurta descriere n SERP, alaturi de rezultatele "naturale". Aceste linkuri sunt plasate separat, de obicei n partea dreapta. plata se face n functie de numarul de clickuri.

Robot Un robot este un program care ruleaza automat si indeplineste o anumita sarcina fara interventie umana si care stie sa reactioneze n diferite situatii. Un exemplu de robot este webcrawler-ul (program folosit de motoarele de cautare pentru a descoperi noi pagini web). SEO (Search Engines Optimization) Optimizarea pentru motoarele de cutare. Se refer la optimizarea unui site web n vederea obinerii unui maxim de vizibilitate n motoarele de cutare. SEM (Search Engines Marketing) Marketing pentru motoarele de cutare. Totalitatea aciunilor ntreprinse pentru a atrage ct mai muli vizitatori - poteniali clieni prin intermediul motoarelor de cutare. SERP (Search Engine Results Pages) Paginile cu rezultatele cutarii dup un anumit cuvnt cheie. Se refer la rezultatele afiate de motoarele de cutare n formatul ales de utilizator, innd cont de opinunile personale setate de acesta. Taguri Alt Scurt atribut al unei imagini. Textul afiat la pozitionarea cursorului peste o imagine. Acest text este afisat n locul imaginii atunci cnd browserul este setat s nu afieze imaginile dintr-o pagina web. Tag-urile ALT (provenit din alternative) sunt utile atat vizitatorilor ct i motoarelor de cutare. Taguri Meta (Meta Tag) O eticheta pentru documentele HTML, cu informaii referitoare la acea pagina web. Tagurile Meta nu afecteaza modul n care pagina este afisata, n schimb stocheaza informaii precum autorul paginii, data ultimei actualizari, limba n care este scrisa pagina, o descriere sumara a paginii precum si cuvinte cheie pentru continutul paginii. Unele motoare de cautare folosesc informaiile din meta pentru a indexa paginile web.

Introducere
Societatea informaional este societatea n care producerea i consumul de informaie este cel mai important tip de activitate, informaia este recunoscut drept resurs principal, tehnologiile informaiei i comunicaiilor snt tehnologii de baz, iar mediul informaional, mpreun cu cel social i cel ecologic un mediu de existen a omului. Societatea informaional reprezint o nou etap a civilizaiei umane, un nou mod de via calitativ superior, care implic folosirea intens a informaiei n toate sferele activitii i existenei umane. Societatea informaional permite accesul larg la informaie ai membrilor si, un nou mod de lucru i de cunoatere. n secolul XX, cel mai mare eveniment tehnologic i social n acelaii timp a fost apariia Internetului. Drgnescu [1] afirm c n esen societatea informaional este societatea care se bazeaz pe Internet. Web-ul a devenit un nou mediu de publicare a informaiei. Site-urile web snt folosite pentru a promova companiile i produsele sale, presta servicii i informaii, facilita comunicarea. Motoarele de cutare sunt unele dintre cele mai populare destinatii de pe Web iar acest lucru este de nteles, avnd n vedere cantitatile vaste de informaii aflate la dispoziia utilizatorilor i nevoia de ajutor n filtrarea coninutului online. Rezultat al unor realizri tehnice semnificative, motoarele de cutare sunt totodat nrudite cu procese sociale i institutii care influeneaz felul lor de funcionare i utilizare. Motoarele de cutare sunt printre cele mai accesate site-uri. Milioane de oameni recurg la ele pentru a gsi continuturi n fiecare zi, introducnd miliarde de termeni de cutare n fiecare luna. De fapt, folosirea motoarelor de cutare rivalizeaz cu ail-ul pentru cea mai comun activitate ntreprins de utilizatorii de Internet. Oamenii se ndreapt zi de zi ctre motoarele de cutare pentru a gsi informaii despre evenimente actuale, preocupri legate de sntate, produse, servicii guvernamentale, dezastre naturale, noii lor vecini, posibili angajai sau parteneri, i o multitudine de alte subiecte, variind de la mondene pna la cele mai serioase. Cu toate acestea, n afara rolului lor central n accesarea informatiei, puine cercetari din domeniul optimizrii i promovrii paginilor web s-au axat pe dimensiunile non-tehnice ale motoarelor de cutare, pe companiile care le gestioneaz sau pe practicile utilizatorilor care se bazeaza pe ele. Un asemenea demers trebuie sa fie un efort interdisciplinar, datorit multiplelor dimensiuni ale ntrebrilor relevante, variind de la cine folosete motoare de cutare i n ce scopuri pn la distribuia abilitilor necesare pentru utilizarea motoarelor de cutare, precum i dac tot coninutul are anse

egale de a fi inclus n listele de rezultate ale acestor instrumente sau dac ele pot fi manipulate. n mod deloc surprinztor, aria larg de problematici ridicate de motoarele de cutare atrage diverse grupuri de cercettori[3]. Ce tim deja? Graie cercetrilor existente tim c folosirea motoarelor de cutare e una dintre activitile favorite ale utilizatorilor de Internet[4]. Mai tim i c, atunci cnd sunt ntrebai despre abilitile lor de cutare, muli utilizatori au tendina s fie ncreztori n sine, dei cercetri asupra comportamentului persoanelor care caut informaii online tind s observe discrepane n functie de atributele utilizatorilor. Totodat, jurnalele cutrilor sugereaz c majoritatea utilizatorilor nu au o abordare prea sofisticat a actului de cutare, ci adesea se rezum la a folosi doar unu sau doi termeni pentru cutare. n ceea ce priveste rolul motoarelor de cutare n canalizarea atentiei utilizatorilor, dei cercetatorii au nceput sa ia n considerare posibilele implicatii cruciale ale acestor servicii cu ani n urma, puine lucrri empirice au urmat pentru a examina gradul n care motoarele de cutare pot sau nu s discrimineze ntre anumite tipuri de coninut, favorizndu-le, poate n mod injust, pe unele. Cteva studii de caz au examinat cenzura anumitor tipuri de materiale, n special privind contexte naionale, din partea unora dintre motoare, dar exist puine lucrri sistematice care s analizeze materialele mai puin controversate i respectiv ansele lor de a fi incluse. Noile tendine arat c piaa motoarelor de cutare se restrnge, i mai puini jucatori importani ca niciodat ghideaza comportamentul online al utilizatorilor. Acest lucru sugereaz ca deciziile luate exclusiv de puinii juctori din acest peisaj pot avea repercusiuni considerabile asupra materialelor care sunt cu adevrat la ndemna utilizatorilor. n consecin, o analiz critic asupra factorilor care determin criteriile de includere i excludere a rezultatelor cutrii, precum i asupra felului n care utilizatorii le abordeaz devine din ce n ce mai important pentru a ntelege mai bine cum accesul utilizatorilor la coninut e mediat de o mn de servicii comerciale. Acest studiu servete ca un ndrumar pentru optimizarea i promovarea site-urilor n motoarele de cutare. Concluziile deduse sunt bazate pe o cercetare i culegere a datelor independent. Din cauza naturii proprii a relevanei algoritmilor motoarelor de cutare, procesele evideniate pot s nu ncorporeze toate tehnicile de optimizare i de spam.

Metoda de cercetare
n acest capitol este descris metodologia de cercetare. La nceput se explic alegerea unei multiple cercetri pe o perioad de timp. Mai trziu se elucideaz conceptele teoretice. ntrebrile aprute n timpul cercetrii sunt realizate operaional n practic.

Abordarea cercetrii
Primul pas n modelarea cercetrii empirice a fost alegerea unei strategii generale de colecie a datelor. Din toate strategiile posibile ca studiile de caz, experimentele, analiza arhivelor i chestionarele, diferite opiuni pot fi considerate utile. Este tiut faptul c alegerea strategiei de cercetare este bazat pe stabilirea a minimum trei ipoteze (condiii) de cercetare, care la rndul lor trebuie s aib o legtur explicit cu teoriile din partea teoretic. De asemenea, ipotezele nu trebuie s se suprapun, trebuie s fie ntr-un raport de excluziune una fa de cealalt. n urmtoarele subcapitole vor fi analizate trei ipoteze de cercetare nnd seama de premisele i scopurile studiului cercetrii, ntrebri i mediu. ntr-u realizarea acesteia, voi explica treptat de ce abordarea studiilor de caz este cea mai potrivit. n primul rnd, diferite ntrebri de cercetare (cum?, de ce?, cine?, ce?, unde?, cte?, ct de mult?) n majoritatea cazurilor se refer la diferite strategii de cercetare. ntrebrile utilizate n aceast cerctare sunt de genul cum?, ct, ct de mult i n ce condiii?. Pentru aceste tipuri de ntrebri de cercetare, se consider chestionarele, analiza arhivelor i studiile de caz ca fiind strategii de cercetare similare. n alt ordine de idei, datorit informatizrii, mediul virtual n care are loc studiul, denot faptul c chestionarele nu sunt o opiune realizabil. A doua condiie ce determin potrivirea diferitelor strategii de cercetare este nivelul de control al cercettorului asupra comportamentului evenimentelor. Experimentele sunt realizate de obicei cnd cercettorul poate manipula variabilele independente ntr-o manier direct, precis i sistematic. E dificil, de exemplu, sa studiem zona de acoperire a motoarelor de cutare deoarece o selectie la ntmplare a site-urilor e imposibila, datorit faptului ca nu dispunem de o list comprehensiva a tuturor site-urilor existente. Deoarece motoarele de cutare in n confindenialitate algoritmii lor de cutare i mai mult, ansamblul de factori utilizai n algoritmii lor este pasibil unor schimbri continue i obscure, este imposibil s tim ce este i ce nu este acoperit de diversele servicii. De asemenea este practic imposibil de a simula situaiile actuale de cercetare ntr-un mediu controlabil. De fapt, n anumite cazuri, rezultatele variaza n functie de utilizator i localizarea acestuia, astfel nct, un studiu

efectuat pe un dispozitiv, ntr-o locatie i de ctre un anumit utilizator, poate fi imposibil de reprodus pe un alt dispozitiv, n alte circumstante, chiar i la puin timp dupa cutarea initiala. Acest lucru pune probleme semnificative pentru reproducerea rezultatelor cautarii, principiu de baza al cercetarii stiintifice. De asemenea, att timp ct scopul principal al acestei cercetri este de a asigura specialitii IT i marketologii cu cunotine practice, este de a duce aceast cercetare n mediul actual al paginilor web, sau altfel spus n Internet. Lund toate aceste n consideraie, experimentul pare a nu fi o strategie potrivit de cercetare pentru acest studiu. A treia condiie care ar trebui de luat n consideraie n determinarea strategiei de cercetare este concentrarea asupra evenimenteleor curente. n acest caz, aceast condiie favorizeaz n particular utilizarea unui studiu de caz. Deoarece istoria motoarelor de cutare este relativ scurt i ntrebuinarea i caractersiticele motoarelor de cutare s-au schimbat de la prima apariie a lor, datele i documentele istorice sunt insuficiente. Mai mult, deoarece aceast cercetare utilizeaz combinaii de date noi i specifice att asupra site-urilor web, ct i motoarelor de cutare, ar fi dificil de gsit aceste combinaii n arhive. n concluzie, s-a constatat c, avnd condiiile particulare ale acestei cercetri putem spune c abordarea stiudiului de caz este cea mai potrivit alegere; este potrivit pentru ntrebrile de cercetare, culegerea de experimente nefiind o opiune real i caracterul modern al cercetrii face dificil utilizarea arhivelor.

Provocri metodologice
Toate domeniile se confrunta cu provocari metodologice, dar i noile arii de cercetare trebuie sa abordeze teren neexplorat, ceea ce adauga complexitate demersului lor. Exista puine date necesare pentru a examina chestiuni importante privind aspectele sociale ale motoarelor de cutare, n pofida faptului ca motoarele nsele genereaza seturi voluminoase de date bazate pe jurnalul actiunilor efectuate de utilizatori. Motivele pentru care exista puine date rezultate din cercetari academice sunt diverse, iar acestea includ restrictii impuse de drepturile de proprietate precum i alti factori discutati mai jos. Companiile care gestioneaza motoare de cutare au cantitati enorme de date despre utilizarea serviciilor lor, dar aceste date sunt n general cu drept de proprietate i sunt rareori puse la dispozitia cercetatorilor. Companiile sunt foarte preocupate sa tina sub anonimat aceste date, proces nu fara nsemnatate i care necesita eforturi considerabile. De exemplu, n 2006, cercetatori de la AOL au facut public un set de date aparent anonime care continea peste 20 de milioane de termeni de cutare

introdusi de peste 650000 de utilizatori, n decursul a trei luni pentru a folosi drept resurse comunitatii non-comerciale, n scopuri de cercetare. [4] Totui, datorit detaliilor din setul de date (inclusiv numere de identificare atasate fiecarei cautari), o analiz a condus la identificarea unora dintre utilizatori. Avnd n vedere reactiile controversate i repercusiunile acestui caz, e chiar mai puin probabil ca pe viitor asemenea informaii sa mai fie puse de ctre companii la dispozitia cercetatorilor. Chiar daca jurnalele de cautari ar fi mai lesne accesibile, tot ar exista limite referitor la cte am putea afla despre utilizatori doar din studierea acestora. Asemenea date sunt rareori nsotite de tipuri de covariabile despre atributele utilizatorilor care fac posibile anumite tipuri de analiza minutioasa. Mai mult, datorit faptului ca utilizatorii nu sunt distribuiti la ntmplare pe motoare de cutare, daca avem informaii despre utilizatorii unui site, nu nseamna ca putem neaparat sa generalizam la toti utilizatorii de Internet. La un nivel diferit al analizei - atunci cnd studiul se concentreaza pe motorul de cutare cercetatorii se confrunta cu alte provocari. E dificil, de exemplu, sa studiem zona de acoperire a motoarelor de cutare deoarece o selectie la ntmplare a site-urilor e imposibila, datorit faptului ca nu dispunem de o list comprehensiv a tuturor site-urilor existente. Scopul acestei cercetri este de a dezvolta o mai bun viziune a efectelor cauzate de unii factori ai site-urilor n listarea lor ulterioar pe primele pagini rezultate din motoarele de cutare.

Motoarele de cutare
Importana motoarelor de cutare n Internet este similar ca acea a sistemelor de operare pentru calculatoare. Problema principal n Internet nu o mai reprezint accesul la informaie ci modul n care aceasta este filtrat i selectat n mod optim. Deoarece Internetul este un vast rezervor de informaie care nu beneficiaz de un bibliotecar sau catalog, o importan crescnda n selectarea informaiilor o au serviciile de cutare. Statisticile arat c peste 80% din totalul de trafic ctre site-uri n Internet este generat de motoarele de cutare. Dac 8 din 10 utilizatori apeleaz la un serviciu de cutare pentru a gsi informaiile dorite, acelaii numar de utilizatori se declar frustrai de inabilitatea de a le obine. De aici importana crescnda n selectarea informaiilor att a serviciilor de cutare ct i a filtrrii coninutului informaional de ctre utilizator, subiecte tratate n prezenta lucrare. Motoarele de cutare indexeaz miliarde de pagini web, implicnd un numr echivalent de termeni distinci. Acestea rspund la zeci de milioane de ntrebari n fiecare zi[6]. Web-ul creeaza noi provocri pentru obinerea de informaii. Cantitatea de informaii de pe web crete ntr-un ritm alert, pe msura numrului de noi utilizatori lipsii de experien n arta cutarii pe web. De obicei, oamenii navigheaza pe web folosind graficul acestuia de link-uri, adeseori incepand cu indici superiori calitativ, mentinuti de interventia umana, cum ar fi Yahoo! sau cu motoare de cutare. Listele unde intervine mintea umana acopera subiecte diverse i populare, dar sunt subiective, costisitoare de intretinut i mentinut, greu de imbunatatit i nu pot acoperi toate subiectele ce tin de domenii specializate (ezoterice). Motoarele de cutare automate, care se bazeaz pe potrivirea de cuvinte-cheie, ofer, n mod obinuit, prea multe rezultate neconcludente.

Motorul de cutare Google


Motorul de cutare Google este caracterizat de dou trsturi importante care ajuta la producerea de rezultate cu un grad ridicat de precizie. n primul rand, Google se folosete de structura de link-uri a Web-ului pentru a calcula un indice calitativ al fiecarei pagini web. Aceast estimare a nivelului calitativ se numeste PageRank. n al doilea rnd, Google utilizeaz link-urile pentru a mbunti rezultatele cutarii.

Modul de funcionare al sistemului Este important pentru un motor de cutare s parcurga i s indexeze eficient. Astfel, informaia poate fi permanent actualizat i modificrile majore aduse sistemului pot fi testate relativ repede. Pentru Google, operaiunile importante sunt Crawling (parcurgerea), Indexing (indexarea) i Sorting (sortarea). Este dificil de masurat cat a durat crawling-ul n total din cauza ca discurile au fost n intregime completate, numele serverelor nu mai sunt functionale sau din cauza oricarei probleme care putea determina oprirea sistemului. Google este proiectat sa fie un motor de cutare scalabil. Scopul principal este acela de a oferi rezultate de calitate pe fondul dezvoltarii rapide a World Wide Web. Google foloseste o serie de tehnici pentru ameliorarea calitatii cautarii incluzand PR, textul link-ului i alte informaii apropiate. Mai departe, Google reprezinta o arhitectura completa pentru adunarea paginilor web, indexarea lor i efectuarea de interogari asupra lor. Cea mai mare problema cu care se confrunta astazi utilizatorii de motoare de cutare o reprezinta calitatea rezultatelor pe care le primesc. Pe cand rezultatele sunt deseori amuzante i largesc orizontul utilizatorului, ele pot deveni i frustrante i pot consuma timp pretios. Google este destinat sa ofere rezultate de o calitate superioara astfel incat Web-ul sa continue sa se dezvolte rapid, iar informaia sa poata fi gsita usor. Pentru a putea realiza acest lucru, Google utilizeaza frecvent informaia hipertextuala ce consta din structura de link-uri i din textul link-urilor. Google folosete de asemenea aproximarea i informaia despre fonturi. Analiza structurii de link-uri prin PageRank permite Google s evalueze calitatea paginilor web. Utilizarea textului link-ului ca o descriere a ceea ce indica link-ul contribuie la relevana si, intr-o anumita masura, la inaltul standard calitativ al rezultatelor. n cele din urma, utilizarea unor informaii asemanatoare ajuta la marirea gradului de relevana al multor interogari. Relevana rezultatelor i PageRank-ul Page Rank-ul este o not virtual pe care o are fiecare pagina n Google pentru a determina relevana ei. Este clar ca o pagina cu multe link-uri care trimit la ea este o pagina importanta. Page rank-ul unei pagini este dat de numrul de pagini care trimit la ea, de valoarea lor, i de numarul de link-uri de pe paginile respective. Graficul de link-uri al web-ului este o resursa importanta care a ramas n mare parte neutilizata de motoarele de cutare. Sun realizate hri continnd nu mai puin de 518 milioane din aceste hyperlinkuri, o mostra semnificativa a totalului. Aceste hri permit calcularea rapid a PageRank-ului unei

pagini web, o msura obiectiv a importanei link-urilor care corespunde cu ideea subiectiv de importan a oamenilor. Datorit acestei corespondene, PageRank-ul reprezint o metod excelent de stabilire a gradului de importan a rezultatelor cutrilor bazate pe cuvinte cheie. Pentru cele mai populare subiecte, un text simplu care se potriveste cu cutarea i care este limitat la titluri ale paginii web este foarte bine reprezentat atunci cand PageRank stabilete importana rezultatelor. Pentru cutarile ce au la baza un text integral n sistemul principal Google, PageRank-ul este, de asemenea, de mare ajutor. Descrierea calculului PageRank Literatura de specialitate referitoare la link-uri a fost raportata la web, n general prin numerotarea link-urilor sau backlink-urilor unei pagini date. Acest lucru stabileste cu aproximatie importanta sau calitatea unei pagini. PageRank extinde aceasta idee nu prin efectuarea unei numerotari a link-urilor din toate paginile, ci prin stabilirea numarului de link-uri dintr-o pagina. PageRank este definit dupa cum urmeaz: Presupunem c pagina A este formata din paginile T1Tn care se refera la aceasta (adica sunt link-uri). Parametrul d este un factor de nivelare care se afla intre 0 i 1. De obicei, stabilim valoarea 0.85 pentru acest factor. Mai multe detalii despre d sunt oferite n sectiunea urmatoare. De asemenea, C(A) este definit ca un numar de link-uri care nu fac parte din pagina A. PageRank-ul paginii A este dupa cum urmeaza: PR(A) = (1-d) + d(PR(T1) / C(T1) + + PR(Tn) / C(Tn)) Trebuie retinut ca PageRank formeaza o distributie a probabilitatii paginilor web, astfel ca suma tuturor paginilor web ce tin de PageRank este 1. PageRank sau PR(A) poate fi calculat utilizand un simplu algoritm repetabil i care corespunde principalului vector propriu al matricii link-ului normalizat al web-ului. De asemenea, un PageRank pentru 26 milioane de pagini web poate fi calculat n cateva ore intr-un punct de lucru de marime medie. Exista multe alte detalii care depasesc intentia acestei lucrari. PageRank poate fi considerat un model al comportamentului utilizatorului. Sa presupunem ca exista un navigator oarecare care viziteaza o pagina web aleasa la intamplare i care acceseaza linkurile, fara a reveni la pagina initiala: n cele din urma se va plictisi i se va orienta spre alta pagina web aleasa la intamplare. Probabilitatea ca acest navigator sa viziteze o pagina este reprezentata de PageRank. Iar d, factorul de nivelare, reprezinta probabilitatea ca navigatorul sa se plictiseasca la fiecare pagina accesata i sa continue cutarea paginilor la intamplare. O variatie importanta este aceea

de a adauga doar factorul de nivelare d unei singure pagini sau unui grup de pagini. Acest lucru permite personalizarea i poate face aproape imposibila inducerea deliberata n eroare a sistemului pentru obtinerea unui calificativ superior. O alt explicaie intuitiv este c o pagin poate avea un PageRank ridicat dac exist mai multe pagini care fac referire la aceasta sau dac exist cteva pagini care au un PageRank ridicat i care o recomand. n mod intuitiv, paginile la care se face referire din multe colturi ale web-ului sunt considerate importante. De asemenea, paginile care probabil au o singura referire de la gazda a Yahoo! sunt considerate importante. Daca o pagina nu are un nivel calitativ ridicat sau are un link insuficient, este mai mult decat probabil ca pagina gazda a Yahoo! nu va avea nici un link pentru aceasta. PageRank face fata ambelor situatii i chiar mai mult de atat prin propagarea recursiva a gradului de importanta n intreaga structura de link-uri a web-ului. Textul link-ului tratat de sistem Textul link-ului este tratat ntr-un mod cu totul special de Google. Majoritatea motoarelor de cutare asociaza textul link-ului cu pagina de care se leaga. n plus, el este asociat cu pagina pe care link-ul respectiv o indic. Acest sistem prezinta mai multe avantaje. n primul rand, link-urile ofera deseori descrieri mai precise ale paginilor web decat o fac paginile respective. n al doilea rand, linkurile pot face referire la documente care nu pot fi indexate de un motor de cutare bazat pe text, cum ar fi: imagini, programe sau baze de date. Acest lucru face posibila returnarea paginilor web care nici macar nu au fost parcurse. Trebuie retinut ca paginile care nu au fost parcurse pot cauza probleme din moment ce nu le-a fost niciodata verificata validitatea inainte de a fi oferite utilizatorului. n acest caz, motorul de cutare poate oferi o pagina care nu a existat niciodata cu adevarat, dar care are hyperlinkuri care fac referire la ea. Totusi, este posibil ca rezultatele sa fie sortate, astfel ca aceasta problema apare rareori. Ideea corelrii textului link-ului cu pagina web la care se refer a fost implementat n World Wide Web Worm [9], n special pentru c ajut la cutarea informaiei de tip non-text i mrete aria de acoperire a cautarii prin numarul mai redus de documente descarcate. Folosim propagarea de link-uri deoarece textul link-ului poate contribui la oferirea de rezultate mai bune. Utilizarea eficienta a textului link-ului este dificila din punct de vedere tehnic din cauza cantitatilor mari de date care trebuie procesate. n procesul de parcurgere a 24 milioane de pagini, am indexat peste 259 de milioane de linkuri. n afara de PageRank i de utilizarea textului link-ului, Google are i alte trasaturi. Prima este

aceea ca are informaii de baza pentru toate cautarile i astfel utilizeaza, n mod frecvent, proximitatea n procesul de cutare. A doua se refera la faptul ca Google are n vedere detaliile vizuale ale prezentarii cum ar fi marimea fonturilor. Cuvintele scrise cu un font mai mare sau cu caractere ingrosate sunt percepute altfel decat celelalte cuvinte. A treia trasatura este aceea ca se tine o evidenta a intregului sir al paginilor HTML. Arhitectura Google Cea mai mare parte din Google este realizata n C sau C++ pentru eficienta i poate rula atat n Solaris, cat i n Linux. n Google parcurgerea web-ului (descrcarea de pagini) este fcut de mai multe crawlere diferite. Exista un server URL care trimite listele de URL-uri ce trebuie gsite de crawlere. Paginile web care sunt gsite sunt apoi returnate serverului de stocare, care le memoreaza. Acesta comprima paginile i le depune intr-o biblioteca. Orice pagina web are un numar de identificare numit docID, care este oferit ori de cate ori un nou URL este analizat i extras dintr-o pagina web. Functia de indexare este realizata de indexer i de sorter. Indexer-ul indeplineste o serie de functii. Citeste documentele din biblioteca, decomprima docu-mentele i le analizeaza. Fiecare document este convertit intr-o serie de asocieri de cuvinte numite hit-uri. Acestea inregistreaza cuvantul i pozitia sa n document, aproximeaza dimensiunea fontului i tipurile de litere folosite. Indexer-ul distribuie aceste hit-uri intr-o serie de categorii, creand un index partial dezvoltat de sortare. Indexer-ul mai indeplineste i o alta functie importanta. Anali-zeaza toate link-urile din fiecare pagina web i stocheaza informaii importante despre acestea intr-un fisier de link-uri. Acest fisier contine infor-matii suficiente pentru a stabili unde ne indreapta link-ul respectiv, precum i textul link-ului.

Figura 2.1 Arhitectura Google [8] Sistemul de analizare a URL-urilor citeste fisie-rul de link-uri i converteste URL-urile relative n URL-uri absolute si, respectiv, n docID-uri. Plasea-za textul link-ului n indexul initial care este asociat cu docID-ul la care se refera link-ul. Acesta gene-reaza de asemenea o baza de date de link-uri care nu sunt altceva decat corespondentele docID-urilor. Aceasta baza de link-uri este folosita pentru calcu-larea PageRank-urilor pentru toate documentele. Sorter-ul preia categoriile care sunt sortate de docID i le clasifica dupa wordID pentru a forma un index complementar (inverted index). Un pro-gram numit DumpLexicon preia aceasta lista mpreun cu lexiconul produs de indexer i formeaza un lexicon nou care poate fi utilizat de searcher. Searcher-ul este rulat de un server i foloseste lexiconul construit de DumpLexicon mpreun cu indexul complementar i PageRank pentru a raspunde intrebarilor. Structurile majore de date ale sistemului Structurile de date ale sistemului Google sunt optimizate astfel nct o colecie ampl de documente poate fi parcurs i indexat cu puin efort. Desi CPU-urile i majoritatea ratelor de input output s-au imbunatit, de-a lungul anilor o simpla cutare pe disc tot necesita 10 ms pentru a fi realizat. Google este proiectat sa evite acest gen de cautari de cate ori este posibil, iar acest lucru a

avut o influenta considerabila asupra formatului structurilor de date. Biblioteca motorului de cutare Biblioteca contine HTML-ul integral al fiecarei pagini web. Fiecare pagina este comprimata prin folosirea zlib. Optarea pentru o tehnica de compresie reprezinta echilibrul intre viteza i proportia comprimarii. Am ales viteza zlib dintr-o serie de imbunatatiri semnificative aduse comprimarii de bzip. Rata compresiei bzip era de aproximativ 4 la 1 n biblioteca, n comparatie cu zlib care oferea o rata de 3 la 1. n biblioteca, documentele sunt stocate unul dupa altul i sunt prefixate de docID, precizandu-lise lungimea i URL-ul. Biblioteca nu solicit alte structuri de date care sa fie folosite pentru ca aceasta sa fie accesata. Acest lucru contribuie la consistenta informatiei usurand dez-vol-tarea; putem reconstrui toate celelalte struc-turi de date doar din biblioteca i dintr-un fisier care listeaza erorile crawler-ului. Indexul documentelor Indexul documentelor pastreaza informaii despre fiecare document. Acesta este un index ISAM (Index sequential access mode) cu o latime fixa, ordonat de un docID. Informaia continuta de fiecare scurta introducere include statutul curent al documentului, un indicator ctre biblioteca, o evidenta a documentului i statistici variate. Daca documentul a fost parcurs atunci contine un indi-cator ctre un fisier cu multe variabile numit docinfo i care cuprinde URL-ul i titlul docu-mentului. n caz contrar, indicatorul se indreapta ctre lista URL-urilor care cuprinde numai URL-uri. Aceasta hotarare de design a fost luata n confor-mitate cu dorinta de a avea o structura compacta de date, precum i cu abilitatea de stabili un record de accesare unica a discului n timpul unei cautari. n plus, exista un fisier care este folosit n convertirea URL-urilor n docID-uri. Acesta contine o lista cu URL-uri mpreun cu docID-ul cores-pun-zator i este sortat de suma de control. Pentru a gsi docID-ul unui anume URL, suma de control a URL-ului este calculata i o cutare binara este realizata pe fisierul de sume de control pentru identificarea docID-ului. URL-urile pot fi convertite n docID-uri luand mai multe simultan prin alipirea la acest fisier. Aceasta este tehnica pe care cel ce solutioneaza URL-uri o foloseste pentru a trans-forma URL-urile n docID-uri. Aceasta metod de abordare este importanta pentru c altfel trebuie sa efectum o cutare pentru fiecare link care, inand cont de disc, ar dura mai mult de o luna pentru o baz de 322 milioane de link-uri.

Listele de hit-uri O list de hit-uri corespunde unei liste de aparitii ale unui anumit cuvant intr-un document, incluzand informaii despre pozitia, fontul i tipul de litera folosit. Listele de hit-uri explica cea mai mare parte a spatiului utilizat atat n indicele primar (forward index), cat i n indicele comple-mentar (inverted index). Din aceasta cauza, este important sa le repre-zentam cat mai eficient posibil. Am luat n calcul mai multe alternative pentru pozitia de codificare, font i tipul de litera codificarea simpla (un grup de trei numere inetgrale), codificarea compacta (o serie de biti optimizati manual) i codificarea Huffmann. n final, am ales codificarea compact optimizat manual deoarece necesit de departe mai puin spaiu decat codificarea simpl i mult mai puina manipulare a biilor decat codificarea Huffmann. Codificarea compact folosete doi bii pentru fiecare hit. Exist doua tipuri de hit-uri: hit-uri complexe (fancy hits) i hit-uri simple (plain hits). Hit-urile complexe includ aparitia hit-urilor intr-un URL, titlu, textul link-ului sau meta tag. Hit-urile simple includ restul. Un hit simplu consta dintr-un bit referitor la tipul de litera, marimea fontului i 12 biti de pozitii ale cuvantului intr-un document (toate pozitiile ce depasesc 4095 sunt catalogate 4096). Marimea fontului este reprezentata relativ fata de restul documentului utilizand 3 biti (doar 7 valori sunt de fapt folosite deoarece 111 este simbolul care semnaleaza aparitia unui hit com-plex). Un hit complex consta intr-un bit referitor la tipul de litera, marimea fontului este setata la 7 pentru a indica ca este vorba de un hit complex, 4 biti pentru codificarea tipului de hit complex i 8 biti de pozitie. Pentru hit-urile de tip anchor, cei 8 biti ai pozitiei sunt impartiti n 4 biti pentru pozitie n link i 4 biti pentru continutul docID-ului n care link-ul apare. Aceasta ne ofera o sintagma redusa de cutare din moment ce nu exista multe link-uri pentru un anumit cuvant. Trebuie sa actualizam metoda de stocare a hit-urilor anchor pentru permiterea unei rezolutii mai mari n cadrul pozitiei i campurilor de docID-uri. Folosim mari-mea fontului n legatura cu restul documentului deoarece, atunci cand cautam, nu dorim listarea diferita a unor documente identice doar pentru ca unul din documente este scris cu un font mai mare. Lungimea unei liste de hit-uri este stocata inainte chiar de hit-urile n sine. Pentru a economisi spatiu, lungimea listei de hit-uri este combinata cu wordID-ul n indexul primar i cu docID-ul n indexul complementar. Acest lucru o limiteaza la 8 i respectiv 5 biti (exista o serie de trucuri care permit ca 8 biti sa fie imprumutati din wordID). Daca lungimea este mai mare i nu se poate incadra n respectivii biti, atunci un cod de rezerva este folosit n acesti biti, iar urmatorii 2 biti vor contine lungimea actuala.

Indexul primar al paginilor Web Indexul primar este deja parial sortat i este stocat intr-o serie de categorii (am folosit 64). Fiecare categorie contine o serie de wordID-uri. Daca un document contine cuvinte care tin de un anumit barrel, docID-ul este intregistrat n cate-gorie urmat de o list de wordID-uri cu liste de hit-uri care corespund cuvintelor respective. Aceasta schema necesita mai mult spatiu de stocare din cauza docID-urilor duplicate, dar diferenta este foarte mica pentru un numar considerabil de categorii i economiseste timp i complexitate de codificare n faza finala de indexare fcut de sorter. Mergand mai departe, n loc de a stoca wordID-urile actuale, stocam fiecare wordID ca o diferenta relativa de la wordID-ul minim care se gaseste n categoria n care se afla i wordID-ul. Astfel, putem folosi 24 biti pentru wordID-uri n categorii nesortate, lasand 8 biti pentru lungimea listelor de hit-uri. Indexul complementar al paginilor Web Indexul complementar const din aceleasi categorii ca i indexul primar, cu diferenta ca aces-tea au fost procesate de sorter. Pentru fiecare wordID valid, lexiconul contine un indicator ctre categoria n care wordID-ul este inclus. Acest indicator se refera la o list de docID-uri luate mpreun cu listele de hit-uri corespunzatoare. Aceasta list reprezinta toate aparitiile acelui cuvant n toate documentele. Pentru a pacurge sute de milioane de pagini web, Google are un sistem rapid (fast distributed crawling). Un singur server URL ofera liste de URL-uri unui numar de crawlers (in general folosim n jur de 3). Atat server-ul URL, cat i crawler-ele sunt realizate n Python. Fiecare crawler tine n jur de 300 de conexiuni (connections) deschise simultan. Acest lucru este necesar pentru regsirea paginilor web la o viteza suficient de rapida. La viteze mari sistemul poate sa parcurga peste 100 de pagini pe secunda utilizand 4 crawlere. Acesta se ridica la aproximativ 600K de date pe secunda. O actiune importanta este reprezentata de verificarea DNS. Fiecare crawler mentine un cache DNS propriu, astfel ca nu este nevoie sa se faca un control DNS inainte de parcurgerea fiecarui document. Fiecare dintre sutele de conexiuni se poate afla n stadii diverse: verificarea DNS, conectarea la gazda, transmiterea solicitarilor i primirea raspunsurilor. Acesti factori fac din crawler o componenta complexa a sistemului. Acesta foloseste IO asincron pentru a face fata solicitarilor i un numar de secvente pentru mutarea preluarilor de pagini din sectiune n sectiune. Se adevereste astfel c rularea unui crawler care se conecteaza la mai mult de jumatate de milion de servere i care genereaza zeci de milioane de fisiere jurnal implica o cantitate considerabila de e-mailuri i apeluri telefonice. Datorit numarului mare de persoane care sunt online, exista intotdeauna aceia care nu stiu ce este un crawler deoarece acesta este primul pe care il vad. Datorit

variatiei ridicate n paginile web i n servere, este practic imposibil sa testezi un crawler fara sa-l rulezi pe o parte considerabila a Internetului. Invariabil, apar sute de probleme obscure care se pot ivi pe o singura pagina din tot web-ul i pot cauza distrugerea crawler-ului sau mai rau, poate cauza o reactie imprevizibila sau incorecta. Sistemele care acceseaza parti mari din Internet trebuie sa fie foarte solide i testate cu multa atentie. Din moment ce sistemele complexe cum sunt crawler-ele vor duce n mod invariabil la aparitia problemelor, trebuie sa existe resurse semnificative dedicate citirii de e-mail-uri i rezolvarii problemelor din momentul n care acestea apar. Porcesul de cutare Scopul cutarii este acela de a oferi rezultate concludente n timp util. Multe dintre motoarele de cutare comerciale par sa fi facut progrese considerabile din punct de vedere al eficientei. De aceea, ne concentram mai mult pe calitate n cercetarea noastra, desi suntem de parere ca solutiile noastre se afla, cu puin mai mult efort, n progresie cu volumele comerciale. Procesul de evaluare al unei interogari Google este indicat de Figura 4. Pentru marcarea unei limite a timpului de raspuns, odata ce un anumit numar de documente care se potrivesc cu interogarea (40.000 de obicei) este gsit, cel care a initiat cutarea poate merge direct la punctul 8 din Figura 4. Aceasta inseamna ca este posibil ca rezultate neconcludente sa fie oferite n schimb. n prezent, investigam alte metode pentru rezolvarea acestei probleme. n trecut, am sortat hiturile n concordanta cu PageRank, lucru care pare sa fi imbunatatit situatia. Sistemul de clasificare al paginilor Web Google pstreaza mult mai multe informaii despre documentele web decat motoarele tipice de cutare. Fiecare list de hit-uri include pozitia, fontul i informaii despre tipul de litera folosit. n plus, luam n calcul hit-urile dupa textul link-ului i PageRank-ul documentului. Combinarea tuturor acestor informaii intr-un singur rezultat este dificila. Am conceput functia de ordonare astfel incat nici un factor particular sa nu aiba o influenta prea mare. Sa luam mai intai cazul cel mai simplu - o interogare cu un singur cuvant. Pentru afisarea unui document folosind o interogare cu un singur cuvant, Google parcurge toate listele de hit-uri ale documentului pentru cuvantul respectiv. Google considera fiecare hit ca apartinand unuia dintre diversele tipuri (titlu, link, URL, fonturi mari i fonturi mici de text simplu etc.), fiecare dintre acestea avand grade diferite de importanta n functie de tipul din care face parte. Aceste grade de importanta formeaza un vector indexat n functie de tip. Google numara hit-urile fiecarui tip din list de

hit-uri. Apoi fiecare pozitie este reorganizata intr-un clasament n functie de importanta. Gradele de importanta cresc liniar n functie de primele pozitii, dar se reduc repede astfel incat este relevant numai un anume numar de aparitii. Este preluat produsul scalar al vectorului de ponderi de aparitii mpreun cu vectorul de ponderi de tipuri pentru a calcula un scor IR al documentului. n final, scorul IR este combinat cu PageRank pentru a oferi un rezultat final al documentului. Pentru o interogare alcatuita din mai multe cuvinte, situatia este i mai complicata. n acest caz, listele multiple de hit-uri trebuie parcurse simultan astfel incat hit-urile care sunt apropiate intr-un document sunt plasate pe pozitii superioare fata de cele care sunt departate unele de altele. Hit-urile din listele multiple sunt potrivite astfel incat hit-urile apropiate sunt puse mpreun. Pentru fiecare set de potriviri de hit-uri, se calculeaza o apropiere. Aceasta apropiere se bazeaza pe cat de departate sunt hiturile n cadrul documentului (sau link-ului), dar este clasificata n 10 clase cu valori diferite, mergand de la o sintagma apropiata pana la nu foarte aproape'. Se fac contorizari nu numai pentru fiecare tip de hit, dar i pentru fiecare tip i apropiere. Fiecare pereche de tip i apropiere are o pondere tip-apropiere. Contorizarile sunt clasificate n functie de ponderile de aparitii i este preluat produsul scalar pentru ponderile de aparitii i ponderile de tip-apropiere pentru realizarea unui scor IR. Toate aceste numere i matrice pot fi afisate odata cu rezultatele cautarii folosind o metoda speciala de corectare. Toate aceste afisari sunt de foarte mare ajutor n dezvoltarea sistemului de ordonare.

Directoarele Web
Un serviciu de directoare web (numit uneori i subject directory- director de subiecte) este o colecie de pagini Web selecionate i organizate ierarhic n categorii de subiecte de ctre un editor uman. Mai mult, un concept i mai selectiv este cel de bibliotec virtual, care este un director web ce include legturi spre pagini cu informaie de nalt specializare, pe domenii alese de editor (bibliotecarul virtual). Este evident faptul c serviciile de directoare acoper i indexeaz o poriune mult mai mic din paginile WEB existente, comparativ cu motoarele de cutare. Dar folosirea lor poate duce la regsirea unor rezultate ale cutrii mult mai relevante pentru utilizator. Cele mai extinse servicii de directoare web indexeaz cel mult cteva milioane de pagini, comparativ cu cele cteva miliarde indexate de ctre motoarele de cutare mai importante. Serviciile de directoare NU interogheaz direct paginile WEB, ci caut mai degrab n interiorul bazei lor de date. Din acest motiv, rezultatul cutrii poate duce la returnarea unor rezultate expirate, care uneori nu mai au relevan, pagina original suferind ntre timp schmbri majore de coninut sau chiar putnd s dispar. Trebuie menionat ns c o serie de motoare de cutare sunt de fapt unelte hibride, fiind n

acelaii timp att motoare de cutare ct i servicii de directoare (Google, de exemplu, unul dintre cele mai cunoscute motoare de cutare, are i un serviciu de directoare, bazat pe soluia Open Directory Project).

Figura 2.2 Serviciul de directoare Open Directory Project

Dintre serviciile de directoare Web, mai cunoscute sunt cele de mai jos: 1. Yahoo! (www.yahoo.com) 2. Google Directory (www.google.com) 3. Open Directory Project (ODP) (http://dmoz.org) 4. Zeal (www.zeal.com) 5. JoeAnt (www.joeant.com) 6. Gimpsy (www.gimpsy.com) n Anexa B sunt prezentate mai detaliat cele mai populare directoare Web.

Medote de optimizare i promovare a site-urilor n Web

Marketingul motoarelor de cutare


Search Engine Marketing (SEM) reuneste un numar de servicii i produse de web marketing. La baza acestui concept stau managementul informatiei prezentate de ctre motoarele de cutare i modalitatea de inscriere a acesteia n directoarele web. Strategiile SEM includ metode specifice SEO (Search Engine Optimization) i programele afiliate. SEO (Serch Engine Optimization) reprezinta suma procedeelor care determina afisarea unui site n lista generata de motoarele de cutare pentru cautari specifice, definitorii profilului site-ului n cauza. n mediul on-line toate activitile de promovare care implic motoarele de cutare intr n categoria marketingului motoarelor de cutare (Search Engine Marketing, SEM pe scurt). Promovarea unei organizaii/produs/ brand cu motoarele de cutare este important n primul rnd pentru c este o metod neintruziv de marketing on-line: nu ntrerupe n nici un fel activitatea navigatorului (vizitatorul primete ceea ce caut, n momentul n care caut). n al doilea rnd, este o metod bazat n ntregime pe voluntariatul utilizatorului de Internet. Acesta decide ce legtur urmeaz. n al treilea rnd, permite o identificare a organizaiei/produsului/brandului ct mai uoar, oferind posibilitatea de a cere detalii. i, nu n ultimul rnd, SEM-ul este folosit att pentru atragerea de noi clieni, ct i pentru pstrarea celor existeni, deoarece un site de succes, care s atrag ct mai muli vizitatori i s-i determine s revin, presupune furnizarea de informaii utile i de calitate, actualizare permanent a continutului, navigare uoar, ncrcare i feedback rapid. Marketingul motoarelor de cutare cuprinde o serie de metode, dintre care cele mai importante sunt:
a) Search Engine Submissions (SES nscrierea n motoarele de cutare) cuprinde

serviciile necesare nscrierii web site-ului n toate motoarele de cutare majore.


b) Search Engine Optimization (SEO - Optimizarea pentru motoarele de cutare) se refer

la poziionarea de top n motoarele de cutare. SEO este doar o parte a strategiei de promovare pe Internet, ns este cea mai important.
c) Site Linking and Link Popularity (SLLP - Legarea ctre alte web site-uri i popularitatea

web site-ului pe motoarele de cutare i pe Internet) strategiile pentru legturi aduc mai mult trafic i ridic clasificarea n motoarele de cutare.

d) Search Engine Ranking Reports (SER - Raportarea clasrii n motoarele de cutare)

cum este clasificat i ce poziie ocup website-ul n motoarle de cutare. n ceea ce privete implicarea n sectorul de business, studii recente au constatat c utilizarea motoarelor de cutare este pilonul pe care se sprijin luarea unei decizii de cumprare, att la nivel de afacere ct i la nivel de utilizator[12]. n continuare sunt prezentate principalele programe afiliere (Figura 3.1): 1. CPA Cost Per Action: vei fi platit de fiecare data cand un vizitator care ajunge de pe siteul propriu pe cel al advertiser-ului completeaza o actiune predefinita (o vanzare sau inscrierea pe o list). 2. CPM Cost Per Thousand Impressions (M este 1000 n Latina): esti platit pentru fiecare 1000 de vizitatori care vad pagina pe care se afla un banner al advertiser-ului. Functioneaza cel mai bine pentru site-uri cu subiect general i foarte multi vizitatori. 3. CPC Cost Per Click: plata se face pentru oricare vizitator trimis pe site-ul advertiser-ului de pe site-ul tau prin intermediul unui banner sau unui link. Aceast metoda functioneaza cel mai bine pe un site cu un subiect bine definit.

Figura 3.1 Programele afiliere

Optimizarea pentru motoarele de cutare


"Optimizare pentru motoarele de cutare" provine din englezescul "Search engine optimization" sau SEO i a aparut dupa dezvoltarea rapida a internetului, n anii 90. Serviciul a aparut urmarea a numarului crescut al paginilor web, i a concurentei din ce n ce mai ridicate n spatiul virtual. Scopul optimizarii web este acela de a pozitiona pagina web cat mai aproape de primul loc n rezultatele motoarelor de cutare, pentru anumite cuvinte cheie. n functie de concurenta, o campanie

SEO considerata reusita pozitioneaza un site intre pozitiile 30 i 1. Beneficiul major al unei campanii SEO il reprezinta cresterea n mod natural a numarului de vizitatori vizati, vizitatori care e posibil sa fie convertiti n clienti mult mai usor decat pe cale artificiala.

Factorii ce influeneaz poziionarea n motoare de cutare


Optimizarea pentru motoarele de cutare poate fi determinat ca modificarile facute n pagina web, scopul fiind clar ca pagina sa se plaseze n topul rezultatelor motareler de cutare. nsa este o linie invizibila ce disparte optimizare de spam al motorului de cuatre. Orace pagine ce este supus optimizarii nu trebuie s fac abuz asa precum sa nu fie interpret de motarele de cutare ca spam.Dac pagina web o s fie interpretat de motorul de cutare ca spam ultima poate sa fie penalizat.Pagina poate s fie exclus din indexul motoruli de cutare i ca reyultaat nu va fi vizitat de Crawler i evident ca nu va apare n rezultatele afiate de motorul de cutare, att timp pina nu va fi adugat din nou n index. Optmizarea motorului de cutare se poate mpari n dou categorii: 1. Optimizarea paginii web 2. Optimizarea site-lui web Aceste categorii sunt dependente receproc. Toi factorii n cadrul fiecarii categorii trebuie s fie echilibrai pentru a obine o optimizare cuvenit al site-lui web. Factorii ce faciliteaz un plasament mai bun al paginii web n rezultatele motarelor de cutare: 1. Cuvintele cheie 2. Tagul Title 3. Tagurile Meta 4. Textul din corpul paginii 5. Tagul Alt 6. Tagurile H1-H6 7. Bara de meniu 8. Analiza densitii cuvintelor cheie 9. Validarea codului HTML 10. URL-uri relative i absolute 11. Tabele n cod HTML

Factorii ce duc nemijlocit la un plasamnet mai bun al site-lui web n topul motorului de cutare: 1. Sitemap 2. Linkurile Inbound 3. Linkurile Outbound 4. Construirea legturilor 5. Numele domeniului 6. Pagina de eroare 404 7. Pagina de redirectare 301 8. Fiierul Robots.txt 9. Search engine submission 10. Analiza vizitatorilor Aceti factori nu sunt discutai n nici o comanda. Fiecare factor este important i are un rol important la plasamentul sute-liu n plasamentul motorului de cutare. Cuvintele cheie Cuvintele cheie se defeniesc ca fiind cererile utilizatorilor ctre motorul de cutare pentru a gsi informaia de care au nevoie. Cercetrile trebuie efectuate pentru a determina cei mai folosii termeni de cutare i acei termeni ce sunt utilizai rar. Odat determinati cuvintele cheie trebuie utilizai n pagina ins fara a face abuzz pentru motarele de cutare.Motarele de cuatare sunt dui n eroare prin marirea densitaii al cuvintelor cheie. [15]. O densitate mai mare a cuvintelor cheie pot aduce la o relevana mai mare. Este de dorit de a cumpra domain name pentru site astfle nct sa fie identic cu cuvntul cheie. Aa precum nomele domeniului este primul factor luat n consideraie de ctre algoritmii motareleor de cutare ce determin relevana site-lui web. O surs bun pentru a identifica cuvintele cheie este www.wordtracker.com. Wordtracker ofer presupuneri pe baza a mai mult de 300 milioane de cuvinte cheie. Seface o statistic dupa rezultatele a 120 de zile unde se ia n consideraie numarul de cuvinte cheie i numarul de apariii presupuse. Tag-ul Title Tag-ul Title este o component foarte important pentru algoritmii de relevan a motarelor de cutare, pentru a determina plasamentul. De asemenea este utlizat de motarele de cutare la afiarea

rezultatelor cutarii . Tagul trebuie s fie calitativ , adic probalilitatea de cutare a anume acest tag Title sa tind la maxim.n acelai timp tagul trebuie s reflecte inforamaia complet ce este disponibil pe pagina web ca utilizatorul sa fie captivate a face clic anume pe lincul acesta. Este binevenit sa fie mai multe taguri Title diferite n cadrul unui site, aa precum tagul Title sa reflecte la maxim coninitul paginii web.

Figura 3.2 - Relaia dintre Tagul Title i motorul de cutare Tag-urile Meta Etichetele Meta sunt acele informaii care sunt situate n zona de nceput a paginii web. Aceste informaii, spre deosebire de titlul paginii, nu sunt vizibile i nici interesante pentru utilizatori. Cteva exemple: 1.
<HEAD> <TITLE>Stamp Collecting World</TITLE> <META name="description" content="Everything you wanted to know about stamps, from prices to history."> <META </HEAD> name="keywords" content="stamps, stamp collecting, stamp history, prices, stamps for sale">

2.

<HEAD> <TITLE>Page I Don't Want n Search Engines</TITLE> <META NAME="ROBOTS" CONTENT="NOINDEX"> </HEAD>

Dup cum putem observa aceast zon conine mai multe seciuni, toate cuprinse ntre etichetele
<HEAD>(pentru

nceputul zonei) i </HEAD>(pentru sfritul zonei).

Etichetele <TITLE > i </TITLE> delimiteaz zona n care se afl titlul HTML, titlu care va aprea n bara de sus a ferestrei n care este deschis pagina web, dar i n lista de pagini favorite. De asemenea acesta mai apare i n titlul paginii respective din lista de rezultate, precum putem vedea n urmatorul exemplu, n care, n lista de rezultate(listat de Teoma) apare o anume pagin despre etichetele Meta, pagin care are titlul: De exemplu al site-ului:
http://www.searchenginewatch.com

Precum am spus i mai sus, titlul HTML este un element principal pentru motoarele de cutare n vederea deciderii votului pentru relevana paginii. [17]. Etichetele Meta de descriere sunt de asemenea foarte importante deoarece permit descrierea paginii pentru sistemele care suport eticheta(majoritatea motoarelor suport, ns, cele care folosesc cel mai mult aceast etichet sunt AltaVista, AllTheWeb i Teoma. Se poate da i un contraexemplu: Google nu ia n considerare aceste etichete). Aceasta etichet este reprezentat de cuvintele
<name="description"> <content=>

iar descrierea n sine trebuie scris n interiorul ghilimelelor dup cuvantul

coninnd n general ntre 200 i 250 de caractere. Descrierea va aprea de asemenea,

dup cum se poate observa i n exemplul de mai sus, n lista de rezultate, sub titlul HTML al paginii. Un alt element al exemplului de mai sus este eticheta Meta de cuvinte cheie. Aceasta ajut, doar la unele motoare (Inktomi, Teoma), prin faptul c permite adugarea de text descriptiv sistemului pe lang coninutul paginii respective. Trebuie menionat c aceast etichet va fi folosit doar pentru adugarea unor cuvinte care nu apar n coninutul paginii. La fel ca mai sus, n exemplu, eticheta Meta de cuvinte cheie este reprezentata de grupul <name="keywords">, iar cuvintele cheie propriu-zise sunt scrise ntre ghilimele dup < content=>. Etichetele Meta roboi sunt de asemenea foarte folosite, de aceea merit s le menionez n aceast scurt list. Aceste etichete sunt folosite pentru a specifica faptul c o anumit pagin nu dorim s fie indexat, de aceea majoritatea sistemelor de cutare folosesc aceast etichet. De aceea titlul paginii este n concordan cu aceasta idee. Precum n cazurile precedente, eticheta n sine este reprezentat prin grupul: < NAME="ROBOTS" >.

Textul Body Body text, motoarele de cutare au obinuin sa le plac codul pur HTML. Termenul falsificare este folosit n contextul codului JavaScript inplementat, Flash i Image files motarele de cutare nici nu se starue a le interpreta nectind c aici ar pute fi o densitate sporit de Key terms. Ca exemplu logo- le i banerile al site-lor web unde n marea majoritate a cazurilor figureaz numele domenului i Key terms.Cum am menionat mai sus Key terms i numele domenului joc un rol important pentru clasament , dar din pcate nu este interpretat coninutul acestora de majoaritatea motarelpr de cutare. Vorbind mai simplu ce nu interpreteaza motorul de cutare tot asta nu exista pentru el .Aceste conditii desugur nu se refr la utilizatorii ce accesaz pajina, nsa pentru crawler este regul! Textul din Flahs este interpretat doar de FAST Alltheweb.com. nici care alt motor de cutare nu face acest lucru precum i nu citete lincurile din Flash [9]. Asemenia lucruri se petrece cu codul JavaScript, incadrat n fiiere HTML.Majoritatea motarelor de cutare ignora codul JavaScript i lincurile in cadrul acestiu cod [10]. Alt factor pentru interpretarea cuvintelor cheie ce figureaz n body text, cu ct este mai mare densitatea acestora cu atit este mai preeminc coninutl raportat la cuvintele cheie. Dac am memorat factorii menionai mai sus putem elabora o strategie. n continuare vor fi descrise cteva puncte: 1. Codul JavaScript trebuie inclus n fiier aparte. Aceasta e ste posibil prin utilizarea tagului
<SCRIPT LANGUAGE="JavaScript" SRC="myJavaScript.js"></SCRIPT>

html

2. Este nevoie de minimizat numarul de utilizari al Flash n cadrul unei pagini web. 3. Permanent trebuie de losit ALT atribute n IMG tags. HTML IMG tag este <img src="myImage.gif" alt="My Image" />. Aceasta este forma general a tgului. n scopuri de optimizare cred c ar fi mai bine de folosit <img alt="My Image" src="myImage.gif" /> scopul ar fi de a deplasa fraza ct este de posibil mai aproape de inceputul fiierului HTML , pentru ca n pagina web s fie marit densitatea cuvintelor cheie. 4. Listele de stiluri sunt utilizate oproape de fiecare site pentru a inbuntai designul paginii web. Aceasta ar putea influna benefic asupra utilizatorului aa cum utilizatorul poate gsi designul paginii plcut i agriabil. Coninutul paginii web poate fi optimizat prin a include fiierul CSS utilizind LINK HTML tag:
<LINK href="myStyleSheet.css" rel="stylesheet" type="text/css">

5. Tagurile Heading de asemenea joac un rol important n coninutul paginii web.Este de dorit a include cuvintele cheie n interiorul H1 ...H6, deoarece 1-6 determin nsentatea

heading-liu. Utilizarea Font faces like bold, italic i underline indic insemnatatea textului i este recomandat de a folosi este coninut bogat 200-250 cuvinte [11]. Bara de meniu Bara de meniu este legat de obicei cu cele mai importante pagini de pe site. Aa precum aproape fiecare pagin n cadrul site-lui dispune de meniu i prin intermediul linkurilor au legatur cu meniul. Acest fapt mrete popularitatea acestor pagini n cadrul site-lui web. Aceste pagini trebuie s aiba un coninut bogat. Aceti factori bineneles au o influen benefic la plasamnetul site-lui n topul motarelor de cutare. Analiza desitii Cuvintelor Cheie Fiecare motor de cutare deine algoritmi proprii de analiz a densitaii cuvintelor cheie (keywords). Unele motare de cutare accept o densitate mai mare a cuvintelor cheie n cadrul paginii web. Pe cnd altele, ca de exepmlu Google, pun restricii mai reguroase la ce privete densitatea acestora. Plasamentul cuvintelor cheie n diferite poriuni de pagin web are efect diferit. Densitatea cuvintelor cheie exagerat va fi interpretat de motorul de cutare ca spam i site-ul va fi penalizat. Google admite ca cel mult 2% din tot textul paginii s fie calificat ca cuvinte cheie. Pe cnd Yahoo i MSN Search admit ca densitatea cuvintelor cheie s nu depaeasc 5% [12]. Un instrumentariu gratis pentru a verifica densitatea cuvintelor cheie n cadrul paginii web este diponibil la www.searchengineworld.com/cgi-bin/kwda.cgi Verificarea corectitudinea codului HTML Esre forte bine ca codul HTML s fie verificat nainte de a fi prezentat motareleor de cutare. Chear dac pagina vizual pare corect aceasta poate sa aiba erori de sintas, ce vor fi ignorate de brauzericum ar fi Internet Explorer. Servicul gratuir disponibil pentru verificarea corectitudinii sintasei n cadrul unei pagini web este disponibila pe validator.w3.org. Acest utilitar verific W3C XHTML 1.0 i returneaz un mesaj detliat. Alt utilitar pentru verificarea corectetudinii de stiluluri este disponibil la: http://jigsaw.w3.org/css-validator/ URL-ul absolut i cel relativ Crawler-ul motarelor de cutare prefer URL-ul absolut inpotriva celiu relative. Crawler le motorelor de cutare pot ignora indexarea pajinilor web dac se foloseste URL relativ. URL absolut

considerabil micoreaz flexibilitatea site-lor web ce ii schimb numele domenului. Asta se poate depai dac folosim o variabil global, ce va conine numele domenului site-lui web, pentru generarea URL absolut n cadrul site-lui web. Tabele n cod HTML Tabelele sunt utilizate la construcia paginilor web, pentru a face aplasamentul blocurilor mai organizate. Unii proectani web utilizaz tabele n cadrul altor tabele, cu scop de simplificarea structurii paginii ce uureaza deservirea acestei pagini.Aceasta duce la marira volumului textului necorespunzator coninutului, ce duce la micorarea densitaii al cuvintelor cheie. Multe site-uri aplaseaz meniul meniul n partea sting sau n partea de sus.Aa aplasament al meniuliu de asemenea poate duce la micsorarea densitaii cuvintelro cheie. Sitemap Sitemap al paginii web este pagina cu referine la fiecare pagin web din cadrul site-lui. Aceas pagin are o insemntate deosebit n cadrul site-lui web. Odat ce Sitemap a fost vitit de spider ne putem convinge de faptul c a fost indexat tot site-ul pagin cu pagin. La proectarea Sitemap este bine de reinut. Sitemap-ul trebuie neaprat s conin tag-uri de ancorare HTML. Rferinele (link) textuale trebuie s conin cuvinte cheie, ce in de adresa paginii web. Textul referiei poate conine coninefraz identic ca i TITLE tag. Textul referinei este important aa precum indic, coninutul paginii la care face referina. Textul referinei este important i din cauza c este luat n consideraie de de algoritmii de relevan al motarelor de cutare. Sitemap-ul trebuie s fie vizibil pentru motarele de cutare. Asta nsaman c ar trebui s existe referine de la ficare pagina web la Sitemap i c crawler trebuie s aib permisiune de a indexa Sitemap. O referin tipic la Sitemap poate fi modelat conform exeplului ce urmeaz <a href=http://mysite.com/gallery.htm>Gallery</a> De evitat : JavaScrip n anchor tag <a href=# onclick=gotoURL(gallery)>Gallery</a> Flash n sitemap Imagini n loc de textul referinei <a href=http://mysite.com/gallery.htm>

<img alt=Gallery src=gallery.gif /> </a> Text ce nu corespunde referinei <a href=http://mysite.com/gallery.htm>Apasa aici</a> Dac sitemap-ul conine mai mult de 100.000 de referin, sau fiierul este mai mare de 10MB, e cazul a separa sitemap n mai multe pagini diferite. Un ghid util la construcia sitemap-lor este prezentat de Google i este disponibil la http://www.google.com/webmasters/sitemaps/docs/en/about.html. Este preferabil de a ine cont de indicaiile cnd crem un sitemap. Linkurile Inbound Pentru Google referinele Inbound links determin PageRank-ul site-lui web. Fr referinele Inbound links orce site web este practic invizibil pentru motarele de cutare. Unica cale pentru crowlr-ul motarelor de cutare spre un site web este de a urma referinele Inbound links primite de la un alt site web deja indexat. O alternativ ar fi o prezentare manual pentru crawler. Dei acest procedeu este binevenit n acelaii timp nu garanteaza rezultat sigur ca site-ul web va fi totui indexat. Referinele Inbound links din urmatorele surse contribue la un plasament mai favorabil la motarele de cutare: 1. 2. 3. 4. Toate catoalogele majore i cele locale Yahoo, DMOZ, LookSmart, trade, business i directoarele industriale. Furnizori, clienii mulumii precum i partenerii. Site-urile web, ce ofer servicii de sustinere.De exeplu. Site web ce ofer hosting pentru site web. Site-uri ce au legaturi, insa nici decum cele concurente. De exeplu site-uri ce ofera programe de instruire pentru web-design. ns trebuie s nelegem c nu orice Inbound links au aceai pondere. Evident c Inbound links sosit de la un site web industrial autoritar are o pondere mai mare ca acel sosit de la un mic site web particular. Unele referine pot s aib efect invers ( negativ ) pentru PageRank. 1. Link-uri de la FFA (gratis pentru toi ) fac legturi ntre pagini. 2. Link-uri de la ferme. 3. Link-uri de la paginile doorway. Paginile doorway sunt pagini web create cu scop de a genera referine de linkuri Inbound de la

site-uri web. Aceste induc n eroare crawler-ul motarelor de cutare ce duce la un plasament mai bun caz n care nu a fost detectat spamul. Link-uri de pe forumurile de discuie Forumurile de asemenea pot folosi abuziv linkurile pentru a mri numrul de linkuri Inbound. Majoritatea motareleor detecteaz spamul intenionat i abuziv ce are scop de a mri plasamentul. Ca urmare site-urile detectate cu un comportament inadecvat sunt lipsii de dreptul de indexare. Linkurile Outbound Linkurile Outbound pot influina benefic asupra plasamentului site-lui web atit timp ct referinele indic la site-uri bune[10]. Site-uri bune pot fi considerate de exeplu situri web industriale ce au fost caracterizate ca site-ri ce merit ncredere. Unile site web practic un comortament ne estetic maschind URL ul lincurilor Outbound, folosind cod JavaScipt sau utilizind NOINDEX NOFOLLOW n tagul robot din Meta Tag. Trebuie de evitat site-urile ce practica mascarea URL pentru ca pote s ne joace un rol prost n plasament. Eroarea 404 Eroarea 404 indic c pagina Web nu pote fi gsit. Spider-ul primiete acest raspuns de la server ca urmare a cererii de URL. Aceast pagina web obine o relevan scazut. Mai mult ca att spider-ul nu mai face ncercri de a accesa aceast pagina web. Redecionarea 301 Rederecionarea 301 pentru spidere i vizitarori, este o starategie prietenoas pentru a redireciona o pagin web la alta. Este susinut de serverile Apache. 301 redirecionare este implementat specificnd URL-ul surs i cel a destintarului n fiierul .htaccess. Rderictionarea 301 este interpretat ca deplasare pemanent moved permanently. Acest procedeu trebuie s asigure stabilitate n PageRank pentru site. Googele interpreteaz http://www.mysite.com i http://mysite.com ca URL uri diferite ca rezultat Google indic relevan diferit pentru acelesi pagini web n dependen dac persist www n numele domenuliu. Acasta presupune ca relevana pentru mysite.com va fi distribuit ntre http://mysite.com i http://www.mysite.com ca URL-ri separate.Deci efecutarea redirecionrii 301 de la http://mysite.com la Robots.txt (standard de excludere a roboilor) este un fiier cu un set de instruiuni ce specific crawler-ul de a ignora paginile web. La acelai efect se pote de ajuns utiliznd Robots meta tag.

Diferena consta n faptul ca Robots.txt este fisier cu locaie centralizat ce determin instrutiunile ce pot reduce deservirea. Fiierul Robots.txt permite de a bloca anumite directorii pentru indexare. Aceasta este de fols paginilor web cu member access web pages. Un instrument gratuity este disponibil la www.searchengineworld.com/cgi-bin/robotcheck.cgi. Validarea robots.txt este imortant ca acesta pote fi cauza ca pagina web este indexat ori din contra inaccesibil pentru spider. 1. Prezentarea site-lui. 2. Lista de control a site-urilor web. 3. Site-ul este finisat i optimizat. 4. Codul HTML este validat. 5. Au fost stabilite linkurile de intrare . 6. Descrierea site-lui web n mai puin de 25 de cuvinte cu nu mai mult de 2-3 cvinte cheie. 7. Lista cuvintelor cheie. 8. Adres de email, preferabil cu acelai nume al domenului ca i situl web, pentru raspunsuri de notificare de exemplu submit@mysite.com. Nu este necesar de a prezenta fiecare pagin pe site. Multe motare de cutare prefer doar prezentare pentru paginile dint top. Prezentare manual este mai preferabil ca cea automat. Majoritatea motarelor ofer recomndari pentru aseminea prezentri. Este nevoie de a le studia atent nainte de a purcede la prezentarea propriu zis. Deseori preyentarea site-lui web este nterpretat de motor de cutare ca spam. i pote cauza penlitai din partea motorului de cutare. Reese c situl trebuie prezentat dor odate pentru fiecare motor de cutare. Dup ce a fost efectuat prezentarea se recomand de a verifica email unde pot sa vina raport despre o prezentare nereuit cu indicaii despre greelele comise ce necesita corectare. Mai mult ca att unele motare de cutare vac verificarea corectitudinii adresei dupa fiecare prezentare. De asemenea este preferabil ca sitemap-ul s fie prezentat la n Google. Acest tip de prezentare inbuntete parcurgerea de ctre crawler, ce pote aduce la rezultate noi i mai bune. Analiza vizitatorilor este o parte important n deservirea site-lui web. www.statcounter.com (29 US$ lunar ) este un serviciu contra plat ce ofer servicii de statistic a site-lui. Statistica include aa parametri cum ar fi poziionarea geografic a vizitatorului, cuvintele cheie utilizate, paginile web populare, sitem de operare, rezoluia monitorului, precum i timpul petrecut pe pagina i orele de cu cea mai mare densitate de vizitatori pentru fiecare zi.Aa informaie poate fi defolos pentru a crea condiii favorabile grupurilor de vizitatori, ce ar duce la faptul c vizitatorii vor petrece mai mult timp pe pagin. De exeplu dac ar fi disponibila informaia despre rezoluia utilizatorilor sar putea face

modificri n pagina astfel, ca s fie nevoie de minim de scrolling pentru vizionarea paginii n mtregime.

Tehnici ilegale de optimizare web


Tehnicile "ilegale" de optimizare web fac referire la anumite practici utilizate pentru a mbunti poziionarea (rankingul) unui site n cadrul motoarelor de cutare pe care acestea ns le consider ca fiind "imorale" datorit faptului c limiteaz i direcioneaz greit ariile de cutare ale utilizatorilor. Nu exist reglementri legale n aceast privin, motiv pentru care ele pot fi i sunt folosite ns pe propria raspundere. n general, cnd vorbim de tehnici ilegale de optimizare pentru motoarele de cutare, vorbim despre acele practici care au ca i rezultat buna poziionare a unui site ntr-un timp foarte scurt nsa care, pe termen lung au ca efect banarea site-urilor din SERP (Search Engine Result Pages). n pofida faptului c exist foarte multe motoare de cutare, toate folosesc cam aceleai principii cnd este vorba despre evitarea tehnicilor despre care vorbim, generic numite "SEO spamming". Cuvantul "spam", din punctul de vedere al motoarelor de cutare sau n acest context, se refer la orice practic "imorala", ce este folosit cu scopul de a mbunti Page Rank-ul i poziiile n motoarele de cutare dup anumite cuvinte cheie. n cele ce urmeaza este descris o list a metodelor de optimizare web considerate ca fiind generatoare de SEO spam din punctul de vedere al motoarelor de cutare. Text ascuns Este tehnica prin care o parte a textului se adreseaza utilizatorilor (textul vizibil n pagina) iar o alt parte a textului (ascuns) se adreseaz motoarelor de cutare. De obicei, textul adresat motoarelor de cutare are un continut bogat n cuvintele cheie pentru care webmasterul doreste sa ajunga pe primele pozitii n SERP. Pentru texte invizibile se folosesc fonturi care au aceeai culoare cu fondul paginii, invizibile pentru utilizator ns detectate de ctre motoarele de cutare. IP Cloaking

IP Cloaking-ul se realizeaz prin dou modaliti principale: textul invizibil i cloaking dup agentul utilizator (user agent). n ceea ce privete cloaking-ul n funcie de user agent, utlizatorului i este afiat o pagin n timp ce roboilor motoarelor de cutare le este data o pagin cu o rat de coninut foarte ridicat. Folosirea excesiv a cuvintelor cheie Tehnica se refera la repetarea excesiv a cuvintelor cheie n tag-urile title, meta i keywords precum i la folosirea lor abuziv n cadrul coninutului. Cuvinte cheie irelevante Aceasta practic utilizeaz cuvinte cheie irelevante pentru domeniul de activitate al site-ului care sunt ns deosebit de uzuale n cutrile de dat recent. Este de menionat c Google public sptmnal o list cu cele mai frecvente cutri. Tehnica are ca i rezultat doar inducerea n eroare a utilizatorului care este direcionat ctre un site fr legtur cu ceea ce caut iniial. Pagini doorway Sint pagini realizate special pentru a atrage robotii motoarelor de cutare i utilizatorii, n vederea unor rezultate mai bune. De obicei sunt optimizate doar pentru o fraz sau un singur cuvnt intind spre spiderii i crawlerii motoarelor de cutare. Text micorat / text n tagurile ALT Textul micorat este inserat intenionat n coninutul paginii fiind inaccesibil utilizatorului ns vizibil pentru motoarele de cutare. Utilizarea textului n tag-urile ALT se refer la inserarea unei cantiti mari de text n descrierea ALT de asemenea inaccesibil marii majoriti a utilizatorilor nsa detectat de motoarele de cutare. Popup-uri excessive Yahoo consider utilizarea excesiv a popup-urilor ca spam. Aceasta este considerat ca o capcan. Deaceea un site web trebuie sa foloseasc maxim 1-2 popup-uri pe pagin.

Oglinzile Oglinzile (mirrors) sunt pagini diferite cu acelaii coninut i aceeai denumire, scopul fiind acela de a fi afiat de mai multe ori n SERP. Metoda are sens dac paginile duplicate sunt nscrise n motoare de cutare diferite realizndu-se o optimizare web distinct pentru fiecare n parte. nscriere repetat n motoarele de cutare Se tie c una dintre tehnicile de optimizare web a unui site se refer la directory submission cu scopul de a crea ct mai multe IBL-uri spre site-ul tint. nscrierea repetat a unui site n acelaii director se numar printre metodele cele mai sigure de a primi un ban sau de a atepta indexarea n directoarele respective. Tehnicile de optimizare web ilegale sau, mai corect spus, imorale au fost i vor fi utilizate. Din fericire, motoarele de cutare ncearc s aduc mereu soluii noi pentru detectarea spamming-ului i diferenierea acestuia de optimizarea pentru motoare de cutare corect realizat.

Factorii ce afecteaz poziionarea n motorul de cutare Google


Sunt peste 100 de factori care influenteaza ordinea afisarii siturilor n cautarile cu Google. Care sunt acestia? Mai jos este prezentat o list cu presupusi factori, aceasta list fiind alcatuita de webmasteri din ntreaga lume, care au studiat ndelung comportamentul Google.[9] 1. Factori pozitivi pe pagin (Tabelul 3.1). 2. Factori negativi pe pagin (Tabelul 3.2) 3. Factori pozitivi n afara paginii (Tabelul 3.3) 4. Factori negativi n afara paginii (Tabelul 3.4) Tabelul 3.1. Factori pozitivi pe pagin Factor Factori pozitivi aflai pe pagina Cuvinte cheie n: Densitatea cuvintelor cheie n corpul paginii () Nota

Trebuie sa aiba valori cuprinse ntre 5 i 20 %.

2 3 4 5 6 7

Densitatea individuala a cuvintelor cheie Cuvintele cheie din tagurile H1 i H3 Marimea textului cuvintelor cheie Distanta dintre cuvintele cheie Ordinea cuvintelor cheie n fraza. Proeminenta cuvintelor cheie.

ntre 1% i 3 % din totalul cuvintelor de pe pagin De folosit cuvinte cheie n H1 Sunt considerate mai importante cele ingrosate, subliniate, aplecate, etc. Cuvintele cheie adiacente dau rezultate mai bune. in functie de fraza cautata Se obtin rezultate mai bune daca un cuvant cheie se afla pe primele randuri din pagina i deasemenea n tagurile Meta. Continuare Tabelul 3.1

8 9 10

11 12 13 14 15 16 17 18 19 20 21 22

Cuvinte cheie n Header Cuvintele cheie din titlu Cuvinte cheie n tagul "description" Cuvinte acheie n tagul "keyword" Alti factori legati de cuvintele cheie Cuvinte cheie n tagul "alt" Cuvinte cheie n URL Cuvinte cheie n numele de domeniu Cuvinte cheie n linkurile ctre paginile sitului (anchor text) Navigare - Linkuri interne Toate paginile site-ului s fie valide Structura de arbore Stuctura de linkuri Navigare - Linkuri externe Cuvinte cheie n linkurile spre alte situri Toate linkurile externe valide In total trebuie sa fie cel mult 100 de linkuri pe pagina. Alti factori de pe pagina Marimea fisierului Liniue n URL

10 - 60 caractere. Nu folositi caractere speciale. sa nu aiba mai mult de 200 de caractere. sa nu depaseasca 200 de caractere.

Trebuie sa descrie poza, nu trebuie sa fie prea mare. Primul cuvint este cel mai important -foarte important Linkuri cu numele "Pagine urmatoare" nu va ajuta cu nimic la indexare.

S se poata ajunge din 2(maxim 4) clickuri n orice pagina. De asemenea paginile mai puin importante trebuie sa aiba linkuri intre ele. sa fie doar linkui spre situri bune. Google spune limita este 100, dar recent a inceput sa accepte 2-300. Sa nu depaseasca 100K. Sunt preferate cele mai mici de 40K . Cea mai buna metoda de a indica un spatiu. Una sau doua = excelent pentru a separa cuvintele cheie 4 sau mai multe = suspicios

23 24 25 26 27

Pagini noi

Google prefera paginile noi mai ales la siturile de stiri, licitatii, etc.. Frecventa update-urilor update-uri frecvente = indexare frecventa Varietatea cuvintelor cheie Substativele trebuie puse la singular, plural, articulate, nearticulate, verbele se conjuga Cuvinte cheie i sinonimele lor Sinonimele sunt tot cuvinte cheie. Lungimea URL-ului Sunt preferate cele mai mici.

Tabelul 3.2. Factorii negativi aflai pe pagin Factor 1 2 3 4 5 6 Factori negativi aflai pe pagina Textul care apare numai pe poze Nota

7 8 9 10 11 12 13 14 15

Motoarele de cutare nu sunt capabile sa citeasca textul din poze. Situri afiliate In ultimul timp, siturile fara continut, care doar promoveaza ofertele altor situri sunt considerate "mai puin importante". Linkuri spre situri proaste. Evitati linkurile spre "fermele de linkuri", siturile porno, etc. Furtul de imagini sau text de pe alt Copyright - Google baneaza siturile care au furat site. continut, n cazul n care cineva raporteaza acest lucru. Diluarea cuvintelor cheie Focalizarea asupra unui numar mare de cuvinte cheie intr-o singura pagina, duce la pierderea importantei adevaratelor cuvinte cheie, Modificarea paginii Atunci cand editati o pagina(chiar i cand schimbati tema i lasati acelasi continut), trebuie sa va astepati la rezultate mai slabe la cautarile cu google pentru cuvintele cheie din pagina respectiva. Pagini generate dinamic Trebuie sa scurtati URL-ul, sa reduceti numele variabilelor,sa nu mai afisati ID-ul sesiunii, etc. Folosirea excesiva a JavaScriptului Nu folositi pentru a redirectiona pagina sau pentru a ascunde linkuri. Pagini n Flash Motoarele de cutare nu sunt capabile sa citeasca Flash-uri. Redacati i o varianta HTML cu acelasi continut. Folosirea Frame-urilor Nu se indexeaza decat Frame-ul principal Folosirea tagului "no index" Auto-excludere intentionata. Linkuri de un singur pixel Este considerata tentativa de a pacali motoarele de cutare. Text invizibil Google avertizeaza impotriva acestei practici. Dar nimeni nu a fost penalizat pana acum. Pagini intermediare Nu trebuie sa folositi mai multe pagini cu cuvinte cheie pentru a atrage vizitatorii ctre aceeasi pagina principala.(Gateway, doorway page). Duplicarea continutului Din mai multe pagini cu continut identic sau aproape identic, Google o afiseaza n topul rezultatelor pe cea mai veche.

Tabelul 3.3 - Factorii pozitivi aflai n afara paginii Factor 1 Factori pozitivi n afara paginii Pentru Linkuri: PageRank-ul paginilor care au link spre pagina cercetat. Numarul de linkuri spre pagina cercetat ("backlinks") Numarul de linkuri cu pagerank >= 4. Marirea vitezei cu care creste numarul de linkuri. Pentru fiecare link: PageRank-ul paginii referal Textul ancora al linkurior spre pagina ta. Numarul de linkuri pe pagina Pozitia linkului n pagina Densitatea cuvintelor cheie pe pagina referal. Titlul paginii referal Link de la un site "Expert" Pagina referal sa fie din aceeasi categorie. Link din mapare de imagini Javascript link Directoarele WEB: Site listat n DMOZ? Categoria DMOZ? Site listat n Yahoo Directory Site listed n LookSmart Directory Site listed n inktomi Site listat n alte directoare(About, etc.) Site expert? (Hilltop) Nota Conteaza calitatea linkurilor mai mult decat cantitatea. Verificati pe Yahoo sau Google petru a afla numarul de "incoming links". Cand nu mai apar linkuri noi spre situl tau, inseamna ca situl nu mai este activ. Inainte conta foarte mult acest lucru. Acum, acest lucru nu mai este o certitudine. Pentru a fi numarul 1 n topul cautarilor pentru un cuvant, nici macar nu trebuie sa ai acel cuvant pe pagina. Care este explicatia? Cu cat sunt mai puine, cu atat mai bine... linkul spre tine devine mai important. Cu cat este mai sus, cu atat mai bine. Important pentru cautarile pentru cunintele cheie. Ar trebui sa aiba un titlu asemanator. Da un plus n rezultatele cautarilor daca pagina are ca referal i un site renumit n categoria respectiva. Un link dintr-un site porno spre un site care vinde flori nu are valoare prea mare. Problematic... Problematic- poate fi considerat ca o tentativa de a ascunde linkul. Siturile listate n DMOZ sunt selectate manual, deci Google are incredere mare n continutul acestor situri. Daca este listat intr-o categorie gresita ar putea aparea probleme. Pentru afisarea rezultatelor n cautari cu Google. Se da un plus la afisarea rezultatelor n cautari cu Google. Folositi Pure Search pentru a verifica locul sitului la inktomi. Se da un plus la afisarea rezultatelor n cautari cu Google. Site mare cu multe linkuri(incoming) de calitate.

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

22 23

Varsta sitului Varsta sitului(pentru cele noi)

Un site vechi va avea paginile noi indexate mai repede. Se da un plus siturilor foarte noi (in prima luna). Continuare Tabelul 3.

24 25 26 27

Structura sitului Site Map Marimea sitului Tema sitului Traficul pe site Traficul Timpul petrecut pe pagina Timpul petrecut pe domeniu

28 29 30

Influenteaza cautarile n functie de consistenta, organizare, etc. Harta sitului trebuie sa aiba cuvinte cheie n ancorele linkurilor. Sunt preferate siturile cu multe pagini. Nu uitati sa folositi cuvinte cheie acolo unde este recomandat. Ati putea apela la o unealta de tipul "keyword suggfestion". Acest lucru se detecteaza i prin tool-bar. numarul de vizitatori Timp mai mare = relevana mai mare a paginilor Timp mai mare = relevana mai mare a domeniului.

Tabelul 3.4. Factorii negativi aflai n afara paginii Factor Factori negativi n afara paginii Nota 1 Zero referali Prin completarea forumularului pus la dispozitie de Google, situl va fi indexat n cateva luni. Dar este singura solutie daca nu sunt referali spre siutul tau. 2 Cloaking Google promite ca va bana aceste situri 3 Afilieri, referali de proasta Google spune ca nu tine cont de linkurile care vin de calitate. pe situri proaste, pentru ca webmasterul nu poate controla acest lucru. Dar, practic, nu este chiar asa. 4 Furturile de domeniu Sunt unii care nu fura doar o pagina, ci intreg situl, pe care il posteaza pe alt domeniu. Daca vi s-a intamplat acest lucru, trimiteti o sesizare la Google i situl respectiv va fi banat. 5 Supraincarcarea serverelor 1000 de cautari (cu Google) pe zi de la acelasi IP este Google. cel mai grav lucru pe care il poate face un webmaster. Google poate bloca IP-ul. 6 Server Up-time>99.9% "THE PAGE CAN NOT BE FOUND" reprezinta un motiv destul de bun pentru ca Google sa stearga din cache o pagina. 7 Se termin spaiul Google are un spatiu limitat pentru fiecare site, care depinde n mare masura de toti factorii enumerati mai sus. Deci nu poate indexa un forum cu 100.000 de pagini.

Procesul de optimizare i promovare a unui site


Fiecare profesionist independent sau firma specializata care ofera servicii de optimizare Web are propria tehnica de optimizare i implicit parcurge un traseu propriu. Ideal, procesul de optimizare incepe cu o evaluare atenta a site-ului pentru care se executa optimizarea i a site-urilor concurente. Site-urile concurente pot fi site-uri care ofera acelasi tip de servicii sau produse. n urma analizei acestor site-uri, se poate stabilii care vor fi cuvintele pentru care se va optimiza. Pentru a realiza optimizarea unui site, coninutul acestuia trebuie s fie unic i s fie bogat n cuvinte cheie. Dup mai multe cercetri asupra proceselor SEO, am realizat unul propriu, dup care ne vom conduce n continuare pentru a optimiza i promova un site (Figura 3.1)

Figura 3.1 Procesul de Optimizare n Motoarele de cutare a unui site n continuare sunt descrisi pasii ce descriu procesul de optimizare. Pasul 1. Analiza site-ului Web Este foarte necesar nainte de optimizare de realizat o analiz detaliat asupra site-ului. Coninutul, structura i destinaia traficului sunt verificate foarte atent. Pasul 2. Identificarea i definirea obiectivelor i strategiei Un lucru trebuie s fie clar ce scop dorim s ndeplinim. Obiectivele, n special cele legate de afaceri, variaz de la generarea de noi comenzi, pentru a crete vnzrile. Obiectivul ar trebui de inut mine n special la generarea cuvintelor cheie. Pasul 3. Optimizarea cuvintelor cheie O analiz extins este obligatorie la aceast faz. Selectm o list de cuvinte cheie doar dup analiza site-urilor concurenilor, tag-urilor Meta, frazele ce conin cuvintele cheie, etc. Doar atunci este realizat o list final de cuvinte cheie. Pasul 4. Optimizarea site-ului Web Este necesar de optimizat paginile web cu cuvintele cheie selectate. Nu este obligatoriu i necesar de optimizat toate paginile. Site-ul Web trebuie s fie este "prietenos" cu motoarele de cutare. Ct timp realizm optimizarea paginii Web, este obligatoriul de cercetat cmpurile ca cuvintele cheie Meta, descirierea Meta, linkurile de pe pagin. Pasul 5. nregistrarea site-ului Web Site-ul optimizat trebuie nregistrat n cele mai populare motoare de cutare i directorii. n acest mod site-ul va fi indexat. Odat ce este indexat, ne vom focaliza asupra ridicrii poziiei n motoarele de cutare pentru cuvintele cheie selectate anterior. Pasul 6. Construirea i optimizarea legturilor Ridicarea vizibilitii este ridicat prin construirea legturilor Popularitatea site-ului este ridicat la acest pas. Legturile Inbound sunt unul din factorii eseniali pentru optimizarea paginii Web. Motoarele de cutare i ndreapt atenia asupra linkurilor Inbound al site-urilor populare n calcularea rank-ului site-lui nostru.

Pasul 7. Rapoarte Este necesare de creat rapoarte de pre-optimizare, la fel i de post-optimizare. Unul este pentru toate cuvintele cheie nainte de optimizare, ct i dup, pentru a nregistra i a vedea foarte clar schimbrile ce au avut loc n timp (dup optimizare). Pasul 8. Planul analitic i de aciune Este foarte important de analizat rapoartele principalelor motoare de cutare. Acestea ajut foarte mult la realizarea planului de aciuni. Cercetarea i observarea asupra rapoartelor de poziionare este mai mult dect necesar datorit schimbrilor frecvente ce au loc n parametrii motoarelor de cutare. Este riscul de a pierde popularitatea n orice moment. Reluarea pailor Aceti pai urmeaz a fi repetai de fiecare dat cnd site-ul este schimbat, ori au loc schimbri n motoarele de cutare. De asemenea trebuie s fim siguri c motoarele de cutarea indexeaz site-ul nostru, ct i l apreceeaz la nivel.

Studiu de caz. Portalul educaional www.cuc.md


Promovarea i optimizarea site-urilor pentru fiecare tematic are particularitile sale. Site-ul Clubului Moldovenesc de Jocuri Intelectuale www.cuc.md (Figura 4.1) face parte din categoria siteurilor educaionale. A fost lansat n februarie 2007 cu scopul de a populariza jocul intelectual Ce? Unde? Cind? i de a recruta noi membri.

Figura 4.1 Portalul Educaional www.cuc.md n septembrie 2007 a ajuns s devin unul din cele mai populare portaluri educaionale din Republica Moldova, un factor decisiv fiind aplicarea tehnicilor de optimizare i promovare. n continuare este descris procesul de optimizare i promovare a portalului, urmnd paii procesului de optimizare. Pasul 1. Analiza site-ului Portalul a fost creat i este ntreinut n prezent cu ajutorul sistemului de management al coninutului Joomla, unul din cele mai puternice i populare din lume. Deoarece iniial site-ul coninea foarte puin informaie, analiza s-a axat n special pe design-ul paginii principale. A fost ales s fie simplu, cu culori puine, iar informaia principal s fie accesibil ct mai facil. n urma acestei analize

prealabile, s-a trecut la pasul 2, urmnd a fi formulate obiectivele i strategiile. Pasul 2. Definirea obiectivelor, strategiei La aceast faz au loc definirea strategiei i obiectivelor pe o perioad anumit de timp. Astfel, ca obiective au fost: 1. Indexarea paginii de principale motoare de cutare; 2. Ridicarea PageRank-ului la 2; 3. Ridicarea Rank-ului Alexa i clasarea site-ului ct mai nalt (s fie n topul primelor 50 siteuri moldoveneti); 4. nscrierea n directoarele internaionale i moldoveneti, n special DMOZ, Google, etc; 5. Creterea numrului de linkuri indexate de principalele motoare de cutare: Google, MSN, Yahoo; 6. Creterea numarlui de linkuri inbound; 7. Promovarea offline; Propunndu-ne astfel aceste obiective pentru primele 6 luni, urmeaz n continuare a le ndeplini prin diverse metode (cele ce sunt enunate n fazele procesului de optimizare i promovare) Pasul 3. Analiza cuvintelor cheie Au fost propuse iniial pentru analiz i promovare urmtoarele cuvinte cheie: 1) Ce Unde Cind; 2) Jocuri intelectuale; 3) Joc intelectual; 4) Jocuri Banalitati; 5) Cluburi intelectuale; 6) Cuc Moldova; Cuvintele cheie au fost nscrise n MetaTag-uri, urmnd apoi a controla poziia site-ului n motoarele de cutare (n special Google). Desemenea s-a controlat ca densitatea cuvintelor s fie ct mai mare, iar cele mai principale s fie evideniate prin bold

Pasul 4. Optimizarea site-ului Optimizarea portalului a fost realizat prin: 1. Crearea unui design simplu; 2. Utilizarea ct mai puin a obiectelor FLASH; 3. Indicarea n imagini a atributului ALT; 4. Folosirea MetaTag-urilor n fiecare pagin; 5. Mrimea paginilor s fie mai mic de 100K, ncrcarea paginii s fie ct mai rapid; 6. Adugarea de coninut; Pasul 5. nregistrarea n motoarele de cutare i directoriile Web La acest pas, care consider a fi unul din cele mai importante, s-a propus adugarea portalului n principalele motoare de cutare, ct i n directoriile Web. Scopul acestui pas este ca site-ul s fie indexat, urmnd apoi a ne focaliza asupra creterii popularitii site-ului. Pentru aceasta, a fost nevoie de completarea datelor privind site-ul i expedierea ulterioar a informaiilor administratorilor acestor directoare. Am ales n directorii ca portalul s fie nregistrat sub categoria Societate i Cultur. S-a observat c link-ul www.cuc.md a fost adugat n Directoriul Web DMOZ (Figura 4.2) dup o lun din momentul nregistrrii (a fost nregistrat pe 3 mai, a aprut la nceputul lunii iunie).

Figura 4.2 nregistrarea linkului www.cuc.md n directoriul Web DMOZ Dup nc trei luni, acest link a aprut i n directoriul Google (Figura 4.3).

Figura 4.3 Link-ul www.cuc.md n directoriul Google n directoarele moldoveneti, a fost ales Ournet.md, care este cel mai mare i cel mai popular din Moldova. Dat fiind faptul c www.cuc.md este un portal educaional care este realizat i deinut de un grup de studeni, categoria sub care va fi listat site-ul a fost aleas Organizaii studeneti i grupuri (Figura 4.4). De menionat c n urma adugarii site-ului n directoriul DMOZ, a crescut brusc numarul link-urilor inbound n reea, dat fiind faptul c numeroase directorii din lume folosesc informaia listat n directoriul DMOZ.

Figura 4.4 Link-ul www.cuc.md n directoriul Ournet.md Pasul 6. Constituirea i optimizarea legturilor La aceast etap a fost esenial de constituit i optimizat dou tipuri de legturi: externe i interne. Cele externe se refer implicit la numrul de backlink-uri, crearea unei reele de afiliai pentru a aduce ct mai muli utilizatori externi pe site-ul propriu. Astfel, este definit Programul de constituire a legturilor, prin adugarea de link-uri outbound ale altor site-uri, care la rndul lor conin link la o pagin de pe site-ul nostru, de dorit pagina principal. Un exemplu este pagina Consilului Naional al Tineretului, unde este un link al site-ului nostru (Figura 4.5).

Figura 4.5 Link-ul www.cuc.md pe pagina CNTM De asemenea este foarte important de realizat i o structur foarte bine realizat a PR-ului de pe pagina principal la o pagin de nivelul 3 este destul de enorm. Pasul 7. Rapoartele Pentru a vedea rezultatele obinute n urm pailor urmai anterior, se realizeaz o statistic prin intemediul diverselor instrumentare Web. Astfel, se poate de evideniat n timp evoluia numrului de pagini indexate de motorul de cutare Google. Pagini Indexate in Google
1600 1400 1200 1000 800 600 400 200 0
Fe br ua rie M ar t ie Ap ril ie Iu ni e Iu lie t Se pt em br ie M ai Au gu s

link-urilor

interne. Link-urile de pe site-ul www.cuc.md sunt ierarhic constituite din 3 nivele, astfel, propagarea

Figura 4.6 Evoluia n timp a numrului de pagini indexate n Google

Nr. pagini

Se poate uor de vzut c datorit i creterii link-urilor de pe site, are loc respectiv i creterea numrului de pagini indexate de Google. Ct privete evoluia PR-ului, aici s-a observat unele evenimente. Astfel, din momentul indexrii site-ului pn la atribuirea primului Rank au trecut aproximativ 4 luni, perioad n care portalul era ntro list a site-urilor suspecte ale lui Google. Deoarece portalul este unul informativ i nu de spam, motorul l-a notat dup aceast perioad ca un site de ncredere. La moment site-ul are PR-ul egal cu 2, iar n timpul apropiat va ajunge i la 4. Este de menionat evoluia popularitii site-ului n ratingul Alexa. La moment, n categoria Societate i Cultur, site-ul este situat pe locul 2. Per total, ntre site-urile moldoveneti (cu coninut n limba romn), www.cuc.md se situeaz pe locul 16. Acest rating este foarte important, deoarece arat popularitatea site-ul n rndul populaiei din R.Moldova, iar poziionarea curent nu poate dect s ne motiveze i mai mult pentru realizarea altor tehnici de promovare i optimizare.

Figura 4.7 Popularitatea site-ului www.cuc.md dup rating-ul Alexa n tabelul 4.1 sunt enumerate principalele cuvinte cheie i poziia n SERP. Tabelul 4.1 -- Cuvintele cheie i poziia n Google Cuvntele cheie Poziia (Google)

Ce Unde Cind Cluburi Intelectuale Jocuri Banalitati Jocuri Intelectuale CUC Moldova CUC md

1 1 1 2 3 6

Afiarea grafic se poate de vzut i n Anexa A.

n final putem enumera urmtoarele rezultate: Indexarea n Google, Yahoo, MSN: Da nregistrarea n DMOZ: Da Alexa Rank: 298,319 Google PageRank: 2 Pagini Indexate (Google): 1500 Link-uri Inbound (Google): 340 Observm astfel c obiectivele propuse iniial la pasul 2 au fost realizate. Pasul 8. Planul analitic i planul de aciune Analiznd paii de mai sus, se poate de planificat urmtoarele aciuni: 1. Ridicarea PR-ului la 4; 2. Crearea Hrii Site-ului; 3. Construirea legturilor;

Concluzii
Deseori o cercetare interesanta ridica mai multe ntrebari dect reuseste sa gaseasca rspunsuri. Att din punct de vedere al procesarii rezultatelor cutarii, ct i al contextului social, mai sunt foarte multe de explorat. Trecerea la societatea informaional implic sporirea volumului de informaii i accelerarea comunicrii, problema cutrii informaiei devine tot mai important. Web-ul a devenit un nou mediu de publicare a informaiei. Site-urile web snt folosite pentru a promova companiile i produsele sale, presta servicii i informaii, facilita comunicarea. Acest studiu servete ca un ndrumtor pentru optimizarea i promovarea site-urilor n motoarele de cutare. n tez au fost descrise metode de optimizare i promovare a paginilor Web, n special n motoarele de cutare. S-a pus ca obiectiv cercetarea: motoarelor de cutare, sistemul Google fiind descris mai detaliat; metodologiei de cercetare empiric; tehnicilor de optimizare pentru motoarele de cutare; factorilor ce influeneaz apariia site-ului Web pe primele pagini ale motoarelor de cutare dup introducerea unor cuvinte cheie; metodelor de promovare n motoarele de cutare; marketingului n motoarele de cutare;

n baza metodelor cercetate a fost realizat un model al procesului de promovare i optimizare a Site-urilor. Pe baza acestui model a fost optimizat i promovat un portal educaional. Succesul implementrii acestor metode contureaz importana lor n aducerea n eviden a informaiei necesare.

Bibliografie
1. Mihai Drgnescu, Societatea informaional i a cunoaterii. Vectorii societii cunoaterii [Resurs electronic] http://www.academiaromana.ro/pro_pri/pag_com01socinf_tem.htm 2. 3. 4. Gabriela Grosseck, Cutarea informaiilor pe Internet [Resurs electronic] www.revistaie.ase.ro/content/39/Grosseck.pdf O. Burlaca, Sistem de management al coninutului Web [Resurs electronic] www.cnaa.acad.md/files/theses/2006/4735/oleg_burlaca_thesis.pdf D. Janssen, The Effects of Affiliate Marketing Networks on Search Engine Rankings [Electronic resource] www.m4n.nl/documents/The_Effects_of_Affiliate_Marketing.pdf 5. 6. . , . , , , 2007. E. Hargittai, Dimensiuni sociale, politice, economice i culturale ale motoarelor de cutare [Resurs electronic] http://www.ris.uvt.ro/Numarul7%202007/EHargittai.pdf 7. 8. 9. S. Buraga, Robotii Web [Resurs electronic] http://thor.info.uaic.ro/~busaco/publications/articles/roboti.pdf Lee Underwood, A Brief History of Search Engines www.webreference.com/authoring/search_history/ GVUs 10th www user survey graphs, How Users Find out About WWW Pages [Electronic resource] www.gvu.gatech.edu/user_surveys/survey-1998-10/graphs/use/q52.htm 10. 11. 12. 13. iProspect, iProspect Search Engine User Attitudes [Electronic resource] www.iprospect.com/premiumPDFs/iProspectSurveyComplete.pdf Bruce Clay, Inc, Search Engine Relationship Chart [Electronic resource] www.bruceclay.com/searchenginerelationshipchart.htm Danny Sullivan, comScore Media Metrix Search Engine Ratings [Electronic resource] www.searchenginewatch.com/reports/article.php/2156431 Insite by Lycos, Search engine marketing guide [Electronic resource] http://insite.lycos.com/tutorial.asp [Electronic resource]

14. 15.

Searchenginewatch.com, Ten tips to the top of Google [Electronic resource] www.searchenginewatch.com/searchday/article.php/2198931 Wayne Hulbert, Keyword Density: SEO Considerations [Electronic resource] www.webpronews.com/news/ebusinessnews/wpn4520050501KeywordDensitySEOc onsiderations.html

16.

Chris Sherman, 131 (Legitimate) Link Building Strategies [Electronic resource] www.searchenginewatch.com/searchday/article.php/2160301

17. 18. 19. 20.

Alexa, Top Sites [Electronic resource] www.alexa.com/site/ds/top_500 Danny Sullivan, Major Search Engines and Directories [Electronic resource] www.searchenginewatch.com/links/article.php/2156221 Danny Sullivan, Other Global Search Engines [Electronic resource] www.searchenginewatch.com/links/article.php/2156281 Debbie Flanagan, Web Search Strategies [Electronic resource] http://www.learnwebskills.com/search/main.html

Anexa A Rezultatele afiate de Google n cazul unor cuvinte cheie

Figura A.1 Rezultatele cutrii dup cuvntul cheie Jocuri Intelectuale

Figura A.2 Rezultatele cutrii dup cuvntul cheie CUC Moldova

Figura A.3 Rezultatele cutrii dup cuvntul cheie Ce Unde Cind

Figura A.4 Rezultatele cutrii dup cuvntul cheie Cluburi Intelectuale

Figura A.5 Rezultatele cutrii dup cuvntul cheie cuc md

Figura A.6 Rezultatele cutrii dup cuvntul cheie Jocuri Banalitati

Anexa B Lista directoarelor web


Tabelul B-1 - Cele mai importante directoare Web din lume No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 URL www.dmoz.org/ dir.yahoo.com/ www.lii.org/ www.stpt.com/directory/ www.business.com/ www.cannylink.com/ www.americasbest.com/ www.joeant.com/ www.chiff.com/ www.jayde.com/ www.skaffe.com/ www.mavicanet.com/ www.ezilon.com/ www.botw.org/ www.avivadirectory.com/ www.elib.org/ directory.v7n.com/ www.rlrouse.com/ www.gimpsy.com/ www.goguides.org/ www.uncoverthenet.com/ www.qango.com/ www.bigall.com/ www.azoos.com/ www.clush.com/Dir/ www.illumirate.com/ www.businessseek.biz/ www.platinax.co.uk/directory/ www.informationoutpost.com/ www.thisisouryear.com/ www.abilogic.com/ www.sunsteam.com/ www.alivedirectory.com/ www.site-sift.com/ www.wowdirectory.com/ Preul Gratis $299/an Gratis $99/an $199/an $20 $20 $40 $60/an Gratis $45 Gratis $69 $240 $75/an $81 $50 $50 $40 $40 $189 $55 $15 $90 $20/an Gratis $12 $30 $5 $25 $18 $75 $50/an $50 $43 Data 1999 1995 1998 1995 1998 1997 1998 2000 1998 1996 2003 1999 2002 1996 2005 2003 2004 2002 2001 2001 2004 1998 2004 2001 2004 2003 2003 2004 1998 2000 2003 1999 2005 2004 2003 PR 8 8 8 7 7 0 0 6 6 6 5 4 6 7 6 7 6 5 5 5 6 5 0 5 7 5 5 6 4 5 5 4 6 6 5

Tabelul B-2 Cele mai importante directoare Web din Republica Moldova No 1 2 3 4 URL www.ournet.md www.point.md www.allmoldova.com compass.mcc.md/en/ $ Gratis Gratis Gratis Gratis Data 1999 1995 1998 1995 PR 8 8 8 7

super.md

Gratis

1998

S-ar putea să vă placă și