PW11-Search Engine Optimization

- SEO -
SEARCH ENGINE
O P T I M I Z AT I O N
I R I N A TO M A
I R I N A . TO M A @ U P B . R O
CE ESTE SEO?
• SEO = Optimizarea site-
ului pentru motoarele de
căutare
• Obiectiv: îmbunătățirea
vizibilității site-ului in
rezultatele motoarelor de
căutare
Calitate – atragerea vizitatorilor care
sunt interesați de produsul reprezentat
pe site
CALITATE,
CANTITATE ȘI Cantitate – cât mai multe accesări ale
site-ului de la persoanele interesate de
REZULTATE produs
ORGANICE
Rezultate organice – trafic neplătit
care vine din rezultatele unui motor de
căutare (SERP - Search Engine Results
Pages)
R E Z U LTAT E
ORGANICE
NEVOI SEO
CUM
FUNCȚIONEAZĂ
UN MOTOR DE
C Ă U TA R E
MOTOARE DE
CĂUTARE (1)
• Obiectivul motorului de căutare este
să prezinte o serie de rezultate
relevante într-un timp scurt
• Cum căutam?
1. Type, type, type
2. Glitter, magic, unicorns
3. Poof!
4. Results
MOTOARE DE
CĂUTARE (2)
• Orice motor de căutare are în spate
mai multe crawlers care adună
informații despre termenii căutați de
utilizator din tot WWW
• Crawlers se numesc search engine
bots sau spiders
• Motorul de căutare downloadează
pagini web și accesează toate linkurile
incluse în acele pagini pentru a
descoperi noi pagini web
MOTOARE DE
CĂUTARE (3)
• Cei mai populari crawlers sunt:
– GoogleBot
– BingBot
– Slurp – bot-ul Yahoo
– DuckDuckBot – bot-ul DuckDuckGo
– Baiduspider – bot-ul de la motorul de căutare chinezesc Baidu
– YandexBot – bot-ul de la motorul de căutare rusesc Yahdex
– Facebot – bot-ul Facebook
– ia_archiver – bot-ul Amazon Alexa
MOTOARE DE CĂUTARE (4)
• Pe lângă termenii căutați de utilizator, motoarele de căutare folosesc alte date
relevante căutării:
– Locația utilizatorului – pentru căutări ca ”near me”
– Limba setată de utilizator, dacă poate fi inferată – pentru a întoarce rezultate în
acea limbă
– Căutări anterioare
– Dispozitivul de pe care a fost făcută căutarea
CRAWLING
ACCESIBILITATE (1)
• robots.txt (case sensitive) este un fișier ce specifică crawlers ce părți din site pot accesa
• Fișierul este localizat în root-ul website-ului
• Structura fișierului este:
– User-agent: [user-agent name] Disallow: [URL string not to be crawled]
• Fiecare subdomeniu al unui site folosește alt fișier robots.txt
• Avantajele folosirii robots.txt:
– Prevenirea apariției contentului duplicat în rezultatele motoarelor de căutare
– Menținerea unei părți din pagina web privată
– Prevenirea indexării unor fișiere (imagini, PDF, etc)
• În robots.txt se poate specifica sitemap-ul webserver-ului
• Mai multe detalii: https://www.robotstxt.org/robotstxt.html
ACCESIBILITATE (2)
• Un exemplu de robots.txt
– https://www.google.com/robots.txt
ACCESIBILITATE (3)
• Sitemap conține informații despre paginile și fișierele de pe un site și relațiile dintre ele
• Crawlers citesc acest fișier pentru un proces de crawling mai bun
• Într-un sitemap se specifică cele mai importante resurse pentru un site și alte informații suplimentare, ca:
– Când a fost pagina modificată
– Cât de des se schimbă pagina
– Versiuni alternative al paginii în funcție de limbă
– Prioritatea paginii în structura site-ului
– Pentru video: categorie, timpul de rulare, restricționarea accesului pentru anumite categorii de vârstă
– Pentru imagini: tip, subiect, licență
• Mai multe detalii: https://www.practicalecommerce.com/seo-include-images-and-videos-in-
sitemaps
ACCESIBILITATE
(4)
• Când avem nevoie de un sitemap
– Site-ul este foarte mare și complex
– Site-ul are multe pagini izolate sau care
nu sunt legate bine de restul paginilor
– Site-ul are foarte puține link-uri
externe care îl referă
– Site-ul conține multe imagini sau
videoclipuri
• Exemple de sitemaps:
– https://www.google.com/sitemap.xml
• Pe lângă fișierul robots.txt, există meta directive robots care dau
instrucțiuni ferme despre cum trebuie indexat conținutul unei pagini
• Meta directivele pot fi incluse in pagina HTML sau întoarse de server în
headers HTTP (x-robots-tag)
– <meta name=“robots” content=“noindex, nofollow”>
ACCESIBILITATE • Cele mai întâlnite valori pentru atributul content:
(5) – index / noindex – pagina poate / nu poate fi indexată

– follow / nofollow – crawler-ul trebuie să acceseze / să nu acceseze
toate link-urile din pagină
– noimageindex – imaginile nu pot fi indexate
ACCESIBILITATE (6)
• Când se folosește atributul nofollow:

– Pagini precum Register, Login, Forgot Password
– Logo – când conține un link către pagina principală
– Pagini de prezentare a unor categorii – conțin conținut duplicat
– Contact – dacă pagina are doar un formular de contact
– Pagini precum Copyright, TOS, Privacy, Feedback
KEYWORDS
• Parte din procesul SEO este folosirea de cuvinte
cheie pentru a descrie conținutul paginii web
• Este recomandată folosirea de cuvinte cheie în:
– Titlul paginii
– Meta descriere
– Subheading – pot apărea ca featured snippet
– Content – se recomandă latent semantic
indexing
– Imagini – numele fișierului, alt, titlu (tooltip)
– URL
– Link anchor text
CONTENT
• Latent semantic indexing: https://lsigraph.com/
INDEX ARE
Paginile web descoperite de
crawlers sunt adăugate într-
o structură de date care se
numește index
INDEX (1)
Indexul conține URL-urile
descoperite plus o serie de
elemente descriptive pentru
conținutul fiecărui URL
INDEX (2)
• De exemplu:
– Cuvinte cheie (keywords) – descriu topicele pe care le acoperă pagina
– Tipul conținutului paginii (content)
– Cât de recent a fost pagina actualizată (freshness)
– Cum interacționează utilizatorii cu pagina (user engagement):
• Numărul de downloads
• Timpul petrecut pe site (Time on page)
• Numărul de vizualizări ale paginii (Pageviews)
• Bounce rate – procentul de vizitatori care părăsesc site-ul după vizualizarea unei singure pagini
IMPORTANȚA
UNEI PAGINI
RANK
• Intrările din index sunt trecute printr-

un algoritm de ranking care
ordonează ierarhic rezultatele căutării
• Unul dintre cele mai cunoscute
mecanisme de ranking este PageRank
de la Google
PageRank acordă fiecărei pagini
web un scor bazat pe evaluarea
calității și cantității linkurilor
Pe scurt, fiecare pagină din WWW

PAGERANK (1) acordă cate un vot altor pagini
pentru a marca importanța lor
Votul corespunde cu un link către

pagina respectivă (backlink)
PAGERANK (2)
• Formula pentru calculul rank-ului unei pagini A:
– PR(A) = (1-d) / n + d * (PR(T1) / C(T1) + ... + PR(Tn) / C(Tn))
– T1 ... Tn – pagini ce referă pagina A
– PR(Tn) – rank-ul paginii Tn
– C(Tn) – numărul de link-uri care ”ies” din pagina Tn
– d – damping factor – pentru a limita importanța unor pagini, setat la 0.85
• Suma rank-ului paginilor trebuie să fie 1 (sau 100%)
• PageRank se calculează iterativ, chiar dacă nu se cunosc valorile rank-ului pentru paginile T1 ... Tn
• Algoritmul se oprește când valoarea rank-ului unei pagini nu se mai schimbă mult
PAGERANK (3)
• Inițial toate paginile vor avea PR egal:

– PR(A) = ... = PR(K) = 100 / 11 =
9.1
• Numărul de linkuri ce ”ies” din paginile
A … K:
– C(A) = 0
– C(B) = C(C) = 1
– C(D) = C(F) = 2
– C(E) = 3
– C(G) = C(H) = C(I) = 2
– C(J) = C(K) = 1
• Se aplică algoritmul iterativ, pe fiecare
nod în parte
• Se referă la valoarea sau ponderea
trimisă de o pagină altei pagini prin
hypelink-uri
LINK JUICE (1)

• Link juice de acumulează prin:
– Pagini cu conținut calitativ, relevant pentru site-ul
curent
LINK JUICE – Pagini care au PageRank mare
(2) – Pagini care conțin puține link-uri
– Pagini care apar în topul rezultatelor la căutare
– Pagini cu conținut general manual
– Pagini menționate des în social media
• Link juice nu provine din:
– Pagini care au atributul ”nofollow” spre pagina curentă
– Pagini cu conținut irelevant
LINK JUICE
– Pagini cu foarte multe link-uri
(2)
– Pagini care nu sunt indexate în căutare
– Link-uri plătite
– Link-uri circulare
LINK JUICE (3)
• Pe scurt, link juice este

proporțional cu:
– Importanța paginii care publică
link-ul
– Numărul de legături primite
– Numărul de legături publicate
• Mai multe detalii:
https://www.searchmetrics.com
/glossary/link-juice/
LINK JUICE VS. PAGE RANK
• PageRank
– Metoda de calcul pe care Google o folosește pentru a stabili autoritatea unei pagini
– Metrica asociată de Google pentru importanța unei pagini
• Link Juice
– Proprietățile (PageRank, TrustRank) pe care un backlink le poate transmite altui site
ANALIZA LINK JUICE
– https://moz.com/domain-analysis?site=cs.curs.pub.ro
ALTE METRICI
Trust, Authority, Relevance Domain, Page, Link Authority
• Mai multe detalii: • Mai multe detalii:

https://curatti.com/authority- https://moz.com/blog/link-
trust-relevance/ count-metrics
SPA SEO
SPA SEO (1)
• Probleme SEO
– Într-o SPA conținutul este adăugat dinamic, folosind JavaScript
– În general, DOM-ul unei SPA este un container gol
– Crawlers nu pot accesa conținutul încărcat asincron
• Rezolvare:
SPA SEO (2) – Server-side rendering (SSR)
– Prerendering
SPA SEO (3)
• Server-side rendering (SSR)

• Avantaje:
– Logica de randare este făcută de un server web
– Crawler-ul nu trebuie să ruleze cod JavaScript
• Dezavantaje:
– Crește complexitatea aplicației și timpul de development
– Timp de răspuns mai mare
SPA SEO - PRERENDERING (4)
HTTPS://PRERENDER.IO/
SPA SEO (5)
• Latența mare este o problemă a SPA deoarece tot conținutul se încarcă simultan
• Soluție: încărcarea parțială a conținutului
• Critical rendering path:
– Folosirea unui CDN
– Minificarea codului
– Lazy loading
– WebSockets pentru update-uri în timp real
• Mai multe detalii: https://developers.google.com/web/fundamentals/performance/critical-rendering-path/

SOCIAL MEDIA
SEO
SOCIAL MEDIA SEO (1)
• Social media SEO are impact asupra traficului organic din motoarele de căutare prin mărirea
gradului de vizibilitate al paginii
• Platformele de social media sunt considerate autorități
• Pagina va câștiga rank deoarece este referită de o autoritate
• Deși numărul de shares sau followers nu influențează rank-ul unei pagini, este probabil ca o
pagină cu număr mare de vizualizări să fie referită de pagini importante
SOCIAL MEDIA SEO (2)
• Twitter
– <meta name="twitter:card" content="summary">
– <meta name="twitter:site" content="@publisher_handle">
– <meta name="twitter:title" content="Page Title">
– <meta name="twitter:description" content="Page description less than 200 characters">
– <meta name="twitter:creator" content="@author_handle">
• Open Graph
– <meta property="og:title" content="Title Here" />
– <meta property="og:type" content="article" />
– <meta property="og:description" content="Description Here" />
• Mai multe detalii: https://moz.com/blog/meta-data-templates-123
RECOMANDĂRI
SEO – RECOMANDĂRI (1)
• Content de calitate ce poate fi descoperit de crawlers

– Meta tags
• Titlu – trebuie să conțină un cuvânt cheie important, să aibă mai puțin de 70 de caractere, să se diferențieze
de alte titluri ale competiției, să conțină numele brandului
• Descriere – trebuie să conțină 1-2 cuvinte cheie, să aibă mai puțin de 140 de caractere, să arate de ce
corespunde cererii utilizatorului
• Taguri social media
• Content securizat
• Optimizare pentru mobile
– Pentru a fi accesibil de Smartphone GoogleBot
SEO – RECOMANDĂRI (2)
• Performanță
– Site-urile ce se încarcă încet sunt penalizate de crawlers
– În general crawlers au un timeout de 5 secunde
• User engagement
• Link juice, rank și diferite tipuri de scor (TrustScore, Authority Score)
ANALIZĂ
”COOKIE RECIPE”
• Primul rezultat:
– https://joyfoodsunshine.com/the-most-amazing-chocolate-chip-cookies/
• Ultimul rezultat:
– http://thesquishymonster.com/2014/09/1-minute-chocolate-chip-cookie-for-1.html
ÎNTREBĂRI

PW11-Search Engine Optimization

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

PW11-Search Engine Optimization

Încărcat de

Drepturi de autor:

Formate disponibile

- SEO -

ACCESIBILITATE • Cele mai întâlnite valori pentru atributul content:

(5) – index / noindex – pagina poate / nu poate fi indexată

• Când se folosește atributul nofollow:

• Intrările din index sunt trecute printr-

Pe scurt, fiecare pagină din WWW

Votul corespunde cu un link către

• Inițial toate paginile vor avea PR egal:

LINK JUICE (1)

• Pe scurt, link juice este

Trust, Authority, Relevance Domain, Page, Link Authority

• Mai multe detalii: • Mai multe detalii:

• Server-side rendering (SSR)

• Mai multe detalii: https://developers.google.com/web/fundamentals/performance/critical-rendering-path/

• Content de calitate ce poate fi descoperit de crawlers

S-ar putea să vă placă și