Sunteți pe pagina 1din 23

Motoare de cautare

1
Definitii

Cauta – a examina un fisier din calculator,


disc, baza de date sau retea pentru a gasi
anumite informatii
Motor
Ceva care ofera o forta sau evergie pentru miscarea unui sistem

Motor de cautare
Un program care cauta anumita cuvinte cheie si returneaza o lista
de documente in care aceste cuvinte au fost gasite. Mai ales
servicii comerciale care scaneaza documente pe Internet.

2
Utilizarea unui motor de cautare …
printre altele

3
Cum functioneaza un motor de cautare

Crawler
URL1
URL2

Indexer Web

URL3 URL4

Totul despre
Search Site
Cuvinte
1 - 90%
Engine Site 2 - 81%
Browser
Database Cuvinte ? Site
Autor
3- 40%
Cuvinte. ??? - 10%
c.m.
4
Cum functioneaza un motor de
cautare
• crawlers, spiders: gasesc continutul
– Prin diverse modalitati, cautind site-uri noi si
care au fost modificate
– periodic, nu pentru fiecare interogare
• Motoarele de cautare NU functioneaza in timp real
– Unele motoare de cautare folosesc BD proprie
altele nu
• Continutul se poate cumpara de la companii precum
Inktomi
– Crawler-ele nu acopera intregul Web ci doar o
fractiune
– “web invizibil”
5
Cum functioneaza un motor de
cautare
• Organizarea continutului: etichetare, aranjare
– indexare pentru cautare – automat
• Cuvinte cheie si alte cimpuri
• Aranjarea dupa popularitatea URL-ului - PageRank de la
Google
– clasificare in directoare
• De catre experti umani
• Ca rezultat al organizarii diferite avem 2 tipuri
de motoare de cautare:
• cautare – intrarea este o interogare al carei raspuns este
cautat si afisat
• director –continut clasificat.
Directoarele au acum si facilitati de cautare si motoarele de
cautare au facilitati director.
6
Cum functioneaza un motor de
cautare
• Baze de date, cache-uri: stocarea continutului
– Fisiere omogene distribuite de obicei pe mai multe calculatoare

• Procesor de interogari: cauta, obtine, afiseaza


– Preia interogarea ca si intrare
– Afiseaza continutul sortat

• La celalalt capat al “tunelului” este browser-ul


vostru

7
Cum functioneaza un motor de
cautare
• Toate motoarele de cautare au aceste facilitati
comune
• Procesele si metodele de cautare sunt bazate pe
algoritmi, diferind de la motor la motor
– Cei mai multi algoritmi sunt proprietari dar se bazeaza
pe principii cunoscute de clasificare si regasire a
informatiei
– Google poate fi o exceptie – au publicat metoda de
cautare
• Citeaza suportul intial al NSF Digital Library Initiative
• Descrie metoda PageRank
– “We chose our system name, Google, because it is a
common spelling of googol, or ten on hundredth
power”( 10 )
100

8
Acoperirea WWW

• Nici un motor de cautare nu acopera mai mult


de o fractiune din WWW
– Este imposibil de comparat acoperirea

• in plus:
– Exista multe motoare de cautare nationale
• Acoperire proprie, orientare
– Exista multe motoare de cautare specializate sau de domeniu
• Acoperire orientat catre subiectul de interes

9
Acoperirea WWW
• According to a 2001 study, there were massively more than 550 billion
documents on the Web, mostly in the invisible Web, or deep Web.[27]
• A 2002 survey of 2,024 million Web pages[28] determined that by far the
most Web content was in English: 56.4%; next were pages in German
(7.7%), French (5.6%), and Japanese (4.9%).
• A more recent study, which used Web searches in 75 different languages
to sample the Web, determined that there were over 11.5 billion Web
pages in the publicly indexable Web as of the end of January 2005.[29]
• As of June 2008, the indexable web contains at least 63 billion pages.[30]
• On July 25, 2008, Google software engineers Jesse Alpert and Nissan Hajaj
announced that Google Search had discovered one trillion unique URLs.[31]
• Over 100.1 million websites operated as of March 2008.[14] Of these 74%
were commercial or other sites operating in the .com
generic top-level domain.[14]

10
Diferente intre motoarele de cautare
• La cautare, afisarea rezultatelor
– Diferentele se aplica la modalitatea de lucru si
diferentele intre
• Valori implicite la cautarea unei interogari
• Cautarea de fraze, diferente litera mare/mica,
categorii
• Cautarea in diverse cimpuri, formate, tipuri de
resurse
• Posibilitati de rafinare a cautarii folosind feedback
de relevanta
• Optiuni de afisare
• Optiuni de personalizare 11
Modele de afaceri
• Bun public - buget independent
– PubMed (http://en.wikipedia.org/wiki/PubMed) – cercetare
biomedicala
– Librarians’ Index to Internet - http://lii.org/

• Obtin venit din provision of information


– Toate motoarele de cautare comerciale
• Utilizarea motoarelor de cautare pentru
promovarea propriilor activitati
– Directoare de telefoane

12
Link-uri sponsorizate
• Influenteaza ceea ce se cauta si rezultatul
cautarii
– Rezultate separate de la site-urile sponsorizate
a.i. sa se stie exact care sunt sponsorizate si
care nu
– Afisare-per-plata – afiseaza in primul rind site-
urile care au platit mai mult (nu se stie exact
decit prin link-uri)
– Plata pentru actualizarea site-urilor (mai
rapida)

13
Limitari
• Fiecare motor de cautare are limitari in ceea ce
priveste
– Acoperirea
– Facilitatie de cautare
– Gasirea informatiilor de calitate
• Unele motoare au combinat cautarea cu partea
economica, devenind mai mult decit advertiseri
• Motoarele de cautare pot fi victime ale
spamindexing
– Afecteaza ceea ce este inclus si cum este clasificat14
Meta motoare de cautare
• Cauta in mai multe motoare de cautare
– Obtinind rezultate combinate din mai multe
surse
• Nu au propriile baze de date
– Dar au propriul model de afaceri, afectind
astfel rezultatele cautarii
• Tehnici utilizate
– clustering, analize statistice

15
Cum se gaseste un motor de cautare?

• SearchEngines.com
Cautare dupa subiect, geografie, referinte

Search Engine Guide - www.searchengineguide.com


Motoare clasificate dupa subiect

Search Engine Colossus - www.searchenginecolossus.com


Director international de motoare de cautare, clasificat dupa tara, subiecte,
limba. Acopera 198 tari si 61 teritorii

Phil Bradley’s country based search engines -


http://www.philb.com/
Peste 2000 motoare de cautare din intreaga lume

16
Exemple de Meta motoare de cautare
- rezultate organizate
Dogpile – rezultate de la mai multe motoare de
cautare. Ofera sursa a.i. suprapunerile pot fi
comparate
Surfwax - ofera statistici impreuna cu surse de text
si legaturi catre surse.
Teoma
Rezultate impreuna cu sugestii pentru ingustarea cautarii
Turbo10
Ofera rezultate in clustere; pot fi modificate motoarele de
cautare utilizate

17
• director
– Complete Planet
• Director de peste 70000 baze de date si motoare specializate

• Rezultate cu afisare grafica


– Vivisimo
• Rezultate in cluster; inovativ
– Webbrain
• Resultate in arbore
Kartoo

18
Motoare la nivel de domeniu si
cataloage
• Acopera anumite subiecte
• Instrumente importante pentru cautare la nivel de subiect
• Selectia continutului este facuta manual (si nu de catre
crawler-e)
Open Directory Project
• Catalog de pe web – global, gestionat de voluntari
BUBL LINK
• Resurse de pe Internet care acopera toate subiectele academice;
Profusion
Cautare in categorii pentru resurse si motoare de cautare
Resource Discovery Network – UK
“UK's free national gateway to Internet resources for the learning, teaching and
research community”

19
Motoare la nivel de domeniu (2)

Think Quest – Oracle Education Foundation


• Resurse educationale, site-uri web create de elevi/studenti
All Music Guide
• Resurse despre muzicieni, albume, cintece
Internet Movie Database
• Resurse despre filme
Genealogy links and surname search engines
Specializat - darcisplace.com/darci/search.htm
Daypop !!!!
Cauta in “living web” “The living web is composed of sites that update on a dai
basis: newspapers, online magazines, and weblogs”
20
stiinta, burse …acces gratuit trial

Psychcrawler - Amer Psychological Association


– web index pentru psihologie
Entrez PubMed – Nat Library of Medicine
literatura biomedicala de la MEDLINE
CiteSeer - NEC Research Center
– Index de citari (computer science)
Scholar Google
Cauta articole pentru studii si alte resurse
Infomine
Colectie de articole pentru studii
Scirus
Informatii stiitifice in jurnale si pe web
ScienceDirect
Elsevier: “world's largest electronic collection of science, technology and
medicine full text and bibliographic information”
ACM Portal
Asoc. for Computing Machinery: access to ACM Digital Library & Guide to Computing

21
Informatii despre motoare de cautare
Search Engine Watch
• ratings, news, statistics, charts, explanations, tutorials
Search Engine Showdown
• “The users’ guide to web searching” - run by a librarian, news links, ratings
Virtual Chase
a site about “Teaching Legal Professionals How To Do Research;,” this section has
very good tips and links for consideration of quality on the web
SiteLines
a blog, written by Rita Vine, a professional librarian, & web search
trainer; many evaluations in archive
ResourceShelf
“Resources and News for Information Professionals,” edited by
Gary Price, a librarian & author of Invisible Web – has extensive
archive
WebsearchAbout
not evaluative, but provides news, capabilities, sources, articles
about web searching

22
Arta de a cauta in motoare de cautare

23

S-ar putea să vă placă și