Documente Academic
Documente Profesional
Documente Cultură
1
Definitii
Motor de cautare
Un program care cauta anumita cuvinte cheie si returneaza o lista
de documente in care aceste cuvinte au fost gasite. Mai ales
servicii comerciale care scaneaza documente pe Internet.
2
Utilizarea unui motor de cautare …
printre altele
3
Cum functioneaza un motor de cautare
Crawler
URL1
URL2
Indexer Web
URL3 URL4
Totul despre
Search Site
Cuvinte
1 - 90%
Engine Site 2 - 81%
Browser
Database Cuvinte ? Site
Autor
3- 40%
Cuvinte. ??? - 10%
c.m.
4
Cum functioneaza un motor de
cautare
• crawlers, spiders: gasesc continutul
– Prin diverse modalitati, cautind site-uri noi si
care au fost modificate
– periodic, nu pentru fiecare interogare
• Motoarele de cautare NU functioneaza in timp real
– Unele motoare de cautare folosesc BD proprie
altele nu
• Continutul se poate cumpara de la companii precum
Inktomi
– Crawler-ele nu acopera intregul Web ci doar o
fractiune
– “web invizibil”
5
Cum functioneaza un motor de
cautare
• Organizarea continutului: etichetare, aranjare
– indexare pentru cautare – automat
• Cuvinte cheie si alte cimpuri
• Aranjarea dupa popularitatea URL-ului - PageRank de la
Google
– clasificare in directoare
• De catre experti umani
• Ca rezultat al organizarii diferite avem 2 tipuri
de motoare de cautare:
• cautare – intrarea este o interogare al carei raspuns este
cautat si afisat
• director –continut clasificat.
Directoarele au acum si facilitati de cautare si motoarele de
cautare au facilitati director.
6
Cum functioneaza un motor de
cautare
• Baze de date, cache-uri: stocarea continutului
– Fisiere omogene distribuite de obicei pe mai multe calculatoare
7
Cum functioneaza un motor de
cautare
• Toate motoarele de cautare au aceste facilitati
comune
• Procesele si metodele de cautare sunt bazate pe
algoritmi, diferind de la motor la motor
– Cei mai multi algoritmi sunt proprietari dar se bazeaza
pe principii cunoscute de clasificare si regasire a
informatiei
– Google poate fi o exceptie – au publicat metoda de
cautare
• Citeaza suportul intial al NSF Digital Library Initiative
• Descrie metoda PageRank
– “We chose our system name, Google, because it is a
common spelling of googol, or ten on hundredth
power”( 10 )
100
8
Acoperirea WWW
• in plus:
– Exista multe motoare de cautare nationale
• Acoperire proprie, orientare
– Exista multe motoare de cautare specializate sau de domeniu
• Acoperire orientat catre subiectul de interes
9
Acoperirea WWW
• According to a 2001 study, there were massively more than 550 billion
documents on the Web, mostly in the invisible Web, or deep Web.[27]
• A 2002 survey of 2,024 million Web pages[28] determined that by far the
most Web content was in English: 56.4%; next were pages in German
(7.7%), French (5.6%), and Japanese (4.9%).
• A more recent study, which used Web searches in 75 different languages
to sample the Web, determined that there were over 11.5 billion Web
pages in the publicly indexable Web as of the end of January 2005.[29]
• As of June 2008, the indexable web contains at least 63 billion pages.[30]
• On July 25, 2008, Google software engineers Jesse Alpert and Nissan Hajaj
announced that Google Search had discovered one trillion unique URLs.[31]
• Over 100.1 million websites operated as of March 2008.[14] Of these 74%
were commercial or other sites operating in the .com
generic top-level domain.[14]
10
Diferente intre motoarele de cautare
• La cautare, afisarea rezultatelor
– Diferentele se aplica la modalitatea de lucru si
diferentele intre
• Valori implicite la cautarea unei interogari
• Cautarea de fraze, diferente litera mare/mica,
categorii
• Cautarea in diverse cimpuri, formate, tipuri de
resurse
• Posibilitati de rafinare a cautarii folosind feedback
de relevanta
• Optiuni de afisare
• Optiuni de personalizare 11
Modele de afaceri
• Bun public - buget independent
– PubMed (http://en.wikipedia.org/wiki/PubMed) – cercetare
biomedicala
– Librarians’ Index to Internet - http://lii.org/
12
Link-uri sponsorizate
• Influenteaza ceea ce se cauta si rezultatul
cautarii
– Rezultate separate de la site-urile sponsorizate
a.i. sa se stie exact care sunt sponsorizate si
care nu
– Afisare-per-plata – afiseaza in primul rind site-
urile care au platit mai mult (nu se stie exact
decit prin link-uri)
– Plata pentru actualizarea site-urilor (mai
rapida)
13
Limitari
• Fiecare motor de cautare are limitari in ceea ce
priveste
– Acoperirea
– Facilitatie de cautare
– Gasirea informatiilor de calitate
• Unele motoare au combinat cautarea cu partea
economica, devenind mai mult decit advertiseri
• Motoarele de cautare pot fi victime ale
spamindexing
– Afecteaza ceea ce este inclus si cum este clasificat14
Meta motoare de cautare
• Cauta in mai multe motoare de cautare
– Obtinind rezultate combinate din mai multe
surse
• Nu au propriile baze de date
– Dar au propriul model de afaceri, afectind
astfel rezultatele cautarii
• Tehnici utilizate
– clustering, analize statistice
15
Cum se gaseste un motor de cautare?
• SearchEngines.com
Cautare dupa subiect, geografie, referinte
16
Exemple de Meta motoare de cautare
- rezultate organizate
Dogpile – rezultate de la mai multe motoare de
cautare. Ofera sursa a.i. suprapunerile pot fi
comparate
Surfwax - ofera statistici impreuna cu surse de text
si legaturi catre surse.
Teoma
Rezultate impreuna cu sugestii pentru ingustarea cautarii
Turbo10
Ofera rezultate in clustere; pot fi modificate motoarele de
cautare utilizate
17
• director
– Complete Planet
• Director de peste 70000 baze de date si motoare specializate
18
Motoare la nivel de domeniu si
cataloage
• Acopera anumite subiecte
• Instrumente importante pentru cautare la nivel de subiect
• Selectia continutului este facuta manual (si nu de catre
crawler-e)
Open Directory Project
• Catalog de pe web – global, gestionat de voluntari
BUBL LINK
• Resurse de pe Internet care acopera toate subiectele academice;
Profusion
Cautare in categorii pentru resurse si motoare de cautare
Resource Discovery Network – UK
“UK's free national gateway to Internet resources for the learning, teaching and
research community”
19
Motoare la nivel de domeniu (2)
21
Informatii despre motoare de cautare
Search Engine Watch
• ratings, news, statistics, charts, explanations, tutorials
Search Engine Showdown
• “The users’ guide to web searching” - run by a librarian, news links, ratings
Virtual Chase
a site about “Teaching Legal Professionals How To Do Research;,” this section has
very good tips and links for consideration of quality on the web
SiteLines
a blog, written by Rita Vine, a professional librarian, & web search
trainer; many evaluations in archive
ResourceShelf
“Resources and News for Information Professionals,” edited by
Gary Price, a librarian & author of Invisible Web – has extensive
archive
WebsearchAbout
not evaluative, but provides news, capabilities, sources, articles
about web searching
22
Arta de a cauta in motoare de cautare
23