Documente Academic
Documente Profesional
Documente Cultură
PAI - 15 - 16 Curs 2 3!!!!
PAI - 15 - 16 Curs 2 3!!!!
Curs 2 & 3
WWW-search engines
Motoarele de cutare
WWW- search engines
8
WWW-search engines
1 Index-based vs. Catalogue-based
2 Meta-Search
3 Cum funcioneaz Google?
1 Index - based vs. Catalogue-based
Cataloage Web
{ Serviciu de cutare al crui continut este gestionat de ctre
redactori "umani"
{ Acesti redatori creaz un catalog ordonat dpdv tematic
{ Contra:
{ Relativ puine date
{ problem serioas de actualitate a informatiilor
{ proces destul de greoi de evaluare a calittii paginilor
{ Noile pagini web trebuie adugate manual de ctre creatorii paginilor
1 Index - based vs. Catalogue-based
Web catalogues
{ Cum se sorteaza entry-urile n interiorul unui anumit catalog?
{ Manual
Redactorul atribuie fiecrui site/document o pondere dpdv al
relevantei sale pentru respectivul catalog
{ Automat
Sortarea n interiorului unui domeniu tematic are loc alfabetic/cronologic
1 Index - based vs. Catalogue-based
Web catalogues
{ www.yahoo.com
{ "Yet Another Hierarchical Officious Oracle"
{ fondat in 1994
{ 201 milioane de utilizatori
{ din care 93 milioane activi
{ > 1.5 miliarde Page Views pe zi
{ 4500+ Servers
{ 25 International Sites
{ 13 Languages
{ 8.1 Million Lines Of Code in C/C++
{ 3.0 Million Lines Of Code in Perl
1 Index - based vs. Catalogue-based
{ Functii de baz
{Adunarea datelor
{Analiza documentelor si evaluarea lor
{Constructia si gestiunea structurilor de tip index
{Rspunsul la query-uri de cutare pe baza relevantei termenilor
1 Index - based vs. Catalogue-based
{ Contra:
{ Precizia cutarii depinde de algoritmii folositi pentru evaluarea
relevantei documentelor
{ Evaluarea automat a relevantei documentelor poate duce
la rezultate slabe dpdv calitativ (obiectivitate scazut)
Index - based vs. Catalogue-based
Meta-Search Engines
{ Desfsurarea unui query (unei interogri):
1. Acceptarea unui query prin intermediul unei interfete proprii (web page)
2. Generarea de query-uri de cutare pt motoarele de cutare
3. Trimiterea query-urilor prin HTTP ctre motoarele "in gestiune"
4. Asteptarea si culegerea rezultatelor furnizate de motoarele de cutare
5. Analiza rezultatelor, eliminarea duplicatelor, crearea unui "ranking"
pt rezultatele obtinute
6. Reprezentarea rezultatelor (lista)
z Meta-Search Engines
{ www.metacrawler.com
{ dezvoltat n 1994 la Universitatea din Washington
{ trimite query-uri simultan la 23 motoare de cutare
{ Yellow Pages / White Pages
{ folosete un proxy care garanteaz anonimitatea query-urilor !!!!!
WWW-search engines
1 Index-based vs. Catalogue-based
2 Meta-Search
3 Cum funcioneaz Google?
Cum funcioneaz de fapt Google?
Functionarea Google:
{ Google - adunarea datelor
{ Problema 1: o multitudine de tipuri de date in WWW
{ documente HTML statice
{ documente HTML dinamice
{ imagini (JPG/GIF/PNG/)
{ documente Postscript/PDF
{ documente Word/Powerpoint
{ etc
Functionarea Google:
{ Google - adunarea datelor
{ Problema nr. 2: WWW is alive
{ Datele si documentele in WWW
{ au o "durat de viata" scurt
{ sunt supuse unor modificri permanente
{ depind de alte documente (links)
Functionarea Google:
{ Google - adunarea datelor
{ Google foloseste WebRobots pentru scanarea spatiului WWW
{ WebRobots lucreaza divizat pe baza modelului Client/Server
Resursele sunt scanate
verificate si analizate
periodic de catre robot
Cautarea de resurse
noi sau modificate
in spatiul WWW Cerere
HTTP-Request
Robot
WebCrawler Document
Spider HTTP-Response
Functionarea Google:
{ Google - adunarea datelor
{ Componentele unui sistem de tip Web Robot
{ Gatherer
Adunarea documentelor din spatiul WWW
{ Loader
Organizarea (scheduling) task-urilor de adunare doc.
{ URL - Database
Gestionarea ntregului volum de date
{ Checker
Filtrarea datelor adunate
Cum funcioneaz de fapt Google?
Functionarea Google:
{ Google - adunarea datelor
{ Componentele unui sistem WebRobot
URL-DB
1 Checker
Loader Information
11 f 3
Retrieval
2 2 2
User-Agent: Googlebot/2.1
Cum funcioneaz de fapt Google?
normalizarea datelor
identificare cuvinte
Information
identificarea limbii Retrieval
Word Stemming
Robot-System
descriptori
Lista
Descriptor 1
Descriptor 2
Descriptor 3
Document
Cum funcioneaz de fapt Google?
Google: analiza datelor
{ Structuri de date pentru Information Retrieval
{ Necesitatea de a avea un raspuns rapid la query-urile de cautare duce
la crearea unor structuri speciale de date
{ File system de tip invers
{ Unui descrpitor (keyword) i este anexat o serie de documente
relevante
{ Ce este important?
# KeyWord
# Words # Documents
c ( A ) PR (Ti )
PR ( A ) = (1 d) + d
i=1 c(Ti )
Cum funcioneaz de fapt Google?
Google: analiza datelor
{ Relevan i ponderi
{ Exemplu de calcul pt. PageRanking
A B
Calculul se face iterativ pn cnd se
ajunge la o "stare" stabil (punct fix).
1.0 1.0
A B
Calculul se face iterativ pn cnd se
1.49 ajunge la o "stare" stabil (punct fix).
0,78
{ criterii suplimentare:
{ documente vechi vs. documente noi de cnd exist doc-urile n DB