Documente Academic
Documente Profesional
Documente Cultură
Pro:
aprecierea "intelecutal" a paginilor web de ctre personal uman
mbunteste calitatea (precizia) cutrii
Contra:
Manual
Redactorul atribuie fiecrui site/document o pondere dpdv al
relevantei sale pentru respectivul catalog
Automat
Sortarea n interiorului unui domeniu tematic are loc
alfabetic/cronologic
www.yahoo.com
fondat in 1994
4500+ Servers
25 International Sites
13 Languages
Functii de baz
Adunarea datelor
Analiza documentelor si evaluarea lor
Constructia si gestiunea structurilor de tip index
Rspunsul la query-uri de cutare pe baza relevantei termenilor
Pro:
Contra:
www.google.com
dezvoltat n 1998 de ctre 2 doctoranzi ai universitatii Stanford
Larry Page si Sergey Brin
Googol expresie matematica pt. 10100
> 20 miliarde documente , 2 miliarde de imagini
peste 100 de versiuni in diferite limbi
300 milioane de utilizatori diferiti pe lun
> 700 milioane de query-uri pe zi
Evaluare automat a relevantei (PageRank)
Meta-Search Engines
www.metacrawler.com
urilor !!!!!
imagini (JPG/GIF/PNG/)
documente Postscript/PDF
documente Word/Powerpoint
etc
decizii asupra tipurilor de date care vor fi arhivate
scurt
WWW
Client/Server
Cautarea de
resurse noi sau
modificate
in spatiul WWW
Cerere
HTTPRequest
Robot
WebCrawler
Document
S
pider
verificate si analizate
periodic de catre
robot
Resursele
sunt scanate
WebRobot
HTTP-Response
Server WWW
11
Checker
Loader
f
2
Gatherer
Gatherer
3
2
Gatherer
Information
Retrieval
Gatherer
Scop: Aduna cat mai multe documente posibil si
mentine datele la cel mai actual nivel posibil
User-Agent: Googlebot/2.1
HTTP/1.1
Gatherer
Identificarea accesului in log-file pe serverul web
66.249.64.173 - - [10/Dec/2009:09:09:37 +0100]
"GET /~popescu/index.html HTTP/1.0" 404 1614
"-" "Googlebot/2.1
WebServer-ul poate refuza cutarea prin /robots.txt:
User-agent: Googlebot
Disallow: /~user/private/
User-agent: *
Disallow: /
WebRobots
Exclusion Protocol
Gatherer
autorul HTML-ului poate gestiona robotii printr-un tag META
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
"Robot-Netiquette" impune respectarea standardului de excluziune
dar nu toti robotii aplic regulile standardului
Checker
decide care din documente gsite de gatherer vor fi trimise la
Information Retrieval-System mai departe
de ex. se face o selectie pe baza
tipului de document,
corectitudinea sintaxei,
disponibilitatea
contracareaza SPAM-ul,
broken links, Redirect-uri, etc.
elimin dublurile
cuvinte cheie,
titluri,
bullet-uri, liste ordonate etc.
Information
Retrieval
Word Stemming
descriptori
Black List
Denormalizare
si analiz
George Kingsley
Zipf (19021950)
Lista
Descript
or 1
Descript
or 2
Descript
or 3
B.acu
Zair
Pondere
5.43
1235
4.33
2,4
Ponderi:
Pentru a avea rezultate de calitate ale cutarilor cuvintelor cheie,
trebuie ca documentele aflate n indexul invers s fie nzestrate
cu o pondere conform cu relevanta lor dpdv al keyword-ului
Ce este important?
Term Frequency Algorythm (TFA)
Legea lui Zipf:
Cu ct mai des apare un cuvnt cheie ntr-un text, cu att mai
important trebuie s fie respectivul cuvnt.
aparitia absolut a unui termen aparitia relativ
# KeyWord
# Words
Ponderi:
Ce este important?
Inverse Term Frequency Algorythm (ITFA)
# KeyWord
# Words # Document s
Cu ct sunt mai multe documente continnd un anumit keyword,cu
att keyword-ul caracterizeaz mai putin fiecare document in parte!
Relevant si
ponderi
Pentru a avea rezultate de calitate ale cutarilor cuvintelor cheie,
trebuie ca documentele aflate n indexul invers s fie nzestrate
cu o pondere conform cu relevanta lor dpdv al keyword-ului
Ponderarea relevantei
Important:
1. un document este cu att mai important cu ct mai multe documente
pointeaz ctre acest document prin intermediul unor link-uri
2. un document care pointeaz ctre un document "important" prin
intermediul unui link este el nsusi important
3. cu cat un document are mai multe link-uri ctre un alt document,
cu att mai "neimportant" este fiecare link in parte
Relevanta si ponderi
din 1-3 se poate crea o formul pentru calcularea importantei
(PageRank, PR) unui document
PR( A)
1
d
i
c
T
PR
i1T
c( A)
d factor de aproximare
(0<d<1)
i
Relevant si ponderi
1.0
1.0
1.0
1.0
PR(A)
PR(B)
PR(C)
1,0
1,0
1,0
1,0
1,0
0,575
2,275
0,15
2,083
0,575
1,1912
0,15
1,49
0,7833
1,577
PR(D)
0,15
1.49
0,78
1,57
0,15
PR(A)
PR(B)
PR(C)
1,0
1,0
1,0
1,0
1,0
0,575
2,275
0,15
2,083
0,575
1,1912
0,15
1,49
0,7833
1,577
PR(D)
0,15
Click-Popularity
Premiz:
cu ct un document este ales mai des de catre useri dintr-o list
de rezultate, cu att mai mare este relevanta lui.
criterii suplimentare:
documente vechi vs. documente noi de cnd exist doc-urile n
DB