Documente Academic
Documente Profesional
Documente Cultură
Indexing
web pages
Terminologia IR
document:
IR: Definiții
• similaritatea între interogare și document
dj = ( t1,j, t2,j, t3,j, ... tN,j ) qk = ( t1,k, t2,k, t3,k, ... tN,k )
TF - TERM FREQUENCY
Se sumează pentru
fiecare document
Wi,j = ti,j / j ti,j 2
importanţa cuvintelor-cheie
Ponderea cuvîntului
în dependență de mărimea documentului
TERM FREQUENCY
importanţa cuvintelor-cheie
Ponderea cuvîntului
în dependență de numărul de documente în care
acesta apare
idfi
log(3/2)=log(1,5)=0.176
log(3/2)=log(1,5)=0.176
log(3/3)=log(1)=?
importanţa cuvintelor-cheie
Ponderea cuvîntului
TF-IDF METRICS
idfi = N / ni
idfi
log(3/2)=log(1,5)=0.176
log(3/2)=log(1,5)=0.176
log(3/3)=log(1)=0
importanţa cuvintelor-cheie
Ponderea cuvîntului
TF-IDF METRICS
idfi = N / ni
docs
terms
Stop words
de în şi la a să cu nu pe se ce
că mai o un din dar când ca el
iar eu lui care sunt cum tot prin
nici pentru mă este tu ei căci lor
au le am te numai fi asa noi însă
fost prea fără îi toti apoi sau ai
face cel voi decât poate ea ne pot
IR: Similaritatea
• similaritatea între
interogare: speech and language processing
q=( 1 1 1 )
• similaritatea între
interogare: speech and language processing
q=( 1 1 1 )
3
Cats
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
Dogs
Exemplu
Două cuvinte: cats, dogs
Doc 1 vector = ( 3 2 )
Doc 2 vector = ( 1 4 )
Interogarea vector = (1 1)
Amit Singhal
Google, Inc.
Modern Information Retrieval:
A Brief Overview
2001