Sunteți pe pagina 1din 34

Information Retrieval

căutarea (regăsirea) informației


поиск информации
Information overload
supraîncărcarea informațională
Информационная перегрузка
Search engine text indexing
indexarea paginilor web

Indexing
web pages
Terminologia IR

• documentul este o unitate de text.


- un articol din ziar, un capitol din carte, un paragraf,
o pagină WEB ş.a.m.d.
• colecţie este un set de documente.
• cuvinte-cheie (key-words) prezintă unităţi lexicale după
care se face selectarea documentelor.
- unităţile lexicale pot fi cuvintele, îmbinările de
cuvinte.
• interogarea (query) utilizatorului : informaţia prezentată
de către utilizator motorului de căutare în baza căruia se
execută selectarea documentelor.
IR: Definiții

• documentul relevant unei interogări

• similaritatea între interogare și document


sau între două documente
IR: Definiții
• documente relevante interogărilor
IR: Definiții
• similaritatea între interogare și document

interogare: ce este prelucrarea limbajului natural

document:
IR: Definiții
• similaritatea între interogare și document

sau între două documente


Terminologia IR:
bag of words
Terminologia IR:
bag of words
Terminologia IR:
bag of words
În IR interogarea utilizatorului şi documentele
sunt prezentate ca
vectori (seturi) de caracteristici (features)
de fapt, cuvintele-cheie care apar
în interogare sau în document.
În IR interogarea utilizatorului şi documentele
sunt prezentate ca
vectori (seturi) de caracteristici (features)
de fapt, cuvintele-cheie care apar
în interogare sau în document.

dj = ( t1,j, t2,j, t3,j, ... tN,j ) qk = ( t1,k, t2,k, t3,k, ... tN,k )

Atunci relevanţa documentului interogării


se calculează ca
similaritatea între document şi interogare:

sim (qk, dj ) =  ti,k × ti,j i=1,N


Exemplu:

Interogarea: speech language processing

Doc 1: Language is important. Speech and language


processing is important.

Doc2: We are studying speech. Speech is interesting.


Processing of speech is difficult. Speech is an audio
record. We have Romanian speech and English speech
records.

Doc 3: Language is our object of study. We learn language.


English language is less difficult than Romanian
language. Processing of language is interesting.
În IR interogarea utilizatorului şi documentele
sunt prezentate ca
vectori (seturi) de caracteristici (features)
de fapt, cuvintele-cheie care apar
în interogare sau în document.

sim (qk, dj ) =  ti,k × ti,j i=1,N


importanţa cuvintelor-cheie
weight - ponderea
importanţa cuvintelor-cheie
weight - ponderea

Matricea de ponderi a cuvintelor Ci în documentele dj


importanţa cuvintelor-cheie
Ponderea cuvîntului
în dependență de mărimea documentului

TF - TERM FREQUENCY

Se sumează pentru
fiecare document
Wi,j = ti,j / j ti,j 2
importanţa cuvintelor-cheie
Ponderea cuvîntului
în dependență de mărimea documentului
TERM FREQUENCY
importanţa cuvintelor-cheie
Ponderea cuvîntului
în dependență de numărul de documente în care
acesta apare

IDF – INVERSE DOCUMENT FREQUENCY

idfi = log(N / ni)

idfi
log(3/2)=log(1,5)=0.176
log(3/2)=log(1,5)=0.176
log(3/3)=log(1)=?
importanţa cuvintelor-cheie
Ponderea cuvîntului

TF-IDF METRICS

idfi = N / ni

idfi
log(3/2)=log(1,5)=0.176
log(3/2)=log(1,5)=0.176
log(3/3)=log(1)=0
importanţa cuvintelor-cheie
Ponderea cuvîntului

TF-IDF METRICS

idfi = N / ni

doc1 doc 2 doc3


speech 0.07 0.17 0.00
language 0.14 0.00 0.17
processing 0.00 0.00 0.00
SAU . . .
• Indexarea booleana

docs
terms
Stop words
de în şi la a să cu nu pe se ce
că mai o un din dar când ca el
iar eu lui care sunt cum tot prin
nici pentru mă este tu ei căci lor
au le am te numai fi asa noi însă
fost prea fără îi toti apoi sau ai
face cel voi decât poate ea ne pot
IR: Similaritatea

• similaritatea între
interogare: speech and language processing

q=( 1 1 1 )

și document doc1, doc2, doc3

sim (q, d) = d x q doc1 doc 2 doc3


speech 0.07 0.17 0.00
language 0.14 0.00 0.17
processing 0.00 0.00 0.00
IR: Similaritatea

• similaritatea între
interogare: speech and language processing

q=( 1 1 1 )

și document doc1, doc2, doc3

sim (q, d) = d x q doc1 doc 2 doc3


speech 1 1 0
language 1 0 1
processing 0 0 0
IR: Similaritatea
IR: Similaritatea
Modelul vectorilor în spațiu
Modelul vectorilor în spațiu
Exemplu
Două cuvinte: cats, dogs
Doc 1 vector = ( 3 2 )
Doc 2 vector = ( 1 4 )
Interogarea vector = (1 1)
4

3
Cats

0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
Dogs
Exemplu
Două cuvinte: cats, dogs
Doc 1 vector = ( 3 2 )
Doc 2 vector = ( 1 4 )
Interogarea vector = (1 1)
Amit Singhal
Google, Inc.
Modern Information Retrieval:
A Brief Overview
2001

S-ar putea să vă placă și