Foram utilizados os dados da figura 6.

Foram utilizados os dados da figura 6.
11
Normalização euclidiana de tf
Termos Doc1 Doc2 Doc3
car 0.88 0.09 0.58
auto 0.1 0.71 0
insurance 0 0.71 0.7
best 0.46 0 0.41
* Só fiz esse cálculo para

certeza que são vetores
1.00 1.01 1.00 unários.
Vetores
d1 0.88 0.1 0 0.46
d2 0.09 0.71 0.71 0
d3 0.58 0 0.7 0.41
q1 0.58 0.00 0.58 0.58
Resposta: O resultado obtido dos 3 ("K") documentos mais relevantes é igual, sendo os d2 o mais relevante, seguido de d
consecutivamente. Portanto é possível afirmar que o ranking ordenado pela distância euclidiana é identico ao produzido p
de similaridade, desde que, os vetores estejam todos normalizados em vetores unitários.
Na proxima recomendo colocar

no docs normal mesmo (sem
ser planilha) pq ta muito dificil
de entender o que está sendo
feito e a ordem das coisas
Normaliazação euclidiana da Query ( best car
insurance )
Termos tfq
car 1 0.58
auto 0 0.00
insurance 1 0.58
best 1 0.58
* Só fiz esse cálculo para

certeza que são vetores
unários. 1.73 1 Cosseno
Resposta de
Distancia Cosseno de Distancia similaridad
Euclidiana similaridade Euclidiana e
0.67 0.77 d3 d3
1.05 0.46 d1 d1
0.21 0.98 d2 d2
os d2 o mais relevante, seguido de d1 e d3
a euclidiana é identico ao produzido pelo cálculo do cosseno
rios.
Excercicio 6.19
Excercicio 6.19
N (quantidade de documentos
na coleção)
10000000
consulta
termo tf wf
digital 1 1.00
video 0 0.00
camera 1 1.00
Resposta. O score de símilaridade do documento w com a co
Normalização Euclidiana do documento do exercício

q qn
digital 1 0.52
video 1 0.52
camera 1.3 0.68
1.92
consulta: digital camera
consulta documento
df idf qi=wf-idf tf wf di= normalizado wf
10000 3 3 1 1 0.52
100000 2 0 1 1 0.52
50000 2.3 2.3 2 ### 0.68
ento w com a consulta é de =
20 1.3
qi.di Normalização Euclidiana
1.56
0 car
1.56 auto
insurance
3.12 best
Compr. Euclidiano
Exemplo figua 6.9
w1 wn1 w2 wn2 w3 wn3 compr. Euclideano
27 0.88 4 0.09 24 0.58 55 36.35
3 0.10 33 0.70 0 0.00 33.14 33.14
0 0.00 33 0.70 29 0.70 42.01 43.93
14 0.46 0 0.00 17 0.41 22.02 22.02
30.56 46.84 41.3

Enunciado: Mostre que para a consulta affection, a relativa ordenação dos scores dos três documentos na figura
jealous gossip.
Termos SaS PaP RH
affection 1 0.99 0.85
jealous 0.09 0.12 0.47
gossip 0.02 0 0.25
* Só fiz esse cálculo para certeza qu

1.00 1.00 1.00 vetores unários.
Vetores
SaS 1 0.09 0.02 0
PaP 0.99 0.12 0 0
RH 0.85 0.47 0.25 0
q("affection") 1 0 0 0
q2("jealouss
gossip") 0 0.71 0.71
Resposta: Respota: Aplicando o cosseno de similaridade, podemos afirmar que, a ordenação relativa do ranking normaliz
resultado inverso em relação a conslulta jealous gossip. Tendo os seguintes resultados. Consulta affection: SaS, PaP e R
obtivemos RH, PaP e SaS
rês documentos na figura 6.13 a ordenação é reversa a obtida dos scores da consulta
Normaliazação euclidiana da Query ( affection ) Normaliazação euclidiana da Q
Termos tfq Termos

affection 1 1 affection
jealous 0 0 jealous
gossip 0 0 gossip
sse cálculo para certeza que são

unários. 1 1
Top K
Cosseno de
Cosseno de similaridade:
similaridade: q2("jealouss Query jealous e
q("affection") gossip") Query affection gossip
0.996 0.074 SaS RH
0.993 0.085 Pap PaP
0.847 0.509 RH SaS
relativa do ranking normalizado dos vetores da consulta affection tem
ulta affection: SaS, PaP e RH, enquanto que na consulta jealous gossip,
maliazação euclidiana da Query ( jealous gossip )
tfq
0 0
1 0.71
1 0.71
0 0
1.41 1
Excercicio 6.21
Ao transformar uma consulta em um vetor unitário, na Figura 6.13, temos atribuídos pesos iguais a cada
dos termos da consulta. Que outras abordagens princípios são plausíveis?
Resposta: Podemos utilizar o tf-idf, desta forma fazer com que seu valor reflita também a importancia do termo entre os
documentos da coleção.
sos iguais a cada
ortancia do termo entre os

Excercicio 6.22
Considerando o estudo de caso de uma termo na consulta que não está no conjunto M de termos indexados; assi
espaço vetorial criado a partir da coleção. Como seria a representação do espaço vetorial adaptado para controla
Termos Doc1 Doc2 Doc3
car 0.88 0.09 0.58
auto 0.1 0.71 0
insurance 0 0.71 0.7
best 0.46 0 0.41
memory 0 0 0
1.00 1.01 1.00
Espaço vetorial com o termo memory incluído
Vetores car auto insurance

d1 0.88 0.1 0
d2 0.09 0.71 0.71
d3 0.58 0 0.7
q1 0.71 0 0
Resposta:
Um novo termo se tornaria mais uma dimensão no espaço vetorial. Devemos considerar seu peso como sendo 0, em toda
coordenadas. Pôde ser verificado que mesmo que um termo da consulta, não pertença ao grupo de termos de uma determ
de documentos M, essa consulta pode conseguir alta pontuação utilizando o cosseno de similaridade com vetores normal
onjunto M de termos indexados; assim nossa construção padrão do vetor de consulta V(q) não estando no
paço vetorial adaptado para controlar esse caso?
Normaliazação euclidiana da Query ( car memory )
Termos tfq
car 1 0.71
auto 0 0
insurance 0 0
best 0 0
memory 1 0.71
* Só fiz esse cálculo para certeza que são

vetores unários. 1.41 1
Cosseno de
best memory similaridade
0.46 0 0.62
0 0 0.77
0.41 0 1.11
0 0.71 1.00
derar seu peso como sendo 0, em todas as

ença ao grupo de termos de uma determinada coleção
no de similaridade com vetores normalizados.
0
Cosseno de
similaridade
d3
d2
d1
Consulte o tf e idf valores para quatro termos em 3 documentos no exercício 6.10 compute as duas mais pontuad
(ntc.atc)
i) nnn.atc: ou seja (documento: fequencia do termo no documento (tf-raw); consulta: tf aumentado, idf e cosseno)
Normalização euclidiana de tf (Figura 6.9)
Termos Doc1 Doc2

tf normalizada tf normalizada
car 27 0.88 4 0.09
auto 3 0.1 33 0.7
insurance 0 0 33 0.7
best 14 0.46 0 0
30.56 1.00 46.84 1.00
Vetores car auto insurance best

d1 0.883 0.098 0.000 0.458
d2 0.085 0.705 0.705 0.000
d3 0.581 0.000 0.702 0.412
q1 0.555 0.277 0.555 0.555
Termos Doc1 Doc2
tf normalização tf normalização
car 4 0.647 2.64 0.363
auto 3.05 0.493 5.22 0.717
insurance 1.62 0.262 4.06 0.558
best 3.21 0.519 1.5 0.206
6.18 1.000 7.28 1.00

d1 0.647 0.493 0.262 0.519
d2 0.363 0.717 0.558 0.206
d3 0.574 0.304 0.582 0.489
q1 0.555 0.277 0.555 0.555
ute as duas mais pontuados documentos na consulta "best car insurance" para cada um dos seguintes esquemas de pontua
ado, idf e cosseno)
Normaliazação cosseno da Quer
Doc3 Termos
tf normalizada
24 0.58 car
0 0 auto
29 0.7 insurance
17 0.41 best
41.30 1.00
Cosseno de
similaridade
0.77
0.63
0.94
Doc3 Termos
tf normalizacao
3.92 0.574 car
2.08 0.304 auto
3.98 0.582 insurance
3.34 0.489 best
6.83 1.00
Cosseno de
similaridade
0.93
0.82
1.00
1.00
ntes esquemas de pontuação i(nnn.atc) e ii
maliazação cosseno da Query ( best car insurance )
normalização
tfq tf aumentado cosseno
1 1 0.55
0 0.5 0.28
1 1 0.55
1 1 0.55
1 1.8 1
normalização
1 1 0.55
0 0.5 0.28
1 1 0.55
1 1 0.55
1 1.8 1
Suponha que a palavra coyote não ocorra na coleção usada no exercicio 6.10 e 6.23.como nós podemos computa
Termos Doc1 Doc2

tf normalização tf normalização
car 4 0.65 2.64 0.36
auto 3.05 0.49 5.22 0.72
insurance 1.62 0.26 4.06 0.56
best 3.21 0.52 1.5 0.21
coyote 0 0 0 0
6.18 1.00 7.28 1.00

d1 0.647 0.493 0.262 0.519
d2 0.363 0.717 0.558 0.206
d3 0.574 0.304 0.582 0.489
q1 0.302 0.302 0.603 0.302
mo nós podemos computar a pontuação ntc.atc para a query coyote insurance?
Normaliazação euclidiana da Qu
Doc3 Termos
tf normalizacao
3.92 0.57 car
2.08 0.3 auto
3.98 0.58 insurance
3.34 0.49 best
0 0 coyote
6.83 1.00
Cosseno de
coyote similaridade
0.000 0.658
0.000 0.724
0.000 0.763
0.603 1.000
maliazação euclidiana da Query ( coyote insurance )
normalização
0 0.5 0.302
0 0.5 0.302
1 1 0.603
0 0.5 0.302
1 1 0.603
1 1.66 1
normalização
cosseno
0.3
0.3
0.6
0.3
0.8

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Încărcat de

Drepturi de autor:

Formate disponibile

Foram utilizados os dados da figura 6.

* Só fiz esse cálculo para

Na proxima recomendo colocar

* Só fiz esse cálculo para

Normalização Euclidiana do documento do exercício

30.56 46.84 41.3

* Só fiz esse cálculo para certeza qu

Normaliazação euclidiana da Query ( affection ) Normaliazação euclidiana da Q

Termos tfq Termos

sse cálculo para certeza que são

ortancia do termo entre os

1.00 1.01 1.00

Espaço vetorial com o termo memory incluído

Vetores car auto insurance

Normaliazação euclidiana da Query ( car memory )

* Só fiz esse cálculo para certeza que são

derar seu peso como sendo 0, em todas as

Normalização euclidiana de tf (Figura 6.9)

Termos Doc1 Doc2

Vetores car auto insurance best

Vetores car auto insurance best

ado, idf e cosseno)

Normaliazação cosseno da Quer

maliazação cosseno da Query ( best car insurance )

Termos Doc1 Doc2

Vetores car auto insurance best

S-ar putea să vă placă și