Documente Academic
Documente Profesional
Documente Cultură
11
Normalização euclidiana de tf
Termos Doc1 Doc2 Doc3
car 0.88 0.09 0.58
auto 0.1 0.71 0
insurance 0 0.71 0.7
best 0.46 0 0.41
Vetores
d1 0.88 0.1 0 0.46
d2 0.09 0.71 0.71 0
d3 0.58 0 0.7 0.41
q1 0.58 0.00 0.58 0.58
Resposta: O resultado obtido dos 3 ("K") documentos mais relevantes é igual, sendo os d2 o mais relevante, seguido de d
consecutivamente. Portanto é possível afirmar que o ranking ordenado pela distância euclidiana é identico ao produzido p
de similaridade, desde que, os vetores estejam todos normalizados em vetores unitários.
Termos tfq
car 1 0.58
auto 0 0.00
insurance 1 0.58
best 1 0.58
Excercicio 6.19
N (quantidade de documentos
na coleção)
10000000
consulta
termo tf wf
digital 1 1.00
video 0 0.00
camera 1 1.00
Resposta. O score de símilaridade do documento w com a co
1.92
consulta: digital camera
consulta documento
df idf qi=wf-idf tf wf di= normalizado wf
10000 3 3 1 1 0.52
100000 2 0 1 1 0.52
50000 2.3 2.3 2 ### 0.68
ento w com a consulta é de =
20 1.3
qi.di Normalização Euclidiana
1.56
0 car
1.56 auto
insurance
3.12 best
Compr. Euclidiano
Exemplo figua 6.9
w1 wn1 w2 wn2 w3 wn3 compr. Euclideano
27 0.88 4 0.09 24 0.58 55 36.35
3 0.10 33 0.70 0 0.00 33.14 33.14
0 0.00 33 0.70 29 0.70 42.01 43.93
14 0.46 0 0.00 17 0.41 22.02 22.02
Normalização euclidiana de tf
Termos SaS PaP RH
affection 1 0.99 0.85
jealous 0.09 0.12 0.47
gossip 0.02 0 0.25
Vetores
SaS 1 0.09 0.02 0
PaP 0.99 0.12 0 0
RH 0.85 0.47 0.25 0
q("affection") 1 0 0 0
q2("jealouss
gossip") 0 0.71 0.71
Resposta: Respota: Aplicando o cosseno de similaridade, podemos afirmar que, a ordenação relativa do ranking normaliz
resultado inverso em relação a conslulta jealous gossip. Tendo os seguintes resultados. Consulta affection: SaS, PaP e R
obtivemos RH, PaP e SaS
rês documentos na figura 6.13 a ordenação é reversa a obtida dos scores da consulta
tfq
0 0
1 0.71
1 0.71
0 0
1.41 1
Excercicio 6.21
Ao transformar uma consulta em um vetor unitário, na Figura 6.13, temos atribuídos pesos iguais a cada
dos termos da consulta. Que outras abordagens princípios são plausíveis?
Resposta: Podemos utilizar o tf-idf, desta forma fazer com que seu valor reflita também a importancia do termo entre os
documentos da coleção.
sos iguais a cada
Considerando o estudo de caso de uma termo na consulta que não está no conjunto M de termos indexados; assi
espaço vetorial criado a partir da coleção. Como seria a representação do espaço vetorial adaptado para controla
Normalização euclidiana de tf
Termos Doc1 Doc2 Doc3
car 0.88 0.09 0.58
auto 0.1 0.71 0
insurance 0 0.71 0.7
best 0.46 0 0.41
memory 0 0 0
Resposta:
Um novo termo se tornaria mais uma dimensão no espaço vetorial. Devemos considerar seu peso como sendo 0, em toda
coordenadas. Pôde ser verificado que mesmo que um termo da consulta, não pertença ao grupo de termos de uma determ
de documentos M, essa consulta pode conseguir alta pontuação utilizando o cosseno de similaridade com vetores normal
onjunto M de termos indexados; assim nossa construção padrão do vetor de consulta V(q) não estando no
paço vetorial adaptado para controlar esse caso?
Termos tfq
car 1 0.71
auto 0 0
insurance 0 0
best 0 0
memory 1 0.71
Cosseno de
best memory similaridade
0.46 0 0.62
0 0 0.77
0.41 0 1.11
0 0.71 1.00
Cosseno de
similaridade
d3
d2
d1
Consulte o tf e idf valores para quatro termos em 3 documentos no exercício 6.10 compute as duas mais pontuad
(ntc.atc)
i) nnn.atc: ou seja (documento: fequencia do termo no documento (tf-raw); consulta: tf aumentado, idf e cosseno)
Doc3 Termos
tf normalizada
24 0.58 car
0 0 auto
29 0.7 insurance
17 0.41 best
41.30 1.00
Cosseno de
similaridade
0.77
0.63
0.94
Doc3 Termos
tf normalizacao
3.92 0.574 car
2.08 0.304 auto
3.98 0.582 insurance
3.34 0.489 best
6.83 1.00
Cosseno de
similaridade
0.93
0.82
1.00
1.00
ntes esquemas de pontuação i(nnn.atc) e ii
normalização
tfq tf aumentado cosseno
1 1 0.55
0 0.5 0.28
1 1 0.55
1 1 0.55
1 1.8 1
normalização
tfq tf aumentado cosseno
1 1 0.55
0 0.5 0.28
1 1 0.55
1 1 0.55
1 1.8 1
Suponha que a palavra coyote não ocorra na coleção usada no exercicio 6.10 e 6.23.como nós podemos computa
Normaliazação euclidiana da Qu
Doc3 Termos
tf normalizacao
3.92 0.57 car
2.08 0.3 auto
3.98 0.58 insurance
3.34 0.49 best
0 0 coyote
6.83 1.00
Cosseno de
coyote similaridade
0.000 0.658
0.000 0.724
0.000 0.763
0.603 1.000
maliazação euclidiana da Query ( coyote insurance )
normalização
tfq tf aumentado cosseno
0 0.5 0.302
0 0.5 0.302
1 1 0.603
0 0.5 0.302
1 1 0.603
1 1.66 1
normalização
cosseno
0.3
0.3
0.6
0.3
0.8