Documente Academic
Documente Profesional
Documente Cultură
Distancia
UCR ECCI
CI-2414 Recuperacin de Informacin
Prof. M.Sc. Kryscia Daviana Ramrez Benavides
Bsquedas en RI
Bsquedas estructuradas.
Basadas en palabras clave: clasificacin ms sencilla.
Conceptos Generales
Propiedades
Distancia de Hamming
h2 = GRANOS
N de
= HD(h1,h2) = 2
h2 = DISTROSION
N de
= HD(h1,h2) = 5
Ejemplo 1:
h1 = grande
h2 = granos
HD(h1,h2) = 2
Ejemplo 2:
h1 = distancia
h2 = distorsin
HD(h1,h2) = 5
Distancia de Levenshtein
destruccin()
insercin()
substitucin()
Algoritmo (cont.):
h1 = CENA
tam(h1) = 4
h2 = COMA
tam(h2) = 4
3
4
UCR-ECCI CI-2414 Recuperacin de Informacin
Algoritmos de Similaridad y Distancia
LD(h1,h2)
Intuitivamente:
Con el algoritmo:
0 1 2 3 4
0
c o m a
1 c 0 1 2 3
2 e 1 1 2 3
3 n 2 2 2 3
4 a 3 3 3 2
http://www.cut-the-knot.org/do_you_know/Strings.shtml
Colaborador: co ol la ab bo or ra ad do or
bigramas nicos: co ol la ab bo or ra ad do
Colaboracin: co ol la ab bo or ra ac ci i n
bigramas nicos: co ol la ab bo or ra ac ci i n
Bigramas = ca as sa ac ca = 5
Bigramas nicos = ca as sa ac = 4
h1 = escuela = es sc cu ue el la = 6
h2 = escuela = es sc cu ue el la = 6
Bigramas nicos de A = 6
Bigramas nicos de B = 6
Bigramas comunes = 6
2 * 6 / (6 + 6) = 1
BiD(h1,h2) = 1
h1 = escuela = es sc cu ue el la = 6
h2 = comidas = co om mi id da as = 6
Bigramas nicos de A = 6
Bigramas nicos de B = 6
Bigramas comunes = 0
2 * 0 / (6 + 6) = 0
BiD(h1,h2) = 0
Otros Usos
Prctica
Sean:
Prctica Hamming
d(s1, s2) = 1.
d(s1, s3) = 5.
Prctica Levenstein
Prctica Bigrama
LD
BiD
d(s1, s2)
8/9 = 0,8...
d(s1, s3)
1/5 = 0,2
Referencias Bibliogrficas