Sunteți pe pagina 1din 2

Medidas de similitud para la agrupación de documentos de texto

La agrupación en clústeres es una técnica útil que organiza una gran cantidad de documentos de texto
desordenados en un pequeño número de agrupaciones significativas y coherentes, lo que proporciona
una base para la navegación intuitiva e informativa y los mecanismos de navegación. Se ha reconocido
que los algoritmos de agrupamiento en clústeres tradicionales son más adecuados en comparación con
los esquemas de agrupamiento jerárquico para procesar grandes conjuntos de datos. Se ha utilizado una
amplia variedad de funciones de distancia y medidas de similitud para agrupar, como la distancia
euclidiana al cuadrado, la similitud de coseno y la entropía relativa.

En este documento, comparamos y analizamos la efectividad de estas medidas en la agrupación en


particiones para los conjuntos de datos de documentos de texto. Nuestros experimentos utilizan el
algoritmo estándar de Kmeans e informamos los resultados en siete conjuntos de datos de documentos
de texto y cinco medidas de distancia / similitud que se han utilizado con mayor frecuencia en la
agrupación de texto.

REPRESENTACION DE DOCUMENTOS

Hay varias formas de modelar un documento de texto. Por ejemplo, se puede representar como una
bolsa de palabras, donde se asume que las palabras aparecen de forma independiente y el orden es
irrelevante. El modelo de bolsa de palabras se usa ampliamente en la recuperación de información y la
minería de textos [21]. Las palabras se cuentan en la bolsa, que difiere de la definición matemática de
conjunto. Cada palabra corresponde a una dimensión en el espacio de datos resultante y cada
documento se convierte en un vector que consta de valores no negativos en cada dimensión. Aquí
utilizamos la frecuencia de cada término como su peso, lo que significa que los términos que aparecen
con mayor frecuencia son más importantes y descriptivos para el documento.

Sea D = {d1,. . . , dn} es un conjunto de documentos y T = {t1,. . . , tm} el conjunto de términos


distintos que aparecen en D. Discutimos más precisamente lo que entendemos por “términos” a
continuación: por el momento, supongamos que son palabras. Un documento se representa entonces
como un vector td de m dimensiones. Sea tf (d, t) la frecuencia del término t 2 T en el documento d 2
D. Entonces, la representación vectorial de un documento d es

Aunque se asume que las palabras más frecuentes son más importantes como se mencionó
anteriormente, este no suele ser el caso en la práctica. Por ejemplo, las palabras como y son
probablemente las palabras más frecuentes que aparecen en el texto en inglés, pero ninguna es
descriptiva ni importante para el tema del documento. De hecho, normalmente se utilizan estrategias
más complicadas, como el esquema de ponderación tfidf que se describe a continuación.

Con los documentos presentados como vectores, medimos el grado de similitud de dos documentos
como la correlación entre sus vectores correspondientes, que pueden cuantificarse aún más como el
coseno del ángulo entre los dos vectores. La Figura 1 muestra el ángulo en el espacio bidimensional,
pero en la práctica, el espacio del documento generalmente tiene decenas y miles de dimensiones.
Algunas propiedades útiles de la medida del coseno se discuten en la Sección 3.3.

Los términos son básicamente palabras. Pero aplicamos varias transformaciones estándar en el término
básico representación vectorial. Primero, eliminamos las palabras de parada. Hay palabras que no son
descriptivas para el tema de un documento, como a, y, son y hacen. Siguiendo las prácticas comunes,
utilizamos el implementado en el banco de trabajo de aprendizaje automático de Weka, que contiene
527 palabras de detención.

En tercer lugar, consideramos el efecto de incluir términos poco frecuentes en la representación del
documento en el rendimiento general del agrupamiento y decidimos descartar las palabras que aparecen
con una frecuencia de umbral inferior a la dada. El razonamiento al descartar términos poco frecuentes
es que, en muchos casos, no son muy descriptivos sobre el tema del documento y contribuyen poco a la
similitud entre dos documentos. Mientras tanto, incluir términos raros también puede introducir ruido
en el proceso de agrupación en clústeres y hacer que el cálculo de similitud sea más costoso. En
consecuencia, seleccionamos las 2000 palabras principales clasificadas por su peso y las usamos en
nuestros experimentos.

En el proceso de agrupación, también debemos comparar la diferencia / similitud entre dos


agrupaciones o entre una agrupación y un objeto. En la agrupación jerárquica, esto normalmente se
calcula como la distancia de enlace completo, de enlace único o de enlace promedio [8]. Sin embargo,
en los algoritmos de agrupamiento en particiones, un clúster generalmente se representa con un objeto
centroide. Por ejemplo, en el algoritmo K-medias, el centroide de un grupo es el promedio de todos los
objetos en el grupo, es decir, el valor del centroide en cada dimensión es la media aritmética de esa
dimensión sobre todos los objetos en el grupo. Sea C un conjunto de documentos. Su centroide se
define como