Sunteți pe pagina 1din 1

UNIVERSIDAD NACIONAL DE INGENIERA

Facultad de Ingeniera Industrial y de Sistemas


ST202V LABORATORIO 25/04/2015
Una de las formas ms utilizadas para estructurar la informacin almacenada en documentos es
la contabilizacin de la frecuencia de aparicin de trminos en el mismo.
Dicha informacin tambin puede ser utilizada para comparar 2 documentos y determinar qu
tan similares son.
Para este problema se ha obtenido el texto de en documento a travs de la lectura de un
archivo
plano
y
se
ha
almacenado
en
un
vector
de
caracteres.
Se solicita lo siguiente:

Pre-procese la informacin del documento: Elimine espacios en blanco repetidos,


signos de puntuacin y nmeros.

Asimismo, lea un vector de "stop words" y elimine dichas palabras del vector original
(dichas palabras pueden algunos verbos auxiliares, preposiciones, etc).
Calcule la frecuencia relativa de aparicin de cada palabra y muestre las 10 palabras
con mayor frecuencia.

Implemente una funcin que reciba 2 vectores que representan documentos y calcule la
similaridad entre ellos. Para el caso de este problema se utilizar un criterio muy simple
que consiste en obtener el porcentaje de trminos comunes que aparecen en el top
10 de la lista de frecuencias calculada en el paso anterior.

S-ar putea să vă placă și