Documente Academic
Documente Profesional
Documente Cultură
INTRODUCCIÓN
A lo largo del tiempo distintos métodos han surgido con el objeto de describir, sintetizar,
clasificar y criticar la información de tipo textual. Algunos de tales métodos como la
ordenación alfabética, las ediciones de concordancias, índices y glosarios son muy
antiguos. Otros mas recientes han aparecido gracias al desarrollo de técnicas estadísticas
como el análisis de datos, y al advenimiento del computador.
El principal programa al cual se hace referencia en este texto es el sistema SPAD T, fue
construido por Mónica Bécue a partir de las técnicas, la filosofía y la implementación del
SPAD N1, y es la primera implementación formal de los métodos de análisis de datos
textuales basados en la teoría estadística del análisis factorial.
El objetivo de este texto es presentar al lector los principales métodos del análisis de datos
textuales para que pueda aplicarlos en sus investigaciones. Becué (1991) utiliza los
nombres de métodos lexicométricos y análisis de datos textuales y los presenta junto con
ejemplos de aplicación realizados mediante el paquete SPAD T. Este TEXTO se basa
principalmente en las referencias de Lebart y Becué para el caso de las técnicas factoriales,
y en el texto de Courtail (1994) y la documentación del programa LEXIMAPPE en el caso
de la técnica de palabras asociadas que es tratado únicamente en el capítulo seis. Las obras
y la documentación son de consulta obligada para quienes quieren abordar estos tópicos.
Como no es posible presentar aplicaciones en cada una de las principales de las ramas de
las ciencias, se han escogido una aplicación en el análisis de preguntas abiertas en
1
El sistema SPAD N de origen francés fue desarrollado para implementar en la práctica las técnicas del
análisis factorial de datos: Análisis de Componentes Principales (ACP), Análisis de Correspondencias Simples
(ACS), el Análisis de Correspondencias Múltiples (ACM) y otros métodos complementarios. Este sistema
escrito originalmente en lenguaje Fortran, está siendo convertido a una versión escrita en lenguaje C para
Windows, lo cual lo hará mas poderoso, flexible y amigable al usuario. Los sistemas SPAD N y SPAD T son
compatibles, y por tanto es posible utilizar en SPAD T archivos provenientes de SPAD N, lo cual como se
verá en este curso en conveniente y necesario.
2
Este programa ha sido facilitado al proyecto de investigación “El Brain Gain Revisited a través del caso
Colombiano. Estudio de la red Caldas.”, del cual ha participado uno de los autores. En este texto se muestran
algunos resultados provenientes del mencionado proyecto como ilustración de algunas aplicaciones del
análisis textual, y programa LEXIMAPPE solo usa como ilustración del método de las palabras asociadas.
Introducción al análisis de datos textuales 3
Distintas disciplinas tienen que ver con el estudio de la información textual. Las principales
son en la actualidad: la lingüística, el análisis de contenido, la investigación documental, y
la inteligencia artificial.
• La fonética: que estudia los sonidos de lenguaje, los fonemas en tanto que unidades
distintivas.
• La lexicología: estudia las palabras debido su origen.
• La morfología: trata las palabras tomándolas independientemente del contexto dentro de
la frase.
• La sintaxis: estudia las relaciones entre las palabras dentro de la frase.
• La semántica: estudia la significación, el mensaje contenido en la frase.
• La pragmática: estudia la relación entre el enunciado y la situación de la comunicación.
temas previstos. Las unidades en un análisis de contenido pueden ser los temas, las palabras
o elementos de sintaxis o semántica. Las unidades de descomposición para las medidas
cuantitativas variaran también: palabra, área cubierta por el artículo, etc. Como puede verse
al análisis de contenido así definido comporta una dimensión estadística. Un ejemplo de
este tipo de análisis utilizado en investigación documental es el de las palabras asociadas,
en el cual se buscan los contenidos a partir de las palabras que se repiten en los distintos
documentos en forma simultánea. El método de las palabras asociadas es presentado en el
capítulo 6.
Para los informáticos que trabajan en inteligencia artificial es importante obtener una
representación del sentido de las frases que se pueda manejar en un sistema informático,
independiente de todo lenguaje natural.
Este texto está orientado principalmente al análisis de datos de encuesta, para lo cual
describiremos algunos métodos para el tratamiento conjunto de las respuestas a preguntas
abiertas, semiabiertas y para el tratamiento para información de tipo biográfico.
Las respuestas a preguntas abiertas son elementos de información muy específicos tanto
desde el punto de vista textual como del estadístico. Para el especialista en estudios
textuales el texto obtenido tiene una carácter artificial y una fuerte redundancia global. Para
el estadístico las respuestas son de carácter impreciso y multiforme. Existen por lo menos
tres razones para utilizar preguntas abiertas: para disminuir el tiempo de entrevista, para
recolectar información que debe ser espontánea y para explicar y comprender la respuesta a
una pregunta cerrada. El método tradicional de poscodificación de preguntas abiertas tiene
solamente la ventaja de que los resultados son fácilmente explotables. Esta ventaja es sin
embargo muy importante. Los principales defectos de la poscodificación son: mediación del
Introducción al análisis de datos textuales 5
Desde este momento y hasta el capítulo seis es tratará el tema que es el eje central de éste
libro, es decir, el análisis de datos textuales por métodos factoriales.
Las técnicas del análisis de datos se pueden dividir en análisis factorial y clasificación. El
análisis factorial busca proyectar los datos sobre un espacio de dimensión reducida que
guarde buena parte de la información original. Los métodos de clasificación intentan
reagrupar los individuos en clases homogéneas respecto a las variables observadas. Los
métodos son complementarios y se usan simultáneamente.
Para la aplicación de los métodos de análisis multidimensionales a datos textuales se
construyen tablas de contingencia particulares:
6 Alvaro Montenegro y Campo Elías Pardo
1. La tabla léxica que contiene la frecuencia relativa con la que cada forma gráfica (forma
léxica o palabra) ha sido empleada por cada individuo; la tabla léxica es una tabla de
contingencia que contiene los perfiles léxicos de los individuos.
2. Cuando existen una o varia particiones del corpus, se puede construir para cada una de
ellas la frecuencia con la que se encuentra una forma en esta parte. Estas tablas se llaman
tablas léxicas agregadas.
3. Se pueden obtener tablas similares sustituyendo las palabras por segmentos de frase
repetidos.
Los análisis de datos descritos arriba se pueden tratar, y de hecho lo haremos con métodos
lexicométricos, tales como glosarios alfabéticos, la concordancia o edición de formas - polo
Introducción al análisis de datos textuales 7
****1
teresa en cuya frente el cielo empieza
como el aroma en la sien de la flor;
teresa la del suave desamor
y el arroyuelo azul en la cabeza.
****2
teresa en espiral de ligereza
y uva y rosa y trigo y surtidor;
tu cuerpo es todo el río del amor
que nunca acaba de pasar, teresa.
****3
niña por quien el cielo se levanta,
por quien la noche se levanta y canta
en pie, sobre los sueños, su canción
****4
teresa, en fin, por quien ausente vivo,
por quien con mano enamorada escribo,
por quien de nuevo existe el corazón
====
3
Poeta y escritor colombiano contemporáneo.