DatTexCap1 PDF

1.
INTRODUCCIÓN
1.1 Generalidades de los datos textuales
A lo largo del tiempo distintos métodos han surgido con el objeto de describir, sintetizar,
clasificar y criticar la información de tipo textual. Algunos de tales métodos como la
ordenación alfabética, las ediciones de concordancias, índices y glosarios son muy
antiguos. Otros mas recientes han aparecido gracias al desarrollo de técnicas estadísticas
como el análisis de datos, y al advenimiento del computador.
Los mayores logros en el propósito de cuantificar la información textual se han conseguido

con la introducción de métodos estadísticos desarrollados para el tratamiento de variables
cuantitativas y categóricas. Lebart y Salem (1994) dan el nombre de estadística textual al
estudio de textos con la ayuda de métodos estadísticos. En este texto además de estudiar los
métodos conocidos tradicionalmente bajo el nombre de estadística textual, se hace una
introducción a otra técnica complementaria muy valiosa para el tratamiento de información
textual proveniente de la cienciometría y conocida como método de las palabras asociadas.
La utilización masiva de los métodos para el tratamiento de información textual, ha sido

lenta debido a que por un lado las técnicas de análisis, que constituyen la base principal de
los métodos son complejas desde el punto de vista teórico, y no ha existido un marcado
interés de producir bibliografía en idiomas distintos al francés y el inglés, y por otro lado
porque la implementación de las técnicas de la estadística textual requieren de la
2 Alvaro Montenegro y Campo Elías Pardo
manipulación de extensas matrices, que obliga desde el comienzo a la utilización de

programas de computador.
El principal programa al cual se hace referencia en este texto es el sistema SPAD T, fue
construido por Mónica Bécue a partir de las técnicas, la filosofía y la implementación del
SPAD N1, y es la primera implementación formal de los métodos de análisis de datos
textuales basados en la teoría estadística del análisis factorial.
Adicionalmente, en el capítulo se hace referencia al programa LEXIMAPPE, desarrollado

por el “Centre de Sociologie de lÍnnovation de lÉcole des Mines de Paris et le
Département Recherche et Produits Nouveaux de lÍNIST (Institut National de
lÍnformation Scientifique et Technique du CNRS”2 .
El objetivo de este texto es presentar al lector los principales métodos del análisis de datos
textuales para que pueda aplicarlos en sus investigaciones. Becué (1991) utiliza los
nombres de métodos lexicométricos y análisis de datos textuales y los presenta junto con
ejemplos de aplicación realizados mediante el paquete SPAD T. Este TEXTO se basa
principalmente en las referencias de Lebart y Becué para el caso de las técnicas factoriales,
y en el texto de Courtail (1994) y la documentación del programa LEXIMAPPE en el caso
de la técnica de palabras asociadas que es tratado únicamente en el capítulo seis. Las obras
y la documentación son de consulta obligada para quienes quieren abordar estos tópicos.
Como no es posible presentar aplicaciones en cada una de las principales de las ramas de
las ciencias, se han escogido una aplicación en el análisis de preguntas abiertas en
1
El sistema SPAD N de origen francés fue desarrollado para implementar en la práctica las técnicas del
análisis factorial de datos: Análisis de Componentes Principales (ACP), Análisis de Correspondencias Simples
(ACS), el Análisis de Correspondencias Múltiples (ACM) y otros métodos complementarios. Este sistema
escrito originalmente en lenguaje Fortran, está siendo convertido a una versión escrita en lenguaje C para
Windows, lo cual lo hará mas poderoso, flexible y amigable al usuario. Los sistemas SPAD N y SPAD T son
compatibles, y por tanto es posible utilizar en SPAD T archivos provenientes de SPAD N, lo cual como se
verá en este curso en conveniente y necesario.
2
Este programa ha sido facilitado al proyecto de investigación “El Brain Gain Revisited a través del caso
Colombiano. Estudio de la red Caldas.”, del cual ha participado uno de los autores. En este texto se muestran
algunos resultados provenientes del mencionado proyecto como ilustración de algunas aplicaciones del
análisis textual, y programa LEXIMAPPE solo usa como ilustración del método de las palabras asociadas.
Introducción al análisis de datos textuales 3
encuestas, una aplicación en la construcción de mapas científicos, y una aplicación en el

análisis de datos biográficos (datos de tipo longitudinal). pero se espera que el lector pueda
visualizar las potenciales aplicaciones dentro de su área de trabajo o investigación.
Distintas disciplinas tienen que ver con el estudio de la información textual. Las principales
son en la actualidad: la lingüística, el análisis de contenido, la investigación documental, y
la inteligencia artificial.
La lingüística es una ciencia piloto de las ciencia humanas. La lingüística estructural se

centra en la descripción de las unidades lingüísticas las cuales se encuentran encajadas en
sistemas que les asignan valores particulares a cada una. En particular la lingüística
estructural estudia los textos (o mejor debiéramos decir el lenguaje) desde el punto de vista
de la construcción de sistemas de reglas de construcción de combinaciones y sustituciones
posibles de elementos previamente definidos. En la lingüística se distinguen varias áreas
según la naturaleza de los que se esté observando. Tales áreas son:
• La fonética: que estudia los sonidos de lenguaje, los fonemas en tanto que unidades
distintivas.
• La lexicología: estudia las palabras debido su origen.
• La morfología: trata las palabras tomándolas independientemente del contexto dentro de
la frase.
• La sintaxis: estudia las relaciones entre las palabras dentro de la frase.
• La semántica: estudia la significación, el mensaje contenido en la frase.
• La pragmática: estudia la relación entre el enunciado y la situación de la comunicación.
El análisis de contenido se propone acceder directamente a las significaciones de

diferentes segmentos que componen el texto. Es una técnica de investigación para la
descripción objetiva, sistemática y cuantitativa del contenido manifiesto en la
comunicación. Opera en dos fases: se empieza por construir un conjunto de clases de
equivalencia, de temas y se examinan luego las ocurrencias de los textos que serán
sucesivamente analizados. En una segunda fase se hacen los conteos para cada uno de los
temas previstos. Las unidades en un análisis de contenido pueden ser los temas, las palabras
o elementos de sintaxis o semántica. Las unidades de descomposición para las medidas
cuantitativas variaran también: palabra, área cubierta por el artículo, etc. Como puede verse
al análisis de contenido así definido comporta una dimensión estadística. Un ejemplo de
este tipo de análisis utilizado en investigación documental es el de las palabras asociadas,
en el cual se buscan los contenidos a partir de las palabras que se repiten en los distintos
documentos en forma simultánea. El método de las palabras asociadas es presentado en el
capítulo 6.
Para los informáticos que trabajan en inteligencia artificial es importante obtener una
representación del sentido de las frases que se pueda manejar en un sistema informático,
independiente de todo lenguaje natural.
En la investigación documental los métodos estadísticos pueden intervenir en el momento

de la constitución y la organización de la base de documentos y en las fases de búsqueda de
documentos a partir de descriptores en lenguaje natural o a partir de palabras claves.
Este texto está orientado principalmente al análisis de datos de encuesta, para lo cual
describiremos algunos métodos para el tratamiento conjunto de las respuestas a preguntas
abiertas, semiabiertas y para el tratamiento para información de tipo biográfico.
Las respuestas a preguntas abiertas son elementos de información muy específicos tanto
desde el punto de vista textual como del estadístico. Para el especialista en estudios
textuales el texto obtenido tiene una carácter artificial y una fuerte redundancia global. Para
el estadístico las respuestas son de carácter impreciso y multiforme. Existen por lo menos
tres razones para utilizar preguntas abiertas: para disminuir el tiempo de entrevista, para
recolectar información que debe ser espontánea y para explicar y comprender la respuesta a
una pregunta cerrada. El método tradicional de poscodificación de preguntas abiertas tiene
solamente la ventaja de que los resultados son fácilmente explotables. Esta ventaja es sin
embargo muy importante. Los principales defectos de la poscodificación son: mediación del
codificador, destrucción de la forma, empobrecimiento del contenido y las respuestas raras

se eliminan a priori.
Las respuestas libres se pueden grabar en su forma original sobre un soporte informático y
se pueden tratar sin alterar mediante dos operaciones elementales pero útiles: las
clasificaciones y los reagrupamientos. Se pueden, por ejemplo, reagrupar las respuestas por
categorías socioprofesionales y luego leer sucesivamente las respuestas de los agricultores,
de los obreros, de los ejecutivos, etc.
Desde este momento y hasta el capítulo seis es tratará el tema que es el eje central de éste
libro, es decir, el análisis de datos textuales por métodos factoriales.
1.2 Métodos de análisis
Los técnicas de análisis que se utilizaran corresponden a los métodos de análisis

estadísticos de grandes tablas de datos. El tratamiento de textos se hará considerando una
nueva variable, la variable léxica, cuyas modalidades serán las formas gráficas del corpus
tratado.
El análisis estadístico de datos desarrollado principalmente a partir de los trabajos de

Benzecri (1976), Lebart, Morineau y Fenelon (1979 y 1984) es una metodología que
explota las posibilidades de cálculo del computador. Se parte de los datos y se trata un gran
número de dimensiones simultáneamente. Este tipo de análisis permite tratar una
información compleja de forma global, resumida y representarla en forma sintética.
Las técnicas del análisis de datos se pueden dividir en análisis factorial y clasificación. El
análisis factorial busca proyectar los datos sobre un espacio de dimensión reducida que
guarde buena parte de la información original. Los métodos de clasificación intentan
reagrupar los individuos en clases homogéneas respecto a las variables observadas. Los
métodos son complementarios y se usan simultáneamente.
Para la aplicación de los métodos de análisis multidimensionales a datos textuales se
construyen tablas de contingencia particulares:
1. La tabla léxica que contiene la frecuencia relativa con la que cada forma gráfica (forma
léxica o palabra) ha sido empleada por cada individuo; la tabla léxica es una tabla de
contingencia que contiene los perfiles léxicos de los individuos.
2. Cuando existen una o varia particiones del corpus, se puede construir para cada una de
ellas la frecuencia con la que se encuentra una forma en esta parte. Estas tablas se llaman
tablas léxicas agregadas.
3. Se pueden obtener tablas similares sustituyendo las palabras por segmentos de frase
repetidos.
A estas tablas se les puede aplicar el Análisis Factorial de Correspondencias Simples

(ACS). y los métodos de clasificación automática. En el caso del análisis textual, los
individuos se representan en el espacio referenciados por las formas léxicas. Los métodos
de análisis de datos aplicados a las tablas léxicas permiten una aproximación diferenciadora
de las respuestas individuales o de las partes del corpus. Se procede por comparación de
perfiles léxicos. Con la utilización de estos métodos no se trata de saber que dicen los
individuos, pero si saber si dicen lo mismo (Bécue, 1991).
El análisis de correspondencias da una visualización de las proximidades entre individuos y

entre formas, Permite observar que formas y/o expresiones diferencian a los individuos.
Alternativamente, si se utiliza conjuntamente información textual y no textual se puede
observar cuales son las características objetivas de los individuos asociadas a un tipo de
vocabulario. Por ejemplo se podría ver si un mismo contenido semántico se expresa con
formas distintas, según el grupo socioeconómico, el sexo, la edad, etc.
La clasificación automática de los individuos en función de su vocabulario completa y

enriquece los resultados anteriores. Se puede caracterizar cada clase en función de la
información objetiva que se tiene sobre los individuos que la componen.
Los análisis de datos descritos arriba se pueden tratar, y de hecho lo haremos con métodos
lexicométricos, tales como glosarios alfabéticos, la concordancia o edición de formas - polo
escogidas por el usuario y la selección de formas y segmentos y frases características de las

partes del corpus.
1.3 Un ejemplo de un corpus de datos textuales
El siguiente es el ejemplo de un corpus de datos textuales. Es el SONETO A TERESA de

Eduardo Carranza3, en la forma como lo lee SPAD T y separado en estrofas:
****1
teresa en cuya frente el cielo empieza
como el aroma en la sien de la flor;
teresa la del suave desamor
y el arroyuelo azul en la cabeza.
****2
teresa en espiral de ligereza
y uva y rosa y trigo y surtidor;
tu cuerpo es todo el río del amor
que nunca acaba de pasar, teresa.
****3
niña por quien el cielo se levanta,
por quien la noche se levanta y canta
en pie, sobre los sueños, su canción
****4
teresa, en fin, por quien ausente vivo,
por quien con mano enamorada escribo,
por quien de nuevo existe el corazón
====
3
Poeta y escritor colombiano contemporáneo.

DatTexCap1 PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

DatTexCap1 PDF

Încărcat de

Drepturi de autor:

Formate disponibile

1.

1.1 Generalidades de los datos textuales

Los mayores logros en el propósito de cuantificar la información textual se han conseguido

La utilización masiva de los métodos para el tratamiento de información textual, ha sido

manipulación de extensas matrices, que obliga desde el comienzo a la utilización de

Adicionalmente, en el capítulo se hace referencia al programa LEXIMAPPE, desarrollado

encuestas, una aplicación en la construcción de mapas científicos, y una aplicación en el

La lingüística es una ciencia piloto de las ciencia humanas. La lingüística estructural se

El análisis de contenido se propone acceder directamente a las significaciones de

En la investigación documental los métodos estadísticos pueden intervenir en el momento

codificador, destrucción de la forma, empobrecimiento del contenido y las respuestas raras

1.2 Métodos de análisis

Los técnicas de análisis que se utilizaran corresponden a los métodos de análisis

El análisis estadístico de datos desarrollado principalmente a partir de los trabajos de

A estas tablas se les puede aplicar el Análisis Factorial de Correspondencias Simples

El análisis de correspondencias da una visualización de las proximidades entre individuos y

La clasificación automática de los individuos en función de su vocabulario completa y

escogidas por el usuario y la selección de formas y segmentos y frases características de las

1.3 Un ejemplo de un corpus de datos textuales

El siguiente es el ejemplo de un corpus de datos textuales. Es el SONETO A TERESA de

S-ar putea să vă placă și