Documente Academic
Documente Profesional
Documente Cultură
Area = en la linguìstica es por ejemplo el analisis del discurso, algo que està por encima
de la sintaxis. Hay varias areas de estudio:
- Morfologìa = estudia los morfemas, partes de palabras que hacen que haya una
coordinaciòn.
1
La lexicografìa es una disciplina que estudia los significados y definiciones que
encontramos en los diccionarios. En todas estas areas los corpus pueden hacer estudios.
Hay distintas teorìas para una rama de estudio. Por ejemplo hay quien estudia usando
datos y quien no los usa.
CORDE = El Corpus Diacrónico del Español (CORDE) es un corpus textual de todas las
épocas y lugares en que se habló español, desde los inicios del idioma hasta el año 1974,
en que limita con el Corpus de Referencia del Español Actual (CREA). El CORDE está
diseñado para extraer información con la cual estudiar las palabras y sus significados, así
como la gramática y su uso a través del tiempo.Cuenta en la actualidad con 250 millones
de registros correspondientes a textos escritos de muy diferente género. Se distribuyen
estos en prosa y verso y, dentro de cada modalidad, en textos narrativos, líricos,
dramáticos, científico-técnicos, históricos, jurídicos, religiosos, periodísticos, etc. Se
pretende recoger todas las variedades geográficas, históricas y genéricas para que el
conjunto sea suficientemente representativo.Hoy es fuente obligada para cualquier
estudio diacrónico relacionado con la lengua española. La Academia utiliza
sistemáticamente el CORDE para documentar palabras, para calificarlas de anticuadas o
en desuso, para saber el origen de algunos términos, su tradición en la lengua, las
primeras apariciones de las palabras... Sirvió, además, de material básico para la
confección del Nuevo diccionario histórico del español.
2
27/09/18
Se dice FORMA y no palabras porque las formas son caractéres digitales entre espacios.
Hay muchas formas de palabras, y serìan el nùmero de veces que la palabra se repite en
un corpus.
Es gracias a la lingüística que se analizan los datos de todos los dìas por ejemplo los de
Facebook, google ecc., utilizadas cotidianamente.
3
Parámetros habituales
Medio
El 90 % de los textos corresponde a la lengua escrita y el 10 % a la lengua oral. De ese
90 %, un 49 % proceden de libros, otro 49 % es prensa y el 2 % restante recoge los textos
que denominamos miscelánea: folletos, prospectos, correos electrónicos, blogs, etc.
Cronológico
El corpus está estructurado en períodos de cinco años: 1975-1979; 1980-1984; 1985-
1989; 1990-1994; 1995-1999, 2000-2004.
Geográfico
El 50 % del material del CREA procede de España, y el otro 50 %, de América. A su vez
este 50 % se distribuye en las zonas lingüísticas tradicionales: andina, antillas (caribeña),
caribe continental, chilena, Estados Unidos, México y Centroamérica y Río de la Plata.
Temático
Cada uno de los tres grandes grupos de materiales (libros y prensa, miscelánea y oral) se
clasifica de modo independiente: los textos de libros y prensa, en dos grandes grupos,
ficción y no ficción, con 6 hipercampos que distribuyen hasta 20 áreas temáticas. Los
textos de miscelánea se clasifican en impresa/no impresa y oral, así como en géneros y
subgéneros.
El corpus de la real academia recoge el uso correcto de la lengua espanola. En la lengua
escrita nunca hay palabrotas ecc, mientras que en la lengua hablada sì.
NORMA = es lo que se debe seguir, lo que merece ser respetado. Registro culto y formal.
Medios = 50% lengua oral asì como el 50% lengua escrita. De este 50% escrita, podemos
tratar de libros, guìas turisticas, prensa, internet, documentos, fuentes historicas,articulos,
arquivios, bùsqueda. Del 50% oral academicos, guìas turisiticas, profesores.
Cronologico = 1507 hasta el termino del siglo XVI.
Geografico = toda Europa, en particular Italia.
Tematico = cambios tanto en elementos arquitectonicos de grandes complejos de iglesias
(40%) cuanto en la iconografia de los mismos sujetos religiosos (60%).
4
02/10/18
Hay una tradiciòn que nos lleva a que siempre Espana es la origen de todo y hace que se
le de màs importancia al espanol de Espana. Ahora en los ultimos tiempos se ha
reconocido la importancia del espanol en el mundo, antes no: La Academia va
entendiendo que no solo el espanol de Espana es importante.
La literatura es el modelo aureo de la lengua, pero esta concepciòn està cambiando. Para
poder comunicar y aprender a comunicar tenemos que considerar la lengua funcional, la
de la comunicaciòn de todos los dias.
http://corpus.rae.es/creanet.html
03/10/18
5
4. En el caso de que una consulta exceda de ciertos límites (2000 documentos o 1000
ejemplos), es preciso aplicar métodos de filtrado para la visualización de los
ejemplos.
5. Si es necesario usar más de un operador lógico en una expresión, es conveniente
usar paréntesis para evitar resultados no deseados. Por ejemplo, la expresión:
manzana Y pera O naranja puede significar (manzana Y pera) O naranja, o bien
manzana Y (pera O naranja). El sistema resolverá siempre en primer lugar el
paréntesis más interno.
6. Debido a la estructura del banco de datos (obra completa), la utilización de los
operadores Y, O produce a menudo resultados abultados. Una consulta del tipo: de
Y que devolverá todos los documentos que contengan de y que en cualquier
posición. Por esa razón, es preferible recurrir a los criterios de distancia entre
palabras (operador dist/).
7. Debido a la extensión del banco de datos, resulta poco práctico recurrir a la
consulta de prefijos, sufijos y, en general, a secuencias de caracteres demasiado
imprecisas. Por ejemplo, la consulta *rar, planteada sobre la totalidad del CREA,
produce más de 50.000 ejemplos distribuidos en 1.700 documentos.
Consultas simples.
Expresiones lógicas.
manzana O pera (Al menos una de las palabras debe de estar presente en el documento)
manzana dist/5 pera (La palabra manzana debe de aparecer a una distancia medida en
palabras no superior a 5 de la palabra pera)
manzana NO dist/5 pera (La palabra manzana no debe aparecer a una distancia inferior a
5 palabras de la palabra pera)
Es posible ampliar o concretar la búsqueda incluyendo los signos "?" y "*" como
"comodines" en la formación de las palabras. La interrogación cerrada (?) sustituye a un
carácter en una posición determinada, mientras que el asterisco (*) sustituye a cualquier
número de caracteres. Por ejemplo, la consulta Pedr* producirá: Pedro, Pedrito, Pedrada,
etc., M?sa resolverá: Mesa, Masa, Misa, Musa.
Filtros.
El sistema de filtros tiene por objeto obtener una reducción del número de ejemplos
cuando la abundancia de los mismos obstaculiza la labor de consulta. Su aplicación se
realiza mediante la selección de la casilla correspondiente en el apartado [Filtros].
Existen dos tipos de filtros que se ocupan de reducir el número de documentos o ejemplos
proporcionados en una consulta, minimizando la pérdida de representatividad de los datos
obtenidos.
07/10/18
El filtro [Casos] tiene por objeto reducir el número de ejemplos que se ofrecen en cada
documento. De esta forma, si un documento contiene 10 ejemplos de la consulta
realizada, la aplicación de este filtro en la proporción 1/2 reduce a 5 los casos
seleccionando alternativamente un caso de cada dos. El botón [Mantener documentos]
tiene la misión de mantener el criterio de representatividad. Para lograrlo, conserva como
mínimo un ejemplo de cada uno de los documentos inicialmente seleccionados.
Una vez efectuada una consulta, es posible recuperar la relación de autores y obras, los
ejemplos, así como realizar diversas clasificaciones, cuadros estadísticos, etc.
AUTORES Y OBRAS.
CONCORDANCIAS.
Clasificación.
Clasificación múltiple.
Agrupaciones.
A menudo resulta útil obtener una visión sumaria (colocaciones) de los patrones más
frecuentes para una palabra. La opción [Recuperar: Agrupaciones] ofrece un resumen
de los rasgos contextuales que acompañan a una palabra o expresión. El apartado
[Agrupa] permite especificar el número de palabras que intervendrán en la confección del
sumario. El sistema ofrecerá por defecto las agrupaciones correspondientes a contextos
de 2,3 y 5 palabras.
El filtro contextual (si existe) indicará a su vez, la palabra de referencia para extraer los
contextos más frecuentes; en principio se tomará como referencia la palabra consultada.
Eje. el filtro contextual [Izda(1)], supondrá la realización de agrupaciones basadas en la
palabra inmediatamente anterior en el contexto a la consultada.
8
Selección manual de ejemplos.
Los corpus CREA y CORDE contienen abundante información codificada que identifica
aspectos del texto que requieren un tratamiento especial. Normalmente, la información
que proporciona la codificación es útil únicamente para los especialistas. Sin embargo,
existe la posibilidad de mostrar el texto codificado mediante el apartado [Marcas]. Por
ejemplo, si efectúa una consulta sobre transcripciones de conversaciones (apartado
"Oral"), y selecciona el apartado [Marcas: Oral], podrá ver las concordancias o los
párrafos con la codificación relativa al hablante, tipo de conversación etc.
9
pantal?n*, en todos los medios, en CREA
Resultado: 5151 casos en 1578 documentos.
15/10/18
Idiolecto lengua propia de una persona. Esta persona tiene una manera de hablar y en
el corpus me provoca error.
El sistema de filtros tiene por objeto obtener una reducción del número de ejemplos
cuando la abundancia de los mismos obstaculiza la labor de consulta. Su aplicación se
realiza mediante la selección de la casilla correspondiente en el apartado [Filtros].
Existen dos tipos de filtros que se ocupan de reducir el número de documentos o ejemplos
proporcionados en una consulta, minimizando la pérdida de representatividad de los datos
obtenidos.
10
Comprensiòn = activa / pasiva.
Hay 4 competencias:
- HABLAR
- ESCUCHAR
- LEER
- ESCRIBIR
Cuando alguien escucha una lengua hay un mecanismo en el cerebro de repeticiòn de las
palabras que oye. El habla es la base para aprender una lengua. La comunicaciòn puede
ser formal o informal, entonces hay variantes de:
17/10/18
CABECERA informar donde es el lugar de la comunicaciòn, que relaciòn hay entre los
partecipantes, tema del que se habla ecc.
1992 1º corpus de lengua oral en España (CORLEC). Es un corpus abierto pero està
transcrito con puntos y comas, que son normas de la escritura, que si las mezclamos con
la transcripciòn se crea confusiòn. En la escritura se pone la coma para crear una pausa
al lector, pero en el habla no se usan las comas. Las palabras ortograficas solo se
escriben de una manera, pero podemos prononciarlas en varias maneras (“interesado” se
puede en el habla decir “interesao”). La transcripciòn sirve para entender mejor el audio,
pero lo importante es el habla. Después de CORLEC, en Lablita se hace el C/ORAL/ROM
dirigido por Antonio Moreno; las grabaciones eran hechas pidiendo permisoLos
creadores piden dinero a la Uniòn Europea y se ponen en contacto con las universidades
que tengan ya corpus. CORLEC estaba hecho sin algo fundamental para un corpus oral
la regla era grabar con permiso de la persona grabada, pero CORLEC grababa sin
permiso, y es algo prohibido si utilizado para lograr dinero.
No se pueden reutilizar los audios por ejemplo para hacer un libro porque no son publicos.
La transcripciòn es un medio de analisis. Lo màs importante es que yo reconozca la
estructura del enunciado.
12
Lindes prosodicas cambios tonales.
Incidencias repeticiones de palabras, reformulaciones ecc.
ENUNCIADO acto ilocutivo, que implica una intenciòn comunicativa, o sea que quiere
decir algo. El acto ilocutivo implica el acto locutivo (el hablar) y una reacciòn del otro. Yo
quiero que el otro sepa y haga reacciones. Cuando yo interrumpo el habla no hay acto y
no hay final de enunciado.
24/10/18
& la e comercial se pone para la vocalizaciones, como por ejemplo &ehm, &mmm. Se
usa tambien con fragmentos de palabras &pue (pues).
13
xxx cuando no se entiende nada yyy risa hhh sonidos y ruìdos.
28/10/18
14
MODELO DE ANALISIS es un anàlisis empìrico, observa la realidad, los fenomenos
que se repiten en la realidad, las pequenas diferencias que separan los fenòmenos de
otros. Ipotiza unas caracteristicas y las categorìas que dàn cuenta y responden a este
anàlisis. Vuelve a observar la realidad comprobando si estas categorìas se confirman
validas. Ajusta los atributos de estas categorìas y luego se compromete con el nùmero de
la categorìa. Cada una de las categorìas gramaticales tiene caracteristicas diferentes.
La teoria empieza con un anàlisis perceptivo del habla y del enunciado sensibilidad
para reconocer las lindes. El objeto de anàlisis no lo transformo sino se reproduce en la
transcripciòn. Se analiza la realidad lingüística. Se desliga de la sintàxis de la lengua
escrita. La lengua oral es inmediata, en cambio la lengua escrita no lo es.
INT introductor TOP antes del COM PAR intermedio (màs largo)
APC tras COM (màs breve) APT tras TOP
15
04/11/18
En las transcripciones tenemos que poner un espacio entre las letras y las etiquetas:
El “¿” no existe!!
No podemos poner 2 etiquetas cerca, como “?//”. Es equivocado.
# silencio
INSISTENCIA enfasis que tiene el hablante con respeto a lo que dice. “No tengo clase
hoy, no la tengo.”
16
10/11/18
A ACTO DE HABLA.
A+ A ampliada con TOP, APT, CMM, PAR, COM. Es el esencial + los otros
componentes, entonces el enunciado complejo.
17
RIASSUNTI MANUALE
18
- MICROESTRUCTURA La cabecera es la parte inicial, seguida de la
transcripción, de cada archivo de texto de C-Or-DiAL.
20
2.13 Expresar certeza y evidencia, falta de certeza y evidencia, posibilidad (invitar a formular una
hipótesis, etc.)
2.19 Preguntar sobre el conocimiento de algo o por la habilidad para hacer algo
2.20 Expresar conocimiento y desconocimiento o habilidad e inhabilidad para hacer algo
2.24 Preguntar si se recuerda o se ha olvidado
2.25 Expresar que se recuerda o no se recuerda
4 INFLUIR EN EL INTERLOCUTOR4.1 Dar una orden (con una instrucción, prohibiendo, etc.)
4.2 Pedir un favor, pedir ayuda (preguntar si se puede dejar un recado, etc.)
4.3 Pedir objetos
4.6 Repetir una orden previa o solicitar confirmación de una propuesta previa
4.7 Responder a una orden, petición o ruego (accediendo a su cumplimiento, eludiendo el
cumplimiento, negándose a su cumplimiento, rechazando una prohibición, etc.)
4.8 Pedir permiso
4.9 Dar y denegar permiso
4.13 Proponer y sugerir
4.14 Ofrecer e invitar
4.16 Aceptar o rechazar una propuesta, ofrecimiento o invitación, un tema
4.18 Aconsejar y advertir
4.20 Amenazar o reprochar
4.22 Prometer y comprometerse u ofrecerse para hacer algo
4.24 Tranquilizar, consolar y animar
4.26 Preguntar por obligación y necesidad y expresar obligación y necesidad o falta de obligación o
necesidad
21
5 RELACIONARSE SOCIALMENTE5.1 Saludar y despedirse (responder a un saludo, enviar y
transmitir saludos, responder al envío de saludos, dar la bienvenida a alguien y responder a una
bienvenida, etc.)
5.3 Dirigirse a alguien (para iniciar el contacto, con fórmulas o convenciones, presentando a alguien,
respondiendo a una presentación, etc.)
5.10 Disculparse y responder a una disculpa
5.12 Agradecer o desagradecer y responder a un agradecimiento o a un desagradecimiento
5.17 Formular buenos o malos deseos (felicitar, proponer un brindis, maldecir, etc.) y responder a
buenos o malos deseos
22
1) ¿Qué es una palabra?
Una palabra se puede describir o definir como lo hace el DRAE: palabra. (Del lat.
parabŏla). 1.f. Segmento del discurso unificado habitualmente por el acento, el significado
y pausas potenciales inicial y final. 2.f. Representación gráfica de la palabra hablada. En
la escritura una palabra se puede identificar por los espacios en blanco que la rodean. Al
hablar no se suelen identifican las palabras pues se dicen muy a menudo sin intervalo
entre ellas. En el proceso de adquisición de la lengua materna se llega a la segmentación
en palabras de modo inconsciente; es un proceso precedente al aprendizaje de la
escritura. Los no nativos que aprenden la lengua sin escolarización siguen el mismo
proceso. Quien aprende una lengua extranjera en las aulas suele aprender primero a leer
las palabras escritas y luego a usarlas en la lengua oral. Las palabras en un corpus
didáctico se tienen que escribir de modo ortográfico para evitar provocar errores en el
aprendizaje a quien estudia esa lengua. Para la investigación sobre la lengua oral se
utilizan las concordancias extraídas con programas de análisis de texto. Con las
concordancias se estudia el uso real de la lengua oral. Para extraer estas listas es
necesario antes haber introducido en un archivo el corpus oral objeto de estudio
(recopilación de textos orales del uso real de la lengua) cuya transcripción contenga:
palabras identificables (ortográficas y no con variantes como na’, na’a, naa, sino con la
forma ortográfica nada) y etiquetas (en una lista cerrada) que no se confundan con las
palabras.
Podría no llegarse a un acuerdo pues para tomar decisiones sería necesario oír la
grabación de esta transcripción para ver sus características. Pero se puede ya saber que:
Las reglas de puntuación son una convención para la estructuración de la lengua escrita,
que no tiene una correspondencia con la organización del discurso oral. No se puede
etiquetar una transcripción de la lengua oral sin escucharla pues el objetivo del etiquetado
de la transcripción es indicar los lugares de cambio tonal que delimitan las unidades
prosódicas que estructuran el habla. Al escuchar un audio se percibirá que a menudo no
coinciden estos límites de unidad prosódica con los lugares en los que los signos de
puntuación tendrían que ir. Por último, el uso de los signos de puntuación como etiquetas
de delimitación de las unidades prosódicas puede acarrear confusión al no respetar las
reglas de puntuación.
3) El enunciado
“El enunciado es la unidad del análisis de la lengua en uso que efectúa la
Pragmática. Frente a la oración y a otras unidades del análisis gramatical -entidades
abstractas y teóricas- el enunciado es siempre una manifestación, concreta y real, de
la actividad verbal. Su definición y delimitación difieren ligeramente entre las distintas
escuelas. Así, en el análisis conversacional un enunciado es la expresión lingüística
producida por uno de los participantes en un evento comunicativo, y sus límites vienen
marcados por el cambio de emisor; en la lingüística textual, un texto -en cuanto unidad
de sentido global en un determinado contexto situacional- constituye un enunciado. El
enunciado, por tanto, puede consistir en una sola palabra [¡Silencio!] o en una
secuencia no oracional [De lo dicho, nada], un sintagma, una oración, un párrafo o un
texto (un artículo, un libro). La interpretación de su sentido depende del contexto
situacional en que se produce y de la información que en ese contexto compartan los
interlocutores, así como de los elementos paralingüísticos que acompañen su
producción. Una misma forma lingüística puede dar lugar a enunciados de sentido muy
diferente a tenor de las condiciones de emisión en que éstos se hayan producido; así,
por ejemplo, el enunciado [Uno solo], dicho por el cliente de una cafetería al solicitar
un café, no se interpreta del mismo modo que el enunciado [Uno solo] dicho por el
camarero de un restaurante que recibe a un cliente, al dirigirse a su compañero
encargado de asignar las mesas. El análisis de los enunciados establece el grado de
adecuación, de efectividad y de eficacia comunicativa, a diferencia del análisis de las
oraciones, que establece su corrección y su gramaticalidad.”
“En la Teoría della lingua in atto [el enunciado] es definido como cada expresión
lingüística interpretable pragmáticamente, ligada: a) a una condición semántica de total
significación de la expresión en cuestión (palabra frente a morfema), y b) a su
realización entonativa según un modelo melódico de valor ilocutivo. Según esta
propuesta el enunciado es la unidad de referencia de la lengua hablada; constituye lo
que corresponde lingüísticamente a un acto y es prosódicamente identificable en el
continuum del habla (criterio ilocutivo y articulación informativa).”
24
4) La Melodia
5) ONDA SONORA
6) PROSODIA
“En función de su altura tonal (tono, pitch) un sonido se percibe como más grave
(frecuencia baja) o más agudo (frecuencia alta).”
25
calcula que una velocidad normal oscila entre las ciento cincuenta y las doscientas
palabras por minuto.”
Comment COM Comment IU accomplishes the illocutionary force
of the Utterance, and it is therefore necessary and
sufficient to perform an utterance
26
Name Tag Definition
Incipit INP It opens the communicative channel bearing a
contrastive value starting a dialogic turn or an
utterance
27
Acto de habla
Se entiende por acto de habla la unidad básica de la comunicación lingüística, propia del
ámbito de la pragmática, con la que se realiza una acción (orden, petición, aserción,
promesa...).
Un acto locutivo (el acto físico de emitir el enunciado, como decir, pronunciar,
etc.). Este acto es, en sí mismo, una actividad compleja, que comprende, a su vez,
tres tipos de actos diferentes:
o acto fónico: el acto de emitir ciertos sonidos;
o acto fático: el acto de emitir palabras en una secuencia gramatical
estructurada;
o acto rético: el acto de emitir las secuencias gramaticales con un sentido
determinado.
Un acto ilocutivo o intención (la realización de una función comunicativa, como
afirmar, prometer, etc.)
Un acto perlocutivo o efecto (la (re)acción que provoca dicha emisión en el
interlocutor, como convencer, interesar, calmar, etc.)
Prosodia
Pragmática
Se entiende por Pragmática la disciplina cuyo objeto de estudio es el uso del lenguaje en
función de la relación que se establece entre enunciado-contexto-interlocutores. Dicho de
otro modo, la pragmática se interesa por analizar cómo los hablantes producen e
interpretan enunciados en contexto; de ahí que tome en consideración los factores
extralingüísticos que determinan el uso del lenguaje, a los que no puede hacer referencia
un estudio puramente gramatical, tales como los interlocutores, la intención comunicativa,
el contexto o el conocimiento del mundo. De este modo, la pragmática analiza por qué el
destinatario de un enunciado como [ya le llamaremos] emitido por una empresa de
selección de personal, puede interpretar tanto que será seleccionado como lo contrario,
28
según sea el conocimiento del mundo de dicho destinatario así como, por ejemplo, la
entonación y la información no verbal transmitida por el emisor. En este sentido, se dice
que los interlocutores poseen información pragmática, entendiendo como tal el conjunto
de conocimientos, creencias, supuestos, opiniones, etc. de un individuo en una
interacción oral concreta.
Los distintos fines que se pueden alcanzar mediante el uso social de la lengua se
conocen como funciones del lenguaje. Con las nuevas teorías han ido apareciendo
nuevos términos; así, al emisor y al receptor se les denomina también enunciador,
destinatario, interlocutores, etc.; a la función expresiva se la denomina también emotiva; y
a la apelativa, conativa. Roman Jakobson analiza seis componentes en el proceso de
comunicación, a cada uno de los cuales corresponderá una función: emisor (función
expresiva), receptor (conativa), referente (referencial), código (metalingüística), mensaje
(poética) y canal (fática). M. A. K. Halliday propone otro modelo, que reagrupa las ya
conocidas y añade otras nuevas: interpersonal (relación entre interlocutores), ideacional
(representación verbal de la realidad), heurística (acceso al conocimiento a través del
lenguaje) y textual (referencia de la lengua a sus propios mecanismos y estructuras). En
el uso de la lengua estas funciones no se excluyen mutuamente, sino que pueden actuar
simultáneamente; no obstante, en determinados enunciados y textos puede haber
predominio de algunas de ellas.
Funciones lingüísticas
29
Discurso
Enunciación
30
31