Sunteți pe pagina 1din 43

Inteligencia en Redes de Comunicaciones

Tema 9
Procesamiento del Lenguaje Natural
Julio Villena Romn, Raquel M. Crespo Garca, Jos Jess Garca Rueda
{jvillena, rcrespo, rueda}@it.uc3m.es
Objetivo
Desarrollar sistemas informticos capaces de comprender
el lenguaje verbal humano (oral y escrito) y de utilizarlo
como medio de comunicacin con el usuario

Objetivo realista:
Desarrollar sistemas informticos capaces de trabajar con
el lenguaje verbal humano (oral y/o escrito) aportando
utilidad al usuario

IRC 2011/2012 2
ndice
Lenguaje natural
Ingeniera lingstica
Niveles de anlisis
Aplicaciones

IRC 2011/2012 3
Lenguaje natural y artificial
Lenguaje natural:
Lenguaje verbal que utilizamos los seres humanos para
comunicarnos unos con otros
Lengua: realizacin concreta del lenguaje natural

Lenguaje artificial:
Lenguaje creado y especificado detalladamente para ser
utilizado en entorno concreto

IRC 2011/2012 4
Ingeniera Lingstica
El lenguaje natural es de inters en mltiples disciplinas:
Lingstica, Filologa, Psicologa, Antropologa, Ingeniera
Generalmente los estudios se centran en lenguas concretas
La ingeniera lingstica se centra en el tratamiento
computacional del lenguaje natural y cmo aplicarlo para dar
solucin a problemas de ingeniera
Otros nombres:
procesamiento del lenguaje natural (PLN, en ingls NLP)
lingstica computacional (en ingls, CL)

IRC 2011/2012 5
Breve historia: Los orgenes
Final de la dcada de 1940 y dcada de 1950
(antes del nacimiento del trmino Inteligencia Artificial en 1956)
Dos campos de inters:
Traduccin automtica
Recuperacin de informacin
Muchas limitaciones:
Modelos morfolgicos y sintcticos poco evolucionados
Poco inters en comprensin de significado

IRC 2011/2012 6
Dcada de 1960
Cambio de enfoque:
Procesamiento de frases y comprensin
Interfaz amigable
Varios desarrollos:
Acceso a base de datos (BASEBALL, DEACON, )
Resolucin de problemas (STUDENT, CARPS, )
ELIZA
Desarrollo de formalismos

IRC 2011/2012 7
Dcada de 1970
Nuevos desarrollos basados en formalismos
Aumentan los campos de aplicacin:
Comprensin de lenguaje (SHRDLU, LUNAR, )
Interfaz a bases de datos (REQUEST, LADDER, )
Enseanza asistida por ordenador (SCHOLAR, )
Automatizacin de tareas de oficina (SCHED, )
Programacin automtica
Procesamiento de texto cientfico

IRC 2011/2012 8
Situacin actual
Las aplicaciones llegan a los usuarios finales
Busca soluciones a problemas parciales:
Revisin lingstica de textos
Recuperacin de informacin
Extraccin de informacin, resmenes y clasificacin
Reconocimiento y sntesis de voz
Traduccin automtica
Generacin automtica de texto
Como en toda la ingeniera, el mayor inters est en los aspectos prcticos:
utilidad y compromiso exactitudeficiencia
Objetivo actual: simplificar la comunicacin hombre-mquina (Human-
Computer Interaction, HCI), desarrollando sistemas de realidad
virtual/aumentada

IRC 2011/2012 9
HCI: ELIZA
Chatbot creado por Joseph Weizenbaum en 1966 que representa el papel
de un psicoanalista e imita sus respuestas tpicas en una entrevista inicial
Este contexto es una de las pocas situaciones humanas donde un humano
puede responder con una pregunta sin dar ningn tipo de informacin al
interlocutor
http://www-ai.ijs.si/eliza/eliza.html
http://www.manifestation.com/neurotoys/eliza.php3

El concepto impuls el diseo de nuevos interfaces:


Dungeon (primer role playing game) (1974)
Adventure (primer juego de ficcin interactiva) (1975)
http://en.wikipedia.org/wiki/Interactive_fiction

IRC 2011/2012 10
Dilogo real con ELIZA
young woman: Men are all alike.
eliza: In what way?
young woman: They are always bugging us about something specific or other.
eliza: Can you think of a specific example?
young woman: Well, my boyfriend made me come here.
eliza: Your boyfriend made you come here?
young woman: He says I'm depressed much of the time.
eliza: I am sorry to hear you are depressed.
young woman: It's true. I'm unhappy.
eliza: Do you think coming here will help you not to be unhappy?
young woman: I need some help, that much seems certain.
eliza: What would it mean to you if you got some help?
young woman: Perhaps I could learn to get along with my mother.
eliza: Tell me more about your family.
young woman: My mother takes care of me.
eliza: Who else in your family takes care of you?
young woman: My father.
eliza: Your father.
young woman: You are like my father in some ways.
eliza: What resemblance do you see?
young woman: You are not very aggressive but I think you don't want me to notice that.
eliza: What makes you think I am not very aggressive?
young woman: You don't argue with me.
eliza: Why do you think I don't argue with you?
young woman: You are afraid of me.
eliza: Does it please you to believe I am afraid of you?
young woman: My father is afraid of everybody.
eliza: What else comes to mind when you think of your father?
young woman: Bullies.
eliza: Does that have anything to do with the fact that your boyfriend made you come here?

IRC 2011/2012 11
Dilogo ficticio con ELIZA
young woman: Green cows are all alike.
eliza: In what way?
young woman: Seven are always five plus two.
eliza: Can you think of a specific example?
young woman: Well, my teacher made me study a lot.
eliza: Your teacher made you study a lot?
young woman: He says I'm depressed and bla and bla and more bla bla.
eliza: I am sorry to hear you are depressed and bla and bla and more bla bla.
young woman: No se me ocurren ms tonteras que escribir. I'm unhappy.
eliza: Do you think coming here will help you not to be unhappy?

Realiza anlisis superficial y transformaciones bsicas

IRC 2011/2012 12
HCI: ALICE
Desarrollado por Dr. Richard Wallace (1999-) y ganador durante aos del
premio Loebner (ltimo en 2004)
Chatbot bastante ms evolucionado, que se basa en el paradigma estmulo-
respuesta escritos mediante patrones en el lenguaje AIML
<category> <category>
<pattern>WHAT ARE YOU</pattern> <pattern>KNOCK KNOCK</pattern>
<template> <template>Who is there?</template>
<think><set name="topic">Me</set></think> </category>
I am the latest result in artificial intelligence. <category>
</template> <pattern>*</pattern>
</category> <that>WHO IS THERE</that>
<template><person/> who?</template>
</category>
Tiene memoria y estado mental, con lo que puede recordar sesiones
anteriores
Puede entrenarse de forma relativamente sencilla para diferentes mbitos
de conocimiento
http://alice.pandorabots.com/

IRC 2011/2012 13
HCI en la actualidad
Jabberwacky y Joan: desarrollados por Rollo Carpenter y
ganadores del premio Loebner (2005 y 2006)
Guarda todo lo que se va diciendo y proporciona la respuesta
ms apropiada que existe en su base de datos usando
bsqueda de patrones conceptuales APRENDE
En cierta forma modela la forma en que los humanos
aprendemos el idioma, los hechos y las reglas
http://www.jabberwacky.com

Ms sobre el premio Loebner:


http://www.loebner.net/Prizef/loebner-prize.html
http://loebner.net/Prizef/2007_Contest/Rules.html

IRC 2011/2012 14
Arquitectura de niveles
Nivel integracin del
discurso

Nivel pragmtico

Nivel semntico

SNTESIS
ANLISIS

Nivel sintctico

Nivel morfolgico

Nivel fonolgico

IRC 2011/2012 15
Nivel fonolgico
Conversin Voz Texto
Requisitos:
Conocimiento de fonemas
Algoritmo de reconocimiento
Es muy importante el tratamiento de la ambigedad:
/baca/, /ora/
Requiere conocimiento de niveles superiores (al menos,
morfolgico y sintctico)
Confusin del significado, prdida de informacin

IRC 2011/2012 16
Nivel morfolgico
Palabra Anlisis morfolgico (POS: part-of-speech)
Lema
Categora gramatical
Atributos propios de categora
Requisitos:
Conocimiento de los formantes
raz (cas-, com-) + desinencias (-a, -s, -o, -a, super-)
Gramtica de palabra
Ambigedad
casa, sobre, bajo

IRC 2011/2012 17
Recursos morfolgicos: Base lxica
Una lista de palabras no suele valer (en general)
Base lxica: almacn de informacin fundamentalmente
morfolgica, aprovechando las regularidades de la lengua y
escrita para linguistas
Para espaol:
Modelos de flexin nominal y verbal
Palabras formadas por uno o dos formantes
sobre perr-o perr-os com-emos
Cada formante aporta parte de informacin
Derivacin de adverbios en -mente (adjfem-mente)
Generacin automtica de alomorfos
No sobregenerar ni sobreaceptar

IRC 2011/2012 18
Nivel sintctico
Anlisis morfolgico Anlisis sintctico
Estructura en rbol de agrupaciones de palabras y relaciones
Requisitos:
Informacin morfolgica de palabras (lxico)
Gramtica de frase
Una gramtica general es difcil (por no decir imposible)
Complejidad del lxico vs. complejidad de la gramtica
(directamente proporcional)
Ambigedad
Se comi el helado con cuchara
Se comi el helado con vainilla

IRC 2011/2012 19
Nivel semntico
Anlisis sintctico Semntica de frase
Significado literal de la frase
Requisitos:
Modelo del mundo
Reglas semnticas
Como es muy complicado, es totalmente dependiente de
la aplicacin concreta (dominio restringido)
Ambigedad
Pas delante del banco

IRC 2011/2012 20
Recursos semnticos: WordNet
Red semntica de conceptos o synsets (agrupaciones de sinnimos) http://wordnet.princeton.edu
Guarda diferente informacin:
Nombres
Hipernimos:Y es un hipernimo de X si todo X es un tipo de Y
Hipnimos:Y es un hipnimo de X si cada Y es un tipo de X
Trminos coordinados:Y es un trmino coordinado de X si X y Y comparten un hipernimo
Holnimos:Y es un holnimo de X si X es parte de Y
Mernimos:Y es un mernimo de X si Y es parte de X
Verbos
Hipernimos:Y es un hipernimo de X si la actividad X es un tipo de Y (viajarmoverse)
Tropnimos:Y es un tropnimo de X si la actividad Y est haciendo X de alguna manera
(susurrarhablar)
Vinculacin: Y est vinculado a X si al hacer X tambin se est haciendo Y (dormirroncar)
Trminos coordinados: verbos que comparten un hipernimo comn
Adjetivos
Nombres relacionados
Participios verbales
Adverbios
Adjetivos origen
Pensado para uso por personas:
Significado de palabras en forma textual
Demasiada informacin

IRC 2011/2012 21
EuroWordnet

IRC 2011/2012 22
Niveles pragmtico y de integracin del
discurso
Nivel pragmtico:
Significado literal de frase Significado real de frase
Puedes pasarme la sal?

Nivel de integracin del discurso:


Significado de frase aislada Significado en contexto
Me dijo que se lo dara

Ambigedad intrnseca

IRC 2011/2012 23
Dificultades
Ambigedad
En la mayora de casos, para resolver la ambigedad en un nivel se
requiere de los anlisis de niveles superiores
Modelos lingsticos insuficientes
Sintaxis implica gramtica dependiente de contexto
Tratamiento de semntica
Niveles superiores a semntica an ms complejos
Abordable slo parcialmente con arquitectura de niveles
Aplicaciones muy variadas Solucin general difcil
Diferencias entre lenguas
Insercin de conocimiento manual

IRC 2011/2012 24
Caso del espaol (o castellano)
Problemas (nivel morfolgico):
Altamente flexivo: Mltiples procesos (flexin, derivacin,
composicin)
No existen modelos morfolgicos generales (muchas
excepciones)
Nmero de palabras inmenso (decenas de millones)
1,6-1,9 anlisis por palabra (media)
Problemas (nivel sintctico):
Carencia de estructura fija como en otros idiomas
(ambigedad)

IRC 2011/2012 25
Pero
Para resolver grandes problemas deben resolverse antes
subproblemas pequeos
Es posible desarrollar sistemas realmente tiles
El tiempo corre a nuestro favor
Ordenadores ms potentes
Formalismos ms desarrollados
Ms experiencias y desarrollos

IRC 2011/2012 26
Aplicacin: Anlisis y sntesis de voz
Primeros productos realmente tiles desde 1997
Tcnicas de procesado de seal de audio + clasificadores +
vocabulario (+ gramticas del lenguaje)
Actualmente mltiples motores:
IBM
Scansoft/Nuance
Microsoft (Speech API)
Integrado en Windows Vista
Loquendo
Desarrollos gratuitos
Interfaz para muchos entornos e idiomas
http://cepstral.com/demos/
http://www.loquendo.com/en/demo-center/interactive-tts-demo/

IRC 2011/2012 27
Aplicacin: Traduccin automtica
Desde los primeros tiempos del PLN
Caso de xito: TAUM-METEO (U. Montreal, 1975) para la
traduccin de partes meteorolgicos inglsfrancs
http://en.wikipedia.org/wiki/METEO_System
Vocabularios y memorias de traduccin + gramticas de
transformacin de estructuras
Corpus alineados
Muchos sistemas:
SYSTRAN
Altavista Babelfish
Google Translate
Apertium, OpenTrad (libres)

IRC 2011/2012 28
Aplicacin: Revisin lingstica
Gramtica de errores
Lenguaje declarativo compilado
Anlisis en niveles:
Nivel I: estructuras independientes
*me se ha olvidado, *cuanto tiempo sin verte!
Nivel II: errores intrasintagmticos
*los coches rojo
Nivel III: errores intersintagmticos
*los nios juega, *la pelcula es divertido
Compromiso precisin rendimiento:
Slo considera anlisis ms probable
Reglas particulares / generales
Mucho inters hoy en da para el aprendizaje de idiomas

IRC 2011/2012 29
Ejemplo de regla
/*
- est mucho loco
+ est muy loco
+ hay mucho loco por aqu
*/
REGLA("MuchoPorMuy")
FORMA_I_EXISTENCIAL(POS(N), "mucho") Y
(ANALISIS_EXISTENCIAL(POS(N+1), Eti_AdjetivoOParticipio) O
FORMA_I_EXISTENCIAL(POS(N+1), "bien|mal")) Y
!ANALISIS_EXISTENCIAL(POS(N+1), Eti_AdjComp"|"Eti_AdjSup) Y
GN(POS(N), POS(N+1)) Y
LEMA_EX_VERBO_PRINC(POS(N-1), "estar|ser")
ENTONCES
SUG_PALABRA(POS(N), "muy ");
SUG_PALABRA(POS(N+1),LETRAS(POS(N+1)));
DAR_ERROR(Error_Gramatical, POS(N), POS(N+1),
"Posible secuencia incorrecta de palabras));
FIN

IRC 2011/2012 30
Aplicacin: Recuperacin de informacin
Los sistemas de RI son aquellos que
Basndose en distintas tcnicas y modelos,
Permiten buscar de forma rpida y eficiente
En grandes colecciones de objetos que contienen
informacin
Aquellos resultados ms relevantes para la consulta de
usuario.
Los objetos pueden, en general, contener informacin en
una gran variedad de formatos, incluyendo texto escrito,
ficheros de audio, fotografas y otras imgenes, vdeo, etc.

IRC 2011/2012 31
Proceso de RI
Indexacin:
Extraer los atributos de cada uno de los objetos
Texto: frecuencia de palabra
Imgenes: extraccin de caractersticas de la seal
Audio (hablado): conversin a texto + frecuencia de palabra
Audio (msica): partitura?
Almacenarlos en una base de datos de acceso rpido
Bsqueda:
Comparar la consulta del usuario con todos los objetos indexados, obteniendo
una medida de parecido (relevancia)
Presentar los resultados ordenando por relevancia decreciente
Modelos:
Modelo booleano
Modelo probabilstico
Modelo de espacio de vectores
Latent Semantic Indexing
http://en.wikipedia.org/wiki/Information_retrieval

IRC 2011/2012 32
Modelo Booleano
INDEX TERM

0 ...
1 ...
... ... Trminos de
N ...
indexacin

Coleccin de
documentos
010111010001011100101000 ...

010000010000011000001000 ... Este documento est indexado por


las palabras 2, 4, 5, 6, 8...

Consulta

IRC 2011/2012 33
Ejemplo
(t1 AND t7) OR (t2 AND NOT(t9))

documents
OR retrieved

EF

documents that docs. that contain


contain t1 and t7 AND AND t2 and not t9

E=AB F=CD

t1 t7 t2 NOT(t9)

documents that documents that documents that documents that


contain t1 contain t7 contain t2 not contain t7

A B C D
IRC 2011/2012 34
Modelo de Espacio de Vectores
INDEX TERM

0 ...
1 ...
... ...
Trminos de
N ...
indexacin

Coleccin de
documentos
w1,w2,w3,w4,w5,w6,w7,w8...

w1,w2,w3,w4,w5,w6,w7,w8...

Consulta

IRC 2011/2012 35
Modelo de Espacio de Vectores (2)
Modelo algebraico clsico de RI [Salton, 1968]
Representa los objetos (documentos y consulta) mediante un
vector de trminos en un espacio multidimensional:

El peso de cada trmino se calcula con el modelo TFIDF:

Para calcular la relevancia de cada documento se utiliza


habitualmente la frmula del coseno:

IRC 2011/2012 36
Ejemplo

IRC 2011/2012 37
Evaluacin de los sistemas de RI
No recuperados
Recuperados
A C
Recall =
D B D+C

C No relevantes

1
Relevantes

C
Precision = Precision
B+C
1
0 Recall
IRC 2011/2012 38
Cross-lingual IR CLIR

IRC 2011/2012 39
Enfoques para CLIR
Query translation

Document translation

Mixed translation

IRC 2011/2012 40
RI multimedia (imgenes/vdeo/audio)

IRC 2011/2012 41
Aplicacin: Extraccin de informacin
Evolucin de la recuperacin de informacin
El sistema no slo presenta la lista de objetos que contienen la
informacin, sino que la extrae de ellos
Information Extraction
http://en.wikipedia.org/wiki/Information_extraction

Question answering
http://en.wikipedia.org/wiki/Question_answering
http://www.answers.com/bb/

Generacin de resmenes
Esteganografa (Cifrado)
http://en.wikipedia.org/wiki/Steganography
http://www.spammimic.com/

IRC 2011/2012 42
Aplicacin: Clasificacin de informacin
Clasificacin de texto en categoras
Clasificacin de noticias
Filtros antispam
Sistemas de diagnstico automtico
Extraccin del vector de caractersticas del texto +
segmentacin o clasificacin

IRC 2011/2012 43

S-ar putea să vă placă și