Sunteți pe pagina 1din 14

Anais do IX Encontro do CELSUL

Palhoa, SC, out. 2010


Universidade do Sul de Santa Catarina

ESTUDO EXPLORATRIO DE INFORMAES LEXICAIS RELEVANTES


PARA A RESOLUO DE AMBIGUIDADES LEXICAL E ESTRUTURAL
Maria Paula Fiorim PIRUZELLI*
Bento Carlos DIAS-DA-SILVA**

ABSTRACT: Translation is an issue that stirs up discussions in the Linguistic domain. Nevertheless, with the
fast technological development in computer sciences, the computer influence encompasses almost every area of
human knowledge, which has given rise to many challenges to natural language processing and specifically to
machine translation, which has become the target of a great number of research projects, the goals of which is
to gather deep understanding of human languages to make machine translation viable and of good quality. In
this context, this study discusses one of the most machine translation hard problems: to understand and solve the
linguistic ambiguity resolution task. In particular, this task is mapped in the translation context from English
into Portuguese and focuses on the lexical ambiguity resolution.

KEYWORDS: machine translation; ambiguity resolution; natural language processing.

1. Introduo
Essa pesquisa norteia-se pelos seguintes objetivos, que so divididos em dois domnios
complementares, com base na metodologia de estudo do Processamento Automtico de
Lnguas Naturais (PLN), proposta por Dias-da-Silva (1996, 2006): o domnio lingustico e o
lingustico computacional. No domnio lingustico, (i) estudam-se os aspectos lxicogramaticais e semntico-conceituais de pares de frases automaticamente traduzidas do ingls
para o portugus, comparando-as com tradues feitas por tradutores humanos extradas do
corpus paralelo portugus-ingls especificamente selecionado para o projeto, e (ii) catalogamse, com base na literatura, as principais ambiguidades estudadas. No domnio lingusticocomputacional, (iii) estudam-se as principais estratgias computacionais para a resoluo dos
diferentes tipos de ambiguidade catalogados em (ii).
Para isso, analisam-se ocorrncias de pares de frases traduzidas de forma automtica
do ingls para o portugus pela Ferramenta de Idiomas do Google1 (doravante FIG),
comparando-as com as tradues feitas por tradutores humanos extradas de um corpus
paralelo portugus-ingls (descrito mais adiante). Essa anlise visa detectar e catalogar os
principais tipos de ambiguidade estudar as principais heursticas para resolv-las.
O corpus selecionado para o projeto, o COMPARA2, um corpus paralelo bidirecional, portugus e ingls, que rene textos escritos originalmente em portugus e em
ingls, contando com autores como Alusio Azevedo, Chico Buarque, Edgar Allan Poe, Jos
Saramago, Machado de Assis, Mary Shelley, Oscar Wild, entre outros. Esses textos so
armazenados em uma base de dados e alinhados com as respectivas tradues nas duas

Aluna de mestrado; UNESP Universidade Estadual Paulista Jlio de Mesquita Filho, Campus de
Araraquara.
*
Professor Doutor; UNESP Universidade Estadual Paulista Jlio de Mesquita Filho, Campus de Araraquara.
1
Disponvel em http://translate.google.com.br/?hl=pt-BR&tab=wT#. Acesso em: 12 jul. 2010
2
Disponvel em: http://www.linguateca.pt/COMPARA/index.php. Acesso em: 12 jul. 10

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

lnguas e constitui o recurso a partir do qual estudam-se tanto a traduo humana quanto a
feita pela mquina (FRANKENBERG-GARCIA; SANTOS, 2002; 2003).3
A escolha da direo da traduo ingls-portugus foi feita com base nas tcnicas de
elaborao de dicionrios bilngues como ao Houaiss (2005) e Taylor (2003), que atestam que
os dicionrios ingls-portugus devem ser elaborados por falantes nativos do portugus,
enquanto que aqueles, que tm o ingls como lngua de chegada, devem ser produzidos por
falantes nativos do ingls. Ressalta-se que o uso das verses em ingls dos textos originais em
portugus como dados no compromete a anlise, j que o objetivo da pesquisa no julgar a
autenticidade dos textos, mas sim determinar as ambiguidades presentes nas frases do ingls
que podem ser causas de m-formao ou inadequao das frases do portugus que foram
produzidas automaticamente pela FIG.
Adota-se a metodologia de pesquisa no mbito do PLN proposta por Dias-da-Silva
(1996; 2006), que defende a diviso do estudo em trs domnios complementares de
investigao: o lingustico, o lingustico-computacional e o computacional. Dentro do
primeiro, explicitam-se os conhecimentos lingusticos necessrios para descrever um
determinado fenmeno da lngua e que sero incorporados em algum tipo de sistema de PLN;
no segundo, os conhecimentos descritos no domnio anterior so transformados em
representaes formais; por fim, no terceiro, as representaes propostas no domnio
lingustico-computacional so codificadas em uma linguagem de programao, domnio que
no ser abordado nesta investigao.
Assim, articulando-se nos dois primeiros domnios complementares - o lingustico e o
lingustico-computacional-, as investigaes catalogam ocorrncias para ilustrar os principais
tipos de ambiguidade sistematizados a partir do estudo da literatura. No domnio lingustico,
descreve-se o conhecimento lingustico necessrio para a resoluo das ambiguidades; no
domnio lingustico-computacional, fundamentando-se na descrio do conhecimento
sistematizado no domnio anterior, as principais estratgias computacionais para a
implementao de heursticas de resoluo desses tipos de ambiguidade so catalogadas.
Questes de traduo
Segundo Vilela (1994, p. 13) traduzir transpor textos ou enunciados duma lngua (=
lngua de partida) para outra lngua (= lngua de chegada). Por envolver a comparao entre
uma ou mais lnguas, a traduo sempre foi um tema intrigante para os pesquisadores das
lnguas naturais e da Lingustica. No domnio das Letras, contudo, os estudos da traduo se
separaram e sofreram uma especificao. A comparao entre lnguas passou a se ocupar da
reconstruo dos diferentes estgios diacrnicos das lnguas (antigas ou no) e a traduo, por
sua vez, concentrou-se na traduo literria, traduo-interpretao ou na traduo assistida
por computador.
possvel afirmar que o tema traduo pode ser abordado de, pelo menos, dois
pontos de vista: do ponto de vista do tradutor humano e do ponto de vista da traduo
automtica por sistemas de TA, mas as questes lingusticas so pertinentes a ambos
(HATIM, 1990). As questes lingusticas, no mbito da TA, por sua vez, dividem-se entre
aspectos eminentemente lingusticos e aspectos lingustico-computacionais.
A traduo feita ou auxiliada por computadores tem sido discutida h tempos pelos
pesquisadores de PLN, porque, envolvendo a comparao entre lnguas, implica a modelagem

possvel acessar o COMPARA online gratuitamente e, atualmente, o corpus conta com aproximadamente
trs milhes de palavras provenientes de textos de fico. Entretanto, outros gneros devero ser acrescentados.

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

do comportamento lingustico humano, que engloba aspectos cognitivos, histricos e


socioculturais, alm dos aspectos puramente lingusticos.
No final do sculo XX, a automatizao da traduo se tornou uma realidade, embora
no to bem sucedida, medida que sistemas de TA passaram a ser desenvolvidos e lanados
na Internet. Entretanto, esses sistemas no so, na verdade, capazes de traduzir sozinhos
textos de uma lngua natural para outra, isso porque que a traduo de qualidade s
alcanada atravs da ps-edio de um tradutor humano.
Wilks (2009) argumenta que apenas com os estudos realizados at hoje sobre a TA
ainda cedo para poder afirmar muitos fatos, porm ele aponta as inconsistncias no que j
conhecido at agora j que possvel afirmar que, se de um lado a TA funciona, fato
comprovado pela existncia de sistemas que traduzem de forma completamente automtica,
trazendo benefcios para muitos usurios que necessitam recorrer a esse recurso, por outro, a
afirmao de que evidente a falta avanos tericos que possibilitem uma TA de alta
qualidade tambm vlida.
Traduzir uma tarefa complexa at para tradutores humanos porque necessrio
compreender o texto que naturalmente ambguo sob vrios pontos de vista, alm de que os
contedos veiculados por eles estabelecem relaes com conhecimentos exteriores. Alm
disso, ainda preciso considerar a necessidade de se ter bastante conhecimento sobre as duas
lnguas e no deixar de lado suas diferenas e semelhanas (SANTOS, p. 03, 1988).
Entretanto, desde a dcada de 40, quando os computadores foram apresentados ao
mundo ocidental, seu desenvolvimento tem sido constante e sua contribuio para com todos
os domnios do conhecimento evidente. O potencial dessas mquinas para auxiliar a
investigao lingustica assim como em muitas outras reas do conhecimento enorme. Todo
o desenvolvimento trazido pelos computadores proporcionou o nascimento de uma grande
diversidade de desafios, sempre com o foco no problema de fazer com que a comunicao
entre o usurio e a mquina se torne mais amigvel.
Foram os desafios que surgiram em torno da questo do tratamento computacional das
lnguas naturais que fizeram com que grandes investimentos materiais e humanos fossem
aplicados nesse empreendimento, criando, dessa forma, um domnio de estudos novo: o PLN
(DIAS-DA-SILVA, 2006). A TA se encontra inserida nesse contexto, j que ela faz parte de
um domnio de estudos multidisciplinar que investiga como desenvolver programas
computacionais (os sistemas de TA), que tm, como objetivo, a compreenso da linguagem
humana, implicando na construo de interfaces em lngua natural que venham a auxiliar os
usurios das lnguas e dos computadores em diferentes pontos do globo.
Questes da TA no mbito do PLN
Percebe-se uma grande diversidade de objetivos dentro do PLN por abordar questes
lingusticas e tambm computacionais e para que seus objetivos sejam alcanados, preciso
desenvolver um trabalho que una esses dois grandes campos de conhecimento representados,
respectivamente, pela Lingustica e pelas Cincias da Computao. Mas, apesar da
necessidade desse trabalho conjunto ser um fato bem reconhecido, nos ltimos anos ele ainda
tem ocorrido muito timidamente.
Alm disso, embora haja certo reconhecimento de que a construo de conhecimentos
lingusticos e metalingusticos seja tarefa essencial e indispensvel para que uma realizao
qualitativamente significativa possa ser alcanada no mbito dos estudos do PLN, os
fenmenos lingusticos, por razes diversas, no tm sido descritos com a necessria preciso.
Em particular, as pesquisas que se ocupam da TA so, frequentemente, alvos de crticas, que
as acusam de no considerar os conhecimentos descobertos e construdos pela Lingustica.
3

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

Isso tudo corrobora para que, na prtica, ainda haja um abismo na comunicao entre o
desenvolvimento da Lingustica Terica e do PLN.
Assim como ressalta Santos (1999), o computador, quando utilizado como uma
ferramenta, tem a caracterstica de possibilitar que novas formas de descrio e sistematizao
das nossas prprias capacidades sejam descobertas e tambm testadas, e isso no s no
domnio da traduo, bem como em todas as reas do conhecimento a que ele seja aplicado
(SANTOS, p. 04, 1999).
Os dados que precisam ser analisados quando se pretende desenvolver um estudo
sobre lnguas naturais so muito numerosos e, por natureza, complexos. O uso de
computadores para auxiliar nesse aspecto representa uma ferramenta para ajudar a controlar a
quantidade dos dados e at para amenizar a complexidade desses. Entretanto, os mtodos
utilizados para fazer os computadores lidarem com dados lingusticos, at nos dias de hoje,
ainda necessitam de maior desenvolvimento.
Yehoshua Bar-Hillel, ilustre pesquisador do Instituto de Tecnologia de Massachusstes
(MIT), quando nomeado pelo instituto e aps analisar o assunto da TA, escreveu um artigo
mostrando as abordagens bsicas para a TA que eram utilizadas no perodo. Nessa poca j
era conhecido o fato de que o auxlio humano seria necessrio para pr-editar ou ps-editar os
textos, porque uma TA completamente automatizada e de alta qualidade seria impossvel.
Bar-Hillel criticava a noo de que o objetivo das pesquisas sobre TA deveria ser criar
sistemas completamente automatizados e que produzissem tradues iguais s produzidas por
seres humanos (HUTCHINS, 2001).
Nirenburg (1996) enfatiza que Bar-Hillel acreditava que a modelagem do
conhecimento de mundo de forma que ele pudesse ser acessado pelas mquinas era uma
condio essencial para o sucesso da TA.
It seems now quite certain ... that with all the progress made in hardware,
programming techniques and linguistic insight, the quality of fully autonomous
mechanical translation, even when restricted to scientific or technological material,
will never approach that of qualified human translators and that therefore MT will
only under very exceptional circumstances be able to compete with human
translation. [] Expert human translators use their background knowledge, mostly
subconsciously, in order to resolve syntactical and semantical ambiguities which
machines will have either to leave unresolved or resolve by some mechanical rule
which will every so often result in a wrong translation (NIRENBURG, 1996).

Questes de tipologia dos sistemas de TA


No que diz respeito metodologia empregada, em linhas gerais, Hutchins (1992)
classifica os sistemas de TA em bilngues, quando trabalham com apenas um par de lnguas,
ou multilngues, quando se ocupam de mais de duas lnguas. Caracterizam-se ainda em
sistemas unidirecionais, quando realizam a traduo em uma direo apenas, inglsportugus, por exemplo, ou bidirecionais, quando traduzem nas duas direes, inglsportugus ou portugus-ingls. O grau de sofisticao dos sistemas medido de acordo com
um ou mais dos trs tipos de metodologia empregados no processo de traduo. A partir disso,
so classificados basicamente em trs tipos: os sistemas diretos, os sistemas de interlngua e
os sistemas de transferncia (HUTCHINS, 2003).
Santos (1988) atesta que uma das possveis distines a ser feita em relao aos
sistemas de TA entre os chamados sistemas diretos, que traduzem diretamente a partir da
lngua de origem, e aqueles que so indiretos, utilizando alguma forma intermediria para

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

representar os conhecimentos e a estrutura da lngua de origem e s depois geram o texto de


chegada. So includos nesse tipo os sistemas de transferncia e os baseados em interlngua.
Os sistemas diretos, que so os mais simples, so bilngues e unidirecionais. De acordo
com essa abordagem, o texto de partida analisado minimamente para poder originar textos
na outra lngua. Esses sistemas realizam a traduo procurando os correspondentes diretos
entre os itens lexicais das lnguas fonte e alvo.
Nos sistemas de transferncia, a traduo processa-se por meio de regras sintticas, a
partir da anlise da estrutura sinttica da frase da lngua fonte, gera-se uma representao
sinttica para a lngua alvo, e se d em trs estgios: durante o primeiro estgio, o texto de
partida transformado em representaes intermedirias, elimina-se, assim, a ambiguidade;
em seguida, durante o segundo estgio, essas representaes so transformadas em
representaes equivalentes para a lngua de chegada; finalmente, na ltima etapa do
processo, um texto na lngua de chegada gerado.
Os sistemas de interlngua so os mais sofisticados e funcionam de maneira diferente:
neles, a traduo feita a partir do texto de partida para uma interlngua, uma representao
abstrata do significado que se aplica a qualquer lngua, e desta para a lngua de alvo (DIASDA-SILVA, 2006; HUTCHINS, 1992). A traduo feita, portanto, baseada na possibilidade
de transformar textos em conceitos que podem ser representados em qualquer lngua.
Santos (1988) menciona ainda uma diviso que atualmente no mais to
significativa, estabelecida entre sistemas predominantemente sintticos e outros
predominantemente semnticos. Como j um fato amplamente reconhecido que necessrio
compreender o texto para poder traduzir, essa distino acaba por deslocar-se para uma
opo metodolgica de compromisso entre eficincia e qualidade (SANTOS, 1988, p. 08). A
autora prope que, nesse aspecto, seria mais interessante classificar os sistemas em relao ao
grau de conhecimento sinttico, semntico, pragmtico, etc., exigido por eles, enquanto que
Hutchins (1986) defende que a distino inicial poderia ser
expressa em termos de quem controla quem, ou seja, um sistema de ndole sinttica
manipularia marcadores semnticos ajudando a identificao das estruturas, mas
possuiria como unidade bsica, por exemplo, a frase (conceito eminentemente
sinttico). Por outro lado, um sistema de ndole semntica poderia executar
simultaneamente com o varrimento sinttico do texto uma anlise semntica, ou ter
como nica representao interna, a partir do texto, uma representao de casos ou
na forma da dependncia conceitual. (SANTOS, 1988, p. 08).

Uma outra distino ainda comentada por Santos (1988), aquela que se estabelece
entre sistemas de TA inspirados pela Inteligncia Artificial e aqueles que se baseiam em
teorias lingusticas. Mas, neste caso, e como tambm j foi argumentado anteriormente, a
autora defende que a unio entre abordagens de ambos os domnios o caminho mais
vantajoso.
Na sequncia, este estudo abordar, na seo 2, as ambiguidades lingusticas,
nomeando os principais tipos apontados na literatura e dando destaque parte de dois dos
cinco tipos: a lexical e a estrutural, que sero exemplificados na seo 4. Na seo 3,
resumem-se as principais estratgia de resoluo de ambiguidade desses dois tipos, mostrando
a importncia da construo de lxicos computacionais contendo informaes robustas,
cobrindo os domnios morfolgico, sinttico e semntico-conceitual. A seo 5 apresenta as
consideraes finais

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

2. As ambiguidades lingusticas
Diz-se que um item/expresso lexical ambguo quando apresenta mais de um sentido
possvel diferente. Porm, o termo restringiu-se para a nomeao daqueles itens/expresses
lexicais que tm mais de um sentido estabelecido, isso se deve ao fato de todos os itens
lexicais poderem ser ambguos dentro de um ou outro contexto (CRUSE, 2006). No uso real
da lngua, o contexto sempre determina qual das alternativas possveis de uma leitura ambgua
a adequada. Por isso, a ambiguidade no causa grandes dificuldades de interpretao.
Ide & Vronis (1998) apontam que as consequncias problemticas da manifestao
das ambiguidades lingusticas era o ponto central j no artigo escrito por Bar-Hillel em 1960.
Tomando como exemplo o pequeno texto: Little John was looking for his toy box. Finally he
found it. The box was in the pen. John was very happy (NERENBURG, 1996, p. 302), BarHillel argumentou a impossibilidade de se determinar o sentido adequado do item lexical pen
na frase The box is in the pen automaticamente, reconhecendo que para os humanos, o
conhecimento de mundo sobre pens (canetas) e playpens (cercado dentro do qual crianas
pequenas brincam) o que os faz compreender o sentido to facilmente. Bar-Hillel ainda
acrescenta que se fosse possvel desenvolver um sistema que tivesse acesso a esse tipo
conhecimento, seria o mesmo que afirmar que os sistemas de TA deveriam ser equipados
com, alm de um dicionrio, uma enciclopdia de conhecimentos universais.
O fenmeno da ambiguidade pode se manifestar em diferentes nveis de anlise
lingustica: lexical, sinttico, semntico, contextual-pragmtico (DIAS-DA-SILVA, 1996;
HIRST, 1992; SPECIA, 2007). Em particular, no nvel lexical, por exemplo, um item lxico
da lngua fonte pode codificar mais de um sentido quando traduzido para a lngua alvo e como
consequncia disso, a lngua alvo oferece mais de uma opo disponvel para a traduo. A
divergncia entre as vrias culturas existentes citada como um dos fatores que pode explicar
essas diferenas, porque a cultura influencia a forma como os conceitos do mundo se realizam
nos diferentes itens lxicos. J no nvel sinttico, possvel organizar os itens lexicais que
compem uma frase em diferentes sequncias, originando trechos ou frases inteiras ambguos.
Tipologia das ambiguidades
Em linhas gerais, a literatura aponta quatro grandes tipos de ambiguidades lingusticas:
1.
Ambiguidade lexical, que se subdivide nos tipos 1.1 Ambiguidade por
polissemia/homonmia, 1.2 Ambiguidade categorial e 1.3 Ambiguidade de transferncia;
2.
Ambiguidade estrutural, que se subdivide nos tipos 2.1 Ambiguidade de
fixao de constituinte, 2.2 Ambiguidade de localizao e de preenchimento de lacunas, 2.3
Ambiguidade analtica, 2.4 Ambiguidade de escopo da quantificao;
3.
Ambiguidade anafrica/referencial;
4.
Ambiguidade temtica.
As ambiguidades de fixao de constituinte, por sua vez, subdividem-se em sete
subtipos:
2.1.1

Ligao de um sintagma preposicional a mais de um sintagma nominal ou

2.1.2
2.1.3

Ligao de uma orao relativa a mais de um sintagma nominal disponvel;


Ligao de um sintagma preposicional a uma orao adjetiva;

verbal;

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

2.1.4 Possibilidade de ligao de um sintagma preposicional ou advrbio a posies


pertencentes orao ou sua sub-orao;
2.1.5 Ligao do advrbio como modificador do sintagma verbal ou da frase;
2.1.6 Ligao de particpios ao sujeito estrutural da frase ou frase;
2.1.7 Possibilidade de ligao simultnea de um advrbio a verbos de dua frases
distintas.
Tambm apresentam subtipos as ambiguidades analticas, que se subdividem-se em
onze subtipos:
2.3.1 Deteco de partculas;
2.3.2 Diferenciao entre um sintagma preposicional e um sintagma adjetivo
resultante de uma operao de alamento e apagamento do verbo ser/estar aplicada ao
complemento do verbo;
2.3.3 Diferenciao entre particpio presente e adjetivo;
2.3.4 Diferenciao entre particpio presente e substantivo;
2.3.5 Delimitao da extenso do sintagma nominal;
2.3.6 Diferenciao entre orao relativa reduzida e sintagma verbal da orao
principal;
2.3.7 Delimitao da estrutura de um sintagma nominal complexo;
2.3.8 Interpretao ambgua de particpios e de oraes adjetivas posicionados no
final de frase;
2.3.9 Diferenciao entre frases clivadas e frases do tipo sujeito-verbo-objeto;
2.3.10 Diferenciao entre particpio passado e um sintagma verbal incompleto,
resultando na ambiguidade entre pergunta e ordem;
2.3.11 Delimitao dos diferentes tipos de estrutura formados com esta sequncia de
elementos: NP be ADJ to V.
Contudo, neste trabalho, por razes da extenso da discusso, restringe-se a
discusso a dois tipos de Ambiguidade Lexical (CRUSE, 2006; HIRST, 1992; HUTCHINS,
1992; SOMERS, 2000; SPECIA, 2007), a 1.1 Ambiguidade por polissemia/homonmia e a
1.2 Ambiguidade categorial, e a um tipo de Ambiguidade Estrutural, a 2.1.1 Ligao de um
sintagma preposicional a mais de um sintagma nominal ou verbal.
As ambiguidades lexicais
As ambiguidades que se manifestam no nvel lexical sempre exigem que uma escolha
seja feita entre as possveis leituras, porque a escolha no adequada do item lxico resulta em
proposies diferentes. Essa situao ilustra-se com a frase But it's conditioning, brainwashing: more like a trained seal, em que o sentido de seal deve ser desambiguado de forma
adequada entre selo, escudo, lacre ou foca (SOMERS, 2000, p. 333; SPECIA, 2007, p. 12).
Embora no seja possvel traar uma fronteira rgida entre polissemia e homonmia,
aceita-se que os itens lxicos polissmicos so aqueles que os seus possveis sentidos
demonstram relaes entre si. Para que os sentidos possam ser considerados como
pertencentes ao mesmo item lexical, os falantes da lngua precisam senti-los como
relacionados. Algumas das relaes responsveis pela polissemia so a metfora, a metonmia
e a hiponmia. J os itens lexicais homnimos apresentam sentidos que no permitem
estabelecer nenhum tipo de relao entre si. Cruse (2006) aponta que a maior parte dos
dicionrios tradicionais confere entradas distintas para os homnimos, diferentemente do que
7

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

ocorre com os itens lexicais polissmicos, que so identificados por nmeros dentro da
mesma entrada.
Nota-se que a distino entre a polissemia e a homonmia subjetiva e, se, em alguns
casos, a distino bastante definida, em outros impossvel de se estabelecer uma diferena.
Almeida (1990) argumenta que, apesar da polissemia e homonmia demonstrarem
diferenas em suas origens, ambos os fenmenos contribuem da mesma forma para a
ambiguidade estrutural. Segundo o autor, o que realmente interessa so os mltiplos sentidos
relacionados com uma nica forma. Assim sendo, para o tratamento computacional essa
diviso no relevante, suficiente a existncia de algum tipo de biunivocidade entre forma e
sentido.
Os itens lxicos categorialmente ambguos so aqueles que podem pertencer a
categorias sintticas diferentes, variando de acordo com o contexto como, por exemplo, canto,
que, alm de ser alvo da homonmia, tambm alvo da ambiguidade categorial, porque pode
ser um substantivo ou um verbo na primeira pessoa do presente do indicativo. Na maioria das
vezes, esse tipo de ambiguidade solucionado pelo parser (analisador gramatical), no
representando entraves mais srios TA (HUTCHINS, 1992; SPECIA, 2007).
De acordo com Hutchins (1992), as ambiguidades por polissemia/homonmia e
categorial so monolngues porque causam problemas para a anlise da lngua fonte. As
ambiguidades de transferncia so, por sua vez, ambiguidades bilngues e se manifestam
quando um item lexical da lngua fonte pode ser traduzido por vrios itens/expresses da
lngua alvo. Dessa forma, o problema s se manifesta sob a perspectiva da lngua alvo,
porque, para um falante nativo da lngua fonte, o item lexical no percebido como ambguo.
O item lexical do ingls wall ilustrada esse tipo, porque, ao ser traduzido para o portugus,
exige a escolha entre os itens parede, que denota paredes internas a uma construo, e muro,
que so paredes ao ar livre.
As ambiguidades estruturais
No nvel estrutural (sinttico), as diferentes formas possveis de se agruparem
sequncias de itens lexicais podem ser a causa de trechos ambguos ou at mesmo de frases
inteiras ambguas. A combinao de ambiguidades lexicais dos itens lxicos que compem a
frase , muito frequentemente, apontada como uma das causas das ambiguidades estruturais.
Considere, por exemplo, a sequncia I saw the man in the house with a telescope. Como
mostra Allen (1995), possvel, para um leitor humano, encontrar, pelo menos, cinco
interpretaes diferentes, devido a diferentes possibilidades de se diferentes interpretar o
sintagma preposicional with a telescope.
Porm, apesar de grande parte das frases permitirem diversas anlises gramaticais, de
acordo com Hirst (1992, p. 09), aps considerar aspectos semnticos e contextuais, apenas
uma interpretao possvel permanece. Considerando, por exemplo, a frase Nadia left the
university on the wrong bus, para compreend-la adequadamente necessrio aplicar o
conhecimento de mundo de que universidades no andam de nibus, e esse conhecimento o
autor chama de vis semntico. Alm desse vis, as lnguas tambm exibem certas
preferncias sintticas que Hirst (1992) denomina de vis sinttico. Na frase The landlord
painted all the walls with crack, o sintagma preposicional with crack pode ser fixado ao
sintagma verbal, podendo ser interpretado como as paredes estavam sendo pintadas em um
estilo rachaduras ou as rachaduras foram usadas como instrumento para pintar as
paredes, interpretaes que so semanticamente anmalas, e tambm pode se ligar ao
sintagma nominal objeto sendo que, nesse caso, a interpretao seria as paredes que
apresentavam rachaduras foram pintadas.
8

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

Muitas pesquisas foram feitas sobre esse vis sinttico e tambm sobre como os
humanos decidem sobre qual o local adequado para fixar um novo constituinte durante uma
anlise sinttica. Como resultado desses estudos, alguns princpios gerais puderam ser
afirmados, so eles: Minimal Attachment e Right Association ou Late Closure (ALLEN, 1995;
HIRST, 1992).
Minimal Attachment o princpio mais geral que afirma a existncia de uma
preferncia para a estruturao sinttica que cria o menor nmero possvel de ns na rvore
sinttica. A frase The man kept the dog in the house (ALLEN, 1995, p. 160) exemplifica o
princpio. Normalmente, essa frase interpretada com o sintagma preposicional in the house
modificando o verbo kept, o que, consequentemente, produz uma rvore sinttica com um
nmero menor de ns.
O princpio right association formula que um novo constituinte deve ser interpretado
como parte do constituinte que est sendo construdo e no deve ser fixado em nenhum outro
constituinte pertencente a um nvel superior na hierarquia da rvore sinttica. Esse princpio
ilustrado por Allen (1995) com a frase George said that Henry left in his car, que pode ter
duas interpretaes sintaticamente aceitveis George falou que Henry saiu utilizando seu
prprio carro e George falou, dentro do carro, que Henry saiu sendo que a interpretao
preferida primeira. Essa interpretao preferida tem o sintagma preposicional fixado ao
sintagma verbal que lhe imediatamente anterior. A outra interpretao, por sua vez, faz a
fixao do sintagma preposicional in the car ao sintagma verbal mais alto na rvore sinttica.
Entretanto, na frase The man kept the dog in the house, esses dois princpios so
conflitantes, porque o princpio right association aparentemente sugere que o sintagma
preposicional seja fixado ao sintagma nominal the dog, j o princpio minimal attachment
favorece a fixao do sintagma preposicional junto ao sintagma verbal kept. Como
consequncia disso, Allen (1995) afirma que haver situaes em que as preferncias lexicais
sero desejveis em detrimento das preferncias baseadas nesses princpios.
Quando um verbo exibe uma subcategorizao que exige um sintagma preposicional,
como o verbo put, por exemplo, que subcategoriza um sintagma preposicional com in, on ou
by, ento, nas situaes que em houver necessidade de escolher um local para a fixao de um
sintagma preposicional, o sintagma verbal ter preferncia. Em outros casos, o prprio
sintagma preposicional que demonstra preferncia por ser fixado dentro do sintagma verbal.
Se essas duas situaes no se manifestarem, ento os princpios gerais devem ser obedecidos.
Contudo, em oposio s ambiguidades lexicais que sempre exigem que uma escolha
seja feita, em determinadas situaes a ambiguidade estrutural no precisa ser resolvida na
lngua alvo, por no apresentar dificuldade de compreenso para os falantes nativos. Essa
situao pode ser ilustrada com a frase The man saw the girl with a telescope, na qual no se
sabe se quem tinha o telescpio era o homem ou a menina. Essa ambiguidade pode ser
tranferida para a lngua de chegada sem ser resolvida, porque se trata de fenmeno anlogo na
lngua de chegada, e que s solucionado com o conhecimento do contexto de uso desse tipo
de frase.
A partir dessas consideraes gerais sobre os tipos de ambiguidades alvos deste
estudo, fica claro que as informaes lexicais ajudam na resoluo tanto das ambiguidades
que se manifestam no nvel lexical, quanto daquelas aparentes no nvel estrutural, da a
importncia de se equipar um sistema de TA com um lxico que contenha informaes
relevantes necessrias para o processo de desambiguao como, por exemplo, a categoria
sinttica, a afinidade de um verbo com uma determinada preposio, relaes de sentido
(sinonmia, hiperonmia, etc.), restries sintticas e semnticas, entre outras.

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

3. Em busca de solues...
Hirst (1992) refora a necessidade de modelagem computacional tanto do contexto
discursivo quanto do co-texto em que o item lxico problemtico ocorre para realizar a
desambiguizao. Essa necessidade decorre do fato de os itens lxicos prximos ao item
lxico ambguo poderem fornecer pistas para o sistema, ou seja, fornecerem indcios fortes
para a desambiguao se um dos sentidos possveis de um item lxico estiver semanticamente
relacionado ao sentido de um outro prximo a ele. Da, Hirst (1992, p.80) propor que os
mecanismos necessrios para a desambiguao no nvel lexical so:
(i)
(ii)
(iii)
(iv)
(v)

Reconhecimento do contexto;
Associaes semnticas entre itens lexicais;
Informao sobre a sintaxe;
Informao sobre restries selecionais dos itens lxicos ambguos
Inferncias.

De acordo com Wilks (2009), as fontes de conhecimento necessrias para o


funcionamento de um sistema de TA dependem do mtodo por ele utilizado. Mas, possvel
afirmar que a maioria dos sistemas utiliza, comumente, algumas das seguintes fontes de
conhecimento: informaes morfolgicas, regras gramaticais e informaes provenientes de
lxicos. No caso do ingls, por ser uma lngua que no apresenta muita flexo, a morfologia
no to necessria como seria para uma lngua muito flexionada, para as quais a informao
morfolgica muito importante.
Por causa do aumento do nmero de dados legveis por mquina disponveis nos
ltimos anos e das tcnicas estatsticas que podem ser aplicadas para identificar e utilizar as
informaes retiradas desses dados, as tentativas de desambiguar sentidos lexicais de forma
automtica cresceram.
De acordo com Stevenson e Wilks (2003), a tarefa de desambiguao lexical de
sentido (DLS) tema de interesse dos pesquisadores desde o comeo dos estudos sobre a TA
e sempre reconhecida como um dos problemas mais importantes que carecem de soluo
dentro do campo de pesquisa do PLN. A DLS uma tarefa intermediria (STEVENSON;
WILKS, 2003) porque ela necessria, ou pelo menos traz benefcios, para o desempenho de
muitas outras tarefas de PLN, a TA uma delas e para citar outras, tem-se, por exemplo, a
recuperao de informao, anlise gramatical e processamento de fala. Alis, como se v
afirmado em Ide & Vronis (1998), os primeiros trabalhos sobre DLS foram desenvolvidos
dentro do contexto da TA. Os mesmo autores apontam que a tarefa de DLS descrita como
AI-complete, o que significa dizer que um problema que poder ser solucionado apenas
quando todos os outros problemas da Inteligncia Artificial tambm tiverem alcanado uma
soluo.
Grosso modo, a tarefa da DLS associar uma determinada unidade lexical de um texto
com uma definio (ou seja, o sentido) dentre vrias que podem ser potencialmente atribudas
a ela (IDE & VRONIS, 1998; SPECIA, 2007). A tarefa requer duas etapas: a primeira a
determinao de todos os sentidos diferentes relevantes para cada unidade lxica do texto e a
segunda a escolha de um meio de atribuir um sentido apropriado a cada ocorrncia da
unidade lxica. Para realizar a primeira etapa, geralmente conta-se com acervos de sentidos j
definidos, assim como os sentidos registrados em um dicionrio ou as informaes retiradas
de um thesaurus. A segunda etapa realizada com base em informaes provenientes do
contexto do item lxico ambguo e de outras fontes de conhecimento, como recursos lexicais e
10

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

enciclopdicos, e tambm de fontes de conhecimento manualmente construdas (IDE &


VRONIS, 1998, p. 03).
Kilgarriff (1997, p. 212) argumenta que as informaes lexicais podem resolver at
mesmo grande parte das ambiguidades estruturais, sem que os sentidos dos itens lexicais
precisem ser desambiguados. Para exemplificar sua argumentao, o autor considera duas
frases-exemplo:
(i) I love baking cakes with friends.
(ii) I love baking cakes with butter icing.
Para resolver a ambiguidade de fixao do sintagma preposicional (with...), basta
considerar a semntica do substantivo ncleo do sintagma nominal final (friends ou butter
icing). Em (i) o ncleo do sintagma nominal humano e por isso o sintagma preposicional
deve ser fixado ao verbo (baking); em (ii) o ncleo do sintagma nominal um tipo de
ingrediente do bolo (a cobertura) e, consequentemente, fixa-se ao substantivo (cakes). Nesse
caso, nem friends nem icing ambguo entre humano e ingrediente de bolo. Por essa razo, a
DLS no necessria.
Os estudiosos das ambiguidades lingusticas, incluindo a a DLS, sempre enfatizam a
importncia do contexto. Ide & Vronis (1998) o apontam, inclusive, como a nica fonte
capaz de identificar sozinha o sentido adequado de um item lexical ambguo. por essa razo
que todos os trabalhos em desambiguao de sentido utilizam informaes provenientes do
contexto do item lexical alvo da ambiguidade, contexto esse que, de alguma forma precisa ser
modelado.
4. Desenvolvimentos empricos...
Apresentam-se, nesta seo, frases selecionadas no corpus descrito no incio deste
estudo, que exemplificam as ambiguidades lexicais e os problemas que elas representam para
o processo de TA. Destaca-se o item lexical ambguo em negrito e, abaixo da frase original,
apresentam-se duas tradues: a do tradutor humano e a do sistema de TA.
Exemplo 1: Shall I ring Phyllis Cameron and ask her?
TH: Telefono Phyllis Cameron para lhe perguntar?
TA: Devo anel Phyllis Cameron e perguntar-lhe?
Nesse exemplo, est ilustrado um caso de ambiguidade categorial relacionado s
leituras nominal e verbal do item lexical ring. Nota-se que, nesse exemplo, a presena do
pronome I deveria ser evidncia suficiente para indicar a necessidade de um verbo em
seguida, fato que impossibilitaria o emprego do substantivo. Portanto, conclui-se que
informaes sobre a categoria gramatical e suas restries sintticas devem fazer parte do
lxico do sistema para que o analisador gramatical possa trabalhar corretamente.
No Exemplo 2, a seguir, a ambiguidade categorial ilustrada pelo item lexical steps,
que pode ser um substantivo no plural, correspondendo, em portugus, ao item lexical etapas
ou degraus, ou a terceira pessoa do singular do presente simples do verbo to step, que em
portugus corresponderia a pisa.
Exemplo 2: Leslie steps forward with a smile, introduces himself to the couple, and
inspects their tickets and passports.
TH: Leslie avana com um sorriso nos lbios, apresenta-se ao casal e verifica os
respectivos bilhetes e passaportes.
11

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

TA: Leslie passos para a frente com um sorriso, se apresenta ao casal, e inspeciona os
ingressos e passaportes.
Um sistema de TA, ao processar o item steps, precisar, portanto, selecionar uma
nica opo dentre as disponveis. A seleo depende das seguintes informaes: da escolha
da categoria gramatical, dos traos semnticos, das relaes item-contexto, das relaes de
sentido, entre outras. No exemplo, essa escolha pode ser assim resolvida: registrando-se, para
step, verbo + toward, a sinonmia entre stairway, stairs, steps e a restrio semntica
[+lugar].
O Exemplo 3 ilustra a situao de ambiguidade em que o item lexical paper a causa
da ambiguidade lexical, podendo ser traduzido para o portugus como papel, jornal, artigo,
entre outros. No primeiro exemplo, o sentido da expresso newspaper boy, que foi traduzida
adequadamente pelo sistema de TA, fornece evidncias para a resoluo da ambiguidade de
paper, apontando para o sentido expresso em portugus por jornal.
Exemplo 3: The newspaper boy is late, or perhaps there is no paper today because of
a strike.
TH: O rapaz dos jornais est atrasado, ou talvez hoje no haja jornais por causa de
uma greve qualquer.
TA: O menino do jornal tarde, ou talvez no h papel hoje por causa de uma greve.
J neste Exemplo 4, tratar os itens lexicais morning paper como uma collocation e
incluir essa informao no lxico, resolveria a ambiguidade.
Exemplo 4: A stewardess offers him the morning paper.
TH: A hospedeira oferece-lhe o jornal da manh.
TA: A aeromoa oferece-lhe o papel de manh.
Considere, por fim, o Exemplo 5, do subtipo 2.1.1 Ligao de um sintagma
preposicional a mais de um sintagma nominal ou verbal.
Exemplo 5: The lecture theatre resonates like a drum with the chatter of a hundredodd students.
TH: O anfiteatro ressoa como um tambor com o tagarelar de uma centena de alunos.
TA: A palestra teatro ressoa como um tambor com a vibrao de um cem alunos
estranho.
Para solucionar esse tipo de ambiguidade, preciso estar registrada, no lxico do
sistema, a informao sobre a afinidade do verbo com a preposio em questo. Se o verbo
apresentar essa caracterstica, o sintagma preposicional deve ser fixado ao sintagma verbal;
caso contrrio, ao sintagma nominal disponvel que o sintagma preposicional deve ser
fixado. No Exemplo 5, o verbo resonate admite a preposio with, informando ao sistema que
o sintagma preposicional deve ser nele fixado.
5. Consideraes finais
As breves discusses feitas neste estudo mostram que indiscutvel que as
ambiguidades lingusticas representem um desafio para os sistemas de TA. Desenvolver um
estudo sistemtico dos tipos de ambiguidade e das suas manifestaes no processo de
12

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

traduo automtica do ingls para o portugus o objetivo central que est sendo alvo dos
estudos do mestrado em desenvolvimento. Merece destaque a importncia de se
representarem, nos lxicos dos sistemas de TA, informaes sobre categorias, de
subcategorizao, sobre restries selecionais, temticas, sobre relaes de sentido,
colocaes, traos e restries semnticas, posto que, recordando Kilgarriff (1997), que
argumenta que um lxico rico em informaes lexicogramaticais e semntico-conceituais so
essenciais para resolver grande parte das ambiguidades estruturais, sem que os sentidos dos
itens lexicais precisem ser desambiguados.
Referncias
ALLEN, J. Natural Language Understanding. Redwood City, CA: Benjamin/Cummings,
1995.
ALMEIDA, J. Ambiguidade lexical. Revista Alfa, So Paulo. Vol 34, p. 187-193, 1990.
CRUSE, A. A Glossary of Semantics and Pragmatics. Edinburgh University Press, 2006.
DIAS-DA-SILVA, B.C. O estudo lingustico-computacional da linguagem. Letras de hoje,
Porto Alegre, v. 41, p. 103-138, 2006.
_____. A face tecnolgica dos estudos da linguagem: o processamento automtico das lnguas
naturais. Araraquara, 1996. 272 f. Tese (Doutorado em Letras) - Faculdade de Cincias e
Letras, Universidade Estadual Paulista, Araraquara, 1996.
FRANKENBERG-GARCIA, A.; SANTOS, D. Introducing COMPARA, the PortugueseEnglish parallel translation corpus. In: ZANETTIN, F.; BERNARDINI S.; STEWART, D.
(Eds.). Corpora in Translation Education. Manchester: St. Jerome Publishing, 2003. p. 71-87.
_____. COMPARA, um corpus paralelo de portugus e de ingls na Web. Cadernos de
Traduo IX, Santa Catarina, p. 61-79, 2002.
HATIM, B., MASON, I. Discourse and the translator. New York: Longman Inc., 1990.
HIRST, G. Semantic interpretation and the resolution of ambiguity. Cambridge: Cambridge
University Press, 1992.
HOUAISS, A. Webster's: dicionrio ingls-portugus. 15. ed. Rio de Janeiro: Record, 2005.
HUTCHINS, W.J. Machine translation: general overview. In: MITKOV, R. (Ed.). The Oxford
handbook of Computational Linguistics. Oxford: Oxford University Press, 2003. p. 501-511.
_____. Machine Translation over fifty years. Histoire, Epistemologie, Langage, v. 22, n. 1, p.
7-31. 2001. Disponvel em: <http://www.hutchinsweb.me.uk/history.htm>. Acesso em: 28 jul.
2010.
_____. SOMERS, H. L. An introduction to machine translation. London: Academic Press,
1992.
_____. Machine translation: past, presence, future. Ellis Horwwod/Wiley, Chichester/New
York, 1986.
IDE, N.; VRONIS, J. Introduction to the Special issue on word sense disambiguation: The
State of the Art. Computational Linguistics. Cambridge, v. 24, p. 2 40, Mar. 1998.
Disponvel em:
<http://portal.acm.org/citation.cfm?id=972749.972751&coll=GUIDE&dl=%EF%BF%BD%C
3%9C&idx=J25&part=affil&WantType=Affils&title=Computational%20Linguistics&CFID=
96305886&CFTOKEN=64368211>. Acesso em: 28 jul. 2010.
KILGARRIFF, A. What is word sense disambiguation good for?. In: Natural Language
Processing in the Pacific Rim, 1997, Phuket, Thailand. Proceedings, Phuket, Thailand,
1997. p. 209-214. Disponvel em: <http://www.kilgarriff.co.uk/publications.htm>. Acesso
em: 23 jul. 2010.
13

Anais do IX Encontro do CELSUL


Palhoa, SC, out. 2010
Universidade do Sul de Santa Catarina

NIRENBURG, S. Bar Hillel and machine translation: then and now. In: BISFAI95 The
Fourth Bar-Ilan Symposium on Foundations of Artificial Intelligence, 4th., 1995, Jerusalem,
Israel. Proceedings, Jerusalem, Israel: AAAI Press, 1996. p.300-305. Disponvel em:
<http://www.aaai.org/Papers/BISFAI/1995/BISFAI95-027.pdf>. Acesso em: 16 jul. 2010.
SANTOS, D. O computador e a traduo. In: II Seminrio de Traduo Cientfica e Tcnica
em Lngua Portuguesa, 2., 1999, Lisboa. Actas do II Seminrio de Traduo Cientfica e
Tcnica em Lngua Portuguesa. Lisboa, 1999. Disponvel em:
<http://www.linguateca.pt/Diana/download/SantosSeminTradTecnica99.pdf>. Acesso em: 15
jul. 2010.
_____. A fase de transferncia de um sistema de traduo automtica do ingls para o
portugus, 1988. 252 f. Dissertao (Mestrado em Engenharia Eletrotcnica e de
Computadores) - Instituto Superior Tcnico, Universidade Tcnica de Lisboa, Lisboa, 1988.
Disponvel em: <http://www.linguateca.pt/Diana/public.html>. Acesso em: 15 jul. 2010.
SOMERS, H. Machine translation. In: DALE, R.; MOISL, H.; SOMERS, H. Handbook of
natural language processing. New York: Marcel Dekker, 2000. p. 329-346.
SPECIA, L. Uma abordagem hbrida relacional para a desambiguao lexical de sentido na
traduo automtica. So Carlos, 2007. 245 f. Tese (Doutorado em Cincias) Instituto de
Cincias Matemticas e de Computao, Universidade de So Paulo, So Carlos, 2007.
STEVENSON, M.; WILKS, Y. Word-sense Disambiguation. In: MITKOV, R. (Ed.). The
handbook of Computational Linguistics. Oxford: Oxford University Press, 2003. p. 249-265.
TAYLOR, J. L. Websters: Portuguese-English dictionary. 16. ed. Rio de Janeiro: Record,
2003.
VILELA, M. Traduo e Anlise Contrastiva: Teoria e Aplicao. Lisboa: Caminho, 1994.
WILKS, Y. Machine Translation: Its Scope and Limits. Springer, New York, 2009.

14