Sunteți pe pagina 1din 18

Um estudo de expressses cristalizadas...

165

UM ESTUDO DE EXPRESSES CRISTALIZADAS DO TIPO V+SN E SUA INCLUSO EM UM TRADUTOR AUTOMTICO BILNGE (PORTUGUS/ INGLS)

Milena Uzeda Garro Maria Carmelita Pdua Dias PUC-Rio

Introduo
A word, in a word, is complicated. But then what in the world is a word? (Pinker, 1995:147)

Dentre os variados problemas lingsticos com os quais um programa de traduo se depara, h uma questo particularmente relevante que a de reconhecimento e gerao de expresses cristalizadas, principalmente de expresses idiomticas. Isto tem origem, assim ns iremos argumentar, em um dos maiores problemas dentro da teoria lingstica: a questo da delimitao entre sintaxe e lxico no que concerne definio de itens lexicais com constituio maior do que um vocbulo. Portanto, o objetivo deste estudo foi defender uma viso mais inclusiva de lxico, principalmente no que diz respeito s expresses cristalizadas. Estas so geralmente consideradas como uma exceo ou como simples curiosidades dentro da lngua. Por isso, acabam ocupando um papel coadjuvante numa descrio lingstica. Entretanto, como Jackendoff (1997) vai defender para o ingls, e como Gross (1982) j defendia para o francs, estas expresses so muito mais co-

166

Milena Uzeda Garro e Maria Carmelita Pdua Dias

muns do que parecem; conseqentemente, devem ser equacionadas por um programa de PLN1 . Programas de traduo automtica, em especial, apresentam problemas no tratamento de expresses cristalizadas. A maioria dos sistemas disponveis no mercado no reconhecem vrias ocorrncias de grupos de palavras que funcionam como uma unidade. Algumas poucas expresses idiomticas esto includas no lxico de tais sistemas (como abrir mo). Outras, porm, de uso freqente na lngua, so tratadas como conjuntos acidentais de palavras, o que resulta em uma traduo ininteligvel (como, por exemplo ter alta, que vertido para o ingls como to have high). Esta pesquisa teve como objetivo prtico aventar a possibilidade de o tradutor automtico bilnge (portugus-ingls) Delta Translator (1999) vir a traduzir expresses cristalizadas do tipo V+ SN, particularmente, do tipo bater+SN2 . importante salientar que no ambicionvamos fornecer conhecimento de mundo para este tradutor automtico, visto que um programa de computador nem sempre tem heursticas a para soluo de ambigidade ou para decidir quais os itens mais adequados para um contexto especfico. Isto , num sistema informatizado preciso que as descries sejam as mais detalhadas e refinadas possveis (Vale, 1998). Nossa proposta foi fornecer tais expresses cristalizadas como uma unidade lexical, e evitar que o programa viesse a traduzi-las como um fragmento sinttico. Como os tradutores automticos atuais tm a capacidade de incluir informaes fornecidas pelo usurio em seu banco de dados, esta proposta no parece pretensiosa, mas compatvel tanto com a formatao dos programas de traduo contemporneos quanto com a necessidade de rever a questo da delimitao lexical. Nossa tentativa evitaria que construes do tipo bater perna, uma expresso cristalizada bastante corriqueira no portugus do Brasil, fosse vertida para o ingls como beat leg, como faz o Delta Translator. Em outras palavras, nossa meta foi possibilitar que este tradutor automtico contivesse, em seu banco

Um estudo de expressses cristalizadas...

167

de dados, uma construo aparentemente sinttica, porm, com um contedo lexical. Para coletar tais expresses cristalizadas utilizamos como fontes os peridicos jornalsticos Jornal do Brasil, O Globo e Veja. Tais fontes foram escolhidas por lanarem mo de recursos idiomticos da lngua mantendo um registro semi-formal: portanto, corroboram a argumentao de que as expresses idiomticas, de fato, no pertencem a um escopo marginal da natureza lingstica; elas fazem parte do lxico corrente da lngua (algumas mais flagrantemente do que outras). No intuito de facilitar a coleta de dados, utilizamos a verso online destes peridicos. Cabe ressaltar, contudo, que nossa metodologia de coleta de dados foi qualitativa. No tivemos como objetivo quantificar as ocorrncias das expresses em questo, apenas apresentar um certo nmero delas para ilustrar e discutir as questes apresentadas neste trabalho. Em suma, esta pesquisa objetivou contribuir tanto para uma reflexo sobre a noo de unidade lexical, como para um dos domnios da Lingstica Computacional, que a Traduo Automtica (TA, doravante) enquanto ferramenta.

Palavra: termo que foge a definies Afinal, o que uma palavra? O gerativista Steven Pinker, no seu livro The Language Instinct (1995: 147), antes de se aventurar a explicar este conceito, argumenta que o uso do termo no cientificamente preciso: palavra, ele afirma, pode se referir a duas idias distintas. Uma delas seria a noo de tomo sinttico, no sentido original de tomo como algo indivisvel. Nesta acepo, o termo se refere s unidades da lngua que so produtos de regras morfolgicas e as quais so indivisveis atravs de regras sintticas; trata-se da palavra morfolgica. A segunda acepo, explica Pinker, bastante diferente da primeira, est relacionada a peda-

168

Milena Uzeda Garro e Maria Carmelita Pdua Dias

os lingsticos arbitrariamente associados a um significado especfico; um item da extensa lista que denominamos dicionrio mental. Os sintaticistas Anna Maria Di Sciullo e Edwin Williams (1987) cunharam este ltimo conceito de palavra pelo termo listema: a unidade de uma lista memorizada (assim como morfema a unidade morfolgica e fonema a unidade sonora). esta noo de palavra que estamos considerando no presente estudo: uma delimitao semntica e no formal da mesma. Cruse (1986), Gross (1982) e Jackendoff (1997) ratificam a importncia da delimitao semntica do lxico. Biderman (1999), compartilhando da mesma viso, justifica:
...a fonologia e a morfossintaxe ajudam-nos a reconhecer segmentos fonicamente coesos e gramaticalmente pertinentes enquanto formas funcionais; contudo s a dimenso semntica nos fornece a chave decisiva para identificar a unidade lxica no discurso. Assim, no topo da hierarquia, a semntica vem congregar as demais informaes de nvel inferior para nos oferecer a chave do mistrio da palavra. (p. 87)

Tomando como pressuposto esta idia, propomos, neste estudo, que as expresses cristalizadas devem ser implementadas no lxico computacional de um programa que lide com PLN. Mais especificamente, estas expresses devem ser inseridas no dicionrio de um tradutor automtico. Esta tentativa, alm de ser coerente com uma viso mais abrangente de lxico, resolveria o problema de traduo de uma expresso idiomtica como sendo um fragmento sinttico, embora ela apresente um contedo lexical.

O caso das Expresses Idiomticas (EIs) A definio tradicional de EI postula que seu significado no pode ser inferido atravs dos significados de suas partes. Estas

Um estudo de expressses cristalizadas...

169

construes, em sua maioria, demonstram uma invariabilidade tpica de unidades lexicalizadas. Portanto, elas necessariamente fariam parte do lxico do falante. Vale (1998) e Biderman (1999) fazem uso do exemplo tradicionalmente apresentado em lngua portuguesa bater as botas para ilustrar o teor de uma EI:
Verificamos que o significado da expresso no pode ser calculado pela soma dos significados dos seus componentes; ou seja, o seu significado nada tem a ver com o verbo bater nem com o substantivo bota. A anlise tradicional pouco pode fazer nesta frase, pois as propriedades normalmente admitidas pelos verbos transitivos no funcionam nela (Vale, 1998: 132) O sentido da seqncia bater as botas no previsvel a partir de bater (dar pancada, chocar-se com) e de botas ( tipo de calado). De fato, temos aqui uma combinatria cristalizada, culturalmente herdada e registrada na memria coletiva com o significado de morrer. Por isso, podemos afirmar que ela faz parte do acervo do lxico e no uma combinatria discursiva qualquer. (Biderman, 1999: 94)

Cruse (1986) argumenta que tal definio a de que o significado da EI no pode ser inferido atravs dos significados de suas partes pode ser lida como: uma expresso cujo significado no resultado dos significados de suas partes quando estas no pertencem a uma EI (p. 37). Cruse reconhece que tanto a primeira quanto, principalmente, esta ltima definio so circulares. Ou seja, para aplicar tais definies, devemos saber de antemo distinguir uma EI de uma expresso no-idiomtica. Ele sugere, contudo, que possvel definir uma EI no-circularmente, utilizando a noo de constituinte semntico. Segundo a sua proposta, a EI deve ter duas caractersticas: ser lexicalmente complexa isto , deve compreender mais de um constituinte lexical e ser um constituinte semntico nico em

170

Milena Uzeda Garro e Maria Carmelita Pdua Dias

outras palavras, um constituinte que no pode ser segmentado em constituintes semnticos elementares (por exemplo, em o gato est em cima do tapete, o sintagma sublinhado um constituinte semntico da frase, e as unidades em, cima, do, tapete so constituintes semnticos elementares da frase). Qualquer expresso que divisvel em constituintes semnticos chamada de no-idiomtica ou semanticamente transparente.3 Cruse se utiliza do tradicional exemplo da lngua inglesa, kick the bucket4 , para explicar a particularidade do fenmeno idiomtico. Curiosamente, esta expresso a traduo consagrada de bater as botas:
A razo pela qual kick the large bucket no seja interpretado idiomaticamente porque bucket no carrega significado na EI, portanto large no exerce na EI sua funo modificadora tradicional 5 (Cruse, 1986: 38)

Portanto, algumas das restries de potencial sinttico das EIs tm uma clara motivao semntica. Quando se diz bater grandes botas e pegar no p esquerdo de algum, estas construes no sofrem uma interpretao idiomtica porque botas e p no carregam um significado na EI; com isso, grandes e esquerdo no podem exercer sua funo normal de modificadores. No ponto de vista de Cruse, a EI uma unidade lexical elementar: embora consista em mais de uma palavra, apresenta uma coeso interna de palavras nicas (p. 38). Seus componentes geralmente resistem interrupo e reordenao das partes, como demonstrado nos exemplos 1 e 2, respectivamente:
1a) Depois de muito sofrimento, bateu as botas. 1b) ?Bateu, depois de muito sofrimento, as botas. 1c) Depois de muita discusso, deu o brao a torcer. 1d) ?Deu o brao, depois de muita discusso, a torcer.

Um estudo de expressses cristalizadas...

171

2a) O que ele fez foi bater as botas. (deixa a EI fisicamente intacta) 2b) O que ele bateu foram as botas. (no tem leitura idiomtica)

No ponto de vista de Cruse (1986), a expresso idiomtica uma unidade lexical elementar: embora consista em mais de uma palavra, apresenta uma coeso interna de palavras nicas (p. 38). O autor considera Expresses Idiomticas, Metforas Cristalizadas e Colocaes como tipos de expresses cristalizadas distintas. Porm, Cruse reconhece, h casos limtrofes. Por esta razo tais distines no so consideradas relevantes para o domnio do tratamento automtico do lxico, como argumenta Santos (1990: 3), quando postula que as fronteiras entre restries colocacionais, leituras metafricas e expresses idiomticas so difusas e talvez impertinentes para o tratamento automtico da lngua. Por isso, iremos denominar todos estes fenmenos como expresses cristalizadas.

Delimitando as Expresses Cristalizadas O artigo de Neves (1999) vai tratar da delimitao das unidades lexicais partindo da investigao do comportamento de construes com verbo-suporte, o qual contrastado com o de certas construes de formao semelhante. Da introduo do artigo de Neves, podemos esboar o seguinte vetor:
- unicidade lexical construes livres Grfico 1 construes com verbos-suporte + unicidade lexical expresses cristalizadas

172

Milena Uzeda Garro e Maria Carmelita Pdua Dias

Na extrema esquerda, temos combinaes com verbos plenos e sintagmas nominais complementos, que so completamente livres (ex: consolidar a estrada; findar propostas), onde os dois elementos exercem papis independentes na estrutura argumental; na extrema direita, temos expresses que constituem um significado unitrio, em que nem mesmo parece ser possvel postular um SN em posio de objeto (Neves, 1999: 99), como dar um pulo, tomar partido; e entre estes dois graus extremos de construo, h aquelas construes intermedirias, constitudas dos chamados verbossuporte, que, por sua vez, recebem certo grau de esvaziamento do sentido lexical, porm, semanticamente contribuem para o significado total da construo (dar um riso; ter confiana). Na proposta do presente estudo, utilizamos construes bater+SN e as diferenciamos de acordo com o vetor estabelecido anteriormente. Desta forma, pudemos classificar as construes cristalizadas deste tipo e inclu-las no dicionrio do tradutor automtico Delta. No intuito de classificar inequivocamente a estrutura dos constituintes de construes como as supracitadas, Neves se apropria dos testes propostos por Radford (1988:90) e os adapta para a lngua portuguesa. Segundo o gerativista ingls, os instrumentos mais seguros para determinar a estrutura dos constituintes destas expresses so: a distribuio, a posposio, a coordenao, a intercalao de advrbios, a elipse.6 Desta forma, os testes propostos por Radford (1988) so capazes de distinguir as construes livres, as construes com verbosuporte e as construes fixas, cristalizadas. E isto veio ao encontro das aspiraes de nossa anlise. Enquanto as expresses que se encontram na esquerda do vetor so consideradas livres e at imprevisveis, a distino entre os dois outros tipos de construo traz uma certa hesitao pelo fato de ambas as estruturas se situarem no domnio da convencionalidade; ou seja, das estruturas recorrentes que o falante escolhe com reduzida liberdade quanto ao modo de composio (Neves, 1999: 103).

Um estudo de expressses cristalizadas...

173

Neves explica que as construes com verbo-suporte ora se situam mais prximas de construes livres, ora mais prximas de expresses cristalizadas (ou seja, ora mais prximas de um, ora mais prximas de outro extremo do vetor). Elas so compostas de: a) um verbo com determinada natureza semntica bsica, que funciona como instrumento morfolgico e sinttico na construo do predicado; b) um sintagma nominal que entra em composio com o verbo para configurar o sentido do todo, bem como para determinar os papis temticos da predicao. Usamos como exemplo expresses tais como bater perna e bater boca, alm de expresses em que o SN posposto ao verbo expresse um sentimento de falta ou negativo, como bater uma fome, bater um medo. Embora a construo bater+SN de sentimento de falta (como bater uma saudade, bater uma fome, bater uma sede) ou bater+SN de sentimento negativo (como bater um desespero, bater uma angstia, bater um medo) no tenham o comportamento exato do que chamamos tradicionalmente de construes com verbo-suporte (como ter confiana, dar um riso, dar uma olhada) pois, na verdade a sua construo sinttica seria bater em algum uma dvida/ um medo tentamos mostrar que seu comportamento semntico anlogo ao destas construes. Usamos as seguintes construes de estrutura bater+SN encontradas durante a coleta de dados nos peridicos JB, O Globo e Veja, para estabelecer seu verdadeiro estatuto de acordo com o vetor proposto no incio deste captulo : a) bater perna; b) bater papo; c) bater o p; d) bater os olhos; e) bater palmas; f) bater as botas; g) bater boca7, h) bater bola (que estariam na extrema direita do vetor de unicidade lexical); i) bater uma dvida, j) bater o desespero (que se enquadrariam no centro do vetor); l) bater a CBF, m) bater a concorrncia (que julgamos pertencerem extrema esquerda do vetor, ou seja, estariam distantes do estatuto de unicidade lexical). Os exemplos encontram-se na figura 2.

174

Milena Uzeda Garro e Maria Carmelita Pdua Dias

Alm de aplicarmos os testes de Neves (1999) para diferenciar as construes cristalizadas das construes com caracterstica de verbo-suporte do tipo bater+SN, inclumos, ainda, um ltimo teste que demonstra que alguns dos exemplos que a autora considera como expresses cristalizadas podem admitir a insero do marcador de freqncia muito: o caso de bater perna, bater papo, bater boca, bater palmas, bater bola. Chegamos concluso de que as expresses bater os olhos, bater as botas e possivelmente bater o p parecem no admitir a insero do marcador de freqncia. Isto parece estar intimamente relacionado ao perfil semntico destas expresses, que apresentam um aspecto pontual. Mateus et alii (1983: 134) explicam que o valor aspectual pontual caracteriza enunciados que descrevem eventos em que ocorre a mudana de estado ou transio sofrida por uma dada entidade. Portanto, o perfil pontual dessas expresses parece estar intimamente relacionado ao bloqueio da possibilidade de marcao de freqncia.
- unicidade lexical construes livres bater a CBF bater a concorrncia construes com verbo-suporte bater uma dvida bater o desespero + unicidade lexical expresses cristalizadas deriva \expresses cristalizadas deriva: bater perna bater papo bater boca bater palmas bater bola cristalizadas:bater o p bater as botas bater os olhos

Grfico 2

Como o propsito prtico deste estudo foi viabilizar um tratamento automtico das expresses cristalizadas bater +SN8, ou seja, a sua insero no banco de dados do Delta Translator, para que sejam

Um estudo de expressses cristalizadas...

175

tratadas como expresses lexicais e no como fragmentos sintticos, podemos observar alguns problemas a serem equacionados: 1) Como resolver os casos das expresses cristalizadas deriva, que tendem a admitir o marcador de freqncia e, em virtude disso, no seriam inequivocamente previsveis como as expresses cristalizadas o so ? Para um tratamento automtico mais preciso e otimizado das expresses cristalizadas deriva, inclumos, no tradutor automtico, estas expresses com e sem a insero do marcador de freqncia muito. 2) Como resolver o caso da expresso bater papo que, por sua vez, alm de admitir o marcador de freqncia, admite tambm a insero de um quantificador? Esta expresso traz uma dificuldade ainda maior para um tratamento automtico, pois admite a insero de diferentes tipos de marcadores de freqncia e quantificadores como longo(s), muito(s), vrios, trs, diversos, etc. e, portanto, diferentemente das construes cristalizadas deriva, parece estar ainda mais distante do estatuto de unicidade lexical, pelo menos no que tange a esse quesito. Para um tratamento automtico da expresso bater papo, inserimos alm do marcador de freqncia muito, o quantificador um, visto que parece ser o mais utilizado com esta expresso. As nicas expresses que parecem no trazer problemas para um tratamento automtico so as cristalizadas, em cuja combinao no existe nenhuma flexibilidade ou liberdade, sendo, desta forma, inequivocadamente previsveis. So elas: bater as botas, bater os olhos, bater o p. Estas ltimas podem ser tratadas automaticamente como sendo uma unidade lexical, pois tendem a rejeitar a incluso de qualquer tipo de constituinte.

Inserindo as Expresses Cristalizadas no Delta Translator Embora o Delta seja um programa bastante sofisticado, o seu lxico computacional no to abrangente quanto aparenta. Este ,

176

Milena Uzeda Garro e Maria Carmelita Pdua Dias

atualmente, um dos maiores problemas dentro da Lingstica Computacional. Boguraev e Pustejovsky (1996: 3) ressaltam:
Independentemente da sofisticao do sistema, seu desempenho deve ser medido em grande parte pelos recursos do lxico computacional associado a ele. Tais recursos viabilizam tarefas como anlise lingstica, processamento de texto, sumrio de documentos e Traduo Automtica... h um enorme nmero de diferentes classes de palavras que ficam fora do alcance de um dicionrio computacional

Dentre as unidades que ficam fora do alcance de um dicionrio computacional esto as expresses cristalizadas. Abaixo apresentamos as frases com expresses cristalizadas do tipo bater +SN que o Delta no conseguia equacionar ao verter para o ingls: a) Ele bateu perna no centro at ach-los. b) ...e passa o dia batendo papo com a vizinhana. c) O chef bateu o p, disse que no cederia. d) Quem bate os olhos nas fotos desta reportagem... e) Eles bateram palmas depois do hino nacional. f) Dessa forma, eles acabariam batendo as botas. g) Ana bateu boca no shopping. h) Ele bateu bola com Paulo Csar em 1980. A seguir, o resultado da verso automtica: a) b) c) d) e) f) g) He beat leg in the downtown until find them. ...and he spends the day beating crop with the neighborhood. Chef beat the foot, he said that wouldnt give way. Who it beats the eyes in the photos of this report... They beat palmas after the national anthem. Thus, they would finish beating the boots. Ana beat mouth in mall.

Um estudo de expressses cristalizadas...

177

He beat ball with Paulo Csar in 1980. Claramente, estas expresses no pertenciam ao banco de dados lexical do Delta; portanto, eram solucionadas como um fragmento sinttico. Sendo assim, percebemos que um assistente sinttico robusto nem sempre resolve os problemas presentes na Traduo Automtica. A simples incluso destas construes em um dicionrio de expresses solucionaria estes problemas, como foi implementado neste estudo, cujo resultado se segue9 : a) b) c) d) e) f) g) h) He went around in the downtown until find them. ...and he spends the day chatting with the neighborhood. Chef stood fast, he said that wouldnt give way. Who glances at the photos of this report... They clapped hands after the national anthem. Thus, they would finish kicking the bucket. Ana squabbled in mall. He played ball with Paulo Csar in 1980

h)

Contudo, apesar de ser possvel incluir expresses em seu lxico, conclumos que o tradutor automtico em questo no possui uma heurstica para a inferncia verbal. Isto quer dizer que, embora ele reconhea todas as ocorrncias do verbo bater, teramos que inserir todas as possibilidades de ocorrncia deste mesmo verbo quando o editamos dentro de uma expresso. Isto, no entanto, requer um trabalho manual incompatvel com a sofisticao do sistema. Portanto, o programa no est preparado para lidar com construes cristalizadas encabeadas por verbos, mesmo que estes j estejam em seu Dicionrio de Palavras. Esta parece ser a grande falha do programa. Acreditamos, contudo, que uma pesquisa direcionada em lingstica computacional pode equacionar essa falha em prol de uma traduo mais completa e fluente.

178

Milena Uzeda Garro e Maria Carmelita Pdua Dias

Concluso Durante o desenvolvimento do presente estudo, algumas idias conclusivas puderam ser estabelecidas como: 1) A viso de que o critrio semntico o decisrio para a delimitao da unidade lexical permite uma viso mais inclusiva de itens lexicais e tenta dar conta daquilo que Gross (1982) e Jackendoff (1997) julgam como uma enorme falha dentro dos estudos lingsticos: o no tratamento cientfico de expresses cristalizadas. Esta perspectiva lexical mais abrangente pautou o decorrer de nossa investigao. 2) Levamos para o desenvolvimento do presente trabalho a idia de que o lxico no contm apenas estruturas simples, e especialmente a noo de que as expresses cristalizadas no fazem parte do lixo lingstico, e sim, pertencem ao conhecimento lingstico do falante (de acordo com Jackendoff, 1997). Tomando como pressuposto esta idia, propusemos que tais expresses devessem ser implementadas no lxico computacional de um programa que lide com processamento de linguagem natural. Em outras palavras, estas expresses devem ser inseridas no dicionrio de um tradutor automtico. Esta tentativa, alm de ser coerente com uma viso mais abrangente de lxico, resolveria o problema de traduo de uma expresso idiomtica como sendo um fragmento sinttico. 3) Demonstramos como possvel aplicar testes que verifiquem o estatuto de cristalizao destas expresses. Introduzimos um teste complementar que parece indicar que a semntica da expresso, mais especificamente o valor aspectual da mesma, interfere na sua soldadura. Em outras palavras, verificamos que as expresses com um perfil aspectual pontual tendem a bloquear a insero de marcador de freqncia; o mesmo no parece ocorrer com as expresses com perfil durativo. Em suma, o valor semntico da expresso em um ambiente sinttico-semntico especfico parece determinar o seu estatuto de unicidade lexical. 4) Detectamos a dificuldade de insero de expresses cristalizadas no Tradutor Automtico Delta, particularmente, pela sua inefi-

Um estudo de expressses cristalizadas...

179

cincia de inferncia verbal em expresses. Argumentamos que o trabalho manual necessrio para a edio de todos os tempos verbais em que a expresso pode ocorrer incompatvel tanto com a sofisticao do programa quanto com a otimizao de tempo que um tradutor automtico deve oferecer ao tradutor humano. Aliada a esta dificuldade estaria a necessidade de aplicao da bateria de testes para a certificao do estatuto de cristalizao das expresses. Portanto, conclumos que a soluo mais coerente seria otimizar esta metodologia para ser aplicada por lingistas computacionais programadores de tradutores automticos antes mesmo de estes programas chegarem ao mercado. Defendemos que uma metodologia baseada nos testes de Neves poderia servir como suporte para o desenvolvimento de um dicionrio automtico mais abrangente e, conseqentemente, para um programa de traduo automtica que no converta uma expresso lexical como um fragmento sinttico. 5) Finalmente, destacamos a importncia do tradutor automtico como ferramenta e ratificamos que de forma alguma consideramos que nossa metodologia de delimitao de expresses cristalizadas resolveria a maior parte dos problemas de TA e gradativamente substituiria o trabalho humano. O que consideramos de suma importncia a resoluo de algumas questes lingsticas que otimizaria a capacidade de traduo de programas especializados. Na verdade, uma reviso do lxico computacional equacionaria muitos problemas tpicos de uma ferramenta automtica.

Notas

1. Processamento de Linguagem Natural 2. Expresses como bater as botas, bater perna, bater boca, bater bola, bater o

180

Milena Uzeda Garro e Maria Carmelita Pdua Dias

martelo, bater ponto, dentre outras, foram includas no dicionrio de um tradutor automtico bilnge (port/ing) para que o sistema no equacionasse as expresses de forma sinttica e literal. Portanto, o programa deixou de verter a expresso bater as botas como beat the boots e passou a faz-lo por kick the bucket. Contudo, como estvamos lidando com a interface entre o usurio e o programa, no aplicamos nenhum tipo de formalizao destas expresses. 3. A maioria das EIs coincidem com expresses semanticamente transparentes (como bater as botas, kick the bucket); aquelas que no apresentam esta transparncia (como tirar de letra, by and large) so chamadas de EI assintticas. 4.Este exemplo tambm utilizado por Gibbs (1995), numa abordagem de semntica cognitiva, e Jackendoff (1997), numa abordagem gerativa. 5. As tradues de textos estrangeiros no artigo, quando no indicados, so de autoria de Milena Garro. 6. Para uma observao detalhada dos testes, consultar Neves, 1999 ou Garro 2001: cap. 4. 7. Os exemplos e), f ) , g) foram formulados pela autora. 8. Como o nosso objeto de estudo so as expresses cristalizadas, aquelas com verbo-suporte no sero inseridas no lxico computacional do tradutor automtico em questo, embora seja importante ressaltar que constituem um fenmeno importante de uma lngua e, portanto, seu tratamento automtico desejvel. 9. A inconsistncia sinttica das frases traduzidas pelo programa (regncia verbal, por exemplo) no foi objeto do nosso estudo. Hoje em dia, o grau de aceitao de tradutores automticos medido pela quantidade de ps-reviso requerida. Um programa cujo ndice de reviso posterior menor do que 20% (uma correo a cada cinco palavras) considerado aceitvel. (ver Alfaro & Dias, 1998 e Garro, 2001).

Um estudo de expressses cristalizadas...

181

Bibliografia

ALFARO, C & M.C.P. DIAS (1998). Traduo Automtica: uma ferramenta de auxlio ao tradutor. In Cadernos de Traduo n 3. Centro de Comunicao e Expresso:GT de Traduo. Universidade Federal de Santa Catarina. BAR-HILLEL (1964). Language and Information. Selected essays on their theory and application. Massachusetts: Addison-Wesley Publishing Company. BASLIO, M. (1999a). Questes Clssicas e Recentes na Delimitao de Unidades Lexicais. In Baslio, M. (org.) Palavra n 5. Rio de Janeiro, Departamento de Letras da PUC: 9 -18. BIDERMAN, M.T. (1999). Conceito Lingstico de Palavra. In Baslio, M. (org.) Palavra n 5. Rio de Janeiro, Departamento de Letras da PUC: 81-97. BOGURAEV, B. & J. PUSTEJOVSKY (1995). Issues in Text-based Lexical Acquisition. In Boguraev, B. e Pustejovsky, J (orgs.) Corpus Processing for Lexical Acquistion. Cambridge, Massachusetts: MIT Press. CRUSE, D. A. (1986). Lexical Semantics. Cambridge, Inglaterra: Cambridge University Press. DI SCIULLO, A-M, & E. WILLIAMS (1987). On the Definition of Word. Cambridge, Massachusetts: MIT Press. GARRO (2001). Traduo Automtica: ainda um enigma multidisciplinar. In Pereira. J. (org.) Anais do V congresso Nacional de Lingstica e Filologia. Instituto de Letras da UERJ, Rio de Janeiro. GIBBS (1994). The Poetics of Mind. New York: Cambridge University Press. GROSS, M. (1982). Une Classification des phrases figes en franais. Revue Qubecoise de Linguistique, 11:151-185.

182

Milena Uzeda Garro e Maria Carmelita Pdua Dias

JACKENDOFF (1997). The Architecture of the Language Faculty. Cambridge, Massachusetts: MIT Press. _____(1998). Whats in the Lexicon ? Resumo de conferncia apresentada no Utrecht Congress on Storage and Computation in Linguistics. Universiteit Utrecht: Holanda. MATEUS, M.H.M. (1995). Traduo Automtica: um pouco de histria. In Mateus, M.H & Branco, A. H. (orgs.) Engenharia da Linguagem. Faculdade de Letras da Universidade de Lisboa, Lisboa: Ed. Colibri. 115-120 MATEUS, M.H.M. et alii (1983). Gramtica da Lngua Portuguesa. Coimbra: Livraria Almedina. NEVES, M.H.M. (1999). A delimitao das unidades lexicais: o caso das construes com verbo-suporte. In Baslio, M. (org.) Palavra n 5. Rio de Janeiro: Departamento de Letras da PUC. 98-114. PINKER, S. (1995). The Language Instinct. New York: Harper Perennial. RADFORD, A. (1988). Transformational grammar: a first course. Cambridge, Inglaterra: Cambridge University Press. SANTOS, D. (1990). Lexical gaps and idioms in Machine Translation, Hans Karlgren (org.), Proceedings of COLING90 Vol 2. Helsinki. 330-335. VALE, O. A. (1998). Sintaxe, Lxico e Expresses Idiomticas. In Brito A. N. & Vale, O. A. (orgs.) Filosofia, Lingstica e Informtica: aspectos da linguagem, Goinia: UFG.127-137.

S-ar putea să vă placă și