Sunteți pe pagina 1din 17

COPA 2014 FRAMENET BRASIL: ANLISE DA UNIDADE LEXICAL VISITAR DO FRAME DE TURISMO

Maucha Andrade GAMONAL Universidade Federal de Juiz de Fora mauchaandrade@gmail.com

Resumo: Este artigo apresenta os resultados iniciais do trabalho que est sendo desenvolvido atravs do projeto interinstitucional (UFJF-UNISINOS) Copa 2014 FrameNet Brasil. O objetivo do projeto a criao de um dicionrio eletrnico trilngue (portugus, ingls e espanhol), voltado para os domnios do Turismo e do Futebol, que poder ser utilizado por aqueles que estaro envolvidos com a organizao da Copa do Mundo FIFA 2014, a ser sediada pelo Brasil, e tambm por turistas que necessitaro ou estaro interessados nesse vocabulrio especfico. O presente projeto estabelece interface com o Kicktionary (SCHMIDT, 2009), recurso lexical multilngue (ingls - alemo - francs) da linguagem do Futebol, baseado em Semntica de Frames. A contraparte desse projeto para o portugus brasileiro, Kickitionary_Br, est sendo desenvolvida pela equipe da professora Rove Chishman. A base terica que norteia os estudos realizados na nossa pesquisa tambm a Semntica de Frames (FILLMORE, 1982, 1985). Ser a partir desse aporte terico que a proposta do dicionrio temtico se distinguir dos tradicionais, uma vez que este ser baseado em cenas conceptuais, que podero ser visualizadas a partir dos frames, e no apenas dos sinnimos que o lexema possui.

Palavras-chave: Semntica de Frames; FrameNet; Copa 2014 FrameNet Brasil; frame de Turismo.

Introduo: O presente artigo tem por objetivo apresentar os resultados iniciais desenvolvidos em torno do projeto Copa 2014 FrameNet Brasil. Projeto de cunho interinstitucional, que est sendo desenvolvido pela Universidade Federal de Juiz de Fora (UFJF) e pela Universidade do Vale do Rio dos Sinos (UNISINOS), visa criao de um dicionrio eletrnico trilngue (portugus, ingls e espanhol), voltado para os domnios do Turismo e do Futebol. O intuito do projeto criar um dicionrio que parta de cenas conceptuais relevantes desses domnios especficos. Assim sendo, permitir ao usurio desse recurso eletrnico tomar conhecimento no apenas do significado de determinado lexema, mas compreender um conceito relacionando-o com todas as partes nele envolvidas, ou seja, o dicionrio ter como unidades bsicas no os lexemas, como nos dicionrios tradicionais, mas Unidades Lexicais, que so o pareamento de um lexema com um frame. O recorte apresentado, no presente trabalho, foi a anlise preliminar da Unidade Lexical (UL) visitar, que evoca o frame de Turismo (Touring). Tal anlise foi realizada no mbito do projeto FrameNet Brasil (SALOMO, 2009), que vem sendo desenvolvido na UFJF, em associao com o International Computer Science Institute (EUA) e em cooperao com a rede semntica (FrameNet), conduzida pelo Professor Charles Fillmore da Universidade da Califrnia em Berkeley. O Projeto FN-Br visa criao de um recurso

lexical online para o Portugus do Brasil, baseado na Semntica de Frames (FILLMORE, 1982, 1985) e sustentado por evidncia em corpus. O embasamento terico da nossa pesquisa tambm est voltado para a semntica de frames (FILLMORE, 1982, 1985) em dilogo com a proposta da FrameNet (RUPPENHOFER et al,. 2010) e com o trabalho realizado por Schmidt (2009) na criao de um recurso lexical multilngue (ingls - alemo - francs) da linguagem do Futebol o Kicktionary conforme poderemos ver detalhadamente adiante. Ademais, este trabalho pontua a necessidade de se criarem frames mais especficos para o domnio do Turismo, de modo a permitir que as descries lexicogrficas realizadas possam ser usadas no desenvolvimento de produtos de inovao tecnolgica como a elaborao do dicionrio. Nesse sentido, insere-se o Copa 2014, definido, de acordo com SALOMO et al. (2011, p.02) como um
dicionrio, com foco no uso humano, [que] ter como audincia privilegiada a imprensa esportiva internacional, pessoas envolvidas na organizao da Copa do Mundo FIFA 2014 e na recepo aos turistas estrangeiros, alm dos prprios turistas. Parte-se da experincia do Kicktionary (SCHMIDT, 2006; 2007; 2009), cuja verso brasileira j se encontra em desenvolvimento pela equipe da UNISINOS (projeto FrameCorp, liderado pela profa. Chishman), para que se possa desenvolver um dicionrio que permita ao usurio realizar uma consulta no s pela palavra desejada, mas, tambm, por cenas relevantes dos domnios do Futebol e do Turismo, por situaes nas quais o usurio porventura esteja envolvido ou sobre as quais precise falar ou escrever.

Este trabalho est organizado da seguinte maneira: na seo 1, trataremos do aporte terico da semntica de frames, do projeto da FrameNet e do Kicktionary; na seo 2, abordaremos o corpus que utilizado pelo projeto FN-Br bem como a metodologia adotada; e a seo 3 se presta anlise da Unidade Lexical Visitar, com seus padres de valncia e tabela de sumariamento. 1. A Semntica de Frames e a FrameNet Nos termos propostos por Fillmore (1982), a Semntica de Frames um programa de pesquisa em semntica emprica que toma emprestada da Inteligncia Artificial a ideia de que o conhecimento no deve ser visto como uma coleo de fragmentos simples e desconexos, mas como estruturas complexas, denominadas frames. Esse campo de estudos procura ilustrar o significado em termos da sua relao com a compreenso geral e no mais nos termos estabelecidos pela semntica das condies de verdade, partindo do pressuposto de que o conhecimento humano estruturado a partir de um todo compartilhado e no por conceitos isolados como na semntica tradicional. Dessa forma, para Fillmore, um frame qualquer sistema de conceitos relacionados de tal forma que, para entender um deles, necessrio entender toda a estrutura na qual ele se encaixa (FILLMORE, 1982, p. 111). Um exemplo clssico do autor o frame de comrcio ou transao comercial: nele haver uma cena em que est relacionada e includa a pessoa interessada em trocar dinheiro por alguma mercadoria (o comprador), a pessoa interessada em trocar mercadorias por dinheiro (o vendedor), aquilo que o comprador poder adquirir (as mercadorias) e o dinheiro adquirido pelo vendedor (o dinheiro). Vejam-se os exemplos discutidos por Fillmore (1987):
(1) a.Eu comprei uma dzia de rosas. b.Eu paguei a Harry cinco dlares. c.Eu paguei uma dzia de rosas para Harry por cinco dlares. d.Eu paguei a Harry cinco dlares por uma dzia de rosas.

Em (1a) o verbo comprar centra a ateno no comprador e na mercadoria, sendo que esses elementos aparecem mencionados; em (1b), h a presena do comprador e do dinheiro, aqui o verbo pagar foca a ateno no comprador e no dinheiro, que aparecem instanciados na sentena. H ainda o elemento mercadorias (uma dzia de rosas e por uma dzia de rosas) presente em (1c) e (1d). Como pontua Gawron (2008), a Semntica de Frames trata de questes que a semntica lexical, chamada por ele de viso clssica, no d conta de responder, como o fato de a experincia humana ser vasta, relacionando-se com a abertura do significado das palavras, e tambm com a questo da riqueza de seu significado. Isso porque as palavras so difceis de ser definidas visto que evocam uma grande quantidade de informaes de fundo, que s podem ser compreendidas se essa rede de conceitos que as relaciona for evocada. Nos dicionrios tradicionais, por exemplo, a definio da palavra andarilho aquele que anda muito. Entretanto, sabemos que no podemos caracterizar como andarilho uma pessoa que percorre longas distncias fazendo caminhadas todos os dias, embora a definio dada no dicionrio nos permita essa interpretao. O que percebemos aqui que o frame de andarilho no inclui um atleta ou um indivduo praticando atividade fsica. Por isso a importncia da Semntica de Frames, uma vez que ela permite abordar os significados de modo mais aprofundado, possibilitando que sejam feitas as devidas relaes que existem entre os conceitos na produo de dado sentido. 1.1. Cenas e frames H distines que Fillmore discute acerca dos conceitos de frames e cenas que, a posteriori, devero ser abordadas na pesquisa, por hora, cabe-nos destacar em que as definies se diferenciam. Vejamos o que o autor elucida a esse respeito:
Eu quero dizer que as pessoas, na aprendizagem de uma lngua, vm a associar determinadas cenas com determinados frames lingusticos. Pretendo usar a palavra cena uma palavra com a qual eu no estou completamente satisfeito em um sentido geral ao mximo, para incluir no apenas cenas visuais, mas os tipos familiares de relaes interpessoais, cenrios padro, layouts familiares, estruturas institucionais, experincias ativas, imagem corporal e, em geral, qualquer tipo de segmento coerente, grande ou pequeno, crenas humanas, aes, experincias, ou imaginao. Eu pretendo usar a palavra frame para se referir a qualquer sistema de escolhas lingusticas - os casos mais simples sendo colees de palavras, mas incluindo tambm as escolhas de categorias gramaticais- que podem ser associados com instncias prototpicas das cenas (FILLMORE, 1987, p. 82)1.

Pelas palavras do autor, a cena seria definida por uma estrutura de conhecimento e experincia do ser humano com o mundo enquanto o frame seria caracterizado pela manifestao lingustica dessas cenas. Seguindo os estudos de Fillmore, Schmidt (2009) destaca que um frame uma entidade estrutural utilizada para expresso de um grupo lingustico que compartilha uma perspectiva comum sobre uma determinada cena conceptual. Uma cena, nesse sentido, uma construo superordenada de um frame, j a noo de frame
1

I want to say that people, in learning a language, come to associate certain scenes with certain linguistic frames. I intend to use the word scene a word I am not completely happy with in a maximally general sense, to include not only visual scenes but familiar kinds of interpersonal transactions, standard scenarios, familiar layouts, institutional structures, enactive experiences, body image; and, in general, any kind of coherent segment, large or small, of human beliefs, actions, experiences, or imaginings. I intend to use the word frame for referring to any system of linguistic choices the easiest cases being collections of words, but also including choices of grammatical rules or grammatical categories that can get associated with prototypical instances of scenes.

est preocupada com as propriedades dos significados lingusticos concretos de expressar este tipo de conhecimento.

1.2. A FrameNet A FrameNet um projeto desenvolvido sob a liderana do Professor Charles Fillmore no International Computer Science Institute (ICSI), em Berkeley, na Califrnia. De acordo com Ruppenhoffer et al (2010), o intuito criar um recurso lexical online para o ingls, baseado na Semntica de Frames e sustentado por evidncia em corpora. Dessa forma, trabalha-se na construo de uma grande rede de frames com suas combinaes semnticosintticas. O banco de dados da FrameNet, disponvel online (http://framenet.icsi.berkeley.edu), legvel, ao mesmo tempo, por humanos e por mquina. Contm mais de 11.600 unidades lexicais, mais de 6.800 das quais esto totalmente anotadas, em mais de 960 frames semnticos, exemplificados em mais de 170 mil sentenas, que fornecem um conjunto de dados para rotulao de papel semntico, utilizado em aplicaes tais como extrao de informao, traduo automtica e dicionrio de valncias, por exemplo. Nos termos de Salomo (2009, p. 174),
na concluso deste trabalho, estaramos nos aproximando do sonho do dicionrio ideal, no qual cada um de ns, ao consultar uma palavra, seramos remetidos imediatamente para o frame que ela evoca, com todos os respectivos Elementos componentes; veramos, alm disso, uma listagem de todas as valncias desta palavra, suas possibilidades combinatrias sintticas e semnticas, ilustradas por exemplos correspondentes. A consulta ainda nos ofereceria um conjunto de outras palavras que evocam o mesmo frame e o conectaria com outros frames semanticamente relacionados.

O desenvolvimento inicial da FrameNet se deu na lngua inglesa, mas j houve a expanso para outras lnguas, como alemo, japons, francs e espanhol. Recentemente houve um empenho na implantao tambm para o portugus: o Projeto FrameNet Brasil (SALOMO, 2009), que pode ser pormenorizado atravs do site do projeto (http://www.framenetbr.ufjf.br/). Na FrameNet, o objetivo central a descrio das Unidades Lexicais, pareamentos de um lexema a um significado, a partir dos frames que evocam. Partimos delas e extramos informaes sobre as suas propriedades sinttico-semnticas (valncia). As propriedades sintticas disponibilizam informaes sobre os tipos sintagmticos (sintagma nominal, preposicional etc) e as funes gramaticais (argumento externo, objeto e dependente), j a valncia semntica designa informaes condizentes aos elementos de frame, que so papis semnticos. Os resultados so sumarizados em padres de valncia. A respeito dos elementos de frame (EFs), podemos dizer que eles so os participantes da cena. Um frame no poderia ser constitudo sem a presena dos seus elementos, pois esses disponibilizam as informaes necessrias a respeito de como aquele instanciado. Os EFs podem ser nucleares, perifricos e extratemticos. Os nucleares so aqueles essenciais para que a cena seja constituda. No frame de Ataque (Attack), temos como elementos centrais o Assaltante e a Vtima, dois dados essenciais para que a cena se construa. Os perifricos ou no-nucleares so aqueles cujas informaes trazidas so acrescidas ao que atribudo ao EF central, como Tempo, Lugar, Durao, Maneira e Grau. No frame exemplificado, um EF perifrico seria a Arma, um instrumento utilizado para assaltar a Vtima. Por ltimo, os elementos extratemticos, embora participem da cena, no pertencem a esse frame. No exemplo Ele me assaltou duas vezes

nessa rua. O nmero que determina quantas vezes a ao ocorreu um EF extratemtico chamado de Iterao. H casos em que os elementos de frame centrais podem no vir enunciados na sentena. Quando isso verificado, a FrameNet prope uma Instanciao Nula. Essa pode ser dividida em Instanciao Nula Definida (IND), Instanciao Nula Indefinida (INI) e Instanciao Nula Construcional (INC). A IND acontece quando o elemento pode ser recuperado no contexto. Por exemplo, se, em Ele roubou sem deixar vestgio, o elemento de frame Vtima, que no explicitado na sentena, puder ser retomado pelo contexto, esse EF ser marcado como IND. Se tivssemos Assaltaram e no foram encontrados, e no tivssemos um contexto para retomar quem foi assaltado, anotaramos o Assaltante como uma INI, ou seja, essa instanciao se refere a casos indefinidos. J em casos como na frase A base secreta do governo foi invadida temos uma construo passiva, em que o Assaltante no evidenciado. Esse um exemplo de INC bem como as construes em que o sujeito encontra-se omitido em sentenas imperativas. Sobre a anotao na FrameNet, importante ressaltar que essa pode ser realizada de duas maneiras: a anotao lexicogrfica e a de texto corrido. Na anotao lexicogrfica, o objetivo registrar todas as possibilidades semnticas e sintticas (valncias) de cada lexema em cada um de seus sentidos2 (RUPPENHOFER et al., 2006, p. 20). Esse o tipo de anotao mais praticado pela FrameNet e o adotado pela FN-Br at ento. Na anotao de texto corrido, a sequncia do texto deve ser seguida para a anotao, assim sendo, os frames vo surgindo ao decorrer da anotao, diferentemente do que acontece na anlise lexicogrfica, j que, com ela, partimos de um frame. 1.3 O frame de Turismo A FrameNet define o frame de Turismo (Touring) como: Turismo (Touring) Definio: Um turista visita ou experiencia uma atrao, um local com uma histria pecualiar ou um carter individual reconhecido socialmente, com o objetivo de ver e aprender sobre ele. Normalmente, a atrao tem uma fonte de informao tal como um guia, panfletos ou displays. Elementos do Frame: Nucleares: Atrao Tipo Semntico: Lugar Turista Tipo Semntico: Consciente
2

O local peculiar socialmente reconhecido que o turista visita. O indivduo que est buscando experincia em uma atrao. uma

recording the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses

No-Nucleares: Coparticipante Tipo Semntico: Consciente

O coparticipante quem participa de modo coordenado, no caso em uma visita, com o turista.

Estado

O estado do turista ou da atrao durante a visita. A quantidade de tempo que dura a atividade de turismo.

Durao Tipo Semntico: Durao

Base

O background perceptivo pela qual a atrao experimentada pelo turista. Qualquer descrio dos detalhes do evento em termos de como eles se comparam com outros eventos (da mesma forma) ou em termos de como o estado do turista os afeta (felizmente, distraidamente). O Meio indica o mtodo que o turista est usando para participar da visita. Expresses marcadas com este EF extratemtico modificam um uso noiterativo do alvo e indica que ele concebido como incorporado dentro de uma srie iterada de eventos similares ou estados. O local onde o turismo acontece.

Modo Tipo semntico: Modo

Meio Tipo semntico: Estado_de_Coisas Iterao_especfica

Lugar Tipo semntico: Relao_locativa Propsito Tipo semntico: Estado_de_Coisas

Alguma ao que o turista est tentando realizar com o turismo. Isso geralmente (no mnimo) para fins de entretenimento e aprendizado. O tempo que o turismo acontece.

Tempo [Tim] Tipo semntico: Tempo Relaes entre frames: Herda de: Perception_active

herdado de: Perspectivado em: perspectivado por: Usa: Visiting usado por: Subframe: Tem os subframes: Precede: precedido por: incoativo de: causativo de: Veja tambm: Dado o frame de Turismo, vimos que sua descrio diz que h um Turista que visita uma Atrao, esta um local com uma histria, que apresenta um carter peculiar, por vezes j reconhecido socialmente. O objetivo do Turismo, como pontuado na descrio, pode ser o simples deleite ou o aprendizado. Normalmente, a Atrao apresenta fontes de informao como um guia ou panfletos, por exemplo. Os elementos centrais do frame de turismo so a Atrao e o Turista. A Atrao o local visitado pelo turista, e o Turista aquele que busca uma atrao oferecida por um passeio a um lugar especialmente voltado para esse fim. Os elementos de frame perifricos tratam, como vimos, das informaes adicionais como o tempo em que o turismo acontece, o local onde o turismo ocorre; possveis coparticipantes, a durao da atividade turstica e, como EF extratemtico, encontramos a Iterao. Nas relaes entre frames, mostrado que o frame de Turismo herda relao do frame de Perception_active e usa o frame de Visitar (Visiting). A relao de subframe no estabelecida pela FrameNet para o frame de Turismo, conforme podemos ver na tabela dada. De acordo com os dados que temos levantado at agora, possvel que tenhamos que usar subframes, posto que, por exemplo, visitar um museu requer caractersticas especficas e distintas de realizar uma visita a uma cidade ou visitar uma igreja ou ainda uma biblioteca. Vejamos alguns exemplos para compreenso: 1) [eu TURISTA] tinha ido visitar [um museu ATRAO] [l lugar ]. 2) [Voc TURISTA] visitou [alguma igreja ATRAO] [em Braslia lugar] 3) [Mais da metade dos americanos TURISTA] visitaram [uma biblioteca ATRAO] [em 2007 TEMPO] 4) [Ele TURISTA] veio visitar [Los Angeles ATRAO][com Erville COPARTICIPANTE] As cenas construdas so muito distintas para que um mesmo frame seja capaz de abordar todas essas peculiaridades. Dessa forma, a partir dessas cenas, seria necessrio criarmos subframes. Mas no nossa pretenso aprofundar essa discusso no presente trabalho, j que nossos dados ainda so amostras preliminares de uma possvel questo sobre a qual teremos que nos debruar mais adiante. Dentre as ULs que a FrameNet destaca no est includa a que est sendo analisada no presente trabalho, a UL visitar. Entretanto, diferenas so percebidas na composio da cena Fomos visitar o museu Murilo Mendes e Joo ir visitar a v dele no feriado, uma vez que possvel percebermos a diferena da finalidade da visita do primeiro exemplo que se configura em uma visita de cunho turstico para a visita a um parente como a do segundo

exemplo. Essa diferena se constitui ento em uma distino entre os frames de Turismo e o de Visitar na base de dados da FrameNet.3 1.4. O Kicktionary O Kicktionary um recurso lexical multlingue da linguagem do futebol que abrange as lnguas inglesa, alem e francesa. desenvolvido pela equipe coordenada pelo Professor Thomas Schmidt da Universidade de Hamburgo.
O objetivo geral no desenvolvimento do Kicktionary era explorar como as teorias lingusticas sobre semntica lexical (especialmente as abordagens FrameNet e WordNet para lexicografia), mtodos de corpus lingustico e da tecnologia hipermdia pode ajudar a construir recursos lexicais que so melhores (ou: bons de uma forma diferente dos) dicionrios de papel tradicionais (SCHMIDT, 2009, p.01).4

Esse recurso se configura em uma das primeiras tentativas de construir um dicionrio de domnio especfico que utilize abordagem baseada em frames semnticos. As unidades mnimas de anlise no Kicktionary so a cena, o frame e a Unidade Lexical, o que o torna diferente da FrameNet, que tem como unidades mnimas de descrio a UL e o frame. Atualmente, esse recurso contm cerca de 2000 Unidades Lexicais e cerca de 8000 frases de exemplo. O material acessvel pelo site http://www.kicktionary.de/ .

Figura 1: Apresentao no Kicktionary da Unidade Lexical chute de bicicleta.

Para maior compreenso, comparar o frame de Touring com o frame de Visiting na base de dados da FrameNet. 4 The general aim in the development of the Kicktionary was to explore how linguistic theories about lexical semantics (especially the FrameNet and WordNet approaches to lexicography), corpus linguistic methods and hypermedia technology can help to build lexical resources that are better (or: good in a manner different from) traditional paper dictionaries.

Como esse dicionrio elaborado para ser usado principalmente por seres humanos, tem-se a preocupao de como as Unidades Lexicais sero apresentadas bem como a sua organizao estrutural. Na apresentao da Unidade Lexical chute de bicleta (Figura1), a entrada indica a cena e o frame da unidade lexical shooter e lista as frases de exemplo anotadas em duas formas diferentes em texto integral e em uma viso esquemtica. Sinnimos e synsets5 superordenados tambm so fornecidos. Alm disso, cada componente da apresentao um hiperlink para correspondentes em outras partes do dicionrio. Por exemplo, clicando no nome da cena, o usurio ser levado a uma descrio dessa cena. Os exemplos dados so retirados dos textos do corpus utilizado.

2.

Corpora e mtodos

O material usado para a anlise foi retirado dos seguintes corpora do portugus do Brasil: ANCIB, ECI-EBR, e NILC/So Carlos, pertencentes ao site Linguateca; NURC-RJ, Legenda de Filmes, e Domnio Pblico, na ferramenta de busca SketchEngine. Os corpora do site Linguateca so de acesso pblico e tm por objetivo facilitar o acesso aos dados do portugus j disponibilizados, atravs do desenvolvimento de servios de acesso na rede, e mantendo um portal com informao til (http://www.linguateca.pt/). O corpus ANCIB Associao Nacional de Pesquisa e Ps-Graduao em Cincia da Informao foi criado a partir de mensagens enviadas para a lista homnima da ANCIB, at o ms de novembro de 2003, e para a lista abarreto-1 aps esta data. J o ECI-EBR European Corpus Initiative , baseado no corpus Borba-Ramsey, uma seleo de fragmentos de obras brasileiras, contendo discurso literrio, didtico e oral cuidado (discursos polticos). H tambm o NILC/So Carlos, corpus que contm textos brasileiros do registro jornalstico, didtico, epistolar e redaes de alunos. O SketchEngine um sistema de consulta a corpus que incorpora esboos de texto, uma pgina, ou resumo (http://www.sketchengine.co.uk/). O Legenda de Filmes um dos corpora criado pelo Projeto FN Brasil que est alojado nessa ferramenta. Ele contm legendas de filmes em Portugus do Brasil cedidas pelo portal OpenSubtitles.org. H tambm o NURC-RJ, corpus constitudo por entrevistas gravadas nas dcadas de 1970 e 1990, num total de 350 horas, com informantes de nvel superior completo, nascidos no Rio de Janeiro e filhos de pais, preferencialmente, cariocas. Por ltimo, o corpus Domnio Pblico composto de obras literrias do portugus brasileiro do sculo XIX em diante e obras traduzidas para o PB presentes no site do Domnio Pblico (http://www.dominiopublico.gov.br/), totalizando mais de 500 obras literrias. Como se pode ver, o corpus do projeto diversificado, contendo obras literrias, textos de cunho didtico, cientfico, da rea tecnolgica, jurdica e legendas de filmes. A predominncia de legenda de filmes e textos jornalsticos. Os corpora totalizam aproximadamente 136 milhes de tokens. Para que a busca nos corpora seja feita, partimos do lexema a ser pesquisado e digitamos a sintaxe de pesquisa, no nosso caso, "(?i)visit.*", na ferramenta Scketch Engine. J no site Linguateca, utilizamos a frmula [lema="visitar"]. Aps a busca das sentenas nos corpora, parte-se para a classificao delas em uma planilha eletrnica. Esse processo divide as sentenas retornadas em seis categorias (cf, Tabela 1), sendo que s sero anotadas aquelas sentenas nas quais o radical visit figurar como verbo e evocar o frame que se deseja anotar, no caso o de Turismo.
5

Entende-se um synset como um grupo ou par de palavras sinnimas.

10

Cdigo 1 2 3 4 5 6

Classificao Sentido alvo Sentido figurativo Adjetivo Substantivo Contexto ambguo ou insuficiente Outros

Tabela 1: Classificao das sentenas retornadas

Faz-se necessrio justificar que utilizamos a marcao outros quando o lexema evoca outro frame, quando h erros de digitao no texto de origem ou ainda quando sentenas repetidas so retornadas. Concluda essa etapa, passamos essa classificao pelo programa Tinn-R, que classifica estatisticamente os usos dos lexemas. A funcionalidade do programa se faz eficiente principalmente nos casos em que os corpora so extensos, facilitando nosso trabalho. A partir da passamos para a anlise lexicogrfica das Unidades Lexicais em termos de suas valncias. Nessa anlise, so postuladas as camadas de anotao como a camada da palavra alvo, a camada dos elementos de frame, as camadas da funo gramatical e do tipo sintagmtico. Na camada da palavra alvo, figura a sentena onde esta encontrada. Ela grifada por caixa alta, marcada de fundo preto e fonte branca. Veja-se o exemplo abaixo da UL Visitar do frame de Turismo (Touring). Camada com mais da metade dos americanos VISITARAM uma biblioteca palavra alvo em 2007

A camada dos Elementos de Frame onde os constituintes das sentenas so etiquetados. Nessa camada, tanto os elementos de frame nucleares quanto os no-nucleares so marcados. Os elementos so diferenciados por cores. Assim cada elemento de frame vai possuir uma cor que se manter ao longo da anlise. Camada com palavra alvo Elemento de Frame mais da metade dos americanos VISITARAM uma biblioteca Turista atrao em 2007 Tempo

J na camada da funo gramatical, teremos a funo gramatical desempenhada pelos elementos do frame analisados. As funes gramaticais que podem ser estabelecidas na FrameNet so trs: Argumento Externo (Ext), Objeto (Obj) e Dependente (Dep), sendo marcado como Dependente tudo aquilo que no pode ser includo nas outras duas categorias6. Camada com palavra alvo Elemento de Frame Funo Gramatical mais da metade dos americanos VISITARAM uma biblioteca Turista Ext atrao Obj em 2007 Tempo Dep

Para uma discusso a esse respeito, vide Ruppenhofer et al. (2010).

11

A Camada dos tipos sintagmticos identifica os sintagmas como no exemplo dado abaixo. Camada com palavra alvo Elemento de Frame Funo Gramatical Tipo Sintagmtico mais da metade dos americanos VISITARAM Turista Ext SN uma biblioteca em 2007 atrao Obj SN Tempo Dep SP

H tambm a camada Outros, na qual se anotam elementos diretamente relacionados UL sendo anotada, no nosso caso, um verbo. Estruturas com auxiliares, ndices de indeterminao do sujeito, ou estratgias de relativizao so marcadas nessa camada. 3. Anlise da Unidade Lexical Visitar Aps realizarmos o processo de anotao, partimos para o sumariamento dos dados encontrados, que efetuado pelo programa R. O programa nos retornou, conforme a Tabela 2, que, nos cinco corpora pesquisados, tivemos um total de 1390 sentenas, sendo que 99 foram consideradas vlidas para nossa pesquisa, representando aproximadamente cerca de 7 % do total de ocorrncias da busca. O corpus que mais retornou sentenas vlidas foi o NURC 44 sentenas. Corpora Legenda de Filmes Domnio Pblico NURC ANCIB ECI-EBR NILC-So Carlos7 Total
Sentido Alvo Sentido Figurado Adjetivo Substantivo Contexto Insuficiente Outros TOTAIS

18 17 44 8 12 99

1 41 11 53

162 202 69 3 4 440

7 18 1 26

218 127 82 317 28 772

399 394 224 329 44 1390

Tabela 2: Sumariamento dos dados levantados

3.1 Padres de Valncia Finalizado o processo de anotao das sentenas, passamos para o processo de determinar quais so os padres de valncia que ocorrem com essa Unidade Lexical. Para que um padro de valncia seja postulado, consideramos apenas os Elementos de Frame que so nucleares e suas realizaes sintticas. Ou seja, se um dado elemento for instanciado como Sintagma Nominal e outro como Sintagma Preposicional na camada do tipo sintagmtico, por exemplo, teremos de aloc-los em padres diferentes. Ou, se o corpus retornou sentenas em
7

O corpus Nilc de So Carlos retornou aproximadamente 3000 ocorrncias. Entretanto, para este trabalho, no foi possvel trabalhar com este corpus porque tivemos problemas tcnicos com a ferramenta que realiza a amostragem.

12

que o Turista se instanciava como Externo e outras como Nulo Definido ou Indefinido teremos de criar padres distintos para alocar esses casos. Demonstraremos abaixo os padres que encontramos:
1 PADRO:

Elementos de Frame: Turista - Atrao Realizaes sintticas: Turista Ext/SN - Atrao Obj/SN Camadas EF FG TS Outros os turistas VISITAM nossos monumentos e outros edifcios Turista Atrao Externo Obj SN SN

1. Aqui vos fala H.B. Cattenberg. Aqui na capital do pas, h preocupao e inquietude, mas no tem havido pnico. Inclusive, se est vivendo normalmente. - O clima muito bom e todos os turistas VISITAM nossos monumentos e outros edifcios. 2 PADRO: Elementos de Frame: Turista - Atrao Realizaes sintticas: Turista IND - Atrao Obj/SN Camadas VISITAR o Po de Acar EF Turista =IND Atrao FG Obj TS SN Outros foi 2. bem e/e o carioca assim voc v... c tem muita gente que j t aqui h muitos anos e nunca foi VISITAR o Po de Acar... [IND] 3 PADRO: Elementos de Frame: Turista - Atrao Realizaes sintticas: Turista INI - Atrao Obj/SN Camadas VISITAR o prdio mais automtico do mundo EF Turista =INI Atrao FG Obj TS SN Outros 3. - Nenhuma visita a Nova York completa... - sem VISITAR o prdio mais automtico do mundo. [INI]

13

4 PADRO: Elementos de Frame: Atrao Atrao Turista Realizaes sintticas: Atrao Obj/SN - Turista Ext/SN Camadas EF FG TS Outros os outros pases Atrao Obj SN Ant que Atrao Obj SN Rel voc VISITOU Turista Externo SN

4. E os outros pases europeus que voc VISITOU ? 5 PADRO: Elementos de Frame: Turista - Atrao Realizaes sintticas: Turista IND - Atrao IND Camadas EF Turista=IND FG TS Verbo VISITAR Atrao=IND

fui

5. No Canad tinha uma, um Jardim Botnico em Montreal, fui VISITAR, e tinha o, o Jardim Japons e tinha o Jardim Chins. [IND] [IND]

6 PADRO: Elementos de Frame: Turista - Atrao Realizaes sintticas: Turista INC - Atrao IND Camadas VISITAR EF Turista=INC Atrao=IND FG TS Verbo 6. Mas, eh, cercada, uma cidade que pode se VISITAR, visita-se e, e tem muita coisa interessante pra se ver, muita coisa ainda at bem conservada. [INC] [IND] 3.2. Tabelas de Sumariamento 3.2.1. Elementos de Frame e suas Realizaes Sintticas

14

Conforme observamos acima o que define um padro de valncia so os Elementos de Frame nucleares e as realizaes sintticas. Na tabela dada abaixo, explicitamos como os Elementos de Frame tanto os nucleares como os no-nucleares se instanciaram sintaticamente e qual foi a quantidade para cada tipo de ocorrncia. O resultado dos EFs nucleares deu-se da seguinte forma (conforme poder ser verificado na Tabela 3 abaixo): ao todo foram anotados 99 elementos de frame nucleares. A respeito do EF Turista, ele se instanciou da seguinte forma: houve 35 sentenas com SN/ Externo, 55 sentenas como Instanciaes Nulas Definidas, 7 se realizaram como Instanciaes Nulas Indefinidas e 2 como Instanciaes Nulas Construcionais. Sobre o EF Atrao, 93 se instanciaram como Sintagma Nominal e funo gramatical de Objeto, enquanto 6 apareceram como IND. Tambm realizamos o sumariamento dos EFs no-nucleares. Ao todo, tivemos 24 aparies, o que mais ocorreu foi o EF Tempo. Elemento de Frame Turista Nmero Anotado 99 Realizaes SN/Ext = (35) IND= (55) INI= (7) INC= (2) SN/Obj = (93) IND= (6) SP/Dep= (2)

Atrao Coparticipante Descrio Durao Base Modo Meio Iterao especfica Lugar Propsito Tempo

99 2 1 6 1 14

SAdv/Dep= (1)

SP/Dep= (6) SP/Dep=(1) SS/Dep =(2) SAdv/Dep=(12)

Tabela 3: Realizaes sintticas dos Elementos de Frame

3.2.2. Padres de Valncia Necessitamos alocar as sentenas em seis padres de valncia distintos. Isso porque as realizaes sintticas na camada do tipo sintagmtico (TS) e da funo gramatical (FG) se instanciaram diferentes bem como os EFs nucleares. Conforme trazemos na Tabela 4, o primeiro padro totalizou 28 sentenas: o EF Turista foi instanciado como Sintagma Nominal na camada tipo sintagmtico e Externo na camada funo gramatical, e o EF Atrao como Sintagma Nominal na camada TS e Objeto na FG. O segundo padro foi o de maior representatividade, obteve 51 ocorrncias, o EF Turista ocorreu como IND, e a Atrao ocorreu como Sintagma Nominal na camada TS e Objeto na camada FG. O terceiro padro aconteceu em 7 sentenas, o Turista foi instanciado como INI e a Atrao como SN na camada TS e Objeto na camada FG. O quarto padro recebeu 7 sentenas, e os EFs Turista e Atrao apareceram como SN/Ext e SN/Obj, respectivamente. O quinto padro foi instanciado como IND para ambos os elementos e obteve 4 sentenas, e o ltimo padro recebeu duas sentenas, que foram instanciadas como INC e IND, respectivamente.

15

Nmero Anotados 28 TOTAIS (15)

Padres Turista SN Ext Turista SN Ext Turista SN Ext Turista SN Ext Turista SN Ext Turista SN Ext Turista IND Turista IND Turista IND Turista IND Turista IND Turista IND Turista INI Turista INI Atrao SN Obj Turista IND Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Turista SN Ext Atrao IND

(1)

(6)

(2) (3)

(1) 51 TOTAIS (42)

Coparticipante SP Dep Tempo SAdv Dep Tempo SS Dep Lugar SP Dep Tempo SAdv Dep

Lugar SP Dep

(5) (1)

(1)

(1)

(1) 7 TOTAIS (6)

Tempo SAdv Dep Coparticipante SP Dep Modo SAdv Dep Lugar SP Dep Propsito SP Dep

(1) 7 TOTAIS

Lugar SP Dep

4 TOTAIS

16

2 TOTAIS

Turista INC

Atrao IND

Tabela 4: Sumariamento dos padres de valncia

4. Consideraes Finais Nossa primeira iniciativa prtica na pesquisa com o Copa 2014 FrameNet Brasil foi a busca da Unidade Lexical visitar evocando o frame de Turismo (Touring) nos corpora da FN-Br. Realizamos a busca conforme descrevemos, partindo para a anotao e seguindo com o sumariamento das valncias conforme demonstrado. Essa busca retornou seis padres, sendo que o que obteve mais ocorrncias foi o padro com 51 sentenas. E o de menor ocorrncia foi com 2 sentenas. Entretanto esse dados no se encontram finalizados, uma vez que estamos em processo de busca por novos corpora que tenham foco maior na rea do turismo. No perodo de anotao dos dados, foi possvel percebermos que ser necessrio aprofundarmos a discusso da criao de subframes no domnio do Turismo, j que h cenas que apresentam peculiaridades suficientes a ponto de criarmos subframes especficos a fim de caracteriz-las. Entretanto essa questo apresentada nesse trabalho como ponto de partida para trabalhos posteriores. Esse trabalho servir para contribuir com o avano no banco de dados de anotao da plataforma do projeto que vem apresentando grandes avanos.

Referncia: CIENKI, A. Frames, Idealized Cognitive Models, and Domains. In: The Oxford Handbook of Cognitive Linguistics. Oxford University Press, 2007 FILLMORE, Charles J. Frame semantics. In: Linguistics in the Morning Calm, Seul: Hanshin Publishing Co., p.111-137, 1982. FILLMORE, Charles. Frames and the semantics of understanding. In: Quaderni di Semantica, v.6, n.2, p. 222-254, 1985. FILLMORE, Charles. Fillmores cases grammar: a reader. In: DIRVEN, R. & RADDEN, G. (Ed). Heidelberg, 1987. GAWRON, J.M., Frame Semantics. 2008. Disponvel em: http://www.hf.uib.no//forskerskole/new_frames_intro.pdf. Acesso em 14 de outubro de 2011. RUPPENHOFER, J.et al. FrameNet II: Extended theory and practice. Disponvel em: http://framenet.icsi.berkeley.edu/index.php?option=com_wrapper&Itemid=126 Acesso em 3 de agosto de 2011. SALOMO, M.M.M. FrameNet Brasil: um trabalho em progresso. In: Calidoscpio, Vol. 7.2, 2009a SALOMO, M.M.M; TORRENT, T.T.; CAMPOS, F.C.A.; BRAGA, R.M.M. & VIEIRA, M.B. Copa 2014 Framenet Brasil. Projeto apresentado ao Conselho Nacional de

17

Desenvolvimento Cientfico e Tecnolgico (CNPq), no mbito do Edital Universal n 14/2011, Juiz de Fora, 2011. SCHMIDT, T. The Kicktionary - a multilingual lexical resource of football language. In: BOAS, Hans. (Ed.). Multilingual FrameNets - Methods and Applications. Berlin/New York: Mouton de Gruyter, 2009.

S-ar putea să vă placă și