Tese Anapaulaladeira PLN Brasil

UNIVERSIDADE FEDERAL DE MINAS GERAIS
ESCOLA DE CINCIA DA INFORMAO

PROGRAMA DE PS-GRADUAO EM CINCIA DA INFORMAO

PROCESSAMENTO DE LINGUAGEM NATURAL:
CARACTERIZAO DA PRODUO CIENTFICA DOS
PESQUISADORES BRASILEIROS

Nome: Ana Paula Ladeira

Tese apresentada ao Curso de Doutorado em
Cincia da Informao da Universidade Federal
de Minas Gerais, como requisito para obteno
do ttulo de Doutor em Cincia da Informao,
sob orientao da Prof. Dra. Ldia Alvarenga.

Belo Horizonte, Novembro de 2010.
Ana Paula Ladeira

PROCESSAMENTO DE LINGUAGEM NATURAL:
CARACTERIZAO DA PRODUO CIENTFICA DOS PESQUISADORES
BRASILEIROS

Tese apresentada ao Curso de Doutorado em
Cincia da Informao da Universidade Federal
de Minas Gerais, como requisito para obteno
do ttulo de Doutor em Cincia da Informao.
rea de concentrao: Organizao e Uso da
informao
Orientadora: Prof. Dra. Ldia Alvarenga.

Belo Horizonte, Novembro de 2010

Ficha catalogrfica: Biblioteca Prof Etelvina Lima, Escola de Cincia da Informao da UFMG
Ladeira, Ana Paula.
L154p Processamento de linguagem natural [manuscrito] : caracterizao da
produo cientfica dos pesquisadores brasileiros / Ana Paula Ladeira. 2010.
259 f. : il., enc.

Orientadora: Ldia Alvarenga.
Apndices: f. 258-259
Tese (doutorado) Universidade Federal de Minas Gerais,
Escola de Cincia da Informao.
Referncias: f. 250-257

1. Cincia da informao Teses. 2. Processamento da linguagem natural
(Computao) Teses. 3. Recuperao da informao Teses. I. Ttulo. II.
Alvarenga, Ldia. III. Universidade Federal de Minas Gerais, Escola de Cincia
da Informao.

CDU: 025.4.03
RESUMO
Sinais evidentes de contribuies de grandes campos disciplinares marcaram
e tm influenciado fortemente as pesquisas na rea de processamento de linguagem
natural (PLN), dentre eles a cincia da computao, a cincia da informao e a
lingustica. Sendo assim, a presente tese pretendeu utilizar o conhecimento
acumulado ao longo dos ltimos 40 anos em PLN e revelado no ARIST, como
referncia para selecionar e analisar a produo cientfica da comunidade
acadmica nacional da rea. As publicaes nacionais foram coletadas
automaticamente da Plataforma Lattes, e um instrumento de seleo automtica foi
construdo a partir da anlise de assunto dos artigos de reviso do ARIST. Este
instrumento foi utilizado para selecionar, de maneira automtica, as publicaes
nacionais atinentes para a rea de PLN. Dentre as 621 publicaes consideradas da
rea, definiu-se o material emprico, constitudo por uma amostra de 68 trabalhos,
que foi submetido anlise de contedo. Essa anlise permitiu elucidar as temticas
discutidas pela comunidade cientfica nacional. Ao analisar todas as publicaes
atinentes para a rea de PLN, observou-se que a grande maioria da produo
cientfica foi publicada depois do ano 2.000. Alm disso, a participao da cincia da
informao tem sido muito modesta, sendo que a cincia da computao e a
lingustica foram responsveis por quase 85% da produo nacional. Doze
pesquisadores foram responsveis por mais de 20% de toda a produo nacional,
sendo que dentre eles, nove so da cincia da computao, dois da lingustica, e um
da engenharia eltrica. Alm disso, vale destacar que dentre esses doze
pesquisadores, sete fazem parte do grupo de pesquisa NILC. Dentre as
problemticas mais discutidas, foi possvel observar que: a traduo foi
intensamente abordada na dcada de 90; os estudos com indexao diminuram a
partir da dcada de 80; e que as pesquisas sobre classificao passaram por um
perodo de dormncia na dcada de 90; e que existe uma tendncia clara na rea de
PLN de desenvolvimento de pesquisas em sumarizao automtica. Outro aspecto
que a pesquisa revelou foi que a cincia da informao tem priorizado as pesquisas
em indexao automtica, seguido da anlise de contedo, enquanto que a cincia
da computao tem priorizado as pesquisas em traduo e sumarizao. A anlise
de contedo realizada nas 68 publicaes selecionadas permitiu revelou que a
recuperao de informao foi a problemtica que teve maior destaque na produo
cientfica nacional. Dos trabalhos analisados sobre sumarizao, observou-se que
somente dois usaram a abordagem profunda e produziram sumrios, e que a
maioria das pesquisas em sumarizao automtica tem privilegiado a abordagem
emprica (para gerar extratos). As pesquisas em traduo automtica tm utilizados
mtodos estatsticos e regras de transferncias, com resultados muito prximos.
Apesar das pesquisas em PLN estarem ocorrendo em campos disciplinares
diferentes da cincia da informao, os estudos realizados precisam ser conhecidos,
pois esta ltima pode se beneficiar das ferramentas computacionais desenvolvidas,
aplicando-as em processos clssicos inerentes ao campo, tais como catalogao,
recuperao e representao de informao.

ABSTRACT
Natural language processing researchs (NLP) has being made by researchers
from areas as computer science, information science and linguistics. This thesis aims
to use the knowledge accumulated over the past 40 years in NLP and published in
ARIST, as a reference to select and to analyze the scientific production of the
Brazilian academic community in the area. Brazilian publications about NLP were
collected automatically from Lattes database (http://lattes.cnpq.br/). The tool for
automatic selection of NLP publications from Brazilian Lattes database was built by
analyzing the subject of review articles of ARIST. A total of 621 publications were
automatically related to NLP area and were retrieved from Lattes database. A
randomly sample of 68 papers from this total was submitted to content analysis. This
analysis allowed identifying the main issues about NLP discussed by the Brazilian
scientific community. We observed that the majority of Brazilian publications were
published after the year 2000. Moreover, the participation of information science has
been very modest in NLP publication. However, computer science and linguistics
were responsible for almost 85% of Brazilian production. Twelve investigators were
responsible for more than 20% of all Brazilian production, and among them, nine
were from computer science, two from linguistics, and one from electrical
engineering. Besides, it is noteworthy that among the twelve main researchers,
seven were part of just one research group that works with computational linguistics,
the NILC - Ncleo Interinstitucional de Lingstica Computacional
(http://nilc.icmc.sc.usp.br/). Among the most discussed issues, we observed the
following: translation was discussed intensively in the 90's, indexing studies
decreased after the 80's, studies about classification became inactive during the 90s,
and there is a clear trend in the area of NLP to develop automatic summarization.
Another aspect revealed by the analysis was that information science has focused
mainly on automatic indexing and content analysis, while computer science has
focused primarily on automatic translation and summarization. The content analysis
performed on 68 sample publications showed that retrieval information was the issue
most prominent in Brazilian scientific production. Only two papers that worked with
summarization used a deep approach to produce summaries. The most research in
automatic summarization emphasized on empirical approach to generate extracts.
Researches on automatic translation using statistical methods and transfers rules
obtained very similar results. Brazilian studies on NLP involve different disciplines
from information science. These studies should to be well known by the researchers
from information science whose can benefit from the computational tools developed
that can be applied in classical processes such as cataloging, information
representation and retrieval.

Agradecimentos
chegada a hora de sair de cena para agradecer os verdadeiros atores principais
desta produo. Agradeo a Deus por ter me dado fora, sade e sabedoria para
conduzir o meu Doutorado. Agradeo a Profa. Ldia Alvarenga por ter me adotado na
essncia da palavra: foi muito mais que minha orientadora. Agradeo ao Prof.
Renato Souza por ter sido o primeiro a me receber na ECI e me incentivar a integrar
a equipe de pesquisadores da cincia da informao. Agradeo a secretaria do
PPGCI, em especial a Gisele por se mostrar sempre disponvel e pronta pra nos
atender. Agradeo a todos os meus colegas da ECI, responsveis por momentos
nicos e inesquecveis. Agradeo a Daniela Lucas, que foi um anjo que apareceu na
minha vida, quando eu mais precisava de uma amiga. Agradeo ao UNI-BH, em
especial a coordenao do curso de cincia da computao, pelo apoio e incentivo
dado nos ltimos anos. Agradeo a todos os meus colegas do UNI-BH pelo carinho,
em especial as professoras Miriam Maia e Magali Barroso, que sempre tiveram por
mim, um carinho muito alm do que o profissional exigiria. Agradeo a toda a minha
famlia pelo apoio incondicional e pelo incentivo dado por toda a minha vida.
Agradeo, em especial, aos meus pais e meus irmos que torcem por mim e
comemoram comigo cada conquista. Agradeo aos meus sobrinhos Gil, Livia e Caio
por serem fs da Tipoia, e a grande razo da minha vida. Agradeo ao Brulio, por
ter cruzado o meu caminho e por participar diretamente e intensamente no apenas
desta tese, mas de toda a minha vida. Agradeo pelas orientaes estatsticas, pela
companhia nas noites mal dormidas, pela compreenso quanto s ausncias, por
me acompanhar e me apoiar, enfim, por estar ao meu lado.
Lista de Figuras
FIGURA 1 Metodologia adotada na presente pesquisa 21
FIGURA 2 Instrumento de seleo construdo a partir da anlise de assunto dos captulos de
reviso do ARIST. 27
FIGURA 3 Categorias de anlise usadas durante a etapa de anlise de contedo das publicaes
selecionadas. 40
FIGURA 4 - Estrutura de tpicos adotada no Captulo 3 43
FIGURA 5 Evoluo anual das publicaes: 1973-2008 79
FIGURA 6 Distribuio acumulativa das publicaes: 1973-2009 79
FIGURA 7 rea das publicaes conforme o primeiro autor: 1973-2009 80
FIGURA 8 rea das publicaes conforme o primeiro autor (1973-2009): anlise excluindo as
publicaes sem definio de rea 81
FIGURA 9 Evoluo anual das reas das publicaes definidas pelo primeiro autor: 1973-2009
82
FIGURA 10 Evoluo das reas das publicaes definidas pelo primeiro autor: anlise por dcada
(1973-2009) 82
FIGURA 11 Evoluo dos principais termos dentre os conceitos computacionais: anlise por dcada
(1980-2009) 85
FIGURA 12 Evoluo dos principais termos dentre os conceitos lingusticos: anlise por dcada
(1980-2009) 85
FIGURA 13 Evoluo dos principais termos dentre as aplicaes: anlise por dcada (1980-2009)
86
FIGURA 14 Evoluo dos principais termos dentre as tcnicas: anlise por dcada (1980-2009)
87
FIGURA 15 Percentual de artigos de cada rea com os principais termos dos conceitos
computacionais 87
FIGURA 16 Percentual de artigos de cada rea com os principais termos dos conceitos lingusticos
88
FIGURA 17 Percentual de artigos de cada rea com os principais termos dentre as aplicaes
88
FIGURA 18 Percentual de artigos de cada rea com os principais termos dentre as tcnicas 89
FIGURA 19 Mapa conceitual contendo as problemticas observadas nas publicaes analisadas
210
FIGURA 20 Mapa conceitual apresentando as problemticas observadas nas publicaes
analisadas: recorte RECUPERAO DE INFORMAO 211
analisadas: recorte SUMARIZAO 211
analisadas: recorte TRATAMENTO DE AMBIGUIDADE 212
analisadas: recorte ANALISADORES (PARSER) 212
FIGURA 24 - Mapa conceitual apresentando as problemticas observadas nas publicaes
analisadas: recorte OUTRAS 213
FIGURA 25 Mapa conceitual apresentando as metodologias observadas nas publicaes
analisadas que tiveram como problemtica RECUPERAO DE INFORMAO 214
FIGURA 26 - Mapa conceitual apresentando as metodologias observadas nas publicaes analisadas
que tiveram como problemtica SUMARIZAO 221
analisadas que tiveram como problemtica TRATAMENTO DE AMBIGUIDADE 225
analisadas que tiveram como problemtica ANALISADORES (PARSER) 228
analisadas que tiveram como problemtica TRADUO 233
analisadas que tiveram como problemtica OUTRAS 235

Lista de Tabelas
1 - Resultados obtidos pela avaliao manual dos ttulos das publicaes selecionadas pelo critrio
de seleo criado. 35
2 - Distribuio das publicaes por ano: 1973-2009 78
3 - Distribuio das publicaes por pesquisador 83
4 - Distribuio anual das publicaes envolvendo multidisciplinaridade 84
5 - Principais termos dos conceitos computacionais em cada rea 89
6 - Principais termos dos conceitos lingusticos em cada rea 90
7 - Principais termos dentre as aplicaes em cada rea 90
8 - Principais termos dentre as tcnicas em cada rea 91
9 - Publicaes submetidas anlise de contedo: 1986-2009 92
10 - Anlise de contedo das publicaes: dimenso Material emprico 162
11 - Anlise de contedo das publicaes: dimenso Resultados Observados 178
12 - Publicaes envolvendo experimentos prticos por dcada 207
13 - Principais problemticas reveladas a partir da anlise de contedo 209
14 - Ferramentas utilizadas pelos artigos submetidos anlise de contedo 238
15 - Corpora de documentos utilizados pelos artigos submetidos anlise de contedo 241

Lista de Abreviaturas e siglas
AAAI Association for the Advancement of Artificial Intelligence
ACL Association for Computational Linguistics
ACM Association for Computing Machinery
ARIST - Annual Review of Information Science and Technology
ASIST - American Society for Information Science & Technology
ATN - Augmented Transition Network
CNPq - Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico
EM - Expectation-Maximization
HMM - Hidden Markov Models
HPSG Head-driven phrase structure grammar
k-NN - k-Nearest Neighbor
NILC - Ncleo Interinstitucional de Lingustica Computacional
PLN Processamento da Linguagem Natural
POS part-of-speech (partes do discurso)
RBC Raciocnio baseado em casos
REM - Reconhecedor de Entidades Mencionadas
RST - Rhetorical Structure Theory
SIGIR Special Interest Group on Information Retrieval
SOM - Rede Neural SelfOrganizing
SVM - Support Vector Machine
TFIDF term frequency x inverse document frequency
TFISF term frequency x inverse sentence frequency
TLG - Teoria do Lxico Gerativo
VT - Teoria de Veins
WER - word error rates
SUMRIO
1. Introduo 12
1.1. Organizao da tese 19
2. Metodologia de Pesquisa 20
2.1. Construo do instrumento de seleo 22
2.2. Seleo do material emprico 28
2.2.1. Seleo da comunidade cientfica 28
2.2.2. Seleo da amostragem documental 32
2.2.2.1. Avaliao do critrio de seleo automtica 33
2.2.3. Seleo estatstica e cronolgica 37
2.3. Anlise de contedo do material emprico 39
3. PLN sob a tica do ARIST: uma seleo de enunciados 43
3.1. Definio da rea de PLN 44
3.2. Aspectos da Linguagem 47
3.3. Teorias lingusticas 49
3.3.1. Teoria Sinttica 52
3.3.2. Teoria Semntica 54
3.3.3. Gramtica Transformacional 57
3.3.4. Processo de anlise (parsing) 59
3.4. Aplicaes 64
3.4.1. Aplicaes para a prpria rea de PLN 67
3.4.1.1. Processamento automtico de tesauro 68
3.4.1.2. Anlise sinttica 68
3.4.2. Aplicaes Prticas 69
3.4.2.1. Traduo automtica 69
3.4.2.2. Respondedores automticos 71
3.4.2.3. Anlise de estilo 72
3.4.2.4. Gerao automtica de linguagem 73
3.4.2.4.1. Sumarizao 73
3.4.2.5. Recuperao de Informao 74
4. Resultados 77
4.1. Anlise Horizontal das publicaes 77
4.2. Anlise Vertical ou Profunda das publicaes 92
4.2.1. Anlise de Contedo das publicaes analisadas 92
4.2.1.1. Problemtica apresentada nos artigos analisados 98
4.2.1.2. Metodologia Adotada nos artigos focalizados 124
4.2.1.3. Material emprico utilizado 161
4.2.1.4. Resultados observados 177
4.2.2. Anlise de Contedo das publicaes: sistematizao dos enunciados apresentados 206
4.2.2.1. Problemtica RECUPERAO DE INFORMAO 213
4.2.2.2. Problemtica SUMARIZAO 219
4.2.2.3. Problemtica TRATAMENTO DE AMBIGUIDADE 223
4.2.2.4. Problemtica ANALISADORES (PARSER) 227
4.2.2.4. Problemtica TRADUO 232
4.2.2.5. Outras Problemticas 234
4.2.2.6. Ferramentas utilizadas e corpora 238
5. Concluso 242
Referncias 250
Apndices

12

1. Introduo
Nas ltimas dcadas tem-se observado grande aumento na quantidade
de informao armazenada e disponibilizada em documentos, principalmente
eletrnicos. Acredita-se que, atualmente, grande parte das informaes encontradas
est no formato textual, tornando fundamental que os mecanismos de anlise e
processamento sejam focados nesse tipo de informao (BAEZA-YATES; RIBEIRO-
NETO, 1999).
No entanto, o grande acmulo de conhecimento registrado trouxe
problemas no acesso e recuperao de documentos nos sistemas de informaes
documentais. Observa-se que os mecanismos de busca e localizao destas
informaes no tem sido suficientes para resolver esse problema, fazendo com que
o usurio se sinta sobrecarregado e perdido diante desse volume de dados e
informaes (WIVES, 2004).
Esta exploso informacional foi identificada por Vannevar Bush (em 1945)
como sendo um problema crtico e fonte de preocupao de vrias pessoas. A
soluo por ele proposta foi utilizar as tecnologias de informao para tornar mais
acessvel este acervo crescente de conhecimento (BUSH, 1945). Segundo
Saracevic (1996), nos anos 50, inmeros cientistas e pesquisadores comearam a
investir no problema e a desenvolver possveis solues apontadas por Vannevar
Bush. E foi nesta poca que o termo Recuperao de Informao (RI) foi introduzido
por Calvin Mooers (em 1951) englobando aspectos intelectuais da descrio das
informaes e da busca, alm das mquinas e tcnicas utilizadas neste processo.
Saracevic (1996) complementa que a recuperao de informao tornou-se ento
uma soluo bem sucedida encontrada pela cincia da informao e em
desenvolvimento at os dias de hoje (p. 44).
Observa-se, no entanto, que esse grande volume de informao tornou
invivel, nos sistemas de recuperao de informaes, os processos manuais de
indexao, e consequentemente de classificao de documentos. Alm disso, diante
do aparente esgotamento das estratgias tradicionais de representao e busca de
informao em sistemas de recuperao de informao (SOUZA, 2005), a melhoria
da eficcia desses sistemas depende dos resultados em vrias linhas de pesquisa
sobre processos de organizao da informao.
13

E neste sentido, apesar do enfoque principal desta pesquisa ser o
processamento da linguagem natural (PLN), em diversos pontos esta se encontrar
com o conceito de linguagem documentria, principalmente no que se refere
utilizao destas como linguagens de representao de conhecimento.
As linguagens documentrias tm sido utilizadas por unidades de
informao para descrever o contedo dos documentos. As linguagens
documentrias, sejam sistemas de classificao, cabealhos de assunto, palavras-
chave, lista de descritores ou tesauros, pertencem mesma famlia, tm o mesmo
objetivo e apresentam vrias caractersticas em comum. Guinchat e Menou (1994)
complementam que as linguagens documentrias so usadas normalmente no
momento de entrada de dados dos sistemas de informao, ou seja, no tratamento
intelectual dos documentos (anlise conceitual e traduo) (p. 133). Ainda segundo
os autores, os estudos sobre linguagens documentrias privilegiam seus aspectos
lingusticos, o que as aproxima das linguagens naturais.
No que tange a linguagem natural, Souza (2005) considera que existem
diversas tentativas de se abordar esses processos de representao e recuperao
de conhecimento em textos, mas a sua real integrao demanda anlises
concomitantes em diferentes reas do conhecimento e campos de pesquisa, como a
cincia da informao, a lingustica, a cincia da computao, a psicologia cognitiva,
a comunicao, a sociologia, a antropologia, dentre outras. Saracevic (1996)
complementa que os problemas bsicos de se compreender a informao e a
comunicao, suas manifestaes, o comportamento informativo humano, (...),
incluindo as tentativas de ajustes tecnolgicos, no podem ser resolvidos no mbito
de uma nica disciplina (SARACEVIC, 1996, p. 48).
Sabe-se que a recuperao, usando linguagem natural, j vem sendo
estudada h muitos anos e tem sido o apoio mais concreto para os recentemente
criados motores de busca na web. Tais instrumentos foram construdos a partir de
abordagens criadas no mbito das cincias da computao e da informao, em
seus primrdios, quando o trabalho de desenvolvimento de pesquisas envolvia
pesquisadores de ambas as reas.
Sinais evidentes de contribuies de grandes reas marcaram e tm
influenciado fortemente as pesquisas na rea de processamento de linguagem
natural (PLN): a lingustica, a cincia da computao e a cincia da informao. Esta
14

massa crtica formada representa uma considervel contribuio investigao
cientfica, no apenas quantitativamente como qualitativamente. Contribuies como
a gramtica de Chomsky, da dcada de 60, a teoria matemtica da comunicao de
Shannon & Weaver e o modelo do espao vetorial de Gerard Salton foram
contribuies fundamentais para o desenvolvimento da rea. inegvel tambm a
importncia do advento das tecnologias, ao longo da dcada de 80, que permitiram
que grandes experimentos fossem realizados em intervalos de tempo menores
(influenciados pelos testes executadas pelo Cranfield Institute of Technology, em
1957, reconhecidos at hoje pela utilidade e importncia).
Embora muito se tenha avanado nesse campo de pesquisa, fato que
ainda h muito por ser feito. Em um primeiro momento, observa-se que, no existem
restries tecnolgicas e que o computador permitiu, ou pelo menos seria capaz de
permitir, o acesso sem fronteiras, de quaisquer pontos do planeta, aos acervos, no
somente de referncias, mas tambm de textos completos, disponibilizados
virtualmente. Sendo assim, o grande desafio que se apresenta para os prximos
anos : apesar dos computadores terem evoludo em sua capacidade de
armazenamento e rapidez de processamento, os registros de conhecimento
continuam sendo inscritos em uma mirade de lnguas, transformando o sonho do
acesso livre e universal ao conhecimento numa verdadeira metfora da Torre de
Babel.
Ferneda (2003) destaca que "a internet, particularmente a Web, evidencia
a dificuldade inata dos computadores no tratamento adequado da informao, na
acepo dada ao termo pela cincia da informao" (p. 123). Alm disso, ele
complementa que essa inabilidade reconhecida pelos desenvolvimentos recentes
da Web em que buscam a criao de novas linguagens que objetivam "uma maior
valorao semntica aos documentos da Web". interessante observar que no
projeto da Web Semntica esto inseridos conceitos e idias que h muito tempo
so utilizados pela cincia da informao no tratamento documental (FERNEDA,
2003, p. 123).
Recuperar informao implica operar seletivamente um estoque de
informao, o que envolve processos cognitivos que dificilmente podem ser
formalizados atravs de um algoritmo. [...] a equiparao dos significados
supostamente implcitos pelos significantes depende de uma anlise
intelectual (FERNEDA, 2003, p. 124).
15

Apesar de Saracevic (1996) afirmar que a base da relao entre a cincia
da informao e a cincia da computao est na aplicao dos recursos
computacionais na recuperao da informao, assim como nos produtos e
servios, suspeita-se que exista uma distncia terica entre estas cincias, no que
se refere s pesquisas desenvolvidas sobre processamento de linguagem natural.
Ferneda (2003) afirma que este distanciamento pode ser justificado, num primeiro
momento, pelo fato dessas cincias definirem informao de maneira diferenciada.
Em uma anlise mais aprofundada verifica-se que a informao, objeto de interesse
comum de ambas as cincias, paradoxalmente o que mais as distancia
(FERNEDA, 2003, p. 1).
A histria do desenvolvimento de uma teoria da informao comeou com
os trabalhos de Claude Shannon e Warren Weaver, e com a publicao da teoria
matemtica da informao, em 1949. Eles propuseram um modelo onde um
solicitante seleciona uma mensagem, que enviada por meio de um canal at o
receptor. No entanto, vrios problemas e ambiguidades tm sido identificados nesse
modelo (CORNELIUS, 2002). Dentre os problemas e limites esto questes
relacionadas ignorncia do solicitante e do receptor e capacidade humana nesse
processo de comunicao. Saracevic (1999), por exemplo, considera informao
como sendo um signal ou uma mensagem para deciso, envolvendo processo
cognitivo resultante da interao da mente com o texto, permitindo assim conectar-
se com um contexto social. (...) Informao usada dentro de um contexto e em
relaes (p. 397).
A teoria de Shannon & Weaver foi amplamente questionada por
semanticistas que a consideraram uma viso simplificada da comunicao, devido
ao carter hermenutico e interpretativo de todo o processo de transferncia, desde
a representao at a recuperao da informao. A informao pode ser vista
como sendo o significado de uma mensagem juntamente com um contexto
relevante do receptor, (...) e o contedo de informao uma construo subjetiva
do receptor (CORNELIUS, 2002, p. 412). O significado obtido durante uma
interao tendo como base o contexto dos indivduos. Este conceito compartilhado
por Le Coadic (1996) quando afirma que a informao comporta um elemento de
sentido. um significado transmitido a um ser consciente por meio de uma
mensagem (...).
16

Ainda segundo Cornelius (2002), num processo de transferncia, o
emissor e o receptor devem ter alguma forma de relao social, e complementa:
para que uma comunicao seja possvel, pressupe-se que exista um sistema
social baseado em uma linguagem compartilhada (p. 403). Outro ponto importante
o conhecimento do receptor no momento que a informao recebida. Em outras
palavras, dependendo do estado de conhecimento existente no receptor, diferentes
inferncias podem ser feitas a partir de uma mesma informao. Foi baseado nesse
pensamento que Brookes, em 1980, props a equao fundamental da cincia da
informao, que postula o fato de que a informao afeta o estado de conhecimento
do receptor de maneiras distintas, dependendo do estado da sua mente. Um dos
problemas identificados na equao de Brookes refere-se ao fato de no sabermos
como medir o quanto o estado de conhecimento foi alterado diante do recebimento
de uma informao: difcil entender a transformao da estrutura de informao
dentro da estrutura de conhecimento sem uma medida de mudana para avali-la
(CORNELIUS, 2002, p. 408).
Alm disso, Ferneda (2003) destaca que a utilizao de recursos
computacionais no tratamento da informao parte de redues ou simplificaes do
conceito de informao que na maioria das vezes mostram-se insuficientes para os
objetivos da cincia da informao, mesmo quando restrito ao processo de
recuperao de informao (p. 122). E complementa que o ato de interpretar uma
informao, de forma individual ou coletiva, dependente da existncia de um
sujeito, e que os modelos quantitativos desconsideram a presena de tal sujeito
(FERNEDA, 2003, p. 123).
Ferneda (2003) destaca ainda que, ao iniciar o seu trabalho de doutorado,
ele se perguntava como a cincia da computao poderia contribuir para o avano
da cincia da informao, j que, para ele, muitos recursos computacionais estavam
sendo ignorados. Ao final, ele se questionava como a cincia da informao poderia
contribuir para o avano da cincia da computao (p. 125). Alm disso,
complementa que durante a elaborao do seu trabalho, foram consultadas diversas
dissertaes e teses em cincia da computao que versam sobre o tratamento da
informao textual. Muitas delas mostraram desconhecer at mesmo a existncia da
cincia da informao, e apresentam como sendo novos, mtodos e tcnicas que h
muito tempo estavam sendo utilizados por esta cincia. Por outro lado, ele destaca
17

que quando se trata da utilizao de mtodos computacionais no tratamento da
informao, observa-se na literatura da cincia da informao "reaes que vo
desde o ceticismo at o otimismo exagerado, mostrando tambm desconhecimento
sobre a cincia da computao" (FERNEDA, 2003, p. 125).
Observa-se que a cincia da informao tem uma preocupao mais
hermenutica com a informao, focando assim nos conceitos de significado,
contexto, interpretao e representao. J a cincia da computao, procura e
necessita dar um enfoque automatizado para a informao. Assim, a informao
precisa ser representada de tal maneira que possa ser posteriormente manipulada e
extrada por processos automatizados, o que exige que a mesma seja convertida em
alguma estrutura lgica. Mesmo a linguagem natural, considerada uma alternativa
ampla e abrangente para representar um determinado conhecimento
1
, precisa ser
convertida em alguma estrutura computvel a partir da qual seja possvel extrair
conhecimento, sob pena de ser reduzida ou simplificada, conforme discutida
anteriormente. Saracevic (1996) complementa que:
(...) a cincia da computao trata de algoritmos que transformam
informaes enquanto a cincia da informao trata da natureza da
informao e sua comunicao para uso pelos humanos. Ambos os objetos
so inter-relacionados e no competidores, mas complementares
(SARACEVIC, 1996, p. 50).
No entanto, recente discusso tem apontado para um possvel
esvaziamento de pesquisas e de produo cientfica na cincia da informao, tanto
no que se refere a recuperao de informao mas, principalmente o processamento
de linguagem natural. Esta suspeita pode ser confirmada, num primeiro momento,
observando-se o nmero de captulos de reviso publicados no ARIST sobre PLN
desde a sua criao: na dcada de 60 foi um artigo por ano, enquanto que, durante
toda a dcada de 90 at ento, foram publicados somente dois captulos de reviso
(um em 1996 e outro em 2003).
O tema processamento de linguagem natural , sem dvida, pertinente
para uma rea que busca conhecer-se melhor, como pode ser observado em
inmeras publicaes que refletem a mesma preocupao (MUELLER E
PECEGUEIRO, 2001; PINHEIRO E LOUREIRO, 1995; MELLER, CAMPELLO E

1
Neste momento, no sero discutidas as demais caractersticas da linguagem natural como linguagem de representao de
conhecimento, tais como ambiguidade e dependncia do contexto.
18

DIAS, 1996; GONZLEZ DE GMEZ, 2000; MIRANDA E BARRETO, 2000;
MELLER, MIRANDA E SUAIDEN, 2000; PINHEIRO, 2000).
Vale destacar que toda cincia deve ser cumulativa, derivada e publicada,
ou seja, continuar sempre progredindo, utilizando o conhecimento anterior para a
produo de novos; partir sempre de algo existente; e finalmente, ser publicada para
que o resultado de uma pesquisa possa ser assimilado pela comunidade (ZIMAN,
1979
2
apud CAMPOS LEAL, 2005). Para isto, os pesquisadores devem ser
exaustivos ao usar referncias e citaes, uma vez que a partir delas que se torna
possvel desenvolver a propriedade cumulativa da cincia (CAMPOS LEAL, 2005).
Diante disso, torna-se fundamental voltar o olhar para os pesquisadores
nacionais e contemporneos e analisar como a temtica processamento de
linguagem natural tem sido abordada, a partir de resultados oriundos de pesquisas
realizadas nos ltimos anos, em sociedades consideradas mais avanadas e
detentoras de frentes de pesquisa nessa rea.
Essas contribuies acumuladas historicamente foram identificadas a
partir da anlise dos captulos de reviso publicados no Annual Review of
Information Science and Technology (ARIST), versando sobre processamento de
linguagem natural, ao longo dos ltimos 40 anos, ou seja, desde a sua criao em
1966. Para analisar a produo cientfica nacional e contempornea, utilizou-se a
Plataforma Lattes do CNPq, que permite o acesso aos currculos de todos os
pesquisadores associados a entidades de pesquisa, para identificar aqueles que
estejam pesquisando sobre o tema foco da presente pesquisa.
Sendo assim, o objetivo geral desta pesquisa utilizar o conhecimento
acumulado ao longo dos ltimos 40 anos em PLN e revelado no ARIST, como
referncia para selecionar e analisar as publicaes nacionais, identificando assim a
produo cientfica da comunidade acadmica nacional da rea. Em sntese,
pretende-se olhar para o passado e revelar o que" foi desenvolvido ao longo dos
ltimos 40 anos, e aplicar os resultados dessa observao como parmetro para
analisar a pesquisa nacional.
Dentre os objetivos especficos, e considerando como problema
principal de pesquisa o processamento de linguagem natural, tem-se:

2
ZIMAN, John Michael. Conhecimento Pblico. Ed. Itatiaia, v.8, 164 p., 1979.
19

1. Construir um instrumento de seleo (critrio de atinncia
3
) das
publicaes da rea de PLN, a partir dos artigos de reviso do ARIST, publicados
nos ltimos 40 anos;
2. Selecionar o material emprico a ser analisado tendo como base o
instrumento criado anteriormente: produo cientfica dos pesquisadores brasileiros
sobre processamento de linguagem natural;
3. Caracterizar essa produo cientfica, confirmando a atinncia
determinada pelo parmetro criado, e identificando os conceitos inerentes a rea de
PLN (alm dos evidenciados pelos artigos de reviso do ARIST);
Espera-se que esta anlise venha a contribuir para pesquisas futuras e,
consequentemente, para o desenvolvimento cientfico da rea de processamento de
linguagem natural e em recuperao de informao em documentos textuais.

1.1. Organizao da tese

No captulo 2 ser apresentado o processo metodolgico adotado na
presente pesquisa, juntamente com todas as etapas seguidas: na seo 2.1 sero
apresentados os critrios usados na construo do instrumento de seleo das
publicaes da rea de PLN; na seo 2.2 sero apresentados os passos realizados
para a seleo das publicaes nacionais sobre PLN; na seo 2.3 sero
apresentadas as categorias de anlise usada para examinar a produo cientfica
obtida anteriormente. No captulo 3, optou-se por apresentar, como referencial
terico, os enunciados extrados dos captulos de reviso do ARIST, a partir dos
quais o critrio de seleo foi construdo, visto que essa sntese representa um
recorte da literatura analisada neste momento. No captulo 4, so apresentados os
resultados obtidos nesta pesquisa: na seo 4.1 apresentada a anlise horizontal,
realizada utilizando-se os ttulos das publicaes obtidas, enquanto que na seo
4.2 so apresentados os resultados obtidos a partir da anlise vertical, obtida
adentrando-se no contedo das publicaes selecionadas. Finalmente, no captulo 5
apresentada a concluso desta pesquisa.

3
Espera-se que este instrumento seja capaz de indexar as publicaes da rea de PLN, de acordo com a temtica dos
documentos (do ingls aboutness). A dificuldade em se definir a atinncia de um documento ser discutida posteriormente.
20
2. Metodologia de Pesquisa

O objetivo geral deste trabalho analisar a produo cientfica nacional
na rea de processamento de linguagem natural, a partir do conhecimento revelado
ao longo dos ltimos 40 anos no ARIST. Diante disso, a seguinte metodologia de
pesquisa foi definida: i) construo de um instrumento de seleo das publicaes
da rea de PLN; ii) seleo das publicaes nacionais e contempornea sobre PLN;
e iii) anlise da produo cientfica (obtida em ii) e identificao das temticas da
rea de PLN reveladas nestas publicaes.
A construo do instrumento de seleo se deu atravs da utilizao da
anlise de assunto, que permitiu extrair conceitos que traduzem a essncia dos
artigos de reviso do ARIST analisados. Esse instrumento foi utilizado para
selecionar, de maneira automtica, as publicaes nacionais julgadas atinentes para
a rea de PLN. Este instrumento de seleo tornou-se necessrio, visto que na
Plataforma Lattes, usada como fonte para obteno das publicaes nacionais, so
apresentados somente os ttulos das publicaes dos pesquisadores, o que
impossibilitou, num primeiro momento, que fosse realizada uma anlise de contedo
de todas as publicaes recuperadas. Aps a obteno dessa amostragem
documental, pde-se finalmente, por meio de critrios estatsticos e cronolgicos,
justificar a definio do material emprico destinado anlise final. Essa anlise foi
realizada utilizando-se tcnicas de anlise de contedo com o objetivo principal de
elucidar as temticas discutidas pela comunidade cientfica nacional.
Bardin (1977) apresenta a anlise de contedo como sendo um mtodo
emprico, no existindo assim uma metodologia bem formada, mas apenas algumas
recomendaes. Segundo a autora, a anlise de contedo apresenta duas funes:
funo heurstica, que enriquece a tentativa exploratria, aumentando a propenso
descoberta "para ver o que d", e a funo da prova, a fim de confirmar uma diretriz
pr estabelecida (BARDIN, 1977, p. 30). Neste sentido, a anlise de contedo pode
ser aplicvel presente pesquisa, visto que as duas funes precisaram ser
aplicadas de maneira complementar: para confirmar as temticas relevadas pelo
ARIST (funo da prova) e para ver o que foi desenvolvido a posteriori (funo
heurstica). A FIG. 1 apresenta uma sntese da metodologia adotada nesta pesquisa.

21

FIGURA 1 Metodologia adotada na presente pesquisa

Vale destacar que, na FIG. 1 esto ilustradas as etapas do processo
metodolgico adotado nesta pesquisa, juntamente com as sees deste documento
onde as mesmas so discutidas. Nos losangos verdes esto representadas as duas
principais tcnicas usadas nesta pesquisa: anlise de assunto e de contedo, que
sero detalhadas em momento oportuno. Do lado direito da figura, e obtidos pela
seta em vermelho, esto os resultados produzidos: a PLN sob a tica do ARIST, que
apresenta a seleo de enunciados produzida pela anlise de assunto (e
apresentada no captulo 3); os resultados da anlise horizontal, usando os atributos
descritivos das publicaes obtidas (apresentados na seo 4.1); e os resultados da
anlise vertical, obtidos a partir da anlise de contedo das publicaes do material
emprico construdo (apresentados na seo 4.2).

22
2.1. Construo do instrumento de seleo
O desafio apresentado na primeira etapa do processo metodolgico foi
construir um parmetro conceitual que fosse capaz de indexar publicaes da rea
de PLN utilizando-se apenas os seus ttulos. Isso se tornou necessrio, visto que a
Plataforma Lattes, usada para obter as publicaes nacionais, disponibiliza a
produo dos pesquisadores cadastrados, na forma de listas de referncias
bibliogrficas. Sendo assim, este parmetro foi utilizado para verificar, de maneira
automtica, a atinncia de uma determinada publicao rea de PLN baseando-se
somente no seu ttulo.
Sabe-se que existem divergncias entre os pesquisadores quanto
traduo do termo aboutness e que estudos tm tentado formular uma definio
conceitual, descrevendo a proximidade com outros termos adotados, tais como
assunto, temacidade, tema, tpicos, etc (GUEDES, 2009; FUGITA, 2003). Apesar
disso, no contexto desta pesquisa, optou-se por utilizar o termo atinncia como
sendo a traduo de aboutness, uma vez que ser empregado para verificar se uma
determinada publicao pertence rea de PLN.
O referido instrumento de seleo foi elaborado respaldando-se na
garantia literria de uma grande fonte de disseminao cientfica mundial: o ARIST,
peridico escolhido dada a sua importncia no panorama da cincia da informao
no Brasil e no mundo. O ARIST procura apresentar ao leitor uma reviso geral,
analtica, acessvel e com autoridade das tendncias e desenvolvimentos
significativos nas reas de interesse da cincia da informao. Os tpicos abordados
variam de ano para ano, refletindo o dinamismo da disciplina e a diversidade das
perspectivas tericas da cincia e da tecnologia de informao. Apesar de alguns
tpicos clssicos continuarem em evidncia (bibliometria, recuperao de
informao), o ARIST tem ampliado a sua abrangncia com o intuito de conectar a
cincia da informao a outras comunidades acadmicas e profissionais.
produzido pela American Society for Information Science & Technology (ASIST), que
desde 1937 tem tentado fazer com que profissionais da informao possam
pesquisar teorias e tcnicas novas, que melhorem a representao e o acesso
informao.
Os captulos de reviso do ARIST so escritos por especialistas da rea,
convidados pelos editores, e caracterizam-se por sua capacidade de refletir sobre
23
um tema em um determinado tempo, adotando uma abordagem horizontal sem
aprofundar em especificidade.
Desde sua primeira edio, em 1966, foram publicados 11 (onze) artigos
de reviso
1
dedicados ao processamento de linguagem natural, sendo que somente
os trs mais recentes trazem no ttulo a expresso natural language processing (os
captulos anteriores eram intitulados automated language processing). Esses
captulos de reviso foram submetidos anlise de assunto com o intuito de extrair
os conceitos que reflitam a essncia das pesquisas apresentadas. Os enunciados
extrados desta etapa do processo metodolgico da pesquisa so apresentados no
captulo 3.
Observa-se que cada tipo de comunicao cientifca requer diferentes
estilos de construo, que reflitam seus diferentes objetivos e pblico. O estilo de um
artigo cientfico formulado, seguindo normalmente um padro especfico,
correspondendo s partes clssicas preconizadas para um trabalho cientfico. Num
artigo cientfico importante conter informao suficiente para permitir que os
leitores possam entend-lo e eventualmente repet-lo. J os artigos de reviso
geralmente so mais difusos do que um trabalho indito de pesquisa e
compreendem revises de trabalhos significativos sobre uma temtica e que tiveram
impacto na comunidade cientfica. Acredita-se que o pblico de um artigo de reviso
maior do que de artigos cientficos, e ir abranger do iniciante ao especialista da
rea. Uma reviso concentra-se estritamente em noticiar os avanos feitos nos
ltimos anos, sem conter necessariamente o relato de uma pesquisa indita e novos
resultados. Um artigo de reviso uma fonte secundria porque arrola fontes de
outros autores, indicando caminhos e no adentrando em especificidades. Estas
caractersticas so determinantes num processo de anlise de assunto.
Segundo Dias e Naves (2007), a anlise de assunto o processo de ler
um documento para extrair conceitos que traduzam a essncia de seu contedo.
Segundo os autores, esta tarefa est sujeita interferncia de diversos fatores
ligados pessoa do profissional que a realiza, como nvel de conhecimento prvio
do assunto do documento, formao e experincia, subjetividade, alm de fatores
lingusticos, cognitivos e lgicos (DIAS; NAVES, 2007, p. 9).
Especialistas em recuperao de informao so os primeiros a declarar
que a indicao de termos apropriados, capazes de representar o contedo de itens

1
A listagem completa dos artigos de reviso analisados encontra-se no Apndice A.
24
de uma coleo so, ao mesmo tempo, a mais importante e a mais difcil de todas as
operaes normalmente usadas no processamento de informaes contidas em
documentos (SALTON; McGRILL, 1983
2
apud DIAS; NAVES, 2007, p. 30).
A questo da subjetividade presente no processo de indexao
lembrada por vrios especialistas da rea, pois envolve julgamento, e
consequentemente, oscila muito no seu nvel de concordncia apresentando
discrepncias (DIAS; NAVES, 2007, p. 30).
Diante disso, vale destacar que a anlise de assunto dos captulos de
reviso do ARIST foi realizada por uma especialista da computao (doutoranda),
priorizando as expresses mais significativas, que pudessem ser usadas para
indexar publicaes relevantes da rea de PLN. Para cada captulo de reviso,
elaborou-se uma estrutura contendo grupos significativos de conceitos com
diferentes blocos empricos baseados principalmente na estrutura do texto adotado
por cada autor. Tentou-se, durante esta etapa, realizar uma diagramao mais fiel
possvel s estruturas dos textos, na tentativa de preservar a classificao de
conceitos feita pelos prprios autores. Observou-se que no existe um padro
homogneo entre os diversos textos, visto que, cada captulo apresentou uma
estrutura de tpicos diferentes, assim com abordagens diferentes, condizentes com
o momento focalizado. Dentre os conceitos extrados, procurou-se identificar objetos
de estudo, teorias, processos especficos, produtos e/ou ferramentas, alm de outras
temticas apresentadas pelos autores ao longo dos anos. Tais estruturas foram
ento analisadas com o intuito de organizar todos os conceitos encontrados em
grandes categorias, baseando-se na prpria classificao feita pelos autores.
A partir dessa anlise, quatro grandes categorias foram definidas: a dos
conceitos computacionais, a dos conceitos lingusticos, a das aplicaes e a das
tcnicas e mtodos. Considerou-se conceitos computacionais os termos
relacionados a automao, tais como os atributos (automtico e computacional),
processos (implementao e algoritmos
3
), dentre outros. Dentre os conceitos
lingusticos, esto os termos gerais relacionados linguagem e lingustica
(linguagem, lngua natural, portugus e ingls), alm de elementos a ela
relacionados (classes gramaticais verbo, adjetivo, advrbio), dentre outros. A
categoria tcnicas e mtodos foi criada para incorporar os recursos usados pelos

2
Salton, G. and McGill, M. J. (1983) Introduction to Modern Information Retrieval. McGraw-Hill, New York, NY.
3
No contexto desta tese, algoritmo foi considerado o processo de construo de uma soluo automatizada.
25
autores na construo das aplicaes citadas. Finalmente, nas aplicaes,
procurou-se incluir os produtos resultantes das pesquisas da rea de processamento
de linguagem natural. Nesta categoria encontram-se os tradutores automticos, a
indexao automtica, os respondedores automticos, a anlise de contedo e de
estilo, alm da recuperao de informao em documentos ou textos.
Dois sub-produtos foram gerados, concomitantemente, a partir dessa
etapa do processo metodolgico: o instrumento de seleo das publicaes
atinentes rea de PLN, constitudo de termos distribudos nas quatro categorias
descritas anteriormente; e os enunciados que emergiram da anlise de assunto
realizada no ARIST, e apresentados no Captulo 3. A estrutura de tpicos adotada no
referido captulo permitiu extrair os termos alocados nas quatro categorias definidas
no instrumento de seleo. Ao discutir os Aspectos da Linguagem (seo 3.2)
procurou-se extrair, dos captulos de reviso do ARIST, os termos includos na
categoria de conceitos lingusticos. A partir da discusso apresentada sobre as
Teorias Lingusticas (seo 3.3), foi possvel identificar as tcnicas e mtodos
relatados pelos autores dos captulos de reviso do ARIST e compor assim a
categoria de mesmo nome. As aplicaes da rea de PLN foram identificadas e
discutidas na seo 3.4 (Aplicaes). Os termos includos na categoria de conceitos
computacionais foram extrados ao longo de todo o fichamento realizado.
Todas as expresses e termos, identificados a partir da anlise de assunto
nos artigos de reviso do ARIST, foram utilizados considerando-se tambm as
devidas derivaes em gnero e nmero, quando for o caso, e de idioma, tanto em
ingls (idioma usado no ARIST), como em portugus (idioma predominante nas
publicaes coletadas na Plataforma Lattes).
Durante a anlise de assunto dos captulos de reviso do ARIST,
considerou-se fundamental manter uma relao entre exaustividade e
especificidade, visto que o objetivo era indexar publicaes atinentes a rea de PLN.
Assim, procurou-se privilegiar termos indexadores mais genricos uma vez que
assuntos muito especficos tendem a no aparecer nos ttulos. Sabe-se que as
palavras-chaves definidas com fim da atividade de recuperao, precisam ser
determinadas de forma a representar o assunto (WITTEN et al., 1999) e que
alcancem os maiores ndices de preciso e revocao (BAEZA-YATES; RIBEIRO-
NETO, 1999). Sendo assim, alguns conceitos e termos foram descartados, conforme
ser discutido a seguir.
26
A expresso "recuperao da informao" foi considerada relevante
somente quando ocorrer com algum termo relacionado a informao textual, tais
como texto ou documento. Assim, quando aparecer sozinha ser descartada. Os
termos relacionados estatstica, tais como probabilidade, frequncias, dentre
outros, tambm foram descartados, exceto quando ocorresse junto com algum termo
relacionado a informao textual. Em outras palavras, procurou-se manter como
conceito central os termos relacionados ao processamento de linguagem natural.
Durante a anlise de assunto dos captulos de reviso do ARIST,
inmeras gramticas foram identificadas, tais como gramtica transformacional de
Chomsky (encontrada nos artigos dos anos de 1966, 1967, 1968, 1969, 1971, 1973,
1976 e 1987), gramtica de casos de Fillmore (1969, 1971 e 1973), gramtica de
estrutura de frase (phrase structure grammar) (1966, 1967, 1968, 1976, 1987),
dentre outras. No entanto, utilizou-se como termo indexador apenas o termo
gramtica (e suas variaes de nmero e idioma). A mesma considerao foi feita
para o conceito parser, descartando-se os tipos inerentes s gramticas. Descartou-
se tambm todos os critrios de software, tais como escalabilidade (2003),
portabilidade ou transportabilidade (1987, 2003), robustez (1987, 1996), dentre
outros encontrados durante a anlise desses captulos, por julgar que os mesmos
so muito especficos e como tais tendem a no aparecer no ttulo.
Tendo definido os termos indexadores (listados no Apndice B), e
agrupado-os nas quatro grandes categorias apresentadas anteriormente, o
instrumento de seleo das publicaes pertinentes rea de PLN foi finalmente
construdo (FIG. 2) baseando-se nas definies da rea apresentadas pelos prprios
autores dos captulos de reviso do ARIST (discutidos na seo 3.1).
Segundo Bobrow et al. (1967), a rea de processamento automtico de
linguagem cobre, numa viso ampla, qualquer uso do computador para processar
qualquer tipo de linguagem humana. Walker (1973), em seu artigo, engloba todos os
estudos tericos e prticos do uso do computador ou de tcnicas computacionais no
processamento de linguagem, especialmente a linguagem natural. Becker (1981)
define processamento automtico de linguagem como sendo a manipulao por
computador de dados no-numricos (normalmente palavras em Ingls). Warner
(1987), autor do primeiro captulo com ttulo processamento de linguagem natural,
define a rea como "uma rea de pesquisa e aplicaes que exploram como a
linguagem natural usada como entrada em sistemas de computadores pode ser
27
manipulada e armazenada de forma que preserve certos aspectos do original"
(WARNER, 1987, p. 79). Segundo Chowdhury (2003), autor do captulo de reviso
mais recente, processamento de linguagem natural uma rea de pesquisa e de
aplicao que explora como os computadores podem ser usados para processar e
manipular texto ou discurso em linguagem natural para fazer coisas teis.
Assim, o processamento de linguagem natural pode ser considerado
como sendo qualquer utilizao do computador para manipular linguagem natural.
Desta maneira, para uma publicao ser considerada atinente para a rea de PLN,
esta deve:
apresentar no ttulo um conceito computacional juntamente com um
conceito lingustico, uma aplicao ou uma tcnica ou mtodo, conforme
apresentado na FIG. 2, ou;
ser publicada em evento ou peridico em cujos ttulos apresentem
termos do conceito computacional, e apresentar no ttulo um conceito
lingustico, ou uma aplicao, ou uma tcnica ou mtodo.

FIGURA 2 Instrumento de seleo construdo a partir da anlise de assunto dos
captulos de reviso do ARIST.
Vale destacar que, na FIG. 2, so apresentados somente os radicais dos termos
usados para representar a utilizao das variaes de gnero e nmero
implementadas no escopo desta pesquisa.
28
2.2. Seleo do material emprico

Tendo definido os termos indexadores que compem o parmetro
conceitual, a prxima etapa foi obter o material emprico a ser utilizado na ltima
fase desse projeto, ou seja, as publicaes nacionais e contemporneas
relacionadas rea de PLN. Para isto, inicialmente, procurou-se identificar a
comunidade cientfica nacional (seo 2.2.1), isto , os pesquisadores
cadastrados na Plataforma Lattes, que apresentaram pesquisas na rea. Os
currculos desses pesquisadores foram analisados com o intuito de selecionar,
dentre todas as publicaes cadastradas na Plataforma Lattes, aquelas que, de
acordo com o parmetro conceitual construdo, fossem consideradas pertinentes
rea de PLN. A essa seleo de documentos deu-se o nome de amostragem
documental (seo 2.2.2). No entanto, tornou-se fundamental avaliar se os critrios
de seleo usados foram eficientes o suficiente para recuperar as publicaes da
rea, e ao mesmo tempo, no descartar, erroneamente, publicaes atinentes rea
de PLN (seo 2.2.2.1). Tendo verificado a validade do critrio usado, definiu-se, por
meio de seleo estatstica e cronolgica (seo 2.2.3), a amostra de documentos
que comps o material emprico para a anlise de contedo (seo 2.3), realizada
na ltima etapa desse processo metodolgico.

2.2.1. Seleo da comunidade cientfica
Inicialmente aventou-se a possibilidade de se utilizar o diretrio de grupos
de pesquisa do CNPq para identificar os pesquisadores na rea de processamento
de linguagem natural. No entanto, simulaes realizadas mostraram que somente
pesquisadores das reas da lingustica e da cincia da computao possuem grupos
de pesquisa, formalmente cadastrados no CNPq, que abordam processamento de
linguagem natural. Em funo disto, optou-se por utilizar a Plataforma Lattes do
CNPq para identificar os pesquisadores que estejam pesquisando sobre o tema
desta pesquisa.
Diante do objetivo desta etapa identificar os pesquisadores que
desenvolveram pesquisas sobre processamento de linguagem natural utilizou-se
como critrio de busca, encontrar os pesquisadores doutores que tenham atualizado
o seu currculo nos ltimos dois anos, tendo como assuntos linguagem natural e
29
linguagem documentria. Esses assuntos foram utilizados, tendo em vista que,
conforme mencionado anteriormente, as linguagens documentrias tm sido
utilizadas por unidades de informao para descrever o contedo dos documentos, e
portanto devem ser levadas em considerao num projeto sobre processamento de
linguagem natural. Alm disso, para verificar a hiptese de que a grande parte das
pesquisas sobre linguagem natural est concentrada na cincia da computao,
realizou-se tambm a coleta de currculos a partir da Plataforma Lattes, buscando-se
como assunto recuperao de informao em documentos e/ou em textos. Vale
destacar que inmeras consultas na Plataforma Lattes foram realizadas utilizando-se
essas palavras-chaves em portugus e em ingls, assim como com as devidas
variaes de nmero e genro.
O processo de busca da Plataforma Lattes procura qualquer ocorrncia
das palavras usadas como critrios de busca no contedo do currculo cadastrado
pelo pesquisador. Vale ressaltar que todas as informaes obtidas na referida
plataforma foram fornecidas pelo prprio pesquisador, no sendo foco deste trabalho
valid-las.
Diante do volume de dados manipulados durante esta etapa do projeto e
dado a formao da doutoranda (cincia da computao), optou-se por desenvolver
programas de computador
4
que realizassem as coletas na Plataforma Lattes de
maneira automtica. Inmeras coletas foram realizadas durante a realizao desta
pesquisa, mostrando como a Plataforma Lattes um ambiente dinmico no que se
refere a atualizao dos currculos. Todos os resultados apresentados foram obtidos
a partir de dados coletados no dia 10 de novembro de 2009.
Utilizando-se como critrio de busca o assunto linguagem natural foram
retornados 411 currculos
5
; 23 currculos foram retornados utilizando-se como critrio
linguagem documentria
6
; 114 currculos ao utilizar 'recuperao de informao' e
documento como assunto
7
; e 119 currculos utilizando-se 'recuperao de
informao' e texto
8
. Para cada pesquisador, manteve-se um arquivo texto contendo
todos os artigos e trabalhos completos publicados pelo pesquisador em toda a sua
vida, ou seja, todas as referncias que encontram-se cadastradas na Plataforma

4
Os programas foram desenvolvidos utilizando-se a linguagem de programao Java, que permitiam a coleta e anlise
(parsing) do cdigo HTML de cada currculo retornado.
5
Esses 411 currculos so listados no arquivo "estatisticasLN.txt" disponvel no CD-ROM que acompanha esta tese.
6
Apresentados no arquivo "estatisticasLD.txt".
7
Apresentados no arquivo "estatisticasRID.txt".
8
Apresentados no arquivo "estatisticasRIT.txt".
30
Lattes
9
.
Os resultados dessa seleo totalizaram 541 pesquisadores, sendo que:
95 foram retornados por mais de um assunto: um pesquisador (Nair Yumiko Kobashi
da cincia da informao) foi retornado nos quatro assuntos, 29 pesquisadores
foram retornados em trs assuntos, 65 para dois assuntos e 446 foram recuperados
em apenas um assunto
10
.
Cada currculo foi avaliado, buscando-se a produo cientfica de cada
pesquisador. Diante do objetivo de identificar as grandes contribuies para a rea,
descartou-se todas as publicaes em eventos de iniciao cientfica. Assim, para
cada currculo recuperado, foram coletados automaticamente a instituio vinculada,
a rea de atuao e os artigos e trabalhos completos, publicados pelo pesquisador
em peridicos e em anais de congressos.
Os 541 pesquisadores coletados foram responsveis, ao longo de toda a
sua vida produtiva, por um total de 27.626 publicaes
11
. No entanto, vale destacar
que, este montante no constitudo apenas por publicaes da rea de PLN, e sim
por todos os trabalhos publicados pelos pesquisadores que foram recuperados pela
Plataforma Lattes. Assim, no sentido de obter as publicaes realmente pertinentes
a rea de PLN, o prximo passo foi descartar as repeties oriundas de co-autorias,
para ento aplicar o critrio de seleo. Neste momento, algumas dificuldades foram
encontradas devido inconsistncia nos dados cadastrados na Plataforma Lattes.
Essas divergncias dificultaram uma anlise baseada na referncia bibliogrfica,
visto que para que um procedimento automtico de casamento de padres
funcionasse, era necessrio que o mesmo trabalho fosse referenciado nos currculos
de todos os seus co-autores da mesma maneira, o que no acontece. No entanto,
conforme mencionado anteriormente, no cabe a este trabalho validar as entradas e
a consistncia na normalizao das referncias apresentadas pelos pesquisadores,
e sim consider-las como sendo uma situao possvel de existir.
Essas dificuldades foram antecipadas por Mascarenhas Silva (2007), em
sua tese de doutorado, quando advertiu que muitos cientistas no se do conta que
sua produo documental poderia servir, no futuro, como objeto de estudo e que
esta produo permitiria estudar "a evoluo das polticas de pesquisa e ensino

9
Estes arquivos criados para cada pesquisador retornado pelas consultas realizadas na Plataforma Lattes esto
disponibilizados no diretrio "todosCurriculos".
10
Disponibilizado no arquivo "estatisticasPesqAssunto.txt".
11
Todas as publicaes so listadas no arquivo "todasPublicacoes.txt".
31
cientficos, a evoluo desta ou daquela disciplina ou ainda o papel deste ou daquele
cientista no desenvolvimento da cincia" (p. 78).
Das 27.626 publicaes coletadas originalmente, 337 foram citadas da
mesma forma nos currculos dos seus co-autores e portanto puderam ser
descartadas por um processo de casamento de padres
12
.
Esta divergncia dificultou a anlise de co-autoria, de maneira automtica,
uma vez que um mesmo trabalho pode ser cadastrado na Plataforma Lattes com
referncias diferentes. Por exemplo, o trabalho Desafios do Processamento de
Lnguas Naturais publicado por Vera Lcia Strube de Lima, Maria das Graas Volpe
Nunes e Renata Vieira no 34 Seminrio Integrado de Software e Hardware em 2007
foi cadastrado de maneira diferente nos trs currculos (citando os autores em ordem
diferente).
Mesmo utilizando-se a forma de citao, cadastrada pelo prprio
pesquisador no seu currculo, observou-se que tal forma era adotada somente no
prprio currculo, mas as co-autorias eram cadastradas sem seguir o padro. Assim,
todas as publicaes de um nico autor eram cadastradas seguindo o formato
cadastrado, mas para as demais, fez-se necessria a utilizao de uma heurstica
(comparando as iniciais dos nomes). Das 2.338 co-autorias analisadas, 334 (cerca
de 14%) foram identificadas por meio desse processo heurstico.
Alm disso, 88 publicaes tiveram que ser corrigidas manualmente, pois
apresentavam o mesmo ttulo e o mesmo ano de publicao mas apresentavam
autores diferentes. Para essas inconsistncias sinalizadas pelo programa de
computador desenvolvido, a doutoranda verificou na internet, no site do evento ou do
peridico, qual seria a correta autoria do trabalho, e corrigiu manualmente.
Ao final desse processo de anlise de co-autorias, a lista de
pesquisadores, que inicialmente era de 541, passou a contar com 1.209 co-
autores
13
. Considerando-se somente as publicaes potencialmente atinentes, de
acordo com o critrio de seleo definido, so 1.003 pesquisadores envolvidos
14
.
Para estes pesquisadores, que no foram obtidos pela consulta na Plataforma
Lattes, e sim pela anlise de co-autoria de alguma publicao, atribuiu-se rea e
macro-rea como sendo 'desconhecida'. Estes pesquisadores no foram
recuperados pelas consultas na Plataforma Lattes, por um dos seguintes motivos: ou

12
As 27.289 publicaes restantes esto apresentadas no arquivo "todasPublicacoesSemRep.txt", sem as repeties.
13
Esta lista de 1.209 co-autores est apresentada no arquivo "saidaPesquisadoresRelevantes.txt".
14
Disponveis no arquivo "saidaPesquisadoresSomenteAtinentes.txt".
32
no doutor, ou no tem atualizado seu currculo, ou no tem currculo cadastrado
na Lattes. Vale destacar que, destes 668 pesquisadores desconhecidos, 448 foram
associados a somente uma publicao, 127 a somente duas publicaes, 54 a trs
publicaes e 20 a quatro publicaes. Vale ressaltar que, dentre os pesquisadores
desconhecidos que apresentaram mais de 5 publicaes esto Jos Gabriel Pereira
Lopes e Ricardo Baeza-Yates, que publicam muito na rea de recuperao de
informao em documentos mas que por serem, Portugus e Chileno,
respectivamente, no apresentam currculos cadastrados na Plataforma Lattes.
Conforme destacado anteriormente, a Plataforma Lattes retorna os
currculos que apresentaram os assuntos pesquisados (linguagem natural,
linguagem documentria e recuperao de informao em documentos e/ou em
textos), no garantindo que estes currculos, assim como as publicaes obtidas,
sejam realmente pertencentes rea de PLN.
O parmetro conceitual construdo foi aplicado em todas as publicaes
para que fosse possvel analisar historicamente a produo nacional. Alm disso,
como os conceitos usados como critrios de seleo foram estabelecidos, tendo
como base os captulos de reviso do ARIST (de 1966 a 2003), aplic-los somente
s publicaes recentes poderia gerar um retrato distorcido da realidade.
Sendo assim, o instrumento de seleo definido anteriormente, a partir da
anlise de assunto do ARIST, foi utilizado para determinar quais destas publicaes
eram realmente consideradas atinentes temtica processamento de linguagem
natural.

2.2.2. Seleo da amostragem documental

O processo de coleta dos currculos na Plataforma Lattes, assim como o
de aplicao do parmetro conceitual utilizado como instrumento de seleo das
publicaes foram realizados usando programas de computadores desenvolvidos
pela doutoranda na linguagem de programao Java, especialmente para o escopo
deste trabalho. Tanto a coleta das publicaes, como o processamento das mesmas,
foram feitos de maneira automtica com o intuito de minimizar a subjetividade e a
interferncia do avaliador humano envolvido, visto que a doutoranda tem a cincia
da computao como rea de formao.
33
Os ttulos de todas as publicaes coletadas na Plataforma Lattes foram
analisados segundo os termos e expresses contidos no parmetro conceitual
definido anteriormente (e apresentado na FIG. 2). Sabe-se que avaliar a atinncia de
uma publicao para a rea, baseando-se somente no ttulo, pode ser considerada
uma estratgia frgil. No entanto, o volume de publicaes obtidas (mais de 27 mil),
assim como o meio de registro somente a referncia bibliogrfica cadastrada na
Plataforma Lattes impossibilitou que outra abordagem fosse adotada. Assim,
assumindo-se que o ttulo represente uma condensao dramtica de um contedo
que, pode estar contido ou desenvolvido em centenas de pginas (DIAS e NAVES,
2007, p. 53), acredita-se que ele possa ser usado numa primeira anlise, com as
devidas restries.
Conforme mencionado anteriormente, o processo automatizado de coleta
dos curriculos dos 541 pesquisadores recuperados na Plataforma Lattes, obteve
27.626 publicaes, sendo que 482 foram descartadas: 334 por serem referncias
duplicadas (em funo de co-autorias) e 148 por, apesar de serem referncias
escritas de maneira diferentes, era o mesmo ttulo, publicado no mesmo evento ou
peridico, pelos mesmos autores. Assim, descartando-se as publicaes repetidas,
obteve-se um universo de 27.144 publicaes.
Aplicando-se o critrio de seleo automtica, definido a partir da anlise
de assunto do ARIST, 831 foram consideradas potencialmente atinentes, enquanto
que 26.313 foram desconsideradas
15
. Diante disso, tornou-se fundamental avaliar a
capacidade do critrio utilizado em indexar as publicaes da rea.

2.2.2.1. Avaliao do critrio de seleo automtica

O prximo passo foi avaliar a qualidade do critrio de seleo automtica
definido a partir da anlise de assunto do ARIST. O critrio deveria ser eficiente o
suficiente para recuperar as publicaes da rea, e ao mesmo tempo, no descartar
publicaes atinentes rea de PLN. Sendo assim, a validao do processo de
seleo foi realizada por meio de julgamento humano, analisando-se manualmente,
tanto ttulos de publicaes que foram selecionadas, como de outras que foram
descartadas.

15
Estas listagens encontram-se, respectivamente, nos arquivos "saidaPublicacoesRelevantes.txt" e
"saidaPublicacoesNaoRelevantes.txt".
34
Para a anlise das 831 publicaes selecionadas de forma automtica,
optou-se por fazer um censo, quando todos os ttulos destas publicaes foram
avaliados manualmente pela doutoranda. Ao analisar manualmente essas 831
publicaes, pode-se constatar que 31 eram publicaes repetidas, e por
apresentarem pequenas diferenas nos titulos, no foram identificadas pelo
processo automtico. Assim, descartando-se as repeties, e avaliando-se ento
800 ttulos, 621 foram identificados como sendo realmente de publicaes
pertinentes rea de PLN, e 179 no eram atinentes. Estes resultados esto
sintetizados na TAB. 1.
Para as 26.313 publicaes que foram descartadas pelo processo
automtico de seleo, optou-se por uma anlise por amostragem, j que o volume
dessas publicaes inviabilizou a leitura de todos os ttulos envolvidos. No clculo do
tamanho da amostra, considerou-se que, no mximo 5% das publicaes teriam sido
descartadas erroneamente (p=0,05). Se for usada uma margem de erro de 2%
(E=0,02), o clculo do tamanho da amostra foi feito por (HULLEY et al.; 2006):
( )
( )
2
2
2 /
1
2
) 1 ( 4
E
p p z
n

=

Onde:
n
1
= tamanho da amostra considerando populaes de tamanho infinito
Z
/2
= 1,96 (para intervalos de 95% de confiana)
E = margem de erro da estimativa = 0,02
p = proporo esperada de relevncia = 0,05

( )
( )
456
02 , 0 2
) 05 , 0 1 ( 05 , 0 96 , 1 4
2
2
1
=

= n

Com base na frmula anterior, n
1
= 456. Agora, considerando que a
populao amostrada de tamanho finito (N = 26.313), o tamanho da amostra deve
35
ser ajustado pela equao abaixo:
1
1
n N
n N
n
+
=

Onde:
n = tamanho da amostra para pesquisas em populaes finitas
n
1
N = tamanho da populao amostrada
448
456 313 . 26
456 313 . 26
=
+
= n

Sendo assim, dentre as 26.313 publicao que foram descartadas pelo
processo de seleo, definiu-se selecionar aleatoriamente uma amostra de 448
publicaes para analisar os ttulos manualmente por meio de julgamento humano
16
.
Aps anlise manual, verificou-se que apenas 11 publicaes eram pertinentes a
rea de PLN e como tal deveriam ter sido selecionadas pelo parmetro conceitual.
As demais 437 publicaes realmente deveriam ter sido descartadas (TAB. 1).
TABELA 1
Resultados obtidos pela avaliao manual dos ttulos das publicaes selecionadas
pelo critrio de seleo criado.

Algoritmo recuperou
o documento?
O documento realmente atinente
(julgamento humano)? Total
Sim No
Sim 621 179 800
No 11 437 448
Total 632 616

Estes resultados apontam para uma taxa de 98% de sensibilidade
17

(621/632) e 71% de especificidade (437/616). Em outras palavras, dado que uma
publicao pertinente, o critrio de seleo automtica tem 98% de chance de
selecion-la, enquanto que dado que no pertinente rea, tem-se 71% de

16
A listagem das publicaes descartadas pelo critrio de seleo automtica e analisadas manualmente est no arquivo
"saidaPublicacoesNaoRelevantes.xls".
17
Sensibilidade, especificidade, predio positiva e predio negativa so mtricas estatsticas usadas para avaliar a qualidade
de testes diagnsticos.
36
chance de no selecion-la. interessante observar que o mtodo de seleo
automtica prioriza a sensibilidade, ou seja, se um documento for atinente rea de
PLN, ele tem grande chance de ser selecionado (98%), evitando-se assim descartar
qualquer documento que seja importante para caracterizar a rea.
Uma outra observao interessante refere-se a suposio que foi feita
para o clculo do tamanho da amostra (n) de publicaes descartadas pelo critrio
de seleo automtica. Para o clculo de n, sups-se que, no mximo, 5% das
publicaes teriam sido descartados erroneamente. Aps a seleo e anlise da
amostra, verificou-se que somente 2% das publicaes (11/448) tinham sido
descartadas erroneamente, o que confirma a suposio feita para o clculo de n.
Alm da sensibilidade e especificidade, os dados da TAB. 1 permitem o
clculo dos valores de predio positiva e negativa do critrio de seleo automtica
de artigos. O valor de predio positiva foi de 78% (621/800), isto , um artigo
selecionado de forma automtica tem 78% de chance de realmente ser pertinente
rea de PLN. J o valor de predio negativa foi de 98% (437/448), o que refora a
boa triagem feita pelo algoritmo: uma publicao descartada de forma automtica
tem 98% de chance de realmente no ser da rea de PLN.
Diante disso, as 621 publicaes realmente atinentes podem ser usadas
para representar a produo cientfica nacional na rea de PLN.
Assim, anlises estatsticas foram realizadas a partir das referncias
destas 621 publicaes, com o intuito de identificar a distribuio dessa produo
por rea dos autores, por ano, por temtica, dentre outros resultados apresentados
na seo 4.1 Anlise Horizontal
18
. Esta anlise foi intitulada de horizontal por ter
sido realizada baseando-se apenas nas caractersticas descritoras das publicaes
(ttulo, ano de publicao, autores e reas de vinculao).
Para que fosse factvel adentrar no contedo das publicaes foi
necessrio identificar, dentre as 621 relevantes, as que seriam submetidas anlise
de contedo (considerada Anlise Vertical). Assim, na prxima seo, sero
apresentados os critrios estatsticos e cronolgicos usados para definir o material
emprico usado na ltima etapa desta pesquisa, ou seja, as publicaes que sero
submetidas anlise de contedo. Os resultados alcanados so apresentados na
seo 4.2.

18
Optou-se por no incluir nas anlises, as 11 (onze) publicaes consideradas atinentes, dentre as que foram descartadas,
diante dos ndices de sensibilidade e especificidade obtidos pelo critrio de seleo automtico adotado neste trabalho.
37
2.2.3. Seleo estatstica e cronolgica

Conforme discutido anteriormente, a coleta automtica na Plataforma
Lattes recuperou uma amostra de 541 pesquisadores que, juntos, foram
responsveis por 800 publicaes potencialmente atinentes, de acordo com o
instrumento de seleo criado a partir da anlise de assunto dos captulos de reviso
do ARIST. Analisando-se manualmente os ttulos dessas 800 publicaes, observou-
se que 621 eram realmente atinentes rea de PLN, e que portanto poderiam ser
usadas para caracterizar a produo nacional da rea. Estas publicaes deveriam
ser analisadas, no entanto, em funo do grande nmero de artigos envolvidos,
optou-se por utilizar uma amostragem.
Para o clculo do tamanho da amostra de publicaes a serem avaliadas,
considerou-se que dos 621 trabalhos definidos como atinentes rea de PLN, pelo
menos 95% so realmente pertinentes e consequentemente tm informaes e
contedos suficientes para a caracterizao da produo cientfica e nacional da
rea de PLN. Sob esta hiptese e usando uma margem de erro de 5%, obtm-se o
seguinte tamanho de amostra (HULLEY et al., 2006):
( )
( )
2
2
2 /
1
2
) 1 ( 4
E
p p z
n

=

Onde:
n
1
Z
/2
= 1,96 (para intervalos de 95% de confiana)
E = margem de erro da estimativa = 0,05
p = proporo esperada de contedo relevante = 0,95

( )
( )
73
05 , 0 2
) 95 , 0 1 ( 95 , 0 96 , 1 4
2
2
1
=

= n

Com base na frmula anterior, n
1
= 73. Considerando que a populao
amostrada de tamanho finito (N = 621), ento o tamanho da amostra deve ser
38
ajustado pela equao abaixo:
1
1
n N
n N
n
+
=

Onde:
n = tamanho da amostra para pesquisas em populaes finitas
n
1
N = tamanho da populao amostrada
65
73 621
73 621
=
+
= n

Tem-se ento que, aproximadamente 65 publicaes devem ser
submetidas anlise de contedo. Definido o tamanho da amostra, o prximo passo
definir a forma de se obter a amostra, ou seja, o processo de amostragem. Nesta
pesquisa, optou-se por obter uma amostra aleatria estratificada, onde "os
elementos so divididos em grupos mutuamente exclusivos e dentro dos quais so
sorteadas amostras casuais simples" (SILVA, 1998).
Analisando as 621 publicaes atinentes ao longo dos anos, foi possvel
observar que nos ltimos onze anos, ou seja de 1.999 at 2.009, foram publicados
75% de todas as publicaes consideradas atinentes. Para os anos anteriores a
1.999, tem-se apenas 25% das publicaes relevantes. Em funo deste resultado,
optou-se por uma amostragem estratificada por estes dois perodos, de forma
proporcional. Ou seja, 75% da amostra, equivalente a cerca de 50 artigos, seriam
selecionados de forma aleatria do perodo de 1.999 a 2.009. No perodo anterior a
1.999, seria sorteada 25% da amostra, equivalente a aproximadamente16 artigos.
Como o perodo de 1.999 a 2.009 equivale a 11 anos, optou-se por
sortear 5 artigos de cada um destes anos, o que totaliza 55 trabalhos. No outro
perodo, anterior a 1.999, existem 21 anos, sendo que apenas 13 apresentaram dois
ou mais artigos atinentes. Neste perodo, optou-se por sortear um artigo em cada
ano que apresentasse duas ou mais publicaes, totalizando 13 artigos. Desta
forma, a amostra analisada, de tamanho n = (55 + 13) = 68, teria uma maior
39
representatividade, por possuir publicaes sorteadas de cada ano envolvido na
pesquisa, numa proporo diretamente relacionada importncia do perodo em
termos de nmero de publicaes atinentes a rea de PLN.
Mais uma vez, foi feito um processo automtico que dentre uma amostra
finita de dados sorteia n elementos (sorteio automtico). Assim, para os anos de
1.999 a 2.009 foram sorteados 5 publicaes, enquanto que, para os demais anos,
apenas uma era sorteada.
Conforme mencionado anteriormente, os resultados desta pesquisa foram
divididos em dois momentos. No primeiro, foram apresentados os resultados obtidos
analisando-se todas as 621 publicaes consideradas atinentes para a rea de
processamento de linguagem natural. Como esta anlise foi realizada considerando-
se as informaes descritivas das publicaes (ttulo, autores e reas) optou-se por
refernci-la por anlise horizontal ou superficial. Dentre os resultados
apresentados, esto anlises estatsticas envolvendo a distribuio dos
pesquisadores autores dessas publicaes por rea de vinculao, por produo
cientfica, por temticas ao longo dos anos, assim como grupos de pesquisas. A
segunda parte dos resultados, contm as discusses que emergiram durante a
anlise de contedo dos artigos selecionados. Tendo em vista que esta anlise
permitiu adentrar no contedo das 68 publicaes sorteadas, optou-se por cham-la
de anlise vertical ou profunda. As categorias de investigao usadas durante a
anlise de contedo das publicaes selecionadas so apresentadas na prxima
seo (seo 2.3).

2.3. Anlise de contedo do material emprico

Tendo definido a amostra de publicaes que sero analisadas, a prxima
etapa desta pesquisa consistiu em submet-las anlise de contedo. Segundo
Bardin (1977), para a realizao da anlise de contedo, algumas categorias e
subcategorias relacionadas ao objeto de pesquisa podem ser estabelecidas antes do
processo propriamente dito, ou a medida que vo sendo observadas (p. 123). Ainda
segundo Bardin (1977), realizar a leitura pra ver no que vai dar (p. 20).
Inicialmente, os artigos foram analisados com o intuito de analisar as
problemticas discutidas pelos autores, a metodologia adotada e os resultados
40
alcanados. No entanto, durante a leitura, e tendo em vista que a presente pesquisa
tem como objetivo analisar a produo cientfica da comunidade acadmica
nacional, observou-se que seria interessante analisar tambm se o trabalho
apresentava experimentos prticos e para qual idioma o mesmo estava voltado.
Neste momento, no nos interessa identificar o idioma no qual o artigo estava
escrito, e sim o idioma usado durante os experimentos, se este for o caso. Alm
disso, outro aspecto que emergiu da leitura est relacionado com os mtodos de
avaliao usados como parte da metodologia do trabalho. Para alguns artigos,
observou-se que os autores usaram estratgias automticas para avaliar o trabalho,
enquanto que outros recorreram a julgamento humano para avaliar os resultados
alcanados. Vale ressaltar que, mtodos quantitativos de avaliao tendem a ser
mais aplicveis a trabalhos que apresentem experimentos, conforme ser
apresentado posteriormente. Em outras palavras, pode-se afirmar que as categorias
utilizadas nesta pesquisa so o resultado de um processo incremental e cclico, visto
que algumas categorias foram emergindo durante a leitura dos artigos. Esta
dinmica acarretou na re-leitura de vrios artigos, que j haviam sido analisados,
para garantir que todos os selecionados fossem analisados sob as mesmas
dimenses. Desta maneira, as categorias de anlise definidas, antes e durante a
leitura realizada, e utilizadas finalmente nesta pesquisa, so discutidas a seguir e
apresentadas na FIG. 3.

FIGURA 3 Categorias de anlise usadas durante a etapa de anlise de contedo das
publicaes selecionadas.

41
Para cada artigo analisado, procurou-se apresentar o artigo, identificando
a problemtica abordada, ou seja, o conjunto de problemas tocantes ao trabalho,
destacando os objetivos propostos pelos autores. Com isso, espera-se observar
quais as temticas foram discutidas ao longo dos anos. O objetivo final desta
dimenso identificar os problemas recorrentes pesquisados pela comunidade
cientfica nacional; (O QU)
Para cada artigo analisado, procurou-se identificar, a metodologia
adotada, ou seja, os mtodos e tcnicas utilizados durante a realizao do
trabalho. Esta categoria tem como objetivo revelar o que os pesquisadores da rea
tem usado em termos de ferramentas, tanto computacional como lingustica, para
resolver os problemas apresentados; (COMO)
Procurou-se identificar tambm, para cada artigo analisado, o objeto
emprico focalizado, ou seja, o material emprico utilizado na realizao dos
trabalhos. Espera-se com esta anlise, identificar, dentre outras coisas, se os
trabalhos da rea tm apresentado experimentos prticos, ou se so de cunho
terico; se os trabalhos tm priorizado algum idioma; e finalmente, se a comunidade
cientfica nacional foi capaz de criar um framework de pesquisa na rea de PLN.
Entende-se por framework como sendo um arcabouo experimental a partir do qual
as pesquisas podem ser desenvolvidas. Neste arcabouo devem estar ferramentas
desenvolvidas, assim como bases de documentos disponibilizadas (corpus) para a
comunidade cientfica. Esta categoria surgiu durante a anlise dos artigos, ao
observar que alguns artigos, principalmente os mais recentes vem utilizando e re-
utilizando ferramentas e corpus desenvolvidos e disponibilizados por outros
pesquisadores, em trabalhos anteriores.
E finalmente, procurou-se identificar os resultados apresentados pelos
autores, extraindo as perspectivas dos autores quanto ao desenvolvimento da rea.
Alm disso, tendo em vista a dificuldade em se avaliar os resultados, procurou-se
identificar se foram usados mtodos de avaliao automticos, ou se o mesmo foi
avaliado a partir de julgamento humano.
Vale destacar que, dependendo do formato, assim como do contedo do
artigo, possvel que nem todas as categorias procuradas sejam encontradas. Alm
disso, conforme discutido anteriormente, as categorias apresentadas so o resultado
de um processo incremental e cclico, o que obrigou que vrios artigos fossem
analisados vrias vezes.
42
Como resultado da anlise de contedo realizada, optou-se por
apresentar, num primeiro momento (seo 4.2.1), as publicaes analisadas
organizadas em ordem cronolgica dentro de cada categoria utilizada, e num
segundo momento (seo 4.2.2), os resultados observados sistematizados no
formato de mapas conceituais. Todos os mapas conceituais foram construdos
utilizando-se a ferramenta CMap
19
. Os critrios usados na elaborao destes mapas,
incluindo layout, cores e distribuio das publicaes, so discutidos no captulo 4.

19
CMapTools Knowledge kit - verso 5.04, disponvel em http://cmp.ihmc.us
43
3. PLN sob a tica do ARIST: uma seleo de enunciados
Embora os onze captulos de reviso analisados tenham apresentados
ttulos diferenciados: processamento automtico de linguagem (nos oito primeiros)
e processamento de linguagem natural (nos demais), todos tratam a rea de PLN
como sendo aquela responsvel por manipular automaticamente a linguagem no
controlada contida normalmente nos documentos textuais. Neste captulo
apresentada a seleo de enunciados elaborada durante a anlise de assunto dos
captulos de reviso do ARIST, tendo como finalidade construir o critrio de seleo
automtica das publicaes da rea de PLN. As citaes so apresentadas em
ordem cronolgica: do captulo mais antigo (de 1966) para o mais recente (2003). A
estrutura de tpicos adotada neste captulo (e apresentada na FIG. 4) fomentou as
quatro categorias de conceitos usadas no instrumento de seleo (conceitos
computacionais, lingusticos, aplicaes e, tcnicas ou mtodos) apresentado na
seo 2.1.

FIGURA 4 - Estrutura de tpicos adotada no Captulo 3
A partir da seo 3.1 (Definio da rea de PLN), foram identificadas as
operaes lgicas (booleanas) usadas no instrumento: conceitos computacionais E
(conceitos lingusticos OU aplicaes OU tcnicas/mtodos). Na seo 3.2
(Aspectos da Linguagem) procurou-se extrair dos captulos de reviso do ARIST, as
44
questes relacionadas aos diferentes nveis de anlise, assim como as dificuldades
e limitaes no tratamento automatizado da linguagem, apresentados pelos autores.
Os termos identificados nesta seo foram includos na categoria de conceitos
lingusticos. Na seo 3.3, intitulada Teorias Lingusticas, procurou-se identificar as
tcnicas e mtodos relatados pelos autores dos captulos de reviso do ARIST para
compor a terceira categoria do instrumento de seleo. Finalmente, a partir da seo
3.4 foram identificadas as aplicaes da rea de PLN. Inmeras aplicaes foram
apresentadas e discutidas pelos autores dos captulos de reviso, desde
ferramentas voltadas para a prpria rea, tais como processadores automticos de
tesauros e de gramtica, at ferramentas de aplicabilidade mais abrangente, tais
como, sistemas de traduo automtica e respondedores automticos. As
aplicaes consideradas como sendo voltadas para a prpria rea foram includas
na categoria tcnicas e mtodos, por serem usadas dentro do desenvolvimento de
outras aplicaes. As aplicaes intituladas prticas foram includas na categoria de
mesmo nome: Aplicaes. Os termos includos na categoria de conceitos
computacionais foram extrados ao longo de todo o fichamento realizado.

3.1. Definio da rea de PLN

Nesta seo apresentado como os autores dos captulos de reviso do
ARIST definiram a rea de processamento de linguagem natural, o que permitiu
definir as operaes lgicas usadas para combinar as quatro categorias de conceitos
definidas no critrio de seleo automtica.
Segundo Bobrow et al. (1967), a rea de processamento automtico de
linguagem cobre, numa viso ampla, qualquer uso do computador para processar
qualquer tipo de linguagem. No entanto, os autores destacam que, durante a
elaborao do seu captulo de reviso, o escopo da rea foi delimitado: somente foi
considerado o processamento de linguagem natural, desconsiderando assim
linguagens artificiais como linguagens de programao. Alm disso, segundo
Bobrow et al. (1967) preocupou-se somente com processamento analtico e no
estatstico das linguagens naturais, excluindo assim a maioria dos trabalhos em
indexao automtica, sumarizao, anlise de contedo e de estilo (p. 161).
Bobrow et al. (1967) afirmam que, de uma maneira resumida, deu-se nfase a
45
trabalhos que geram e analisam sentenas em linguagem natural baseando-se em
alguma gramtica ou base de dados.
Walker (1973) afirma que, a expresso processamento automtico de
linguagem foi usada de maneira mais genrica englobando todos os estudos
tericos e prticos do uso do computador ou de tcnicas computacionais no
processamento de linguagem, especialmente a linguagem natural. Esta discusso
acerca das terminologias e das reas apresentada por outros autores envolvendo
outras expresses como, por exemplo, lingustica computacional e processamento
automtico de linguagem. Walker (1973) afirma que a lingustica computacional um
subconjunto da rea de processamento automtico de linguagem, apesar da
primeira ser o foco principal de toda a rea. Ainda segundo Walker (1973), a
lingustica computacional um campo interdisciplinar; e a lingustica o principal
ponto de partida para as pesquisas tanto em processamento automtico de
linguagem como em cincia da informao. No entanto, Walker (1973) afirma que, a
lingustica no aceita o computador ou qualquer computao como um componente
metodolgico essencial para seu campo, e que, inmeros linguistas tm questionado
no somente a relevncia dos resultados das pesquisas em lingustica
computacional, mas a existncia de tais resultados (p. 73). E complementa que
tcnicas computacionais (computadores) podem ser aplicadas em campos onde
alguma formalizao e/ou sistematizao das descries tm sido alcanados.
Walker (1973) foi o primeiro a destacar as pesquisas oriundas da cincia
da computao, especialmente da Inteligncia Artificial (IA), e a apresentar uma
ntida preocupao com os recursos computacionais usados nos experimentos
realizados na rea.
Procedimentos para deduo e inferncia tm se tornado mais sofisticado, e
desenvolvimentos em cincia da computao, especialmente em IA, tm
resultado em novas tcnicas de programao e novas heursticas
(WALKER, 1973, p. 76).
Esta abordagem foi ratificada no captulo de reviso seguinte, quando
Damerau (1976) afirmou que a influncia da lingustica no processamento de
linguagem tem tido uma pequena evidncia, e que as principais inspiraes advm
de trabalhos em IA e psicologia cognitiva (DAMERAU, 1976, p. 108). Alm disso, ele
cita Moyne (1975) que compartilha desta opinio e justifica usando o nmero de
simulaes lingusticas realizadas pelos cientistas da computao, com sistemas
46
que requerem um nvel especfico de detalhes, os quais os linguistas no esto
acostumados. Damerau (1976) ressalta que a maioria dos projetos conhecidos tem
sofrido mais influncia da IA e da psicologia cognitiva do que da lingustica, e como
consequncia, vrios, se no a maioria dos trabalhos nesta rea, so produtos de
departamentos de cincia da computao ou psicologia e no de lingustica.
Segundo ele, a lingustica estuda a linguagem em todas as suas manifestaes; a
lingustica Terica (Theoretical Linguistics) a parte da lingustica voltada a explicar
os princpios gerais da organizao da linguagem; a lingustica Computacional a
parte da lingustica onde algoritmos so aplicados a colees de material de
linguagem; enquanto que o processamento de linguagem natural estuda como o
computador pode ser usado para processar colees de dados em linguagem
(language data) para o propsito de reorganizao, extrao, etc...
Becker (1981), autor do primeiro captulo de reviso da dcada de 80,
define processamento automtico de linguagem como sendo a manipulao, por
computador, de dados no-numricos (normalmente palavras em Ingls). Segundo
Becker (1981), desde o captulo do ARIST de Damerau (1976), o processamento
automtico de linguagem (ou ALP do ingls automated language processing) tem
sofrido mudanas pelos avanos de hardware e software: a popularizao dos
sistemas para computadores domsticos com capacidade para processar atividades
de ALP, tais como manter arquivos bibliogrficos e arquivos de dados; o
desenvolvimento de dispositivos de talking e listening; desenvolvimento dos
sistemas de OCR; alm dos avanos em software, tais como os analisadores
(parsers) de linguagem, representao de significado por computador, inferncia
lgica e organizao de base de dados.
Warner (1987), autor do primeiro captulo com ttulo processamento de
linguagem natural, definiu a rea como sendo:
uma rea de pesquisa e aplicaes que exploram como a linguagem
natural, usada como entrada em sistemas de computadores, pode ser
manipulada e armazenada de forma que preserve certos aspectos do
original (WARNER, 1987, p. 79)
Segundo Chowdhury (2003), autor do captulo do ARIST mais recente,
processamento de linguagem natural (PLN) uma rea de pesquisa e de aplicao
que explora como os computadores podem ser usados para processar e manipular
texto ou discurso em linguagem natural para fazer coisas teis. Segundo ele, as
47
bases da rea de PLN encontram-se em diversas disciplinas, tais como cincia da
computao e da informao, lingustica, matemtica, engenharia eltrica e
eletrnica, inteligncia artificial e robtica, psicologia, etc.

3.2. Aspectos da Linguagem

Nesta seo procurou-se extrair dos captulos de reviso do ARIST os
termos que iro compor a categoria de conceitos lingusticos relacionados aos
diferentes nveis de anlise observados no tratamento automatizado da linguagem.
Simmons (1966) afirma que nos 15 anos que antecederam publicao
do seu artigo, o objetivo das pesquisas na rea de processamento de linguagem
natural era construir sistemas de traduo automtica e de recuperao de
informao. No entanto, crticas feitas por Bar-Hillel (1963 apud Simmons, 1966) e
Oettinger (1963 apud Simmons, 1966) obtiveram grande influncia, ao enfatizarem
que a linguagem um dos artefatos mais complexos da mente humana, (...) e que
nenhum sistema com qualidade poder ser construdo antes de se entender o
sistema da linguagem natural (SIMMONS, 1966, p. 137).
A complexidade da linguagem ressaltada tambm por outros autores.
Salton (1968), por exemplo, afirma que, enquanto relativamente fcil isolar
palavras individuais em um texto, a interpretao do significado das palavras bem
mais difcil. Alm disso, segundo ele, no h um conjunto de regras bem definidas a
partir das quais as palavras de uma linguagem podem ser combinadas em grupos ou
sentenas com significado (SALTON, 1968, p. 171). E complementa que a correta
identificao do significado de um grupo de palavras depende pelo menos em parte
do reconhecimento das ambiguidades sintticas e semnticas, da correta
interpretao dos homgrafos, do reconhecimento das equivalncias semnticas, da
deteco das relaes entre palavras, dente outros (SALTON, 1968, p. 172).
Kay e Sparck Jones (1971) afirmaram que, inicialmente, pensava-se que
uma linguagem poderia ser estudada independente de outra. No entanto, segundo
eles, esta viso mudou radicalmente com o advento da gramtica gerativa nos anos
60, tornando-se claro que a doutrina que insistia que as linguagens no so
relacionadas com outras, no poderia nunca ser a base de uma verdade cientfica
(p. 141).
48
J no final da dcada de 80, Warner (1987) ressaltou que a organizao
dos dados devem incorporar informao em vrios nveis: morfolgico, gramatical,
contextual, assim por diante (p. 79). Alm disso, o autor complementa que, tanto a
entrada como a sada deve ser na forma de sentenas simples, fragmentos de
sentenas ou texto conectado, e que a linguagem pode ser fornecida e retornada
na forma falada ou escrita. Vale ressaltar que, assim como Warner (1987), a maioria
dos captulos de reviso analisados discute a linguagem na sua forma escrita.
Outro tema comum na literatura sobre como gerenciar a ambiguidade
de maneira computacionalmente eficiente e psicologicamente plausvel. Segundo
Warner (1987), de uma maneira geral, todo documento pertence a algum assunto, e
cada assunto tem sua prpria linguagem especializada. Segundo Warner (1987), as
principais preocupaes na representao de conhecimento so em como identificar
o que deve ser representado. Warner (1987) complementa apresentando o ponto de
vista de diversos autores na rea, comeando por Winograd (1981 apud Warner,
1987) que considera que:
(...) sistemas em linguagem natural devem representar fatos sobre
estruturas lingusticas, sobre a relao dessas estruturas com o mundo e
sobre estruturas cognitivas de pessoas, assim como a necessidade de tratar
as aes seguindo a noo de que as pessoas esto inseridas num padro
de interao (...) (WINOGRAD, 1981 apud WARNER, 1987, p. 81)
Warner (1987) cita Harris (1984 apud Warner, 1987) que ressalta no ser
suficiente representar o conhecimento somente com estruturas estticas, uma vez
que a representao de conhecimento requer que uma estrutura interna de
significados seja construda. J Weischedel (1986 apud Warner, 1987) apresenta,
segundo Warner (1987), uma viso mais ampla, classificando o conhecimento
necessrio por um sistema em alguns componentes: morfolgico e fontico,
sinttico, semntico e pragmtico. Alm disso, Weischedel destacou algumas
preocupaes, tais como (...) quanto e quais tipos de conhecimento precisam ser
explorados para que certas construes sejam entendidas, e em que momento no
processo o conhecimento deve ser explorado (WEISCHEDEL, 1986 apud
WARNER, 1987, p. 81).
Segundo Warner (1987), os mecanismos formais e as estruturas para
representao de conhecimento so cobertos em inmeros trabalhos. Dentre eles,
Harris (1984 apud Warner, 1987) com uma viso geral do assunto, Cullingford (1986
apud Warner, 1987) que considera a estrutura de conhecimento como sendo uma
49
amlgama de dependncias conceituais, algoritmos de senso-comum e preferncias
semnticas, Barr e Feigenbaum (1981 apud Warner, 1987) que dividem a
representao de conhecimento em representao procedural e declarativa, e
finalmente Grishman (1986 apud Warner, 1987) que apresenta uma viso das
principais estruturas e formalismos para representao sinttica e semntica de
conhecimento (WARNER, 1987, p. 82).
Warner (1987) finaliza suas consideraes sobre representao de
conhecimento destacando que sistemas sofisticados de linguagem natural
necessitam de grandes bases de conhecimento. Alm disso, ele cita o trabalho de
Hobbs (1984 apud Warner, 1987), que apresenta princpios nos quais uma base de
conhecimento deve ser construda, e o de Frey et al. (1983 apud Warner, 1987) que
relata tcnicas de automao do processo de construo dessas bases (WARNER,
1987, p. 82).

3.3. Teorias lingusticas

Nesta seo procurou-se identificar as tcnicas e os mtodos relatados
pelos autores dos captulos de reviso do ARIST para compor a terceira categoria do
instrumento de seleo: tcnicas e mtodos. Os autores dos primeiros captulos de
reviso do ARIST apresentaram as discusses acerca da teoria lingustica em dois
momentos distintos: desenvolvimentos envolvendo teoria sinttica e os envolvendo
semntica. No entanto, o limiar que determina a fronteira entre as duas teorias se
tornou tnue a medida que a rea foi se desenvolvendo, como ser observado nos
enunciados apresentados a seguir. Diante disso, neste captulo procurou-se manter
a mesma estrutura adotada inicialmente (sees distintas para as teorias sinttica e
semntica), mas no instrumento de seleo criado, optou-se por criar uma categoria
genrica com Tcnicas e Mtodos.
Os primeiros captulos de reviso analisados (SIMMONS, 1966;
BOBROW et al., 1967) deram um enfoque mais tericos aos seus captulos e
portanto discutiram explicitamente as teorias lingusticas da poca. Simmons (1966)
apresentou a lingustica computacional como sendo subdividida em teoria lingustica
(onde aspectos de sintaxe foram discutidos), teoria semntica e psicolingustica.
Segundo o autor, o progresso nas pesquisas em processamento da linguagem
50
natural depende dos desenvolvimentos tanto na teoria lingustica como na semntica
(SIMMONS,1966). Bobrow et al. (1967) dividiram o artigo em teoria sinttica (com os
mais significativos desenvolvimentos tericos e descritivos em sintaxe), e em teoria
semntica (com as principais teorias propostas na literatura em 1966).
J no artigo de reviso de 1968, Salton, por dar um enfoque mais prtico,
juntou as duas teorias em uma nica seo Teoria Sinttica e Semntica da
Linguagem, onde tentou mostrar meios automatizados para realizar as duas
anlises. Em Montgomery (1969), a autora iniciou afirmando que as duas principais
publicaes do ano de 1968 foram em fonologia, ao invs de sintaxe e semntica.
Mas mesmo assim, a autora citou dois desenvolvimentos em teoria lingustica
significantes para processamento de linguagem natural na poca. O primeiro foi o
reconhecimento da importncia da semntica na teoria da gramtica, o que,
segundo a autora, era o caminho para a automao, com a especificao de uma
lgica formal para representao semntica (MONTGOMERY, 1969, p. 152). O outro
desenvolvimento lingustico citado foi a elaborao da noo de modelo de
desempenho (performance). No entanto, a autor destaca que, embora uma
explicao completa fosse impossvel, era evidente a importncia de heursticas e
estratgias de considervel valor em projetos automatizados de compreenso
anloga ao humano (MONTGOMERY, 1969, p. 153).
Kay e Sparck Jones (1971) destacaram que a maioria do esforo da
lingustica computacional estava voltada para sintaxe. Em outras palavras, a anlise
sinttica automtica era o tpico mais bem compreendido dentro da lingustica.
Interesses em problemas semnticos, segundo os autores, estavam crescendo e
deveriam se tornar o principal tema de pesquisa em lingustica computacional nos
anos seguintes (p. 149).
Como principais influncias na poca, Walker (1973) destaca a gramtica
gerativa transformacional de Chomsky, a gramtica de string de Harris, a gramtica
sistmica (systemic) de Halliday e a gramtica estratificacional (stratificational) de
Lamb, sendo que estas duas ltimas no haviam sido citadas nos captulos de
reviso anteriores. Walker (1973) conclui que a maior questo como a sintaxe e a
semntica podem ser combinadas. Segundo o autor, trs analisadores tm
apresentado forte influncia (durante os dois anos revisados por ele): analisador de
redes de transio aumentada de Woods (augmented transition network parser)
(WOODS, 1973), o analisador de Kay (chart parser) (KAY, 1967;1973) e o de
51
Winograd (program for natural language understanding) (WINOGRAD, 1971;1972).
J Damerau (1976) iniciou o seu captulo de reviso afirmando que os autores
anteriores enfatizaram os trabalhos em lingustica terica, mas a influncia da
lingustica no processamento de linguagem estava tendo pequena evidncia, e que
as principais inspiraes advinham de trabalhos em IA e a psicologia cognitiva (p.
108).
Becker (1981) no discutiu explicitamente as teorias lingusticas cobertas
pelos outros autores, e justifica afirmando que desde o ltimo captulo do ARIST de
Damerau (1976), a rea de processamento automtico da linguagem ter sofrido
mudanas influenciadas pelos avanos de hardware e software. Vale destacar que a
teoria transformacional de Chomsky foi intensamente citada e discutida nos
primeiros captulos de reviso, o que no foi observado a partir da dcada de 80.
Segundo Warner (1987), uma questo muito debatida e ainda no
resolvida em processamento de linguagem natural envolve as regras usadas pela
sintaxe e pela semntica no processo de anlise (parsing). O autor complementa
dizendo que alguns pesquisadores tm comeado a explorar outras informaes
como a pragmtica (p. 85). Ainda segundo o autor, a explorao de regras de sintaxe
e semntica tema comum na literatura da poca que discutem a relao entre
memria, significado e sintaxe, e apontam que significado e conhecimento de mundo
so cruciais no processo de compreenso da linguagem, e que a sintaxe deve ser
utilizada no processo de anlise, mas no exclusivamente. Por outro lado, o ator
alega que analisadores de linguagem natural principalmente semnticos (semantic
mainly) ou somente semnticos (semantic only) no so adequados para cobrir
uma grande gama de lnguas usadas pelas pessoas. Warner (1987) complementa
que o processo de compreender linguagem humana consiste em determinar os
significados das especificidades localizadas (utterances), mas que as estruturas
sintticas parecem ser uma parada necessria nesse caminho (p. 85). O prprio
autor destacou que, existe uma tendncia em a anlise baseada em sintaxe
incorporar mais a semntica, apesar da sintaxe ainda manter a sua primazia (e cita
CHARNIAK, 1983 e MELLISH, 1983).

52
3.3.1. Teoria Sinttica

Apesar de ter afirmado que o progresso nas pesquisas em
processamento da linguagem natural dependia dos desenvolvimentos tanto na teoria
sinttica como na semntica, Simmons (1966), autor do primeiro captulo de reviso,
destacou que grande parte dos esforos em processamento de linguagem estava
fortemente embasada em teorias formais da estrutura sinttica (p. 139). Simmons
(1966) citou Garvin (1965) que listou 12 abordagens para gramtica: estado finito
(finite state), estrutura de frase (phrase structure), anlise de dependncia
(dependency analysis), formacional (formational), transformacional
(transformational), estratificacional (stratificational), dentre outras
1
, mas afirmou que
certamente a rea da lingustica mais frtil a teoria transformacional, escola
amplamente desenvolvida por Chomsky e Katz e Postal (na dcada de 60).
Bobrow et al. (1967) consideraram como objetivo dos linguistas ao
escrever uma gramtica, representar os fatos que os falantes nativos da linguagem
conhecem. Este conhecimento tem sido chamado de competncia do falante. Assim,
uma gramtica deve ser pensada como um modelo para a competncia ideal.
Segundo Bobrow et al. (1967), este conhecimento nem sempre bvio, depende do
contexto e da pronncia (ou seja, das regras fonolgicas). Com isto, vrias
regularidades da linguagem podem ser capturadas somente atravs de
representaes abstratas dos fatos superficiais (p. 162). Ainda segundo Bobrow et
al. (1967), um objetivo mais distante dos linguistas encontrar caractersticas de
todas as linguagens, e ento determinar uma especificao mais simples possvel
destes fatos universais, a parte das caractersticas especficas de uma linguagem
em particular. Esta abordagem assume que todas as linguagens apresentam
similaridade. No entanto, geralmente assume-se que no existe um procedimento
para determinar a anlise lingustica mais criteriosa para uma parte de uma dada
linguagem em termos de uma determinada teoria lingustica (p. 162).
Bobrow et al. (1967, p. 163 a 165) citam como contribuies na rea de
sintaxe os trabalhos de Lakoff (1965), Fillmore (1966), Chapin et al. (1965) que
apresentam as regras gramaticais desenvolvidas para o procedimento de anlise
para gramtica transformacional MITRE.

1
Alm de outras gramticas, tais como word-paradigm, item-and-process, item-and-arrangement, immediate constituent,
tagmemic and glossematic.
53
Salton (1968) afirmou que, apesar de procedimentos de anlise sinttica
no poderem ser usados para resolver por completo o problema de identificao de
contedo, o conhecimento de propriedades sintticas das palavras importante para
reconhecer certas relaes que existem entre palavras dentro das sentenas, por
exemplo, combinaes de sintagmas nominais, preposicionais, adverbiais, e
agrupamentos simples de sujeito-verbo-objeto (p. 172). Ainda segundo Salton
(1968), a maioria dos sistemas de anlise sinttica automtica baseada em regras
de construo, ou em gramticas, conhecidas como gramticas de estrutura de
frase, na qual uma sentena em linguagem natural considerada como sendo
constituda de um conjunto de frases justapostas e aninhadas. Segundo o autor, uma
gramtica de estrutura de frases normalmente definida por um conjunto de regras
de reescrita. A derivao de uma dada sentena produzida por uma gramtica de
estrutura de frase especificada pela citao das regras de reescrita, usadas na sua
gerao, assim como a ordem na qual as regras foram aplicadas. A derivao de
uma sentena numa dada gramtica pode se representada por uma rvore chamada
de marcador de frase ou descrio estrutural (p. 172).
No entanto, Salton (1968) alertou que as gramticas de estrutura de
frases sofrem de vrias desvantagens j conhecidas, que diminuem o potencial do
seu uso em sistemas de anlise automtica de contedo: no existem mtodos que
permitem escolher a regra correta quando existem vrias derivaes possveis a
serem aplicadas a uma dada sentena; e alguns resultados da anlise, embora
gramaticalmente corretos, podem ser semanticamente inaceitveis (p. 173). Outro
inconveniente da gramtica de estrutura de frases o fato de refletir somente a
estrutura de superfcie de cada sentena, usada na representao fontica, mas no
necessariamente para a interpretao semntica (p. 173.).
Segundo Kay e Sparck Jones (1971), a maioria dos linguistas acredita que
uma gramtica deve no somente prover um significado para distinguir sentenas de
no-sentenas (p. 143). Uma gramtica adequada para uma linguagem deve
mostrar as partes de uma sentena e deve classificar os tipos de relaes que
podem ser realizadas entre estas partes, assim como a influncia do significado
como um todo (propsito principal da gramtica) (p. 144). Os autores destacaram
que Chomsky considerava que as regras transformacionais, que fazem a mediao
entre estruturas profundas e de superfcie, no deveriam ter efeito de significado.
Assim, os componentes semnticos da gramtica precisam ser aplicados somente
54
estrutura profunda (p. 144). Ainda segundo os autores, apesar de vrios argumentos
favorveis e contrrios natureza da preservao de significado das regras
transformacionais, evidncias claras para um julgamento final ainda no esto
disponveis (p. 145). Outro problema lgico que tem sido tema de discusso so os
chamados quantificadores sintticos: negao, conjunes, etc... (p. 145). Os
autores afirmam que a relao entre linguagem natural e lgica de fundamental
importncia sempre que qualquer material textual precisar ser tratado
mecanicamente (p. 145).
Kay e Sparck Jones (1971) destacam que alguns semanticistas
generatistas advertem que uma gramtica transformacional no deve conter um
componente semntico separado do componente sinttico, mas as regras
transformacionais devem mediar diretamente a relao entre as representaes
semnticas e as estruturas sintticas de superfcie. E complementam que a noo
de estrutura profunda, distinta da estrutura semntica, no tem justificativa
satisfatria. Um segundo grupo de gramticos transformacionais, liderados por
Fillmore (1968), acredita que grande parte da nossa fala, principalmente os verbos,
comporta-se como funes, que recebem um conjunto de argumentos de tipos
especficos e podem ser nulos (p. 146). E nesta direo, segundo os autores, a
gramtica de casos de Fillmore tenta elucidar que a correlao entre marcadores
gramaticais em estruturas de superfcie e os casos ou tipos de argumentos da
estrutura profunda so algumas vezes complexas (p. 146). O apelo da gramtica de
casos para linguistas computacionais no difcil de entender, porque funes com
argumentos podem ser facilmente modeladas com o clculo de predicados. Em
outras palavras, a gramtica de casos prov um conjunto de formas cannicas para
sentenas que so facilmente acomodadas num formalismo bem conhecido.

3.3.2. Teoria Semntica

Ao apresentar a teoria semntica, Simmons (1966) cita: a teoria de Katz-
Fodor (1963), complementada por Katz e Postal (1964); a teoria de classificao e
anlise semntica desenvolvida pelo Cambridge Language Research Unit (CLRU)
(SPARCK JONES, 1964) e a teoria de memria semntica de Quillian (1966) (p.
141). Segundo Simmons (1966), a teoria KF de Katz-Fodor assume que um
componente semntico parte integral da descrio lingustica; e que compreende
55
vrias partes: um dicionrio, o qual prov o significado de cada palavra ou entrada
lxica da linguagem; um conjunto de regras de projeo, que prov meios de
interpretar os significados de cada ocorrncia de entrada lexical da linguagem; e
outro conjunto de regras de projeo para prover meios de interpretar cada string
produzida pela gramtica (p. 141). Segundo Simmons (1966), grande parte da teoria
concentra-se no desenvolvimento de uma forma padronizada para o contedo das
entradas lexicais. Esta forma inclui a palavra de entrada e um marcador sinttico,
tais como nome, verbo, etc., seguido de um marcador semntico, como animal,
humano, macho, etc., seguido ainda por um diferenciador opcional para definio do
sentido, e finalmente uma restrio de seleo (p. 142). Apesar da teoria semntica
KF ter clareado alguns aspectos da estrutura transformacional, alguns autores
acham prematura esta tentativa de formalizao diante de uma super simplificao
(p. 142).
Simmons (1966) destaca ainda que, Sparck Jones (1965) em sua
monografia Synonomy and Semantic Classification desenvolveu um mtodo para
definir o uso sinonmico (sinnimos) das palavras e classific-las em grupos no
thesaurus. Este procedimento essencial para selecionar uma sentena
(normalmente um exemplo de uso contido no dicionrio de definies) e para
substituir palavras sem alterao do significado (p. 143). Segundo Simmons (1966),
a partir do momento em que as palavras de uma lista puderem ser trocadas entre si,
significa que elas devem conter um elemento comum de significado. Assim, uma
linha uma lista de palavras que compartilham um uso comum, e so obtidas por
um mtodo de julgamento humano (p. 143). Estas linhas resultantes podem ser
agrupadas para formar um thesaurus, baseando-se nas palavras que as linhas
possuem em comum. Uma abordagem possvel a estatstica usada na teoria
CLRU de agrupamento (NEEDHAM, 1965). Segundo Simmons (1966), o principal
problema ainda no resolvido das pesquisas de classificao utilizar a abordagem
estatstica pra classificar no apenas 500 e sim 50 mil ou 150 mil linhas (p. 143).
Aps obter a classificao, a teoria CLRU prope separar as palavras em contextos
apropriados usando, ou a medida de distncia semntica entre elas na sentena, ou
usando padres de mensagem (message forms), que mostram as combinaes
permitidas de classes semnticas (thesaurus). A distncia semntica obtida
encontrando-se o caminho de uma palavra na sentena at outra palavra,
examinando linhas associadas com cada palavra para encontrar palavras em
56
comum. Duas palavras de uma sentena que so encontradas em uma mesma linha
exemplificam a menor distncia em comum (por exemplo, 0). Se no for o caso, mas
existir uma terceira linha que contenha uma palavra em comum com cada uma das
linhas anteriores, a distncia a mais longa possvel (por exemplo, 1). Desta
maneira, um caminho de distncia geralmente pode ser encontrado em qualquer par
de palavras (p. 143). Segundo Simmons (1966), os padres de mensagem so
estruturas de significado essenciais que so construdas a partir de classes
semnticas. Por exemplo, a sentena O livro vermelho daria um padro de
mensagem objeto cor. Este padro seria obtido para selecionar o senso de objeto
e cor das palavras livro e vermelho. (p. 144).
Segundo Simmons (1966), uma abordagem emprica semelhante para
anlise semntica a memria semntica de Quillian (1966). Nesta abordagem,
definies do dicionrio so codificadas manualmente (hand-coded) em um formato
adequado para computador, mantendo informao de classe sinttica e as relaes
de dependncia de palavras em cada definio. Cada uso de uma palavra
associada a uma definio particular para manter sua identidade (p. 144). Segundo o
autor, este modelo de memria semntica tem um componente sinttico e
procedimentos bem definidos para seus contedos definicionais (p. 145).
No captulo de reviso seguinte, Bobrow et al. (1967) destacam que
Simmons sugeriu que existem vrios fragmentos principais de uma teoria semntica
compreensiva, e que estes fragmentos (Katz, Fodor e Postal do CLRU Cambridge
Language Research Unit) devem se unir para formar uma teoria semntica
harmoniosa. Segundo os autores, o fato que no ano de 66, inmeras crticas foram
feitas especialmente ao grupo de Katz. Bobrow et al. (1967) destacam que outra
abordagem que apareceu nesta mesma poca foi a de Weinreich e Quillian, ambos
mostrando o por qu deles acharem que Katz estava errado. Katz em (1966)
replicou as crticas, e a discusso entre eles foi apresentada por Bobrow et al. (1967)
nas pginas 166 e 167, ao relatar que eles acusavam Katz e seus co-autores de
simplificarem muito a sua teoria semntica. O grupo de Katz (KFP) assume que a
informao semntica armazenada no lxico mantida na forma de rvores simples
com arestas (links) sem rtulos e os nodos com dois tipos de rtulos (marcador ou
diferenciador). Alm disso, o grupo KFP afirmou que o resultado final do componente
semntico de uma linguagem uma informao curta e simples, como por exemplo,
um nico grupo de propriedades desordenadas para cada sentena (BOBROW et
57
al., 1967, p.166). Segundo Bobrow et al. (1967), Quillian prope que a informao
semntica seja representada por estruturas recursivas (grafos) e por configuraes
complexas, construdas a partir de diferentes tipos de links, cuja vantagem seria a
possibilidade de se usar o computador (p. 168).
Bobrow et al. (1967) afirmam que existem duas tcnicas principais para a
representao das estruturas de informao semntica associada a linguagem: a
primeira ver esta informao como sendo a gerada por um conjunto de regras
recursivas, tais como uma gramtica ou um programa de computador; e a segunda
ver esta informao como um tipo de rede com links associados (p. 169).
Em seu captulo de reviso, Salton (1968) alerta para o fato de no
existirem mtodos de anlise sinttica disponveis na poca para gerar uma nica
interpretao semntica para cada sentena bem-formada em ingls. Segundo ele,
certos agrupamentos de palavras (frases) podem ser isolados com as fronteiras de
sentenas individuais, mas as relaes entre componentes de frase e entre frases
individuais permanecem amplamente desconhecidas. Salton (1968) considera que,
para propsitos prticos, necessrio contar com a gramtica de estrutura de frase
para anlise de entradas em linguagem natural, preferivelmente com a mais refinada
gramtica transformacional, apesar da primeira (gramtica de estrutura de frase)
ainda ser indefinida em partes, e ser custosa para se implementar (p. 176). E
finaliza:
(...) mesmo se for assumido que anlises absurdas podem, de alguma
maneira, ser descartadas, e que gramticas (transformacionais)
implementadas atribuiriam as mesmas anlises a vrias estruturas
derivadas, ainda no existiria soluo para o problema de escolher quais os
significados apropriados para as palavras que normalmente podem ter
diferentes (at nos mesmos contextos) (SALTON, 1968, p. 176).
Segundo Salton (1968), vrios modelos de anlise semntica tm sido
propostos, baseados em dicionrios de entradas com marcadores semnticos
apropriados, e em uma gramtica transformacional para o reconhecimento da
estrutura sinttica (p. 176).

3.3.3. Gramtica Transformacional

Dentre todos os tipos de gramtica, a que sem dvida influenciou os
trabalhos da rea de processamento de linguagem natural foi a gramtica gerativa
de Chomsky. Conforme mencionado anteriormente, esta teoria foi enfaticamente
58
discutida e apresentada nos dois primeiros captulos de reviso, e justamente por
esta razo, Simmons (1966) e Bobrow et al. (1967) sero usados como as principais
referncias nesta seo. Os demais artigos apresentaram uma discusso sobre a
teoria transformacional sem defini-la com detalhes.
O primeiro captulo de reviso a descrever detalhadamente a estrutura da
gramtica transformacional (ou gerativa) de Chomsky foi o de 1967, enquanto que
Salton (1968) apresentou uma descrio simplificada, Montgomery (1969) voltou a
descrev-la detalhadamente, e os demais captulos de reviso no privilegiaram tal
teoria.
Segundo Simmons (1966), Chomsky, em seu livro Aspects of the Theory
of Syntax, revisou vrios aspectos da teoria de formalizao, onde afirmou que uma
gramtica estruturada em frases (phrase structure grammar) suficiente somente
para gerar as sequncias (strings) essenciais considerando-se a complexidade das
sentenas em ingls. Segundo o autor, usando operadores para transformar e
combinar estes ncleos (kernels) seria possvel produzir uma variedade de
estruturas de sentenas complexas (p. 140). Segundo Simmons (1966), esta teoria
voltada principalmente para a capacidade gerativa da gramtica. Ou seja, dado uma
gramtica e um ponto de partida, a teoria permite, num primeiro momento, a gerao
de estruturas profundas de sentenas, a partir de um sistema de gerao de
estruturas de frases. E num segundo momento, permite a combinao destas em
estruturas mais complicadas (chamadas de estruturas de superfcie) e em outras
sentenas pelo uso de transformaes opcionais, tais como aquelas que produzem
forma ativa e passiva da base, uma negao, combinao, adio ou remoo de
termos. Simmons (1966) destacou que estas transformaes so sempre aplicadas
a estruturas sintticas completas (ou seja, a rvores) e no em ns terminais (p.
140). Simmons (1966) destacou que revises da teoria transformacional resultaram
em formalizaes mais concisas e mais genricas das estruturas sintticas (p. 140).
Bobrow et al. (1967) consideraram como base (frameworks) lingustica
dos trabalhos em processamento de linguagem, a teoria de Chomsky (e outros)
introduzida em Syntactic Structures e elaborada em Aspects of the Theory of
Syntaxe sendo que este ltimo foi amplamente citado nos captulos de reviso do
ARIST.
Segundo Salton (1968), a gramtica transformacional leva em
considerao no somente a estrutura superficial como tambm a estrutura profunda
59
de uma sentena, visto que as estruturas profundas tentam considerar aspectos
semnticos da interpretao da sentena (p. 174).
Segundo os autores dos primeiros captulos de reviso, a gramtica
transformacional consiste de trs componentes principais: o sinttico, o semntico e
o fonolgico, detalhados a seguir. O componente sinttico formado por um sub-
componente base, um sub-componente transformacional e um lxico. Segundo
Bobrow et al. (1967), o componente base, por meio de substituies lxicas, produz
estruturas para representar todos os relacionamentos semnticos possveis. Salton
(1968) detalha afirmando que componente base gera para cada sentena um
conjunto de marcadores de frases generalizados, que consiste de uma string
terminal com uma descrio do tipo de estrutura. Em outras palavras, o componente
base consiste de um componente categorial, ou seja, um sistema de regras de
escrita que gera um conjunto de strings bsicas com suas descries estruturais
associadas ou marcadores de frase (MONTGOMERY, 1969, p. 147).
Segundo Montgomery (1969), os componentes semnticos e fonolgicos
so puramente interpretativos. Seus objetivos so correlacionar representaes
semnticas e fonolgicas com estruturas geradas pelo componente sinttico (p.
147). Assim, dificuldades com inseres lexicais, assim como as representaes de
estruturas profundas tm levado alguns discpulos de Chomsky a mudar a noo da
natureza gerativa do componente sinttico, sustentando o componente semntico
como elemento criativo e o sinttico como interpretativo (p. 148). Ainda segundo
Montgomery (1969), apesar da discusso acerca do carter gerativo ou interpretativo
dos componentes sintticos e semnticos, a questo essencial se postulados
universais como os propostos por Chomsky (1966), Katz e Fodor (1969) e Katz e
Postal (1969) so de fato suficientemente universais para lidar com as
caractersticas em comum de todas as linguagens naturais. Montgomery (1969)
conclui que um sentimento geral, especialmente considerando a noo de estrutura
profunda, que eles no so (p. 148).

3.3.4. Processo de anlise (parsing)

Nos primeiros captulos de reviso do ARIST observou-se uma
predominncia de analisadores (parsers) com componentes sintticos. Salton (1968)
afirmou que enquanto procedimentos de anlise sinttica no podiam ser usados
60
para resolver por completo o problema de identificao de contedo, o conhecimento
de propriedades sintticas das palavras era importante para reconhecer certas
relaes que existem entre palavras dentro das sentenas, por exemplo,
combinaes de sintagmas nominais, preposicionais, adverbiais e agrupamentos
simples de sujeito-verbo-objeto (p. 172).
No entanto, no incio da dcada de 70, Walker (1973) concluiu que a
maior questo era como a sintaxe e a semntica poderiam ser combinadas no
desenvolvimento de analisadores. O mesmo autor citou Sparck Jones e Wilks (1983)
que ressaltava a tendncia em processamento de linguagem natural na direo de
gramticas de estrutura de frase e analisadores determinsticos, alm de uma maior
integrao de sintaxe e semntica.
Damerau (1976), em seu captulo de reviso, considerou o analisador
(parser) como sendo um dos principais componentes de um sistema de
processamento automtico de linguagem e acredita que este problema foi o primeiro
a ser tratado pela lingustica computacional, mas que continuar sendo um tema
substancial de pesquisas.
Warner (1987) considerou o analisador (parser) como sendo o
componente central do sistema para processamento de linguagem natural, e
apresentou a seguinte definio de Sparck Jones (...) processo computacional que
obtm sentenas individuais ou textos conectados e converte-os para alguma
estrutura de representao til para posterior processamento (p. 83).
O primeiro analisador citado foi o MITRE, apresentado em Simmons
(1966) e em Bobrow et al. (1967), quando os autores afirmaram que para analisar
uma entrada em lngua inglesa por computador, eram necessrios programas de
anlise sinttica, assim como sistema MITRE.
Bobrow et.al. (1967) apresentaram o trabalho de Kuno (1966): um
algoritmo que recebe uma gramtica livre de contexto e converte-a para uma
gramtica em formato padro de um analisador preditivo (predictive). Esta forma
padro argumentada de tal maneira que as rvores produzidas pelo analisador
prov informaes sobre derivaes que seriam encontradas usando a gramtica
livre de contexto original. Este analisador argumentado e preditivo (argumented
predictive) foi comparado com dois outros algoritmos de anlise (parsing): o
algoritmo seletivo top-botton semelhante ao algoritmo de correo de erros (error-
correcting parse algorithm) de Irons (1963) e o algoritmo de Sakai-Cocke (1961).
61
Esta comparao foi feita baseando-se nos critrios de eficincia, complexidade do
programa e tempo de processamento. A concluso da comparao foi que o
analisador argumentado e preditivo comparvel, se no superior, mas que a
escolha por um ou por outro depende muito mais da aplicao em questo (p. 174).
Outro analisador citado por Bobrow et al. (1967) foi o trabalho de Sager, derivado de
Harris (1966), no qual a sada da anlise uma string que representa o esqueleto da
sentena.
Walker (1973) e Damerau (1976) escreveram, sem dvida, os dois
captulos que mais privilegiaram os analisadores (parser). Walker inclusive afirmou
que todas as citaes apresentadas foram organizadas no formato de um catlogo,
tanto para ilustrar a variedade, quanto pelo fato que a sua complexidade no
permitiria que qualquer agrupamento fosse feito. Em seu captulo de reviso, Walker
cita vrios analisadores, mas conclui que trs deles tiveram grande influncia
durante os dois anos em que escreveu: o analisador de Woods, o analisador de Kay
e de Winograd.
Walker (1973) citou tambm o sistema CUE de Loveman et al. (1973),
que fazia uso de anlise sinttica baseada na teoria lingustica de Harris para
processar contedo de texto cientfico. Alm disso, Walker (1973) citou Sager e
Grishman por descreverem um analisador que no decompe sentenas em strings.
Sager mostra como gramticas para linguagens tcnicas podem ser desenvolvidas e
aplicadas juntamente com analisadores para analisar textos cientficos.
Dentre as referncias feitas por Damerau (1976), est a ATN de Woods
(1970), considerada por ele um exemplo de sucesso. Damerau (1976) apresentou
alguns tipos de analisadores, destacando as dificuldades encontradas em cada
abordagem. Segundo o autor, o tipo mais simples de anlise deve meramente
examinar quais palavras ocorrem na sentena. No entanto, cada palavra
associada a uma entrada lexical complexa que identifica outras palavras ou
conceitos que podem ser esperadas, dado que uma palavra particular ocorreu (p.
119).
Outro tipo conceitualmente simples de anlise o casamento de padres
(pattern matching), onde uma palavra comparada com strings de entrada e o
casamento acontece se tanto a palavra, como o padro, foram encontrados na
entrada (p. 119.). Outro sistema ainda considerado simples por Damerau (1976)
identificar quando certas palavras so distintas por terem significado estrutural, ou
62
seja, usados principalmente para relacionar uma palavra ou conceito a outro (p.
119). Damerau (1976) apresentou ainda alguns problemas que aumentam a
complexidade destes casamentos, alm de afirmar que sistemas destes tipos devem
ser tolerantes a erros cometidos pelo usurio ao definir entradas no previstas pelo
sistema (p. 120).
Damerau (1976) tambm citou Harris com sua proposta de anlise de
string. Este parser tem uma parte livre de contexto e outra parte com restries,
sendo esta ltima a que prov um tipo de testes de compatibilidade para remoo de
ambiguidade, o que difcil ou impossvel em gramticas livre de contexto (p. 120).
Damerau (1976) cita outro analisador (descrito por Medema) composto
por uma sequncia de conversores que transformam uma rvore em outra, chamada
de rvore de deciso flexvel (flexible decision tree) que aceita uma deciso at um
determinado ponto, onde alguma outra mudana (transformao) remove a
ambiguidade. A noo de wait-and-see descrita por Marcus semelhante, onde as
regras so invocadas pelo casamento de padres, mas tambm por prioridade.
Marcus assume que a estrutura da linguagem natural tem sempre informao
suficiente para decidir qual o prximo passo a ser seguido pelo analisador (p. 121).
Outra abordagem citada por Damerau (1976) foi Heidorn (1975b) que
discute o analisador para gramtica de estrutura de frase argumentada (APSG), o
qual as regras de estrutura de frase so argumentadas por condies arbitrrias e
aes de construo de estrutura, algo como um compilador orientado sintaxe (p.
121). Damerau (1976) concluiu que pesquisas em anlise (parsing) mostram que o
campo de processamento automtico de linguagem natural est migrando da arte
para a tecnologia: as tcnicas computacionais disponveis na poca nos permitem
gastar mais tempo em problemas da linguagem e menos em problemas da cincia
da computao de parsing (p. 123).
Segundo Warner (1987), a questo do determinismo foi proposta por
Marcus (1980) quem reivindica que o seu analisador PARSIFAL faz linguisticamente
generalizaes significantes e psicologicamente exato. A caracterstica chave do
PARSIFAL que no necessrio que nenhuma anlise paralela ou backtracking
seja realizada na sentena e que ela falha somente nos casos de complexidade
psicolgica bvia. Warner (1987) ressalta que embora a realidade psicolgica do
parser determinstico de Marcus tenha sido questionada, determinismo ainda uma
importante questo dentro do processamento de linguagem natural (p. 86). Becker
63
(1981) complementa afirmando que o parser de Marcus nunca faz backtracking por
nunca revisar sua estratgia. No entanto, Becker afirma que esta histria no est
no fim por que vrias sentenas so semanticamente ambguas.
Warner (1987), em seu captulo de reviso, cita Winograd (1983) que
descreve algoritmos de anlise sinttica e enfatiza suas propriedades incluindo
pontos relacionados com: completude da anlise: parcial ou completa; maneira de
atribuir as estruturas profundas ou de superfcie; manipulao de entradas
ambguas: parser paralelo ou backtracking, determinstico; cobertura sinttica:
incluindo fenmenos mais difceis tais como os complexos sintagmas nominais e
conjunes; domnio especfico; dentre outros.
Segundo Warner (1987), o livro organizado por Dowty et al. (1985) aponta
dois problemas tericos dos parsers: a realidade psicolgica de vrios mecanismos
de parsing, verificados por meio de cuidadosos experimentos controlados, e, as
propriedades formais que os parsers devem ter, incluindo quanto de poder
necessrio para descrever adequadamente linguagens humanas e a habilidade dos
parsers de fazer generalizaes lingusticas significantes. Warner (1987) continua
afirmando que outros mecanismos de parsing com forte componente semntico so
discutidos na literatura. Segundo ele, Case frames so utilizados para parser em
Hayes et al. (1985), que discutem o poder e as fraquezas dessa abordagem no seu
parser chamado de Plume. Segundo Warner (1987), case frames tambm so
usados por Shimazu et al. (1983), que descrevem sua implementao em um
analisador semntico da lngua japonesa.
Warner (1987) citou outros pesquisadores que exploraram a utilidade do
determinismo em vrias construes: Milne (1986) mostrou que o parser
determinstico pode facilmente resolver certas classes de ambiguidade lexical,
principalmente no que se refere categoria lexical (part of speech). Kosy (1986)
descreveu como um parser determinstico pode processar conjunes
eficientemente; e Berwick (1983) descreveu uma extenso que aumenta a cobertura
sinttica do formalismo de Marcus. Charniak (1983) introduziu outro parser baseado
no formalismo de Marcus, o qual semigramatical sob o ponto de vista que aceita
sentenas que no seguem a gramtica. Carter e Freiling (1984) descreve uma
pequena implementao de parser chamado PARSER (Deterministic PARSER), que
pretende reduzir a complexidade das gramticas determinsticas.
Warner (1987) ainda dedica uma seo para discutir as dificuldades de se
64
construir parsers para manipular tipos especficos de construo, tidos como sendo
altamente ambguos, tais como sintagmas nominais, construes temporais e
construes envolvendo conjunes, quantificao e anfora. Dentre os autores que
discutem os problemas de interpretao de sintagmas nominais, Warner (1987) cita
Sparck Jones (1985), que argumenta que manipular sintagmas nominais complexos
envolve ampla inferncia de outros tipos de informao, incluindo informao
semntica e conhecimento do mundo. Warner (1987) cita outros problemas para os
parsers, tais como identificao de anforas, quantificao e informaes temporais
(p. 88).

3.4. Aplicaes

Analisando os captulos de reviso focalizados, observou-se que os
autores, alm de apresentarem inmeras aplicaes, discutiam tambm algumas
propriedades relativas ao desenvolvimento de sistemas que manipulavam linguagem
natural, dentre elas a portabilidade, a aplicabilidade, a robustez, a importncia da
componentizao, assim como da reutilizao destes componentes.
Inmeras aplicaes foram apresentadas e discutidas pelos autores dos
captulos de reviso, desde ferramentas voltadas para a prpria rea, como
processadores automticos de tesauros e de gramtica, at ferramentas de
aplicabilidade mais ampla, como, por exemplo, sistemas de traduo automtica e
respondedores automticos. Esta discusso foi apresentada tambm em Bobrow et
al. (1967), onde os sistemas computacionais foram classificados em duas vertentes:
sistemas que manipulam a linguagem provendo ferramentas lingusticas e sistemas
que aceitam questes em linguagem natural e usam algum banco de dados para
respond-la.
Mais uma vez, no existe um limiar ntido entre estas duas supostas
categorias. Acredita-se que ambos os tipos de aplicao so importantes para o
prprio desenvolvimento da rea. Bobrow et al. (1967) afirmaram que:
(...) alguns destes sistemas de perguntas e respostas tm como objetivo
desenvolver uma teoria da linguagem eficiente, ao mesmo tempo que as
ferramentas tericas objetivam permitir que sistemas se comuniquem em
linguagem natural (p. 172).

65
Vale destacar que ao longo dos 40 anos pesquisados, possvel observar
uma mudana no enfoque das aplicaes: inicialmente, era dada maior nfase s
ferramentas lingusticas de processamento sinttico e semntico, e nos ltimos
anos, uma ntida explorao das aplicaes prticas. Possivelmente esta mudana
tenha sido impulsionada pelos avanos de hardware e software assistido nas ltimas
dcadas, alm do interesse crescente de pesquisadores da cincia da computao
pela rea de processamento de linguagem natural.
Simmons (1966) em seu artigo de reviso discutiu que inmeros esforos
estavam sendo feitos no apenas para traduo automtica, mas tambm outras
aplicaes teis de processamento de linguagem natural como anlise de contedo,
indexao automtica, classificao e sumarizao, respondedor automtico
(question answering), anlise de estilo (stylistic analysis), dentre outras. Alm disso,
o autor cita algumas iniciativas de sistemas de anlise sinttica automtica,
evidenciando a importncia do desenvolvimento de ferramentas voltadas para a
prpria rea.
Bobrow et al. (1967) enfatizam as aplicaes de cunho mais terico e
apresentam inmeros projetos que utilizam programas de computadores como
suporte para processamento da linguagem. Dentre os projetos citados pelos autores
encontram-se programas que auxiliam as tarefas gramatical e lexicogrfica (projeto
da IBM), que testam a capacidade gerativa da gramtica transformacional (p. 172),
que realizam anlise sinttica (sistema MITRE), assim como algoritmos que recebem
uma gramtica livre de contexto e converte-a para uma gramtica em formato
padro para um analisador preditivo.
Salton (1968), apesar de ter apresentado pesquisas em processamento
automtico de texto, incluindo sintaxe, semntica e mtodos de anlise estatstica de
linguagem, enfatizou aspectos prticos das aplicaes nas reas de traduo
automtica, recuperao da informao e respondedor automtico. Alm disso,
Salton (1968) discutiu sobre os componentes que compem um processador de
linguagem natural. Esta discusso tambm apresentada por Damerau (1976), ao
afirmar que sistemas de compreenso de linguagem tendem a ser construdos com
componentes similares, e que em alguns casos, um componente pode substituir
outro similar em um outro sistema, com algumas pequenas alteraes (p. 117).
Damerau concluiu que padronizaes deste tipo reduzem naturalmente o esforo da
construo de sistemas, a partir da integrao destes sistemas.
66
Dentre os componentes apresentados em Salton (1968) esto: um
analisador sinttico para identificar as relaes estruturais; um analisador semntico
para transformar a sada sinttica em entidades no ambguas em alguma
linguagem formal; uma estrutura lgica (cognitiva) dos objetos e relaes que
representam os significados das entidades da forma como so percebidas pelos
humanos (normalmente especificadas por um dicionrio semntico); um
procedimento de inferncia para o reconhecimento de estruturas sintticas distintas
com os significados equivalentes; e um sistema de gerao sinttico-semntico para
produzir declaraes em ingls a partir de dadas estruturas formais. Dentre os
componentes citados por Damerau (1976) esto o dicionrio, um componente de
anlise morfolgica e um analisador (parser).
A aplicabilidade dos sistemas PLN discutida por inmeros autores ao
considerarem o processamento de linguagem natural como sendo uma etapa
presente em qualquer sistema de informao. Montgomery (1969) justifica afirmando
que a linguagem, por ser o principal veculo para comunicar informao na
sociedade humana (...), o processamento de dados em linguagem natural (...) a
funo bsica de qualquer sistema de informao (p. 153). A autora complementa
que um sistema de informao pode ser definido de uma maneira bem simples em
termos de elementos chaves e funes bsicas, sendo que todos envolvem
processamento de linguagem (p. 153).
Warner (1987), em seu captulo de reviso discute acerca da portabilidade
e da robustez dos sistemas PLN. Segundo o autor, uma vez que os sistemas
possam operar somente em domnios restritos, um dos grandes problemas como
aplicar as melhores tcnicas de um domnio restrito num novo domnio (p. 90). O
autor destaca inmeras experincias com portabilidade de diversos sistemas
(linguagem) e aponta a preocupao de vrios pesquisadores diante da necessidade
de um projeto modular alcanar a portabilidade. Quanto robustez, o autor afirma
que um sistema robusto deve processar qualquer entrada: parcial e/ou mal formada
(ill-formedness), incluindo metforas e o contexto das sentenas nos textos, e
permitir um dilogo cooperativo entre os participantes. Ele questiona se possvel
construir um sistema de linguagem natural completamente robusto, e em que
medida este eventual sucesso depende de boas prticas de engenharia, e do
conhecimento de processos cognitivos humanos.
O nico autor que chamou a ateno para os vrios nveis em que a
67
linguagem pode ser analisada foi Chowdhury (2003), ao sugerir que para
compreender linguagens naturais importante distinguir entre os seguintes sete
nveis interdependentes, e adiantam que um sistema de processamento de
linguagem natural pode envolver todos ou alguns destes nveis de anlise: nvel
fontico ou fonolgico, que trata da pronncia; nvel morfolgico, que trata das
menores partes das palavras, que carregam um significado, sufixos e prefixos; nvel
lexical, que trata do significado lexical das palavras e das partes de anlises do
discurso; nvel sinttico, que trata da gramtica e da estrutura das sentenas; nvel
semntico, que trata do significado das palavras e das sentenas; nvel do discurso,
que trata da estrutura de tipos diferentes do texto usando estruturas do original e;
nvel pragmtico, que trata do conhecimento que vem do mundo exterior, isto , fora
do contedo do documento.
Conforme mencionado anteriormente, dentre as inmeras aplicaes
apresentadas pelos autores dos captulos de reviso, algumas esto voltadas para o
desenvolvimento da prpria rea de processamento de linguagem natural, enquanto
que outras procuram atender um pblico mais amplo. Sendo assim, nas prximas
sees sero apresentadas as aplicaes voltadas para a prpria rea, seguida das
aplicaes de cunho mais prtico. Sabe-se que estas duas categorias no so
mutuamente exclusivas, no entanto, ariscou-se rascunhar essa separao tanto na
estrutura de tpicos adotadas neste captulo, como no instrumento de seleo
construdo. As aplicaes voltadas para a prpria rea foram includas na categoria
de tcnicas e mtodos, enquanto que as aplicaes prticas foram includas na
categoria Aplicaes.

3.4.1. Aplicaes para a prpria rea de PLN

Dentre as aplicaes apresentadas pelos autores dos captulos de reviso
voltadas para a prpria rea, ou seja, que tm como objetivo o desenvolvimento da
prpria rea, esto os analisadores sintticos e semnticos, os processadores
automticos de dicionrios e gramticas, dentre outras.
Salton (1968) afirma que provavelmente a maioria dos desenvolvimentos
em processamento de linguagem natural noticiados na sua poca apresentava uma
crescente tendncia ao uso online e de tcnicas com suporte de mquinas ao invs
de mtodos completamente automticos para anlise lingustica (p. 180). Grande
68
parte dos trabalhos tem ento sido dedicada gerao e manipulao de dicionrios
e tesauros mecanizados/mecnicos (mechanized dictionaries), e mtodos de anlise
de linguagem usando gramticas online (p. 180).

3.4.1.1. Processamento automtico de tesauro

J na dcada de 60 almejava-se utilizar recursos computacionais de
hardware e de software tanto na construo automtica de dicionrios, tendo em
vista o tempo gasto no processo manual de construo, como no desenvolvimento
de sistemas baseados em dicionrios.
Salton (1968), em seu captulo de reviso, cita inmeros trabalhos que
fazem uso automatizado, ou pelo menos semi-automatizado de dicionrios. Dentre
eles, Galli e Yamada apresentam um dicionrio ingls-ingls usado para classificar
palavras em grupos morfolgicos, como parte de um programa automtico de
controle de vocabulrio (p. 182); Olney et al. tambm se basearam em dicionrios
mecanizados voltados para anlise morfolgica e semntica completa da linguagem
(p. 182). Bachrach e Masterman usaram dicionrios automticos multilingues como
componentes de um sistema de traduo semi-automtico. Segundo Masterman
(1967) o uso de dicionrios automticos, mesmo quando usados semi-
automaticamente, tendem a procurar palavra por palavra e no fazer uma traduo
global (p. 182). Salton (1968) finalizou afirmando que, embora a construo de
dicionrios completamente automtica seja esperada em muitas aplicaes, o que
se tem observado uma variedade de trabalhos que incluem dicionrios preparados
manualmente (p. 182).
Damerau (1976) apresenta inmeros projetos significantes e afirma que
todos os projetos de compreenso de linguagem devem contar com algum tipo de
dicionrio gerado mecanicamente ou no (p. 117).

3.4.1.2. Anlise sinttica

Dentre as aplicaes voltadas para a prpria rea, alguns autores
apontaram para a utilizao do processamento de linguagem natural em anlise
sinttica de modo interativo ou, em outras palavras, processamento interativo (ou
online) de gramtica.
69
Salton (1968) afirma que vrios trabalhos incluram anlise sinttica em
modo interativo, onde as regras so aplicadas uma por uma, e sua aplicao na
derivao de estruturas profundas ou de superfcie para vrias sentenas de entrada
demonstrada. O usurio tem ento a opo de aceitar ou rejeitar certas regras, e
ento refinar a gramtica (p. 183). Segundo Salton (1968), desde que a gramtica
seja suficientemente testada, ela pode ser aplicada a algumas tarefas de
processamento de linguagem gerao de estruturas profundas, e ser usada
posteriormente em respondedores automticos ou em sistemas de recuperao de
dados (p. 183). Ainda segundo Salton (1968), no estado atual das pesquisas
(pequenas abordagens do uso de gramticas online com propsitos restritos),
difcil dizer se este modo online realmente produz ambientes que resultem em uma
simplificao substancial do processo de anlise da linguagem (p. 183).

3.4.2. Aplicaes Prticas

Nesta seo sero apresentadas as aplicaes mais enfatizadas ao longo
dos 40 anos analisados nos captulos de reviso do ARIST, dentre elas, traduo
automtica por mquina, respondedores automticos, gerao automtica de
linguagem, incluindo gerao, sumarizao e compreenso, recuperao de
informao, dentre outras citadas pelos autores tais como, indexao, anlise de
estilo, anlise de contedo, e outras.

3.4.2.1. Traduo automtica

Simmons (1966) inicia o seu artigo de reviso afirmando que traduo
automtica de linguagem era uma aplicao atrativa para computadores, e
complementa que a maioria dos projetos por ele apresentados redireciona seus
esforos para estudos bsicos da estrutura da linguagem, e considera traduo
automtica um objetivo distante de ser alcanado. Apesar disto, Simmons (1966)
destaca inmeros projetos que conseguiram atingir o objetivo de produzir tradues
em sentenas.
Salton (1968) inicia afirmando que trabalhos prticos em traduo
completamente automtica pareciam estar mais ou menos paralisados. Apesar disto,
Salton (1968) destaca o desenvolvimento de alguns estudos tericos, alm de
70
trabalhos de traduo assistida por computador, nos quais sistemas exaustivos de
anlise so trocados pela presena de um humano, e da avaliao da exatido
(accuracy) e da eficincia de vrios sistemas de traduo (p. 190).
Kay e Sparck-Jones (1971) afirmaram que quase toda a pesquisa em
traduo automtica se baseia na hiptese de que qualquer soluo de sucesso
deve se basear em teoria lingustica e que um programa de computador refletir a
estrutura da teoria em sua arquitetura (p. 153).
Ao apresentar sistemas de traduo automtica, Damerau (1976)
considerou dois tipos de sistemas: aqueles que precisam de um retorno (feedback)
humano para produzir sadas corretas, e aqueles que so inseridos em sistemas de
produo. Damerau (1976) complementa que ao mesmo tempo em que pesquisas
em traduo por mquina trazem vantagens (existe um teste com validade natural),
trazem tambm desvantagens inerentes a necessidade de se usar duas linguagens
simultaneamente (p. 133).
Segundo Chowdhury (2003), autor do ltimo captulo de reviso do ARIST
sobre processamento de linguagem natural, com a proliferao da web e das
bibliotecas digitais, a recuperao de informao multilngue transformou-se num
dos principais desafios, onde existem dois conjuntos de questes: (1)
reconhecimento, manipulao e exibio de mltiplas linguagens, permitindo que os
usurios acessem a informao em qualquer linguagem que esteja armazenada; e
(2) busca e recuperao da informao em linguagem cruzada, permitindo que os
usurios especifiquem suas necessidades de informao em sua linguagem
preferida. A traduo do texto, segundo Chowdhury (2003), pode ocorrer em dois
nveis: (1) traduo de um texto completo de uma linguagem para outra, com a
finalidade de buscar e recuperar; e (2) traduo das perguntas de uma linguagem
para uma ou mais linguagens diferentes. Alm disso, Chowdhury (2003) afirmou que
o projeto de sistemas de traduo automtica um trabalho duro, pois requer
seleo cuidadosa de modelos e algoritmos, e que tal problema est longe de ser
resolvido, visto que a linguagem humana uma rea rica e fascinante cujos
tesouros somente comearam a ser explorados (p. 23).
Assim, pode-se observar que traduo automtica foi uma aplicao
discutida praticamente ao longo dos 40 anos, sendo que nos ltimos anos observou-
se uma preocupao na traduo multilngue, principalmente voltada para
recuperao de informao.
71
3.4.2.2. Respondedores automticos

Simmons (1966) inicia alertando que, embora tenha afirmado que um
progresso significativo tem sido feito em pesquisas em respondedores automticos,
deve-se enfatizar que sistemas de perguntas e respostas em linguagem natural
completamente automticos era um objetivo muito distante, alm de depender da
realizao de toda a rea de processamento de linguagem. Apesar disto, Simmons
(1966) cita um outro trabalho de sua autoria (SIMMONS, 1965) contendo 15
sistemas de perguntas e respostas em linguagem natural.
Segundo Salton (1968), existem alguns modelos para respondedores
automticos: Woods, Bobrow e Fraser, todos de 1968. Algumas pginas do seu
artigo de reviso so dedicadas abordagem de Woods para sistemas
respondedores automticos. Segundo ele, tal sistema composto por trs partes:
incluindo um analisador sinttico, o qual gera a estrutura profunda de uma consulta
de entrada; um interpretador semntico, usado para obter o significado da consulta
em termos de certas entidades formais especificadas por uma base de dados; e
finalmente, um recuperador, que casa (combina) as estruturas semnticas obtidas
do interpretador semntico da consulta com as estruturas reconhecidas na base de
dados e constri uma resposta apropriada (p. 177). Segundo Salton (1968), esta
base de dados armazenada no modelo de Woods consiste de: objetos, assim como
funes que mapeiam um conjunto de objetos em outros; relaes, que substituem
alguns verbos e modificadores preposicionais em linguagem natural; e preposies,
que so instncias de relaes especficas entre objetos. A interpretao semntica
ento, efetivamente, uma traduo da estrutura sinttica de uma sentena em uma
expresso em uma linguagem de consulta formal, representando o significado da
sentena em termo de predicados, funes, e comandos entendidos pelo sistema. O
significado de cada predicado, funo ou comando definido por uma subrotina
programada que gera um valor verdade para um dado predicado, ou computa um
valor funcional para os argumentos que podem ser apresentados em uma dada
expresso (p. 177). Segundo Salton (1968), no sistema de Woods, a interpretao
semntica especificada por um conjunto de regras de substituio, semelhante s
regras de reescritas usadas na gramtica de estrutura de frase.
Segundo Salton (1968), o respondedor de Woods era o mais avanado
trabalho na rea e demonstrava que a complexidade das regras e o tamanho da
72
gramtica realmente precisam lidar com consultas em um ambiente restrito. No
entanto, Salton (1968) finaliza questionando se tais sistemas podem ser adaptados
para outras bases de dados e para diferentes ambientes (p. 179). Salton (1968)
destaca ainda que inmeros pesquisadores, que trabalham com sistemas de
recuperao de documentos e no com respondedores automticos, acreditam que
uma interpretao semntica completa de cada entrada de texto e requisies de
busca necessria se for para o sistema operar eficazmente. Outros, entretanto,
acreditam que uma nica interpretao de texto no desejvel em recuperao de
documentos (p. 180).
Becker (1981) afirma que as capacidades dos atuais sistemas de
recuperao bibliogrfica e de processamento de palavras so muito diferentes das
capacidades dos respondedores automticos. Para grande parte, os sistemas de
processamento de palavras e recuperao de informao no usam representao
de significado por computador, no objetivam o significado, no checam gramticas,
no identificam outros erros alm daqueles de spelling invlido.

3.4.2.3. Anlise de estilo

Simmons (1966) cita Sedelow (1966) que define o subcampo do estilismo
computacional (stylistics computational), o qual inclui indexao, frequency counting
e concordncia. O subcampo tambm inclui tcnicas para identificar palavras por
critrios semnticos e sintticos. Montgomery (1969) descreve projetos de
processamento de linguagem baseados em heurstica como o citado por Garvin
(1968). Complementa que na rea de humanas, a maioria das aplicaes voltada
para anlise de estilo, ou seja, distinguir autores e falantes a partir da identificao
de padres. Kay e Sparck Jones (1971) destacam a rea de anlise de estilo e
apontam para a tendncia de escolha de palavras normalmente feitas pelo autor de
um documento (palavras que fazem parte do seu vocabulrio)(p. 157). Haas (1996)
finaliza afirmando que abordagem estatstica tambm tem sido usada para produzir
evidncias de estilo para determinar relacionamentos entre autores. Segundo
Chowdhury (2003), os mtodos estatsticos so usados em PLN para inmeras
finalidades, por exemplo, para remoo de ambiguidade de palavra (word
disambiguation), para gerar gramticas e parsers, para determinar evidncias de
estilos dos autores e falantes, assim por diante.
73
3.4.2.4. Gerao automtica de linguagem

Ao analisar os captulos de reviso do ARIST utilizados, foi possvel
observar que o tpico sobre gerao automtica de linguagem tem sido discutido
sob vrios focos, alm de serem relacionados a outras aplicaes. Salton (1968)
destacou que gerao automtica de frases, com o propsito de identificao de
contedo, usa principalmente critrios estatsticos para selecionar as unidades de
contedo, incluindo estatsticas de co-ocorrncia para vrios componentes da frase,
assim como frequncia individual relativa e absoluta dos componentes. O modelo
estatstico ento complementado por informaes gramaticais mnimas consistindo
de coeficientes de probabilidade para as classes sintticas de cada componente da
frase (p. 187). A tcnica de escolha destas unidades interessante e leva a buscas
com alta preciso. Entretanto, somente 25% a 45% dos pares de palavras vlidos
so realmente selecionados, levando a uma baixa recuperao (p. 187).
Segundo Haas (1996), a gerao automtica de linguagem incorpora
vrias questes importantes do PLN. Primeiro, o sistema deve determinar a resposta
apropriada para a pergunta (considerando a idade da audincia, o nvel de
conhecimento e o propsito do texto), e como esta resposta est representada. As
aplicaes de gerao automtica de linguagem podem ser divididas em: gerao
de texto (text generation), sumarizao (text sumarization) e compreenso de texto
(text understanding).
Segundo Warner (1987), gerao de texto uma outra rea de pesquisa
que trata as sentenas como unidades lingusticas conectadas, ao invs de
elementos discretos. Warner (1987) destaca as reas nas quais a gerao de
linguagem importante, tais como respondedores automticos, comunicao com
sistemas especialistas, e sumarizao de texto, considerada uma aplicao no-
interativa de gerao de texto (p. 94).

3.4.2.4.1. Sumarizao

Segundo Haas (1996), gerao automtica de resumos de artigos ou de
outros tipos de documentos compartilha caractersticas com a gerao de texto.
Haas (1996) destaca que na rea de sumarizao possvel distinguir extratos, que
podem ser criados por sentenas selecionadas do documento original, de sumrio,
74
que envolve a criao de novas sentenas baseadas na informao contida no
documento original. Estes mtodos de seleo utilizam frequncia de termos,
palavras-chave do ttulo, a localizao das sentenas no documento, as frases que
indicam pontos importantes alm de outros tipos de evidncias. Haas (1996) finaliza
afirmando que avaliar um sumrio to difcil quanto outro tipo de gerao de texto.
Segundo Chowdhury (2003), abstrao e sumarizao automtica de
texto tm sido usadas de maneira indistinta, com o objetivo de gerar resumos
(abstract) ou sumrios (summaries) dos textos. Esta rea de pesquisa de PLN est
se tornando mais comum na web e em ambientes de bibliotecas digitais. Em
sistemas simples de abstrao ou de sumarizao, as partes do texto - sentenas ou
pargrafos - so selecionadas automaticamente baseando-se em critrios
lingusticos e/ou estatsticos para produzir o resumo ou o sumrio. Interesses
recentes em sumarizao ou abstrao automtica de texto so refletidos no
crescente nmero de publicaes que aparecem em inmeras conferncias
internacionais e workshops incluindo a ACL, a ACM, a AAAI, o SIGIR, e vrios
captulos nacionais e regionais das associaes. Diversas tcnicas so usadas para
a sumarizao ou abstrao automtica de texto (p. 9). A maioria dos sistemas de
sumarizao automtica de texto trabalha de maneira satisfatria dentro de uma
coleo pequena de texto ou dentro de um domnio restrito. Construir sistemas
robustos e independentes de domnio uma tarefa complexa e que requer muito
recurso computacional. Entretanto, experimentos recentes quanto utilidade da
extrao automtica de palavras-chaves em textos completos, no processo real de
sumarizao mostraram uma variao considervel entre assuntos, quando
comparados sumarizao humana, e que somente 37% dos assuntos encontrou
as palavras-chaves e frases teis para escrever seus sumrios.

3.4.2.5. Recuperao de Informao

Para finalizar as discusses inerentes s aplicaes apresentadas pelos
autores dos captulos de reviso, procurou-se destacar a utilizao de
processamento de linguagem natural na recuperao de informao, que tem
caractersticas diferentes daquele voltado para traduo automtica ou para
sistemas respondedores automticos, uma vez que o nvel de corretude exigido
diferenciado.
75
Salton (1968) afirma ser possvel fazer uso de uma anlise mais
simplificada pra extrair o conhecimento de documentos textuais rapidamente e com
baixo custo. Assim, no se preocupa em fazer uma completa desambiguao, ao
invs disso, a tendncia fazer o que facilmente feito a mo, e verificar como isto
pode ser realmente aplicado a tcnicas de processamento de texto (p. 183). Salton
(1968) complementa que mtodos simplificados de anlise sinttica baseados
principalmente na presena ou na ausncia de um tipo de palavra tm sido usados
com diferentes propsitos. Segundo ele, estes so atrativos porque necessitam de
um aparato relativamente pequeno. No entanto, para o propsito de recuperao de
informao, tais mtodos so considerados deficientes, uma vez que representao
de documentos usando frases sintticas completas, ao invs de identificadores
simples tais como termos nicos, tende a especificar melhor o contedo do
documento. Alm disso, a gerao de falsas frases pode tambm diminuir a preciso
por ajudar a retornar itens que no so de fato desejados (p. 185). Salton (1968) cita
inmeros projetos que parecem confirmar os resultados que indicam que frases
sintticas derivadas de sentenas dos documentos representam uma ferramenta de
indexao que normalmente muito especfica para propsitos de recuperao de
documentos (p. 185). Ainda segundo o autor, um nmero de estudos havia sido
iniciado com o propsito de melhorar o desempenho da recuperao alcanada com
mtodos de casamento de frases sintticas, usando procedimentos mais refinados
de anlise sinttica, ao invs de substituir a sintaxe por processos estatsticos
alternativos (p. 186). Outro esforo citado por Salton (1968) o trabalho de Sager
(1966): um sistema de recuperao baseado em casamento de frases contidas nos
documentos e nas requisies de consultas. Durante a anlise, tambm usado um
dicionrio semntico contendo sinnimos, uma variedade de relaes de termos,
definies, etc. Salton (1968) lamenta que, como o sistema no foi implementado,
no era possvel avaliar a sua eficincia. Complementa que a preciso parece ser
alta porque poucas frases erradas so normalmente geradas. Por outro lado, a
revocao (recall) deve ser baixa comparando-se com os obtidos por outros
mtodos menos poderosos (p. 187).
Kay e Sparck Jones (1971) afirmam que, alm dos sistemas
respondedores automticos fazerem parte do campo de recuperao de informao,
no est clara a diviso entre sistemas de recuperao de documentos e de fatos.
Segundo os autores, recuperao de informao um processo no qual citaes
76
so retornadas em resposta a perguntas, ou seja, no qual perguntas so
respondidas. Assim, a diferena principal est no tipo de perguntas e no tipo de
resposta. Os autores citam como exemplo a necessidade de saber qual a
populao do Peru, que provavelmente seria mais facilmente atendida por um
sistema de recuperao de fatos ou respondedor automtico, enquanto que
sistemas de recuperao de documentos trariam citaes de livros que tratam tal
assunto.
Segundo Warner (1987), outro tpico relevante em PLN como processar
a linguagem natural dentro de um contexto, ou seja, sentenas inseridas em um
dilogo. Neste caso, a nfase deve ser em desenvolver sistemas flexveis e
cooperativos que no somente apresentem uma resposta, mas que apresentem
advertncias, antecipem necessidades, etc. Segundo Warner (1987), alguns
sistemas de recuperao de fatos em banco de dados resolvem ambiguidades e
entradas mal-formadas. Dentre as pesquisas citadas pelo autor esto tcnicas para
reconhecer mudana no foco em um dilogo, sistemas que corrigem incoerncias
(misconceptions) a partir do dilogo com o usurio, que orientado a reformular a
sua pergunta, visto que raro o usurio ser claro, direto e preciso nas suas
colocaes (p. 93).
Haas (1996) afirma que na sua poca, recuperao de informao inclui
pelo menos quatro diferentes aplicaes: recuperao de documentos, recuperao
de pargrafos/passagens, classificao de documentos e extrao de informao.
Segundo Haas (1996), as tcnicas de PLN podem ser utilizadas em vrios pontos
em processos de RI, mas talvez sejam mais comumente usadas na criao e no
casamento de representaes do documento e da consulta. Haas (1996) cita Lewis
e Sparck Jones por sugerirem que as tcnicas de PLN so especialmente
importantes para indexar e ajudar os usurios a formularem consultas mais efetivas.
Finalmente, pde-se observar que, apesar dos autores dos captulos de
reviso apresentarem inmeras aplicaes, e somente nos ltimos anos
descreverem a importncia do processamento de linguagem natural na rea de
recuperao de informao, evidente que as tcnicas aqui discutidas podem e
devem ser aplicadas no desenvolvimento da maioria dos sistemas de informaes
requeridos atualmente.
77
4. Resultados

Neste captulo pretende-se apresentar os resultados obtidos a partir da
anlise horizontal (usando os atributos descritivos) de todas as 621 publicaes
atinentes rea de processamento de linguagem natural (seo 4.1), e da anlise
vertical das 68 publicaes submetidas anlise de contedo (seo 4.2).

4.1. Anlise Horizontal das publicaes

Nesta seo so apresentados os resultados obtidos analisando-se as
caractersticas descritivas das publicaes consideradas atinentes para a rea de
processamento de linguagem natural, de acordo com o critrio de seleo
automtico, e confirmado pela validao humana. Dentre os resultados
apresentados, esto anlises estatsticas envolvendo a distribuio dos
pesquisadores autores dessas publicaes por rea de vinculao, por produo
cientfica e por temticas ao longo dos anos.
Na TAB. 2 apresentada a distribuio das publicaes ao longo dos
anos, de 1973 a 2009. Pode-se observar que 70% das publicaes na rea de PLN
foram publicadas aps o ano 2.000. O nmero, relativamente baixo, de publicaes
em 2.009 pode ser atribudo ao fato dos dados terem sido coletados em novembro
do ano, e depender da atualizao dos prprios pesquisadores, o que normalmente
no ocorre de imediato. Em funo disso, na FIG. 5 optou-se por no apresentar os
dados de 2.009 para no causar a falsa impresso de que a produo cientfica da
rea diminuiu. Na FIG. 6 apresentada a evoluo acumulativa do nmero de
publicaes na rea de PLN, destacando que entre os anos de 2.009 e 1.999 foram
publicadas quase 75% de todo o volume de trabalhos na rea.

78
TABELA 2
Distribuio das publicaes por ano: 1973-2009.

Ano da
Publicao
Nmero de publicaes
por ano
Percentual das
publicaes
Percentual
acumulado
2009 23 3,7% 3,7%
2008 56 9,0% 12,7%
2007 50 8,1% 20,8%
2006 54 8,7% 29,5%
2005 47 7,6% 37,0%
2004 50 8,1% 45,1%
2003 60 9,7% 54,8%
2002 42 6,8% 61,5%
2001 24 3,9% 65,4%
2000 26 4,2% 69,6%
1999 30 4,8% 74,4%
1998 29 4,7% 79,1%
1997 29 4,7% 83,7%
1996 18 2,9% 86,6%
1995 13 2,1% 88,7%
1994 16 2,6% 91,3%
1993 9 1,4% 92,8%
1992 5 0,8% 93,6%
1991 2 0,3% 93,9%
1990 2 0,3% 94,2%
1989 6 1,0% 95,2%
1988 6 1,0% 96,1%
1987 7 1,1% 97,3%
1986 6 1,0% 98,2%
1985 4 0,6% 98,9%
1984 1 0,2% 99,0%
1983 1 0,2% 99,2%
1982 1 0,2% 99,4%
1981 1 0,2% 99,5%
1980 1 0,2% 99,7%
1975 1 0,2% 99,8%
1973 1 0,2% 100,0%
Total 621 100,0% ----

79

FIGURA 5 Evoluo anual das publicaes: 1973-2008.

FIGURA 6 Distribuio acumulativa das publicaes: 2009-1973
Com o intuito de avaliar as reas disciplinares que mais contribuem para o
desenvolvimento da pesquisa cientfica na rea de PLN, optou-se por analisar as
publicaes de acordo com a sua rea de vinculao. Considerou-se que a rea da
80
publicao determinada pela rea do seu primeiro autor. Na FIG. 7 possvel
observar que 38% (236) das publicaes foram publicadas por pesquisadores da
rea da cincia da computao, enquanto que 34% (213) das publicaes tiveram
como primeiro autor pesquisadores que no possuam currculo cadastrado na
Plataforma Lattes (pelos motivos discutidos anteriormente). Em seguida, tem-se a
lingustica com 15% (95) das publicaes. Vale relembrar que a rea desconhecida
foi atribuda aos pesquisadores que no apresentaram currculo cadastrado na
Plataforma Lattes, enquanto que no informada foi atribuda aos pesquisadores
que, apesar de possurem currculo cadastrado, no informou, em campo
apropriado, a sua rea de vinculao. Alm disso, 70% dos autores desconhecidos
foram co-autores de somente uma publicao, o que sugere que a anlise pode ser
feita, desconsiderando-se esse perfil.

FIGURA 7 rea das publicaes conforme o primeiro autor: 1973-2009

Considerando-se agora apenas as 392 publicaes que apresentaram
definio de rea
1
, ou seja, que o primeiro autor possua rea de vinculao
definida, possvel observar que a cincia da computao e a lingustica juntas so
responsveis por 84% dessas publicaes: com 60% e 24%, respectivamente (FIG.
8).

1
Excluindo-se as publicaes cujo primeiro autor era desconhecido (213) ou no informado (16).
81

FIGURA 8 rea das publicaes conforme o primeiro autor (1973-2009): anlise
excluindo as publicaes sem definio de rea

Na FIG. 9 apresentada a evoluo das reas da cincia da computao,
lingustica e cincia da informao, ao longo dos anos. possvel observar que
quantitativamente todas as reas apresentaram um aumento na produo cientfica
aps o ano 2.000.
Analisando-se por dcada (FIG. 10), possvel observar que,
proporcionalmente, na dcada de oitenta, a cincia da computao foi a rea mais
produtiva, enquanto que a dcada de noventa, foi a dcada mais produtiva para a
rea da lingustica. Alm disso, os dados apresentados sugerem que a cincia da
informao, na dcada de noventa, recuou a sua contribuio, tentando recuperar
nos anos 2.000 (diminuindo de 4% para 1%, e voltando para 3%).

82

FIGURA 9 Evoluo anual das reas das publicaes definidas pelo primeiro autor:
1973-2009

FIGURA 10 Evoluo das reas das publicaes definidas pelo primeiro autor:
anlise por dcada (1973-2009)

83
Na TAB. 3 so apresentados os 12 pesquisadores que mais produziram
na rea de PLN, e que juntos foram responsveis por mais de 20% de toda a
produo nacional. Vale destacar que dentre eles, nove so da rea de cincia da
computao, dois so da lingustica, e um da engenharia eltrica. Alm disso,
dentre eles, sete fazem parte do Ncleo Interinstitucional de Lingustica
Computacional (NILC), sendo a profa. Dra. Maria Das Graas Volpe Nunes,
coordenadora do projeto. O NILC foi criado em 1993 para dar suporte a pesquisa e
desenvolvimento de projetos em lingustica computacional e processamento de
linguagem natural. Originalmente foi concebido por cientistas da computao da
Universidade de So Paulo (USP) em So Carlos, mas inclui cientistas da
computao e linguistas da Universidade Federal de So Carlos (UFSCar) e da
Universidade Estadual Paulista (UNESP) de Araraquara.

TABELA 3
Distribuio das publicaes por pesquisador

Nome do Pesquisador rea de Vinculao # Publicaes % Publicaes % Acumulada
Maria Das Graas Volpe Nunes Cincia da Computao 78 4,6% 4,6%
Vera Lucia Strube De Lima Cincia da Computao 47 2,8% 7,4%
Thiago Alexandre Salgueiro Pardo Cincia da Computao 41 2,4% 9,8%
Lucia Helena Machado Rino Cincia da Computao 30 1,8% 11,6%
Renata Vieira Cincia da Computao 24 1,4% 13,0%
Helena De Medeiros Caseli Cincia da Computao 22 1,3% 14,3%
Sandra Maria Aluisio Cincia da Computao 21 1,2% 15,5%
Bento Carlos Dias Da Silva Lingustica 21 1,2% 16,8%
Joo Luis Garcia Rosa Lingustica 18 1,1% 17,8%
Fernando Gil Vianna Resende Junior Engenharia Eltrica 16 0,9% 18,8%
Ariadne Maria Brito Rizzoni Carvalho Cincia da Computao 15 0,9% 19,7%
Aline Villavicencio Cincia da Computao 14 0,8% 20,5%
Outros pesquisadores (991) Diversas 1.347 80% 100%

Outro aspecto analisado nas 621 publicaes relevantes foi o fato de que
grande parte das pesquisas desenvolvidas na rea de PLN, aproximadamente 64%,
envolve pesquisadores de vrias reas. Alm disso, possvel observar na TAB. 4
que essa multidisciplinaridade dobrou entre a dcada de 80 e os anos de 2.000.

84
Analisando-se as temticas apresentadas nos ttulos de todas as 621
publicaes relevantes, observou-se que alguns termos no apareceram em
nenhuma delas: morfema, sinnimo, antnimo, hiponmia e metonmia, da categoria
2

de conceitos lingusticos; e anlise de estilo e anlise de discurso, da categoria
Aplicaes.
TABELA 4
Distribuio anual das publicaes envolvendo multidisciplinaridade

Dcada
Publicaes por
ano
Publicaes envolvendo
multidisciplinaridade
% publicaes envolvendo
multidisciplinaridade
1970-1979 2 0 0%
1980-1989 34 12 35%
1990-1999 153 85 56%
2000-2009 432 312 72%
Total 621 397 64%

Observou-se que, dentre os conceitos computacionais, os termos mais
frequentes foram automtico, que apareceu em 24% das publicaes, e
computacional, que apareceu em 21% das publicaes. Dentre os conceitos
lingusticos, os termos mais frequentes foram 'portugus', em 46% das publicaes e
linguagem natural, em 36% delas. O interessante foi observar que dentre as
aplicaes que mais apareceram nos ttulos analisados esto 'traduo', que ocorreu
em 27% das publicaes, 'sumarizao', tambm em 27%, 'indexao',
'classificao' e 'recuperao', em 11% das publicaes cada um. Dentre as tcnicas
abordadas nos trabalhos e evidenciadas nos ttulos, observou-se que o termo mais
frequente foi 'lxico', que apareceu em 23% das publicaes, 'gramtica', em 22%
das publicaes e 'parser', tambm em 22% delas.
Para cada categoria, procurou-se analisar como essas temticas foram
investigadas ao longo dos anos. As FIG. 11 a 14 apresentam a evoluo dos termos
por dcada, sem considerar o perodo de 1970-1979 em funo do pequeno nmero
de artigos (apenas dois).
A partir da FIG. 11 possvel observar que da dcada de 90 para os anos
2.000, o termo computacional passou a ser mais utilizado. Na FIG. 12 possvel
observar que da dcada de 90 para os anos 2.000 houve uma inverso de utilizao
dos termos indexadores: portugus passou a ser utilizado com mais frequncia,
enquanto que a expresso linguagem natural deixou de ser usada.

2
Categorias do critrio de seleo automtica criado a partir da anlise de assunto dos captulos do ARIST.
85

FIGURA 11 Evoluo dos principais termos dentre os conceitos computacionais:
anlise por dcada (1980-2009)

FIGURA 12 Evoluo dos principais termos dentre os conceitos lingusticos: anlise
por dcada (1980-2009)
86

FIGURA 13 Evoluo dos principais termos dentre as aplicaes: anlise por dcada
(1980-2009)

Na FIG. 13 possvel observar que: a traduo foi intensamente
abordada na dcada de 90; os estudos com indexao diminuram
consideravelmente a partir da dcada de 80; que as pesquisas sobre classificao
passaram por um perodo de dormncia na dcada de 90; e que existe uma
tendncia clara na rea de PLN de desenvolvimento de pesquisas em sumarizao
automtica.
A partir da FIG. 14 possvel observar que, das trs tcnicas mais
frequentes nos ttulos das publicaes analisadas, duas (parser e gramtica)
deixaram de ser priorizadas a partir da dcada de 90.
As prximas anlises tm como objetivo avaliar as temticas que cada
rea tm pesquisado. Na FIG. 15 possvel observar que a cincia da informao
usa intensamente os termos 'sistema' e 'automtico', a lingustica prioriza os termos
'processamento' e 'computacional', enquanto que a cincia da computao usado
todos.
J na FIG. 16 possvel verificar que nenhum dos termos lingusticos
mais frequentes foi usado pelas publicaes da rea da cincia da informao. Vale
lembrar que a rea da publicao foi determinada em funo da rea do seu
primeiro autor. Alm disso, os termos 'linguagem natural' e 'portugus' foram os mais
87
usados pela rea da lingustica e da cincia da computao.

FIGURA 14 Evoluo dos principais termos dentre as tcnicas: anlise por dcada
(1980-2009)

FIGURA 15 Percentual de artigos de cada rea com os principais termos dos
conceitos computacionais

88

FIGURA 16 Percentual de artigos de cada rea com os principais termos dos
conceitos lingusticos
A FIG. 17 revela como a rea da cincia da informao tem priorizado as
pesquisas em indexao automtica, enquanto que a cincia da computao tem
priorizado as pesquisas em traduo e sumarizao, e a lingustica em praticamente
nenhuma (um pouco de traduo).

FIGURA 17 Percentual de artigos de cada rea com os principais termos dentre as
aplicaes
89
J a FIG. 18 mostra que, das principais tcnicas investigadas, a cincia da
informao no priorizou nenhum delas, a rea da lingustica priorizou o estudo do
lxico, enquanto que a computao priorizou as pesquisas em gramtica e parser.

FIGURA 18 Percentual de artigos de cada rea com os principais termos dentre as
tcnicas

Finalmente, procurou-se identificar o que cada rea tem priorizado, dentro
dos conceitos definidos e utilizados para selecionar as publicaes relevantes.
Na TAB. 5 possvel constatar que, dentre os conceitos computacionais,
o segundo mais utilizado pela cincia da computao foi a inteligncia artificial, o
que sugere que a rea tem encontrado espao na IA para publicar seus trabalhos de
processamento de linguagem natural.

TABELA 5
Principais termos dos conceitos computacionais em cada rea

Resultado de cada rea do artigo
Principais termos dos
conceitos
computacionais
Cincia da Computao Lingustica Cincia da Informao
1.o automtico (24%) processamento (36%) automtico (67%)
2.o inteligncia artificial (20%) computacional (35%) sistema (33%)
3.o computacional (19%) automtico (17%) tecnologia (11%)

90
Na TAB. 6, duas questes chamam a ateno: o fato da cincia da
computao e lingustica priorizarem os mesmos conceitos lingusticos, enquanto
que a cincia da informao no fez uso de nenhum deles.

TABELA 6
Principais termos dos conceitos lingusticos em cada rea

Principais termos
dos conceitos
lingusticos
1.o portugus (28%) portugus (35%) -
2.o linguagem natural (24%) linguagem natural (33%) -
3.o palavra (10%) palavra (16%) -

A TAB. 7 mostra como a cincia da informao tem priorizado o estudo da
indexao seguido da anlise de contedo, no havendo uma terceira aplicao. J
a cincia da computao e a lingustica apresentaram as mesmas temticas.

TABELA 7
Principais termos dentre as aplicaes em cada rea

Principais termos
dentre as aplicaes
1.o traduo (7%) traduo (5%) indexao (89%)
2.o sumarizao (7%) sumarizao (1%) analise de contedo (11%)
3.o recuperao (3%) indexao (1%) -

Na TAB. 8 possvel observar que dentre as tcnicas presentes nos
ttulos dos artigos analisados, a cincia da informao apresentou apenas o
thesauro, enquanto que a cincia da computao e a lingustica apresentaram
parser e corpus como sendo as tcnicas mais pesquisadas, perdendo apenas para
gramtica, no caso da cincia da computao, e lxico para a lingustica.

91
TABELA 8
Principais termos dentre as tcnicas em cada rea

Principais termos
dentre as tcnicas
1.o gramtica (10%) lxico (13%) thesauro (11%)
2.o parser (8%) parser (7%) -
3.o corpus (6%) corpus (7%) -

Na prxima seo sero apresentados os resultados obtidos a partir da
anlise de contedo realizada em uma amostra estratificada de 68 artigos.

92
4.2. Anlise Vertical ou Profunda das publicaes analisadas

Os resultados apresentados nesta seo foram obtidos a partir da anlise
de contedo realizada nas 68 publicaes sorteadas dentre as 621 realmente
atinentes a rea de PLN. Inicialmente, na seo 4.2.1 ser apresentada a seleo de
enunciados elaborada, seguida da sistematizao semntica dessa anlise,
apresentada na seo 4.2.2.

4.2.1. Anlise de Contedo das publicaes analisadas

As discusses aqui apresentadas no caracterizam uma reviso de
literatura, e sim uma viso multidimensionada, determinada pelas categorias de
anlise usadas, e linear, ou seja, em ordem cronolgica, das pesquisas na rea de
processamento de linguagem natural. Os 68 artigos analisados foram publicados por
pesquisadores nacionais e compreende o perodo de 1986 a 2009. Na TAB. 9 so
apresentadas todas publicaes analisadas, juntamente com os seguintes atributos
identificadores: ano de publicao, autores, ttulo e evento ou peridico de
publicao. Em negrito, so apresentados os termos do instrumento de seleo
utilizados para recuperar a publicao.

TABELA 9
Publicaes submetidas anlise de contedo: 1986-2009

Ano de
Publicao
Autores Ttulo Evento/Peridico
1986 SEMEGHINI-SIQUEIRA,
Idmea. ; COSTA, A. ; COHN,
P. G. .
Uma Gramtica Conexionista: Propriedades e
Aplicaes.
III Simpsio Brasileiro de
Inteligncia Artificial
1987 ZIVIANI, N. ; ALBUQUERQUE,
L. C. A.
Um novo mtodo eficiente para recuperao
em textos
VII Congresso da Sociedade
Brasileira de Computao
1988 RIPOLL, L. M. B. ; MENDES,
S. B. T.
Um modelo conexionista para tratamento da
ambiguidade verbal de um sub-conjunto do
portugus.
XV SEMISH - Seminrio
Integrado de Software e
Hardware
1989 FUSARO, P. S. ; ZIVIANI, N. Uma linguagem de consulta para um sistema
de recuperao de informao em texto
completo.
IX Congresso da Sociedade
Brasileira de Computao
93
1990 STRUBE DE LIMA, V. L. Tratamento automatizado da lngua natural:
rumo a correo automtica?.
Letras de hoje
1991 LEFFA, V. J. O uso do dicionrio eletrnico na compreenso
do texto em lngua estrangeira
XI Congresso da Sociedade
Brasileira de Computao,
1992 ROCHA, A. F. ; GUILHERME, I.
R. ; THEOTO, M. ;
MIYADAHIRA, A. M. K. ;
KOIZUMI, M. S.
A neural net for extracting knowledge from
natural language data bases.
IEEE Transactions on
Neural Networks
1993 ROCHA, R. A. ; ROCHA, B. H.
S. C. ; HUFF, S. M.
Automated Translation between Medical
Vocabularies using a Frame-based Interlingua
Seventeenth Symposium on
Computer Applications in
Medical Care
1994 ROBIN, J. P. L. Automatic Generation and Revision of Natural
Language Report Summaries Providing
Historical Background
XI Simpsio Brasileiro de
1995 JULIA, R. M. S. ; SEABRA, J.
R. ; SEMEGHINI-SIQUEIRA, I.
An Intelligent Parser that Automatically
Generates Semantic Rules during Syntatic and
Semantic Analysis
IEEE International
Conference on Systems,
Man and Cybernetics
1996 BARROS, F. A. Semi-automatic Anaphora Resolution in Portable
Natural Language Interfaces
XIII Brazilian Symposium
on Artificial Intelligence
1997 ROSA, J. L. G. Thematic Connectionist Approach to
Portuguese Language Processing
Iasted International
Conference on Artificial
Intelligence and Soft
Computing
1998 OLIVEIRA, ITAMAR LEITE DE ;
WAZLAWICK, R. S.
Modular Connectionist Parser for Resolution of
Pronominal Anaphoric References in Multiple
Sentences
International Joint
Conference on Neural
Network - IEEE World
Conference on
Computational Intelligence
1999 CARVALHO, A. M. B. R. ;
STRUBE DE LIMA, V. L.
Processamento de Lngua Natural: duas
experincias com sistemas multi-agentes.
IX Intercmbio de
Pesquisas em Lingustica
Aplicada INPLA
1999 KINOSHITA, J. An Example based Machine Translation
System working on trigrams.
32nd Annual Meeting of
Societas Linguistica
Eropae
1999 BARCIA, R. M. ; HOESCHL,
HUGO ; MATTOS, EDUARDO
DA SILVA ; BUENO, TANIA
CRISTINA D'AGOSTINI ;
GRESSE VON WANGENHEIM,
C.
Uso da Teoria Jurdica para Recuperao em
amplas bases de textos jurdicos
Encontro Nacional de
Inteligncia Artificial -
XIX Congresso Nacional da
Sociedade Brasileira de
Computao
1999 BERBER SARDINHA, TONY Estudo baseado em Corpus da Padronizao
Lexical no Portugus Brasileiro: colocaes e
perfis semnticos
PROPOR'99 - IV Encontro
para o Processamento
Computacional da Lngua
Portuguesa Escrita e
Falada
94
1999 VILLAVICENCIO, ALINE Representing a System of Lexical Types using
Default Unification
Meeting of the European
Chapter of the Association
for Computational
Linguistics
2000 JOSE NETO, J. ; MENEZES, C.
E. D.
Um Mtodo para a Construo de Etiquetadores
Morfolgicos Aplicado a Lngua Portuguesa,
baseado em Autmatos Adaptativos
PROPOR 2000 V Encontro
Portuguesa
2000 BERBER SARDINHA, TONY . Prosdia Semntica na Traduo do
Portugus e Ingls: um estudo baseado em
corpus
Portuguesa Falada e
Escrita
2000 PADILHA, E. G. ; VICCARI, R.
M.
Morfologia da Lngua Portuguesa com
Mquinas de Estados Finitos
Portuguesa Falada e
Escrita
2000 LAROCCA NETO, J. ; SANTOS,
A. D. ; KAESTNER, C. A. A. ;
FREITAS, A. A. ; NIEVOLA, J.
C.
A Trainable Algorithm for Summarizing News
Stories
PKDD 2000 - Workshop on
Machine Learning and
Textual Information Access
2000 DIAS-DA-SILVA, Bento Carlos
; MORAES, Helio Roberto de;
OLIVEIRA, Mirna Fernanda
de; HASEGAWA, Ricardo;
AMORIM, Daniela Angelucci
de; PACHOALINO, Christie
Construo de um Thesaurus Eletrnico para o
Portugus do Brasil
Portuguesa Falada e
Escrita
2001 ROSSI, D. ; PINHEIRO,
Clarissa ; FEIER, Nara
Bressane ; VIEIRA, Renata
Resoluo Automtica de Correferncia em
textos da Lngua Portuguesa
Revista Eletrnica de
Iniciao Cientfica REIC
2001 GAMALLO, Pablo ; AGUSTINI,
Alexandre ; LOPES, Jose
Gabriel Pereira
Selection Restrictions Acquisition from Corpora. 10th Portuguese Conference
on Artificial Intelligence -
EPIA. Lecture Notes in
Artificial Inteligence LNAI
2001 GONZALEZ, M. A. I. ; STRUBE
DE LIMA, V. L.
Recuperao de Informao e Expanso
Automtica de consulta com thesaurus: uma
avaliao
XXVII Conferncia
Latinoamericana de
Informtica CLEI 2001
2001 ORENGO, VIVIANE MOREIRA
; HUYCK, CHRISTIAN
A stemming algorithm for the portuguese
language
8th international
symposium on string
processing and information
retrieval
2001 SOUZA, C. F. R. ; PEREIRA,
M. B. ; NUNES, M. G. V.
Algoritmos de sumarizao extrativa de
textos em portugus
Workshop da Sociedade
Brasileira da Computao
2002 JOSE NETO, J. ; MORAES, M. Formalismo Adaptativo Aplicado ao
Reconhecimento de Linguagem Natural
Conferncia Iberoamericana
em Sistemas, Ciberntica e
Informtica - CISCI 2002
95
2002 BIDARRA, J. Notas para a Especificao de um lxico
computacional, baseadas em dados de
Parafasia Semntica
Congresso Brasileiro de
Computao, II Workshop
de Informtica na Sade
2002 PARDO, Thiago Alexandre
Salgueiro ; RINO, L. H. M.
DMSumm: Um Gerador Automtico de
sumrios
I Workshop de Teses e
Dissertaes em
2002 SCHULZ, S. ; NOHAMA, P. ;
BORSATO, E. P. ; MATIAS, L.
J. D.
Indexao e Recuperao Automtica de
textos mdicos
VIII Congresso Brasileiro de
Informtica em Sade
CBIS 2002
2002 BONFANTE, A. G. ; NUNES,
M. G. V.
Parsing Probabilstico para o Portugus do
Brasil.
I Workshop de Teses e
Dissertaes em
2003 ZAVAGLIA, C. Homonmia no Portugus: tratamento
semntico segundo a estrutura Qualia de
Pustejovsky com vistas a implementaes
computacionais
Revista Alfa
2003 MARTINS, Claudia A ;
MONARD, M. C. ;
MATSUBARA, E. T.
Reducing the Dimensionality of Bag-of-words
Text Representation used by Learning
Algorithms
Artificial Intelligence and
Applications
2003 PARDO, THIAGO A. S. ; RINO,
LUCIA H MACHADO ; NUNES,
M. G. V.
NeuralSumm: Uma Abordagem Conexionista
para a Sumarizao Automtica de Textos
Encontro Nacional de
ENIA'2003
2003 GASPERIN, Caroline Varaschin
; STRUBE DE LIMA, V. L.
Evaluating Automatically Computed Word
Similarity
Computational
Processing of the
Portuguese Language
PROPOR 2003
2003 OLIVEIRA, C. M. G. M. ;
GARRAO, M. U. ; AMARAL, L.
A. M.
Complex Prepositions Prep+N+Prep as
Negative Patterns in Automatic Term Extraction
from Texts
7th Conference on
Computational
Lexicography and Text
Research
2004 ALVES, Isa Mara da Rosa ;
CHISHMAN, R. L. O.
Ambiguidade e a Traduo Automtica: uma
anlise do desempenho
III Colquio Anual de
Lusofonia
2004 SPECIA, L. ; NUNES, Maria
das Graas Volpe
Um modelo para a Desambiguao lexical de
sentido na Traduo Automtica
II Workshop de teses e
dissertaes em
2004 RINO, L. H. M. ; PARDO,
Thiago Alexandre Salgueiro ;
SILLA JR, Carlos Nascimento ;
KAESTNER, Celso Antonio
Alves ; POMBO, M.
A Comparison of Automatic Summarization
Systems for Brazilian Portuguese Texts
XVII Brazilian Symposium
SBIA 2004
2004 ALUISIO, S. M. ; PINHEIRO,
Gisele Montilha ; MANFRIN,
Aline P M ; OLIVEIRA,
Leandro H M de ; GENOVES
JR, Luiz C ; TAGNIN, Stella E
O
The Lacio-Web: Corpora and Tools to Advance
Brazilian Portuguese Language Investigations
and Computational Linguistic Tools
4th International
Conference on Language
Resources and Evaluation
LREC 2004
96
2004 MATSUBARA, E. T. ; MONARD,
M. C. ; BATISTA, G. E. A. P. A.
.
Aprendizado Semi-Supervisionado Multi-Viso
para a Classificao de Bases de Texto
Workshop in Artificial
Intelligence - Jornadas
Chilenas de Computacion
2005 PARDO, Thiago A S ; MARCU,
Daniel ; NUNES, M. G. V.
Um Modelo Estatstico Gerativo para o
Aprendizado No Supervisionado da Estrutura
Argumental dos Verbos
III Workshop em
Tecnologia da Informao
e da Linguagem Humana
TIL 2005
2005 CASELI, H. M. ; NUNES, M. G.
V. ; FORCADA, M. L.
LIHLA: A Lexical Aligner Based on Language-
Independent Heuristics
V Encontro Nacional de
ENIA 2005
2005 SPECIA, L. ; NUNES, Maria
das Gracas Volpe ;
STEVENSON, Mark
Mining rules for Word Sense Disambiguation III Workshop em
TIL 2005
2005 SILVA, Cassiana Fagundes da
; VIEIRA, Renata ; OSORIO,
Fernando Santos
Evaluating the Use of Linguistic Information in
the Preprocessing Phase of Text Mining
Iberoamerican Journal of
Artificial Intelligence.
2005 PILTCHER, Gustavo ;
BORGES, Thyago ; LOH, S. ;
LITCHNOW, Daniel ; SIMOES,
Gabriel
Correo de Palavras em Chats: Avaliao de
bases para Dicionrios de Referncia
III Workshop em
TIL 2005
2006 RINO, L. H. M. ; SENO, Eloize
Rossi Marques
A importncia do tratamento co-referencial para
a sumarizao automtica de textos
Estudos Lingusticos
2006 CASELI, H. M. ; NUNES, M. G.
V.
Automatic transfer rule induction from parallel
corpora
3rd Workshop on Msc
dissertations and PhD thesis
in Artificial Intelligence
WTDIA2006
2006 BALAGE FILHO, P. P ; UZEDA,
V. R. ; PARDO, Thiago
Alexandre Salgueiro ; NUNES,
Maria das Graas Volpe
Experiments on applying a text summarization
system for question answering
Cross Language Evaluation
Forum CLEF 2006
2006 ENEMBRECK, F ; SCALABRIN,
E. E. ; TACLA, CESAR ;
AVILA, BRAULIO COELHO
Automatic identification of teams based on
textual information retrieval
Computer supported
collaborative in design
cscwd 2001
2006 LEITE, DANIEL SARAIVA ;
RINO, L. H. M.
Selecting a feature set to summarize texts in
brazilian portuguese
Advances in artificial
intelligence (iberamia/sbia)
2007 MORAES, S. M. W. ; STRUBE
DE LIMA, V. L.
Um estudo sobre Categorizao Hierrquica de
uma grande coleo de textos em Lngua
Portuguesa
Workshop em Tecnologia
da Informao e da
Linguagem Humana TIL
2007
2007 KINOSHITA, J. ; SALVADOR,
L. N. ; MENEZES, C. E. D. ;
SILVA, W. D. C. M.
COGROO - An Openoffice Grammar Checker International Conference on
Intelligent Systems
Design and Applications
ISDA 2007
97
2007 SPECIA, L. ; STEVENSON,
Mark ; NUNES, Maria das
Gracas Volpe
Learning Expressive Models for Word Sense
Disambiguation
Annual Meeting of the
Association for
Computational
Linguistics
2007 SILVA, C. F. DA ; VIEIRA,
RENATA
Categorizao de textos da lngua portuguesa
com rvores de deciso, SVM e informaes
lingusticas
Workshop em tecnologia
da informacao e da
linguagem humana TIL
2007
2007 MILIDIU, R. L. ; DUARTE,
JULIO CESAR ; ROBERTO
CAVALCANTE
Machine learning algorithms for portuguese
named entity recognition
Simpsio Brasileiro de
2008 CASELI, H. M. ; PARDO, T. A.
S. ; GOMES, F. T. ; NUNES, M.
G. V.
VisualLIHLA: the visual online tool for lexical
alignment
VI Workshop em
TIL 2008
2008 AZIZ, W. F. ; PARDO, T. A. S.
; PARABONI, I.
An Experiment in Spanish-Portuguese
Statistical Machine Translation
19th Brazilian Symposium
SBIA 2008
2008 MORAIS, E. A. M. ;
AMBROSIO, A. P. .
Automatic Domain Classification of
Jurisprudence Documents
Euroamerican Conference
on Telematics and
Information Systems -
EATIS 2008
2008 CAMINADA, Nuno ; QUENTAL,
V. S. D. B. ; GARRAO, Milena
Uzeda
Linguistic Tools Uma Plataforma Expansvel
de Funes de Consulta a Corpus
VI Workshop em
Tecnologias da
Informao e Linguagem
Humana TIL 2008
2008 SENO, Eloize R M ; NUNES,
M. G. V.
Some Experiments on Clustering Similar
Sentences of Texts in Portuguese
International Conference on
Computational
Processing of the
Portuguese Language
PROPOR 2008
2009 AZIZ, W. F. ; PARDO, T. A. S.
; PARABONI, I.
Fine-tuning in Portuguese-English Statistical
Machine Translation
7th Brazilian Symposium in
Information and Human
Language Technology -
STIL 2009
2009 SENO, Eloize R M ; NUNES,
M. G. V.
Fuso Automtica de Sentenas Similares em
Portugus
Simpsio Brasileiro em
TIL 2009
2009 SALLES, T. ; ROCHA, L. C. ;
MOURAO, F. H. J. ; CUNHA, L.
; PAPPA, G. L. ; GONCALVES,
Marcos Andre ; MEIRA
JUNIOR, Wagner
Classificao Automtica de Documentos
Robusta Temporalmente
Simpsio Brasileiro de
Banco de Dados
2009 BRAGA, I. A. ; MONARD, M.
C. ; MATSUBARA, E. T.
Combining Unigrams and bigrams in Semi-
supervised Text Classification
Portuguese Conference on
Artificial Intelligence
98
2009 VILLAVICENCIO, A. ; CASELI,
H. M. ; MACHADO, A.
Identification of multiword expressions in
technical domains: investigating statistical and
alignment-based approaches
Brazilian symposium in
information and human
language technology
TIL 2009

Os artigos analisados sero apresentados, em ordem cronolgica, nas
sees a seguir de acordo com as dimenses definidas, ou seja, de acordo com as
categorias de anlise definidas anteriormente. As referncias includas em notas de
rodap no foram lidas pela autora desta tese, e sim citadas pelos artigos
submetidos anlise de contedo. Para delimitar cada enunciado apresentado,
optou-se por destacar em negrito as citaes bibliogrficas dos 68 artigos
focalizados.
Na seo 4.2.1.1, so apresentados os problemas abordados e os
objetivos propostos nas publicaes analisadas. Procurou-se, neste momento,
identificar quais as problemticas que foram discutidas pelos autores ao longo dos
anos. Na seo 4.2.1.2, os artigos foram analisados dentro da dimenso
"metodologia adotada", ou seja, procurou-se identificar os mtodos e as tcnicas
utilizados durante a realizao de cada trabalho. Na seo 4.2.1.3, cada artigo foi
analisado com o intuito de identificar o material emprico usado, assim como
algumas caractersticas discriminantes tais como o idioma utilizado. Finalmente, na
seo 4.2.1.4, so apresentados os resultados alcanados e discutidos nos
trabalhos focalizados, juntamente com as perspectivas de continuidade dos
mesmos.

4.2.1.1. Problemtica apresentada nos artigos analisados

Nesta seo pretende-se apresentar, em ordem cronolgica, as
publicaes analisadas sob a tica dos problemas abordados, incluindo a
problemtica central de cada artigo, assim como os objetivos propostos. Na seo
4.2.2 apresentado um mapa conceitual sintetizando todas as temticas discutidas
nos artigos focalizados. Os conceitos e relacionamentos apresentados em vermelho
nesse mapa conceitual representam o ncleo semntico e, portanto, esto
destacados em negrito nos pargrafos que se seguem.

99
O primeiro artigo selecionado foi Semeghini-Siqueira, Costa e Cohn
(1986) publicado no Simpsio de Inteligncia Artificial por autores da rea da
Lingustica. Esta interdisciplinariedade evidenciada pelos autores no incio do
artigo ao afirmarem que "a compreenso da linguagem natural, por computador,
requer a cooperao interdisciplinar sobretudo de: linguistas (com informaes sobre
fonologia, sintaxe, semntica e pragmtica); psiclogos (com dados sobre o
processamento humano da informao: memria, ateno, percepo, etc.);
filsofos (com sistemas de formalizao do conhecimento); especialistas em um
ramo do saber (para a montagem da base de conhecimento) e programadores (com
domnio de uma linguagem de programao, como o Prolog)" (p. 113). Apesar dos
autores passarem a proposta conexionista no ttulo e citar a Inteligncia Artificial logo
no incio, o que sugere a utilizao de redes neurais, eles descrevem um sistema
implementado em Prolog, com a finalidade de facilitar a consulta a uma base de
dados relacional usando linguagem natural, interagindo o componente sinttico e
o componente semntico com incurses pelo componente pragmtico.
O artigo de Ziviani e Albuquerque (1987) foi publicado num congresso
da Sociedade Brasileira da Computao e teve como objetivo apresentar um novo
mtodo para identificao de termos indexadores atravs da utilizao de um
ndice que reduz drasticamente a quantidade de dados a serem percorridos. Uma
rvore Patrcia construda sobre as assinaturas das palavras do texto, permitindo a
deteco de termos em tempo proporcional ao logaritmo base dois do nmero de
assinaturas obtidas do arquivo original. A assinatura de uma palavra uma funo
que transforma palavras (cadeias de caracteres) em inteiros (p. 177).
Ripoll e Mendes (1988) apresentam a ambiguidade como problema
central do tratamento das linguagens naturais, e propem utilizar um modelo
conexionista e uma gramtica de casos para tratar a ambiguidade lxica de um
subconjunto de verbos no portugus (p. 296). A proposta escolher
adequadamente o significado de uma palavra na frase. Segundo os autores, no se
pretende discutir a questo do que significado de uma palavra e as nuances que
determinam vrios significados para palavras ambguas.
O artigo publicado em Fusaro e Ziviani (1989) apresenta a continuidade
de um trabalho anterior (ZIVIANI; ALBUQUERQUE, 1987). No apresenta como
tema central o processamento de linguagem natural, e sim a construo de um
arquivo invertido e a estrutura de dados usada. O objetivo principal deste artigo
100
apresentar uma linguagem de consulta para sistemas de recuperao de
informao em texto completo, comparvel s linguagens mais modernas,
baseando-se no sistema PatPlus (apresentado em Ziviani e Albuquerque, 1987).
O artigo de Strube de Lima (1990) apresenta uma reviso de literatura e
visa prover ao leitor uma viso "panormica" no que se refere ao tema correo
ortogrfica automatizada, apresentando um resumo das tcnicas e mtodos
empregados poca no tratamento da lngua natural, abordando suas vantagens,
suas deficincias e sua transposio para o portugus (p. 43).
O artigo de Leffa (1991) tem como objetivo principal comparar a
utilizao do dicionrio tradicional com o eletrnico. A questo bsica abordada
neste trabalho, e que, segundo o autor, as investigaes realizadas at o momento
de sua publicao ainda no haviam sido respondidas, , como um dicionrio
eletrnico, incorporando uma lxico-gramtica e os recursos do computador,
beneficiaria o leitor de uma lngua estrangeira na traduo de textos autnticos. A
hiptese principal desta investigao que o dicionrio eletrnico pode tornar o texto
autntico da lngua estrangeira compreensvel para o leitor de baixa proficincia
nessa lngua. O autor destaca que, em termos da quantidade de ajuda oferecida ao
leitor, o pressuposto terico foi de que "o dicionrio no deveria oferecer nem de
menos, deixando o texto incompreensvel para o leitor, nem demais, abafando o
texto a ponto de mudar a interao leitor/texto para leitor/dicionrio" (p. 190). Em
termos de qualidade, o autor complementa que "a ajuda deveria ser rpida
(idealmente oferecida no momento em que o significado est sendo construdo),
discreta (nunca substituindo o texto lido ou colocando-se entre o leitor e o texto) e
contextualizada (dando informao relacionada ao segmento do texto que est
sendo lido)" (p. 190).
O artigo em Rocha et al. (1992) tem como objetivo apresentar um
sistema com rede neural artificial evolutiva e hierrquica de trs nveis, capaz de
compreender o contedo de textos e produzir listas de tpicos a partir de registros
de banco de dados. Os autores dedicam grande parte do artigo discutindo questes
relacionadas aos atributos da rede neural construda: logo na introduo, os autores
destacam que definir o nmero de camadas, assim como o nmero de neurnios por
camada, pode ser uma tarefa difcil. Diante disso, os autores propem um sistema
composto de trs diferentes redes: a primeira seria capaz de reconhecer as
palavras; a segunda, responsvel por reconhecer a associao entre estas palavras;
101
e finalmente, a terceira para apreender o principal conceito presente nos registros de
banco de dados (p. 819).
Em Rocha, Rocha e Huff (1993), observa-se que os autores tiveram
como ponto de partida um problema e tentaram resolv-lo, o que pode ser justificado
pelo perfil dos autores: todos so da medicina. O problema apresentado que a
integrao de sistemas clnicos ou mdicos, segundo os autores, quase sempre
requer uma etapa de traduo, onde vocabulrios so comparados e os conceitos
similares so combinados. Segundo os autores, o problema central que dificulta o
desenvolvimento de qualquer sistema clnico a ausncia de mtodos padronizados
para representao de terminologia mdica (p. 690). Assim, o principal objetivo do
trabalho traduzir termos expressos em diferentes vocabulrios mdicos usando
um processo completamente automatizado.
Em Robin (1994), o autor apresenta o desenvolvimento de
sumarizadores automticos como sendo fundamental para administrar ou lidar com
o volume de informaes disponibilizadas online. Inicialmente, o autor identifica
cinco aspectos a serem considerados na gerao de sumrios: a complexidade das
sentenas; os conceitos flutuantes (floating); os fatos de cenrio (historical
background), que explicam algo ou que so relevantes; conciso (conciseness) e
parfrase (paraphrasing). Assim, o autor prope a criao de um modelo que
primeiro constri um rascunho contendo somente os fatos essenciais do texto e
depois vai incrementando-o com fatos de cenrio (historical background) presentes
em um limite de espao. Segundo o autor, este modelo requer um novo tipo de
conhecimento lingustico: as operaes de reviso (revision operations),
especificando as vrias maneiras nas quais um rascunho pode ser transformado de
forma concisa, a fim de acomodar uma nova informao.
Julia, Seabra e Semeghini-Siqueira (1995) propem um parser que
realiza a anlise sinttica e semntica de afirmaes sobre especificao de
software expressas de maneira irrestrita em linguagem natural. O analisador
proposto corresponde a uma estrutura (como definido por Piaget), que
automaticamente gera regras semnticas durante a anlise, orientada por um
mtodo heurstico. Segundo os autores, uma estrutura um sistema de
transformaes caracterizadas por um grupo de regras. A parte sinttica da
gramtica expressa por meio de regras, tais como as regras de gramtica proposta
por Chomsky. O parser implementado baseado em algoritmos de busca que tem
102
como objetivo encontrar um caminho da rvore at um n folha que contenha uma
categoria de significado. A categoria de cada palavra na sentena ir depender da
ordem em que ela aparece na sentena.
O artigo de Barros (1996) descreve um mecanismo para resoluo de
anfora pronominal sem a utilizao de modelo do mundo (world models), para
garantir a portabilidade e ainda oferecer uma interface para consultas em banco
de dados em linguagem natural. Segundo a autora, o mdulo de discurso (discurse
module) incorporado no precisa ser customizado, garantindo assim a portabilidade
do sistema, sendo esta a principal contribuio do seu trabalho.
Rosa (1997) prope a construo de uma arquitetura conexionista para
mapear papis temticos em regras semnticas. Os vetores de caractersticas
so organizados com base nas relaes temticas entre o verbo e as outras
palavras de uma frase. O principal objetivo do trabalho fornecer um mecanismo
que lida com as restries do papel semntico sobre a atribuio do papel temtico.
O modelo tem de ser capaz de aprender com base na experincia com frases e suas
representaes temticas, e tem de ser capaz de generalizar novas sentenas. O
artigo teve como inspirao dois trabalhos da dcada anterior onde as palavras so
representadas por um conjunto de caractersticas semnticas que possuem um
significado associado. Assim, o objetivo do artigo aplicar a ideia dessa
representao para construir uma arquitetura capaz de analisar e aprender a
atribuio correta dos relacionamentos temticos das palavras nas sentenas. O
autor destaca que o sistema no pretende resolver o problema de ambiguidade, mas
contribui com ideias para torn-lo menos difcil, visto que informaes semnticas
so usadas para representar os significados.
Oliveira e Wazlawick (1998) discutem o problema da ambiguidade
diante da resoluo de anforas. Segundo os autores, o objeto ou a pessoa
referenciada encontrado usando um modelo conexionista inspirado no modelo
SPEC Subsymbolic Parser for Embedded Clauses (proposto por R.P. Miikkulainen,
em 1995). O pronome usado no trabalho foi o "ele" (he) e o "ela" (she). Segundo os
autores, referncia anafrica um fenmeno lingustico que ocorre quando um
pronome ou um sintagma nominal em uma frase est se referindo a algum ou a um
objeto j mencionado no texto. O problema ento saber quem este pronome ou
sintagma nominal, uma vez que podem haver vrios objetos ou pessoas
mencionadas at o momento no qual a referncia feita (p. 1.194).
103
Em Carvalho e Strube de Lima (1999), o objetivo do trabalho foi
investigar o uso de sistemas multi-agentes para o processamento da lngua
natural. As autoras afirmam que existem no mnimo duas possibilidades diferentes
de distribuio do conhecimento lingustico entre os agentes no campo do
processamento da lngua natural: distribuio lxico-estrutural: os agentes so
associados s palavras da sentena, de acordo com a categoria morfossinttica
das mesmas e de acordo com uma srie de princpios de associao; e distribuio
lingustico-cognitiva: os agentes so associados a nveis de processamento
lingustico (morfolgico, sinttico, semntico), ou a fenmenos lingusticos
especficos (elipse, coordenao, anfora, ambiguidade categorial).
Kinoshita (1999) prope um sistema de traduo baseado em exemplos.
Os exemplos foram extrados da Bblia, livro de Mateus, em grego, ingls e
portugus, anotado de acordo com a anotao de Strong (Strong's annotation).
Segundo o autor, a anotao de Strong prov uma informao importante que no
foi usada no trabalho: todas as palavras com o mesmo radical (stem) recebem o
mesmo cdigo. O autor sugere que esta informao seja utilizada em trabalhos
futuros. Segundo o autor, neste trabalho, os exemplos so organizados em palavras,
bigramas e trigramas (bigrams e trigrams). Assim, o autor destaca que dada uma
sentena, as n-gramas (com n entre 1 e 3) so traduzidas de acordo com os
exemplos. A hiptese do autor que usando bigramas e trigramas ser possvel
identificar melhor o contexto e ento obter uma traduo melhor.
Barcia et al. (1999) propem a utilizao da tcnica de Raciocnio
baseado em Casos (RBC) para soluo de problemas jurdicos. Segundo os
autores, quando um profissional do direito realiza uma pesquisa jurisprudencial, ele
est buscando informaes para reforar o seu ponto de vista sobre a interpretao
de uma norma jurdica e define argumentos persuasivos para fazer a analogia entre
o seu problema atual e o anterior, j solucionado. Ainda segundo os autores, muitos
destes textos jurdicos esto disponveis em bancos de dados, inclusive acessveis
na Internet. No entanto, as buscas por informaes jurdicas nesses sistemas
requerem conhecimento jurdico e esto limitadas devido a problemas como a
ambiguidade sinttica e semntica, e tambm a incerteza existentes nos textos dos
documentos. O interessante deste trabalho o fato da equipe de autores ser
intrinsecamente multidisciplinar envolvendo pesquisadores da rea do Direito, da
Computao e da Engenharia da Produo.
104
Berber Sardinha (1999) apresenta um trabalho terico com relatos dos
resultados de um estudo cujo foco a descrio de padres lexicais e colocaes
do portugus. O objetivo iniciar o estudo destes aspectos da linguagem em uso na
lngua portuguesa. Os relatos apresentados no presente trabalho visam fornecer
uma descrio dos perfis semnticos de vrias palavras da lngua portuguesa.
Segundo o autor, o estudo da colocao ou co-ocorrncia significativa de itens
lexicais, verificada computacionalmente em um corpus eletrnico, j se firmou como
uma prtica metodolgica fundamental na descrio lexical e gramatical do ingls. A
pesquisa relatada neste trabalho tem como objetivo preencher uma lacuna no estudo
da padronizao lexical da lngua portuguesa, atravs da busca de elementos
lexicais co-ocorrentes em um corpus eletrnico de grandes propores. Segundo o
autor, a investigao da padronizao lexical baseada em corpus, conforme
proposta neste trabalho, pressupe uma viso da linguagem como um sistema
probabilstico. O autor destaca que esta viso da linguagem encontra seu
contraponto na lingustica Chomskyana, mas com algumas diferenas: "foco no
desempenho lingustico, em vez de competncia; foco na descrio lingustica, em
vez de universais lingusticos; foco numa viso mais empirista do que racionalista da
pesquisa cientfica" (p. 5).
Villavicencio (1999) demonstrou como o uso de unificao padro na
organizao da informao lexical pode fornecer descrio no redundante de
tipos lexical. Segundo a autora, padres foram usados na definio da morfologia,
na especificao da semntica lexical, na anlise de construes em aberto
(gapping constructions) e elipses (ellipsis), dentre outros. Neste trabalho, utilizou-se
padres para estruturar o lxico, concentrando-se na descrio das informaes de
categorizao verbal.
O trabalho de Jose Neto e Menezes (2000) prope um mtodo para a
construo de um etiquetador morfolgico, que possa ser usado em vrias
lnguas. Apesar de test-lo apenas para a lngua portuguesa, o trabalho prope que
seja treinvel com o uso de corpus e que possibilite uma boa preciso na anotao.
Segundo os autores, um etiquetador morfolgico tem como funo associar, a cada
palavra, uma etiqueta que corresponda a sua categoria morfolgica. E
complementam que a principal dificuldade est em lidar com a ambiguidade. Um
etiquetador morfolgico robusto deve levar em conta no apenas as informaes
lexicais da palavra a ser anotada, mas tambm informaes a respeito do contexto
105
em que esta palavra se encontra (p. 53).
Berber Sardinha (2000) tem como objetivo focalizar o problema de
traduo de padres lexicais, mais especificamente a traduo de termos
equivalentes do ingls para o portugus, segundo a tica da manuteno ou da
quebra da prosdia semntica (associao entre itens lexicais e conotao
positiva, negativa ou neutra). Segundo o autor, um tipo de padro importante para a
traduo a prosdia semntica, ou a associao recorrente entre itens lexicais e
um campo semntico, indicando uma certa conotao (negativa, positiva ou neutra).
Em Padilha e Viccari (2000) foram desenvolvidos processadores para a
morfologia do portugus utilizando mquinas de estados finitos, particularmente
transdutores. Segundo os autores, um transdutor um autmato cujas transies de
estado so marcadas por pares ou tuplas de smbolos, em vez de smbolos simples.
Ainda segundo os autores, "enquanto um autmato representa uma linguagem
regular, um transdutor representa uma relao regular entre duas linguagens,
associando diretamente cada "palavra" de uma outra" (p. 44).
Em Larocca Neto et al. (2000), os autores apresentam a sumarizao
de texto como sendo o processo de reduzir o tamanho do texto, preservando o
contedo informacional do mesmo. Segundo os autores, existem vrios sistemas
robustos de sumarizao de textos que utilizam tcnicas estatsticas e/ou tcnicas
baseadas em anlise lingustica superficial e independente de domnio. A grande
maioria dos sistemas, disponveis poca, realizava sumarizao de extratos, que
segundo os autores, uma forma relativamente simples de se fazer sumarizao,
onde sentenas do documento original so selecionadas de acordo com algum
critrio pr-definido. Normalmente, isto feito, organizando-se as sentenas
originais, e selecionando as que apresentarem maiores avaliaes (escore). No
entanto, isto no garante que o sumrio obtido ter uma narrativa coerente. Diante
disso, este trabalho tem como objetivo propor um sistema treinvel baseado em
aprendizado de mquina para sumarizao de notcias. Ainda segundo os autores,
o objetivo do trabalho obter uma estrutura argumentativa aproximada do texto,
usando algumas heursticas.
Dias-da-Silva et al. (2000) abordam inmeras questes envolvidas no
processo de compilao de um Thesaurus Eletrnico Bsico para o Portugus do
Brasil (TeP). Segundo os autores, um thesaurus eletrnico, acoplado a outras
ferramentas computacionais de auxlio expresso escrita, deve complementar
106
outras referncias, em meio digital, tais como dicionrios e gramticas. "Essa
ferramenta dever oferecer ao usurio da lngua portuguesa a oportunidade mpar
de escolher palavras sinnimas e antnimas que ele, por motivos de estilo, de
preciso, de correo ou de aprendizagem, deseja substituir" (p. 2). So
apresentados o arcabouo terico-metodolgico adotado, assim como os
principais problemas enfrentados na elaborao de um modelo de representao
lingustico-computacional adequado e eficiente. Alm disso, os autores procuram
caracterizar o termo thesaurus, visto que, segundo os autores, o mesmo tem sido
empregado por diferentes especialistas para denotar objetos bastante diversos. E
por fim, os autores apresentam uma soluo para a implementao do modelo,
incluindo o editor do thesaurus, projetado para auxiliar o linguista no processo de
construo do thesaurus. Os autores finalizam enumerando os resultados
alcanados at o momento da publicao deste trabalho, assim como as etapas
seguintes.
Rossi et al. (2001) tem como objetivo identificar as sequncias de
expresses em um texto que se referem a uma mesma entidade. Mais
especificamente, investiga-se a correferncia das descries definidas, que so
os sintagmas nominais iniciados por artigo definido (a, o, as, os). Segundo os
autores, um dos motivos para se trabalhar com descries definidas o fato de,
normalmente, ocorrerem em grande quantidade nos textos da Lngua Portuguesa. O
presente trabalho faz parte de um projeto maior intitulado ANACORT (Anotao
Automtica de Correferncia Textual) que tem como objetivo geral a construo e o
tratamento computacional de um corpus lingustico visando resoluo da
correferncia em textos do portugus. Segundo os autores, uma cadeia de
correferncia nominal uma sequncia de substantivos (ou nomes) em um discurso
que se referem a uma mesma entidade, e "podem melhorar a qualidade dos
resultados em diversas aplicaes de processamento de linguagem natural, como
recuperao e extrao de informaes, gerao automtica de resumos, tradues
automticas, entre outros" (p. 1).
Gamallo, Agustini e Lopes (2001) tem como objetivo descrever um
mtodo baseado em corpus para a extrao de informao semntica. Segundo
os autores, o intuito utilizar informaes sintticas para extrair as restries de
seleo e preferncias semnticas ao invs de combinao de palavras. Em outras
palavras, apresentado um mtodo no supervisionado "pobre de conhecimento"
107
(knowledge-poor) para adquirir restries de seleo baseado em hipteses de
contexto e de co-especificao. Segundo os autores, mtodos pobres de
conhecimento necessitam apenas ter noo de informao lingustica: co-ocorrncia
de palavras. O principal objetivo calcular a frequncia da co-ocorrncia dentro de
construes sintticas, ou sequncias de n-gramas, com o objetivo de extrair
informaes semnticas, tais como restries de seleo e ontologias de palavras.
Segundo os autores, o relacionamento sinttico binrio constitudo tanto pela
palavra que impe restries lingusticas (o predicado) como pela palavra que deve
preencher essas restries (o seu argumento). Em uma relao sinttica, cada
palavra tem um papel fixo. O argumento visto como a palavra que especifica ou
modifica as restries sinttico-semnticas impostas pelo predicado, enquanto o
tlimo visto como a palavra especificada ou modificada pela primeira.
Gonzalez e Strube de Lima (2001) apresentam uma primeira avaliao
dos resultados obtidos com a expanso automtica de consulta em recuperao
de informao. Foi utilizado um thesaurus, com estruturao semntica e
operaes gerativas, para gerar o campo lexical de cada termo da consulta e obter a
expanso automaticamente. A seleo dos novos termos e o clculo de seus pesos,
na consulta expandida, depende da sobreposio dos campos lexicais e do nvel de
profundidade que se avana na busca de descritores dos termos considerados.
Souza, Pereira e Nunes (2001) tem como objetivo apresentar um
ambiente para testes de estratgias de sumarizao automtica extrativa
[extratos] de portugus, chamado SUMEX. Segundo os autores, a sumarizao
automtica extrativa consiste da extrao de sentenas relevantes do texto-fonte
para a formao do sumrio.
Orengo e Huyck (2001) apresentam o desenvolvimento de um algoritmo
para realizar anlise de radicais (stemming) para o portugus, ou seja, suprimir o
sufixo (suffix-stripping) das palavras reduzindo-as sua raiz (stem). Segundo os
autores, essa tcnica tem sido amplamente utilizada na fase de pr-processamento
dos documentos para recuperao de informao, por reduzir a estrutura de
indexao adotada. Diante disso, este trabalho tem como objetivo apresentar a
implementao de um algoritmo simples, mas, segundo os autores, efetivo, para
remoo de sufixos na lngua portuguesa.
Jose Neto e Moraes (2002) tem como principal objetivo mostrar o
potencial e a aplicabilidade de formalismos adaptativos - em particular, dos
108
autmatos adaptativos - para a resoluo de alguns dos problemas tipicamente
encontrados na representao e no processamento de linguagens naturais. Segundo
os autores, dois importantes aspectos ligados complexidade sinttica das
linguagens naturais que precisam ser tratados so: o no-determinismo e a
ambiguidade sinttica. Os autores definem no-determinismos como sendo
quando duas ou mais construes sintticas, que ocorrem em um determinado
ponto das sentenas, apresentem prefixo comum, e ambiguidades como sendo
fenmenos lingusticos em que uma sentena pode ter duas ou mais interpretaes
vlidas na mesma linguagem. Segundo os autores, os reconhecedores de
linguagens ambguas, muitas vezes, podem lidar com as ambiguidades
simplesmente buscando a aceitao de uma, talvez a mais usual, ou a mais
facilmente identificada, ou a de tratamento mais simples, das interpretaes
possveis para a sentena, sendo as demais interpretaes ignoradas. No entanto,
os autores destacam que, um dos problemas usualmente encontrados no
processamento de linguagens naturais, corresponde dificuldade de expressar,
atravs de um formalismo legvel e expressivo, as complexas nuanas estruturais
sempre presentes nas linguagens naturais. Uma alternativa efetuar uma reduo
inicial da complexidade da linguagem que se deseja definir, atravs da elaborao
de uma aproximao livre de contexto da mesma. Os autores afirmam que esta
tcnica "bastante conveniente na prtica, uma vez que, para linguagens livres de
contexto, esto disponveis inmeras tcnicas simples e eficientes de
reconhecimento e de anlise" (p. 1). Esta restrio pode parecer, num primeiro
momento, um pouco quanto sem propsito para um trabalho que prope o
"reconhecimento de linguagem natural". Os autores complementam ainda que
"atravs da eliminao dos aspectos mais complexos da linguagem, tais como
ambiguidades e dependncias de contexto, pode-se obter uma boa aproximao da
linguagem natural, que represente, de forma simples, mas com uma fidelidade
aceitvel, todos os seus aspectos sintticos mais importantes" (p. 1).
Bidarra (2002) considera alguns aspectos bsicos para a construo de
lxicos para o PLN. Alm disso, o autor considera a afasia ou parafasia semntica
como indcios para compreender "como as palavras estariam, teoricamente,
representadas no lxico mental" (p. 1). Segundo o autor, a afasia tem sido uma
grande fonte de descobertas no s para a neurolingustica e medicina, mas
tambm objeto de pesquisas para o desenvolvimento de modelos computacionais de
109
Processamento da Linguagem Natural (PLN).
O comportamento lingustico de sujeitos afsicos tem dado mostras de que
o sistema lexical humano - os processos cognitivos que subjazem tarefas
tais como nomeao de objetos, enunciao de expresses lingusticas ou
partes delas e compreenso das palavras parece constitudo por
componentes de processamento relativamente independentes entre si,
desde que podem ser seletivamente prejudicados em virtude de leses
cerebrais (p. 1).
Sendo assim, o principal objetivo do trabalho , partindo-se do problema
da afasia, trazer para o debate a pesquisa que o autor desenvolve desde 1997,
quando ingressou no doutorado. Segundo o autor, na sua tese, ele props um
modelo de descrio lexical para dar suporte a questes relacionadas com
patologias da linguagem e consequentemente modelos computacionais para este
fim. Dentre as questes de pesquisa que o autor pretende aborda esto: Um dano
causado nas estruturas internas do lxico seria realmente capaz de provocar a perda
da capacidade do sistema para a recuperao do conjunto de informaes
necessrias para a correta captura da palavra desejada? E se no confirmada a
primeira alternativa, seria o caso de dizer que os mecanismos usados pelo sistema
para a manipulao dessas informaes estariam prejudicados?
Pardo e Rino (2002) apresentam a sumarizao automtica como sendo
uma rea promissora de pesquisa nos dias atuais, diante da crescente quantidade
de informao disponvel e do tempo cada vez mais reduzido que o leitor tem para
apreender o mximo dessa informao. Sendo assim, esse trabalho explora a
abordagem fundamental para a sumarizao dirigida por objetivos comunicativos,
propondo a implementao de um modelo discursivo desenvolvido na tese de
doutorado de um dos autores (RINO, 1996
3
). Segundo os autores, as premissas
deste trabalho so de que os sumrios gerados automaticamente devem satisfazer o
objetivo comunicativo e preservar a proposio central do texto-fonte. Segundo os
autores, discusses preliminares foram realizadas em outro trabalho de mesma
autoria (PARDO E RINO, 2002
4
). O objetivo comunicativo o responsvel por
garantir a coerncia dos sumrios gerados automaticamente e selecionar as
proposies do texto-fonte que se relacionaro proposio central nos sumrios,
garantindo, portanto, sua preservao.

3
Rino, L.H.M. (1996). Modelagem de Discurso para o Tratamento da Conciso e Preservao da Idia Central na Gerao de
Textos. Tese de Doutorado. IFSC-USP. So Carlos SP.
4
Pardo, T.A.S. and Rino, L.H.M. (2002). DMSumm: Review and Assessment. In E. Ranchhod and N. J. Mamede (eds.),
Advances in Natural Language Processing, pp. 263-273 (Lecture Notes in Artificial Intelligence 2389). Springer-Verlag,
Germany.
110
Em Schulz et al. (2002), os autores, da rea mdica, afirmam que a
quase totalidade da informao mdica produzida expressa por meio da linguagem
natural, e que o volume de informaes disponveis est crescendo a ponto de
dificultar a seleo e a leitura do que , de fato, til e de interesse. Os autores
destacam que a terminologia mdica exibe caractersticas prprias que dificultam o
uso eficiente dos mecanismos de busca, e citam vrios exemplos dentre variao
ortogrfica, derivao, sinonmia, dentre outros. Alm disso, os autores
complementam destacando a necessidade de lidar com documentos em lnguas
diferentes. Sendo assim, os autores apresentam dois projetos que encontram-se em
desenvolvimento em cooperao entre o Departamento de Informtica Mdica da
Universidade de Freiburg (Alemanha) e o Grupo de Tecnologia em Sade do
Programa de Ps-Graduao em Informtica Aplicada (PPGIA) da Pontifcia
Universidade Catlica do Paran (PUCPR). Como parte deste projeto, desenvolveu-
se o MORPHOSAURUS, uma metodologia que tem como objetivo aperfeioar a
busca em colees multilngues de documentos mdicos, e que apresentado neste
artigo. Em outras palavras, a metodologia apresentada, segundo os autores,
abandona os mtodos tradicionais de recuperao e se baseia no uso de
morfemas mdicos, como unidades atmicas para indexao e recuperao de
informao.
Bonfante e Nunes (2002) destacam a importncia de se recuperar a
estrutura sinttica das sentenas. Segundo elas, muito esforo tem sido
empregado na construo de analisadores sintticos, mas que a dificuldade de se
especificar uma gramtica com poder de descrio abriu caminho para a pesquisa
emprica. Assim, um conjunto de sentenas anotadas sintaticamente usado, como
dados de treinamento, num processo de aprendizado para realizar a anotao de
uma sentena desconhecida. Dentre as abordagens empricas, as autoras citam o
aprendizado de mquina simblico, conexionista e estatstico. Este trabalho
apresenta parte da tese de doutorado em andamento da primeira autora, que visa
investigar o comportamento de analisadores sintticos, implementados seguindo
cada uma das trs abordagens descritas anteriormente. Mais especificamente, o
presente trabalho descreve a experincia de implementao de um parser
probabilstico, seguindo o modelo de Collins (1999
5
). Segundo as autoras, o modelo
baseia-se na noo de ncleos lexicais, onde para cada regra observada no

5
Collins, M. J. . Head-Driven Statistical Models for Natural Language Parsing. PhD thesis, University of Pennsylvania, 1999.
111
conjunto de treinamento, as palavras que no so ncleo so chamadas de
modificadores, exercendo influncia sobre ele.
Zavaglia (2003) inicia seu artigo destacando que o lxico tem sido
constantemente relacionado a memria humana, visto que as entradas lexicais em
um dicionrio so como registros de memria. Alm disso, a autora afirma que neste
sentido, o computador est fadado a incompletudes, visto que a forma como os
dados so armazenados na memria ainda um mistrio (segundo a autora). Como
possibilidade de representao, a autora destaca a utilizao de redes semnticas,
organizadas por relaes semnticas. Segundo a autora, dos fenmenos lingusticos
que fazem parte da lngua natural, a homonmia e a polissemia causam o
fenmeno da ambiguidade. Ainda segundo a autora, no mbito do lxico, bem
como dos fenmenos lingusticos geradores de ambiguidade, os pesquisadores em
PLN certamente encontraro vrios obstculos e empecilhos (p. 80). A autora
destaca ainda que, o problema da homonmia gramatical resolvido facilmente por
sistemas computacionais, mas o mesmo no acontece com outros problemas da
ambiguidades, tais como homonmia semntica e a polissemia. Segundo a autora,
isso se deve ao fato da mquina no ser capaz de relacionar semanticamente itens
lexicais em meio a construes sintticas ou inseridos no contexto. Assim, este
trabalho tem como objetivo apresentar uma proposta para o tratamento de itens
lexicais homnimos da lngua portuguesa do Brasil, por meio da construo de uma
base de dados conceitual (base de conhecimento lexical BCL). Pressupem-se
que tal base ir suprir as necessidades de um analisador sinttico, e que a
homonmia poder ser tratada, uma vez que ser fornecido a mquina, subsdios
lingusticos tais como relaes semnticas de itens lexicais em redes de
significao.
Martins, Monard e Matsubara (2003) iniciam o artigo discutindo sobre a
tarefa de classificar textos em linguagem natural. Segundo os autores, mtodos
manuais so caros e algumas vezes impraticveis, enquanto que a maioria dos
mtodos automticos modernos utiliza tcnicas de aprendizado de mquina
(machine learning) para classific-los a partir de exemplos. No entanto, os autores
destacam que necessrio transformar o texto em um formato apropriado
6
para os
algoritmos de aprendizado, o que inclui atribuir pesos aos termos assim como

6
No mapa conceitual da seo 4.2.2, esse artigo foi alocado dentro do conceito de Pr-processamento dos documentos, visto
que, normalmente nesta etapa que os documentos so transformados em um formato apropriado.
112
reduzir a dimenso adotada. Segundo os autores, a representao tem forte
influncia na eficincia do algoritmo de aprendizado. Diante disso, o presente artigo
tem como objetivo descrever uma maneira de reduzir a dimenso da tabela de
atributos-valor, usada para representar uma coleo de documentos. Os autores
apresentam a ferramenta PreText, desenvolvida com o objetivo de realizar
automaticamente a tarefa de pr-processamento de uma coleo de documentos, e
inclui a funcionalidade de reduzir a dimensionalidade do conjunto de dados usando a
lei de Zipf e os limiares de Luhn.
Pardo, Rino e Nunes (2003) destacam que a sumarizao automtica
de textos o processo de se produzir uma verso mais curta de um texto-fonte que
pode ser um extrato (extract) ou um sumrio (abstract). Segundo os autores, o
extrato corresponde justaposio de sentenas do texto-fonte consideradas
importantes, enquanto que o sumrio altera a estrutura e/ou o contedo das
sentenas originais, fundindo-as e/ou reescrevendo-as, para generalizar ou
especificar as informaes (p. 1). No presente artigo apresentado o sumarizador
NeuralSumm (NEURAL network for SUMMarization), que produz extratos utilizando
uma tcnica de aprendizado de mquina uma rede neural SOM (self-organizing
map) (KOHONEN, 1982
7
), para identificar as sentenas importantes de um texto-
fonte que iro compor seu extrato. A classificao das sentenas em graus de
importncia feita pela rede neural com base em caractersticas (features)
extradas durante o processo de sumarizao.
Gasperin e Strube de Lima (2003) apresentam a continuao do
trabalho de mestrado da primeira autora (GASPERIN, 2001
8
), onde uma lista de
palavras semanticamente relacionadas gerada automaticamente usando tcnica
pobre de conhecimento baseada em sintaxe (syntax-based knowledge-poor
technique). Segundo as autoras, por ser difcil avaliar a qualidade dessa lista de uma
maneira sistemtica, optou-se por aplic-la a uma tarefa visvel ao usurio e ento
avaliar tal tarefa. Sendo assim, o presente trabalho tem como objetivo avaliar a
utilizao de uma lista de palavras relacionadas semanticamente como fonte de
conhecimento semntico na tarefa de expanso de consulta.
Oliveira, Garrao e Amaral (2003) destacam que, um tipo de expresso
que, no portugus, frequentemente contm nomes so as preposies compostas

7
Kohonen, T. (1982). Self-organized formation of topologically correct feature maps. Biological Cybernetics, Vol. 43, pp. 59-69.
8
Gasperin, C. V. . Extrao Automtica de relaes semnticas a partir de relaes sintticas. Master's thesis, PPGCC
PUCRS, Porto Alegre (2001).
113
ou locues preposicionais (complex prepositions). Ainda segundo os autores,
importante investigar critrios que permita a correta identificao dessas expresses,
para evitar que as mesmas sejam detectadas como sintagmas nominais. Em outras
palavras, os autores apresentam as estruturas preposicionais como sendo padres
negativos para serem usados na extrao de sintagmas nominais de textos. Diante
disso, o presente trabalho tem como objetivo formular um critrio sistemtico para
reconhecimento das estruturas [locues] preposicionais, ou seja, um critrio
que possa ser formalizado e implementado em um sistema de computador.
Alves e Chishman (2004) afirmam que, um tradutor automtico pode
desempenhar melhor sua funo se forem utilizados mtodos adequados para
processar ambiguidades, anforas e ideias implcitas da lngua natural. As autoras
complementam que a ambiguidade um desafio, tanto para a lingustica como para
a computao, sendo que sob a tica da Lingustica terica, () esse fenmeno
uma riqueza da lngua, j para a rea da traduo automtica um problema a ser
superado (p. 97). Diante disso, o presente trabalho, tem como objetivo principal,
mostrar como os tradutores automticos tratam o complexo fenmeno lingustico
da ambiguidade. Alm disso, as autoras propem uma reorganizao das
nomenclaturas usadas para o tratamento terico desse fenmeno, uma vez que,
segundo as autoras, foram encontradas na literatura, definies imprecisas e
sobrepostas.
Specia e Nunes (2004) afirmam que apesar da traduo automtica ser
uma das reas mais antigas do PLN, ela ainda apresenta muitos problemas, e que
um dos principais problemas a ambiguidade lexical. Segundo as autoras, esse
problema se mostra ainda mais complexo de ser tratado quando so identificadas
apenas variaes de significado (de sentido) nas opes de traduo, ou seja, todas
as opes so da mesma categoria gramatical (chamada de ambiguidade lexical de
sentido). Diante disso, o presente trabalho tem como objetivo apresentar discusses
preliminares de um projeto que encontra-se em especificao que prope a
construo de um modelo hbrido lingustico-computacional de desambiguao
lexical de sentido (word sense disambiguation), ou seja, baseado em conhecimento
lingustico (dicionrios) e em algoritmos de aprendizado de mquina (corpus de
exemplos). Mais especificamente, ele contempla a ambiguidade de um conjunto de
verbos, visto que so altamente ambguos e porque da sua desambiguao pode
depender a desambiguao de outras palavras da sentena, principalmente dos
114
seus argumentos.
Rino et al. (2004) apresentam o problema da sumarizao automtica,
mais especificamente os mtodos extrativos baseados em tcnicas estatsticas ou
empricas, nos quais trechos do texto original so justapostos para compor o extrato
produzido. O presente trabalho tem como objetivo comparar cinco mtodos de
sumarizao automtica encontrados na literatura.
Aluisio et al. (2004) apresentam alguns consrcios americanos e
ingleses com o intuito de desenvolver pesquisas acadmicas na rea de PLN, e
destacam que iniciativas como estas, que produza recursos para a lngua
portuguesa no Brasil, ainda so desconhecidas. Os autores tentam justificar esta
carncia argumentando que talvez isso se deva ao fato do portugus no ser o
idioma difundido mundialmente nas pesquisas e negcios. Por outro lado, eles
argumentam que a lngua portuguesa falada por cerca de 200 milhes de pessoas
no mundo todo, e que portanto merece destaque (sendo a sexta lngua mais falada).
Neste sentido, o presente trabalho tem como objetivo discutir os requisitos
necessrios para se construir um grande repositrio de recursos e ferramentas,
e apresentar o corpora Lcio-Web, projeto em desenvolvimento desde 2002, na
universidade de So Paulo (NILC, IME e FFLCH). O Lcio-Web foi projetado tanto
para pesquisadores lingusticos tericos como prticos, e para o desenvolvimento
tanto de ferramentas lingusticas computacionais como de aplicaes, tais como
etiquetadores (tagger), analisadores (parsers), corretores gramaticais (grammar
checkers), mtodos de recuperao de informao e sumarizao automtica.
Matsubara, Monard e Batista (2004) destacam que o aprendizado de
mquina semi-supervisionado uma rea de pesquisa, segundo eles,
relativamente recente, relacionada com algoritmos que aprendem utilizando uma
combinao das facilidades oferecidas pelo aprendizado supervisionado no qual
fornecido um conjunto de exemplos de treinamento rotulado com a classe
associada a cada exemplo e das facilidades oferecidas pelo aprendizado no-
supervisionado no qual a classe de cada exemplo no conhecida. Os autores
complementam apresentando o algoritmo co-training, proposto originalmente por
Blum e Mitchell (1998
9
) e, implementado e disponibilizado em Matsubara e Monard

9
Avrim Blum and Tom Mitchell. Combining labeled and unlabeled data with co-training. In Proc. 11th Annu. Conf. on Comput.
Learning Theory, pages 92100. ACM Press, New York, NY, 1998.
115
(2004
10
), como sendo um algoritmo de aprendizado semi-supervisionado que utiliza
um mtodo interessante (de mltiplas vises) para rotular exemplos quando o
nmero de exemplos originalmente rotulados pequeno. Diante disso, os objetivos
deste trabalho so propor uma maneira de obter duas ou mais descries dos
dados, por meio de n-gram, em qualquer base de texto, para serem utilizadas em
algoritmos multi-viso; e avaliar experimentalmente o comportamento do algorimo
co-training com essa nova proposta.
Pardo, Marcu e Nunes (2005) destacam que muitos esforos tm sido
feitos para a criao de repositrios semanticamente anotados, e que a anotao
dos argumentos dos verbos representa uma parcela significativa destes esforos.
Em outras palavras, as anotaes semnticas focadas neste artigo so as
estruturas argumentais dos verbos, que indicam quantos e quais so os possveis
argumentos que os verbos requerem. Os autores destacam que o ideal seria que
todas as possibilidades de estruturas argumentais fossem includas na especificao
semntica dos verbos. Sendo assim, neste artigo apresentada uma abordagem
no supervisionada, completamente automtica, para o aprendizado das estruturas
argumentais, utilizando-se um modelo estatstico gerativo baseado no modelo noisy-
channel (SHANNON, 1948
11
) e treinado por meio do algoritmo Expectation-
Maximization (DEMPSTER et al., 1977
12
).
Caseli, Nunes e Forcada (2005) apresentam alinhamento de sentenas
(multiwords) e palavras como um importante papel em vrias aplicaes em
processamento de linguagem natural tais como traduo automtica baseada em
exemplos e mtodos estatsticos, desambiguao lexical de sentido (word sense
desambiguation), dentre outros. Segundo os autores, alinhamento de dois ou mais
textos significa encontrar correspondncia (tradues equivalentes) entre segmentos
do texto fonte (pargrafos, sentenas, palavras, etc) e segmentos de suas tradues
no texto alvo. O enfoque deste artigo o alinhamento lexical, ou seja, o alinhamento
entre palavras ou sentenas em portugus do Brasil, espanhol e ingls. Em outras
palavras, o mtodo apresentado, Language-Independent Heuristics Lexical Aligner
(LIHLA) tem como ponto de partida o uso de alinhamentos estatsticos, e pela

10
Edson Takashi Matsubara and Maria Carolina Monard. Projeto e implementao do algoritmo de aprendizado de mquina
semi-supervisionado co-training. Technical Report 229, ICMC-USP, 2004.
ftp://ftp.icmc.usp.br/pub/BIBLIOTECA/rel_tec/rel_tec229.zip.
11
Shannon, C. (1948). A mathematical theory of communication. Bell System Technical Journal, Vol. 27, N. 3, pp. 379-423.
12
Dempster, A.P.; Laird N.M.; Rubin, D.B. (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of
the Royal Statistical Society, Ser B, Vol. 39, pp. 1-38.
116
utilizao de heursticas independente de linguagem, objetivando encontrar o
melhor alinhamento entre palavras e sentenas.
Specia, Nunes e Stevenson (2005) apresentam o problema da
desambiguao lexical de sentido (word sense disambiguation) no contexto da
traduo automtica como sendo quando so identificadas apenas variaes de
significado (de sentido) nas opes de traduo, ou seja, todas as opo so da
mesma categoria gramatical (part-of-speech). Assim, os autores ressaltam que,
neste contexto, sentido (sense) significa de fato, traduo. Os autores destacam que
existem vrias abordagens, mas que o foco do presente trabalho est nas
abordagens hbridas, que minimizam o gargalho da aquisio de conhecimento, mas
permite aprimorar o conhecimento adquirido. Os autores ressaltam que o presente
trabalho faz parte de um projeto de pesquisa maior que visa a criao de uma nova
abordagem hbrida simblica de desambiguao lexical de sentido, a ser aplicado na
tarefa de traduo automtica Ingls-Portugus. Os autores destacam que a
principal inovao nesta abordagem a utilizao de um formalismo relacional para
representar o conhecimento contextual ou de fundo (background knowledge). Alm
disso, os autores ressaltam que um ponto chave nas abordagens hbridas e nas
baseadas em corpus a fonte de conhecimento (knowledge source) utilizada no
processo de aprendizado de mquina. Assim, o modelo ser aplicado a vrias fontes
de conhecimento para que seja possvel compar-las, e identificar a que apresente
os melhores (o que, segundo os autores foi realizado em trabalhos anteriores).
Tendo feito isto, o objetivo desse trabalho extrair regras do modelo predito que
possam ser usadas como fonte de conhecimento no processo de aprendizado de
mquina.
Silva, Vieira e Osorio (2005) iniciam discutindo que os mtodos de
minerao de dados podem ser adaptados a textos em linguagem natural
(minerao de texto ou text mining), com o intuito de extrair padres teis para
organizar e recuperar a informao contida em colees de documentos. Segundo
os autores, a primeira etapa da tarefa de minerao de textos o pr-
processamento quando os documentos so representados de uma maneira mais
estruturada. Como resultado dessa etapa, usualmente, os documentos so
representados por uma lista de palavras (bag-of-words), sendo que as palavras sem
importncia (stopwords) so eliminadas e as palavras so reduzidas ao seu radical
(stemming). Neste trabalho, os autores propem uma nova tcnica de pr-
117
processamento utilizando informaes lingusticas, selecionando as palavras pela
sua categoria (nomes, adjetivos, nomes prprios, verbos) e usar a sua forma
cannica. Sendo assim, este trabalho tem como objetivo avaliar o uso de
informaes lingusticas no pr-processamento de textos tendo em vista as
tarefas de classificao e clusterizao de documentos
13
.
Piltcher et al. (2005) afirmam que o presente trabalho trata da correo
de palavras dentro de um ambiente de chat (salas de bate-papo). As tcnicas
apresentadas neste trabalho consideram cada palavra separadamente, no sendo
avaliados aspectos relacionados concordncia verbal ou nominal. A abordagem
utilizada probabilstica (estatstica) pois no requer a utilizao de analisadores
sintticos (parsers). Diante disso, o presente trabalho tem como objetivo utilizar as
mtricas Levenshtein, Metaphone e Soundex como funo de similaridade para
correo automtica de erros de digitao.
Rino e Seno (2006) discutem a cerca das duas abordagens principais de
sumarizao automtica de textos: abordagem profunda ou rica em conhecimento,
baseada em informaes lingusticas; e abordagem superficial ou pobre em
conhecimento, baseada em informaes estatsticas ou empricas. Segundo as
autoras, as abordagens profundas tendem a produzir sumrios textuais, ou resumos
(p. 1180). Segundo as autoras, o problema de co-referenciao anafrica evidente
na sumarizao, diante da possibilidade de uma sentena anafrica referencial ser
escolhida para compor um texto sem que sua sentena correspondente antecedente
tambm o seja. As autoras concluem que a ausncia de resoluo anafrica pode
induzir descontinuidade referencial e, assim, a mensagens incompatveis de um
sumrio, se comparado a seu texto-fonte. Diante disso, o presente trabalho tem
como objetivo propor a implementao do prottipo RHeSumaRST (Regras
Heursticas de Sumarizao de estruturas RST), baseado nos modelos de
estruturao retrica do discurso da Rhetorical Structure Theory RST (MANN &
THOMPSON, 1987
14
) e de coerncia global do discurso da Teoria de Veins
(CRISTEA et al., 1998
15
).

13
No mapa conceitual da seo 4.2.2, esse artigo foi alocado dentro do conceito de Pr-processamento dos documentos,
visto que, os autores utilizaram as tarefas de classificao e clusterizao para avaliar o uso de informao lingustica na fase
de pr-processamento dos documentos.
14
MANN, W.C.; THOMPSON, S.A. Rhetorical Structure Theory: A Theory of Text Organization. Technical Report ISI/RS-87-190,
1987.
15
CRISTEA, D.; IDE, N.; ROMARY, L. Veins Theory: A Model of Global Discourse Cohesion and Coherence. In the Proceedings
of the Coling/ACL1998, pp. 281-285. Montreal, Canada, 1998.
118
Caseli e Nunes (2006) apresentam a traduo automtica (machine
translation) como sendo uma tarefa difcil principalmente por precisar de
conhecimento lingustico profundo de duas ou mais linguagens. Alm disso, mtodos
estatsticos podem tambm ser complicados por requererem a utilizao de grandes
corporas paralelos e alinhados. Segundo as autoras, torna-se necessrio
transformar a pouca informao multilngue em conhecimento lingustico til para
traduo automtica. Neste sentido, as autoras destacam que vrios mtodos tm
sido propostos com o intuito de obter automaticamente correspondncias estruturais,
sintticas ou lexicais a partir de textos paralelos. Essas correspondncias so
generalizadas para construir gramticas de traduo (conjunto de regras de
transferncia ou traduo) e outros recursos teis (tais como dicionrios bilngues)
para sistemas de traduo automtica. Diante disso, o presente trabalho pretende
apresentar o projeto ReTraTos, que tem como objetivo induzir conhecimento
lingustico para traduo regras de transferncia e dicionrio bilngue
combinando tcnicas diferentes para o portugus do Brasil.
Balage Filho et al. (2006) apresentam os resultados obtidos durante a
participao no CLEF 2006, da aplicao de um sistema de sumarizao na tarefa
de responder perguntas em um nico idioma (monolingual Question Answering)
para textos em portugus, usando o mtodo orientado a tpicos. Assim, cada
pergunta ser considerada um tpico a partir do qual o sumrio dever ser
construdo, esperando conter a resposta apropriada.
Enembreck et al. (2006) afirmam que um problema comum nas
organizaes identificar pessoas ou competncias para formar uma equipe
especializada tanto em ambientes acadmicos como industriais. Assim, o objetivo
deste trabalho , dada a descrio de um projeto de pesquisa e desenvolvimento,
extrair informaes que permitam identificar pessoas que tm competncias
16

para participar do projeto, utilizando a base de currculos Lattes, e tcnicas de
recuperao de informao textual.
Leite e Rino (2006) apresentam como alternativas de extrao em
sumarizao automtica, mtodos empricos ou tcnicas estatsticas que tm como
objetivo identificar segmentos relevantes do texto que devem ser includos no
sumrio (extrato) final. Ao mesmo tempo, os trechos irrelevantes devem ser filtrados

16
No mapa conceitual da seo 4.2.2, esse artigo foi alocado dentro de exemplos de aplicao do PLN com Identificao
automtica de equipes (times).
119
e descartados. Segundo os autores, algumas [seleo de] caractersticas so
usadas para produzir regras neste processo, que referenciam diferentes tipos de
informaes, como gramatical, funcional ou posicional (como palavras do ttulo). Em
um trabalho anterior da segunda autora, e tambm analisado nesta tese, o
sumarizador Supor foi comparado com outros sistemas e obteve o melhor
desempenho. No entanto, os autores afirmam que no foi possvel identificar, dentre
as caractersticas usadas pelo Supor, qual ou quais apresentaram papel mais
significante. Diante disso, o presente trabalho tem como objetivo avaliar o impacto
dessas caractersticas no processo de sumarizao automtica, usufruindo do fato
do sistema Supor ser configurvel pelo usurio. Como consequncia, os autores
propem o desenvolvimento de uma nova verso da ferramenta que utilize
caractersticas mais informativas e apresente melhor desempenho e escalabilidade.
Moraes e Strube de Lima (2007) discutem a importncia de se definir
mtodos eficazes de classificao, e consequente recuperao de informao, de
grandes quantidades de documentos. Alm disso, diante da diversidade dos textos,
um nmero elevado de categorias pode ser definido, dificultando assim a navegao
e a busca de informaes sobre essas categorias. Segundo as autoras, uma
alternativa comumente adotada a organizao dessas categorias em hierarquias.
Sendo assim, o presente trabalho tem como objetivo experimentar a categorizao
hierrquica de textos em lngua portuguesa em uma escala maior, analisando os
resultados obtidos e as principais dificuldades encontradas. Os parmetros usados
por Langie (2004
17
) no processo de classificao sero analisados, bem como a
eficcia do processo de categorizao em relao ao pequeno nmero de
documentos usados para treinar os classificadores.
Kinoshita et al. (2007) destacam que, apesar do OpenOffice ser um
projeto cdigo aberto, multi plataforma e idiomas, utilizado por inmeros usurios e
organizaes que apiam software livres, opes de corretores gramaticais para
esse editor de texto ainda um grande problema. Diante disso, o presente artigo
tem como objetivo descrever o CoGrOO Corretor Gramatical para OpenOffice,
um projeto de um corretor ortogrfico para a lngua portuguesa do Brasil. Dentre os
erros normalmente observados nos textos, os autores destacam erros de digitao
(spelling), gramaticais (quando as regras de gramtica no so observadas), de

17
Langie, L. C. (2004) Um Estudo sobre a Aplicao do algoritmo k-NN Categorizao Hierrquica de Textos. Dissertao
de Mestrado. Faculdade de Informtica, PUCRS, 126 p.
120
estilo e semnticos (que so fortemente dependentes do contexto).
Specia, Stevenson e Nunes (2007) apresentam o problema da
desambiguao lexical de sentido (word sense disambiguation) como sendo a
correta identificao do significado de palavras ambguas dentro do contexto.
Segundo os autores, abordagens comumente utilizadas para desambiguao de
nomes consideram o contexto prximo palavra ambgua fazendo-se uso de uma
lista de palavras (bag-of-words), ou, no caso da desambiguao de verbos, de
conhecimento mais especfico, como relao do verbo com outros itens da sentena.
Diante disso, este trabalho tem como objetivo apresentar uma abordagem de
desambiguao lexical de sentido baseada em corpus com conhecimento de fundo
(background knowledge). Em outras palavras, apresentada uma estratgia hbrida
que combina conhecimento e evidncias baseadas em corpus, e aplica um
formalismo para permitir a representao do conhecimento profundo sobre os
exemplos. Neste trabalho foi dada nfase a traduo de dez verbos ambguos do
Ingls para o Portugus.
Silva e Vieira (2007) apresentam como tema central do artigo o problema
da categorizao
18
de textos onde os textos (ou documentos) so organizados em
categorias pr-definidas, de acordo com o contedo que os compem. Segundo as
autoras, o objetivo deste trabalho avaliar a utilizao de informaes lingusticas
para seleo de caractersticas na etapa de pr-processamento de categorizao de
textos da lngua portuguesa e comparar seus efeitos em relao a dois mtodos de
aprendizado distintos, tais como rvores de deciso e Support Vector Machine
(SVM).
Milidiu, Duarte e Cavalcante (2007) apresentam o problema de
encontrar os nomes prprios (named entity recognition) em um texto e classific-los
em categorias usualmente utilizadas: personalidades (pessoas), organizaes e
localidades. Neste trabalho, foi considerado somente o problema de reconhecimento
de nomes prprios livre de contextos, ou seja, ambiguidades geradas pela omisso
de certas palavras no foram consideradas. Assim, o objetivo deste trabalho
avaliar a utilizao de trs tcnicas de aprendizado de mquina no processo de
reconhecimento de nomes prprios: modelos de cadeias de Markov (Hidden

18
Neste artigo, as autoras definem categorizao como sendo o processo de alocar documentos em categorias pr-definidas.
No entanto, no mapa conceitual construdo no escopo desta tese, adotou-se categorizao como sendo sinnimo de
clusterizao, que ocorre quando os documentos so agrupados em funo das suas similaridades, visto que no se tem
conhecimento prvio das categorias.
121
Markov Models HMM), aprendizado baseado em transformaes e Support Vector
Machine (SVM).
Caseli et al. (2008) apresentam uma ferramenta visual gratuita
desenvolvida baseada no alinhador lexical hbrido LIHLA, proposto anteriormente
pelos prprios autores. O mtodo implementado tenta encontrar o melhor
alinhamento entre palavras e sentenas baseado em heursticas independente da
linguagem, e alinhamento estatstico entre palavras simples definido em dicionrios
probabilsticos bilngue construdo automaticamente. Assim, usando dois dicionrios
bilngues construdos pelo NATolls e heursticas, o LIHLA tentat encontrar o melhor
alinhamento lexical em um par de sentenas paralelas por meio de um processo
iterativo.
Aziz, Pardo e Paraboni (2008) discutem sobre a ampla utilizao que os
mtodos estatsticos tem encontrado em vrias tarefas do processamento de
linguagem natural, dentre elas a de traduo automtica. Segundo os autores,
essas abordagens tm apresentado resultados superiores que os baseados em
regras para as linguagens ditas distantes, tais como ingls e rabe. Diante disso,
este trabalho tem como objetivo comparar a utilizao da abordagem estatstica
com a baseada em regras de transferncia compartilhada
19
para linguagens
prximas (closely-related), tais como o espanhol e o portugus.
Morais e Ambrosio (2008) ressaltam que vrias pesquisas tm
destacado a importncia da categorizao de documentos para auxiliar na
recuperao: alguns utilizam tcnicas de minerao de texto (text-mining) para
identificar o contexto semntico dos documentos, enquanto que outros representam
o contexto usando ontologias. No entanto, os autores destacam que no foi
encontrado na literatura alguma pesquisa que combine ambas as estratgias
ontologia e tcnicas de minerao de texto para desenvolver mecanismos de
categorizao automtica de documentos. Diante disso, este trabalho tem como
objetivo descrever o sistema, desenvolvido no mestrado do primeiro autor
20
, que
dado um documento e um domnio representado por uma ontologia, analisa
automaticamente se o documento relevante, utilizando tcnicas de minerao de
texto.

19
Corb-Bellot, A.M.; Forcada, M.L.; Ortiz-Rojas, S.; Prez-Ortiz, J.A.; Ramrez-Snchez, G.; Snchez-Martnez, F.; Alegria, I.;
Mayor, A.; Sarasola, K. An open-source shallow-transfer machine translation engine for the romance languages of Spain. 10th
Annual Conference of the European Association for Machine Translation (2005) 79-86.
20
MORAIS, E. Contextualizao de Documentos em Domnios Representados por Ontologias Utilizando Minerao de Textos.
Master Thesis, Universidade Federal de Gois, 2007.
122
Caminada, Quental e Garrao (2008) destacam que a identificao de
expresses multivocabulares uma das tarefas lexicogrficas que mais se
beneficiam de mtodos e aplicaes computacionais. Neste sentido, o presente
trabalho tem como objetivo apresentar uma ferramenta extensvel para a busca e
identificao de bigramas e trigramas multivocabulares da lngua portuguesa,
baseados em padres gramaticais definidos por um processo de anotao. A ideia
central quebrar os multivocbulos previamente identificados pelo parser
PALAVRAS e validar estes multivocbulos, assim como identifica novas expresses.
Seno e Nunes (2008) destacam que identificar passagens ou trechos
similares de textos tem desempenhado um importante papel em vrias aplicaes de
processamento de linguagem natural, tais como gerao de pargrafo, sumarizao
automtica, construo de ontologias, bibliotecas digitais, dentre outras. Diante
disso, o presente trabalho tem como objetivo propor a avaliao do framework
SiSPI Similar Short Passages Identifier, baseado num mtodo no supervisionado
e incremental de clusterizao. A hiptese desse artigo que uma abordagem de
clusterizao incremental apresenta resultados melhores que usando somente
mtricas estatsticas de similaridades.
Aziz, Pardo e Paraboni (2009) destacam que, nos ltimos anos, a
pesquisa em traduo automtica usando mtodos estatsticos tem alcanado
resultados de qualidade com a utilizao de tcnicas baseadas em frase, ou seja,
uso de modelos de traduo que consideram o alinhamento de sequncias de
palavras, motivado ou no liguisticamente. Esse processo envolve a escolha de
heursticas adequadas de alinhamento, algoritmos de decodificao (decoding),
modelos adequados, e um grande nmero de opes de configuraes. Ainda
segundo os autores, para alcanar resultados melhores, os sistemas desse tipo
devem ser customizado para um determinado par de linguagens ou domnios. Sendo
assim, o presente trabalho tem como objetivo investigar inmeros parmetros
envolvidos no treinamento e no processo de decodificao (nmero de palavras que
podem ter a ordem invertida durante a traduo), e comparar os resultados obtidos
nos experimentos.
Seno e Nunes (2009) apresentam como problemtica a fuso de
sentenas, que consiste em produzir, dadas duas ou mais sentenas similares, uma
nica sentena que combina informaes daquelas sentenas, e ao mesmo tempo
elimina as informaes redundantes. Segundo as autoras, neste artigo
123
apresentado um modelo indito para a fuso de sentenas em portugus.
Salles et al. (2009) destacam que apesar do tempo ser uma dimenso
importante para qualquer espao informacional, a maioria das tcnicas atuais de
classificao automtica de documentos no consideram a evoluo temporal
dos documentos, ou seja, que a variao na definio dos termos e das classes ao
longo do tempo, tende a tornar o conjunto de treinamento muito confuso, impactando
negativamente nos classificadores que negligenciam esta evoluo. Diante disso, o
presente trabalho prope uma nova abordagem para o tratamento dos efeitos
temporais em algoritmos de classificao, segundo os autores, j conhecidos,
derivando classificadores robustos temporalmente.
Braga, Monard e Matsubara (2009) afirmam que nos ltimos dez anos,
a classificao de textos tem recebido grande ateno da comunidade de
aprendizado de mquina, e que inicialmente a nfase estava nos algoritmos
supervisionados, apesar de haver algum interesse em abordagens semi-
supervisionada. Segundo os autores, no aprendizado semi-supervisionado um
classificador pode ser obtido a partir de dados rotulados e no rotulados. Os autores
destacam que, na classificao, a maneira mais comumente utilizada para
representar os documentos extraindo palavras (ou unigramas). Alm disso, os
autores ressaltam que combinar unigramas e bigramas no tem apresentado
melhorias significativas na classificao supervisionada de textos. Diante disso, o
presente trabalho tem como objetivo verificar se essa constatao observada
tambm no aprendizado semi-supervisionado.
Villavicencio, Caseli e Machado (2009) apresentam algumas
abordagens para identificao de expresses multi-palavras (multiwords
expressions) em corpora tcnicos. Segundo os autores, estas expresses podem ser
definidas como sendo a combinao de palavras que apresentam idiossincrasias
lexical, sinttica, semntica, pragmtica ou estatstica. O objetivo deste trabalho
determinar a influncia de diferentes fontes de conhecimento na tarefa de
identificao de expresses multi-palavras. Dentre as fontes avaliadas esto
informaes lingusticas e tcnicas estatsticas.

124
4.2.1.2. Metodologia Adotada nos artigos focalizados

Nesta seo, procurou-se apresentar a metodologia utilizada em cada
artigo selecionado para anlise, com o intuito de identificar os mtodos e as tcnicas
utilizados nestes trabalhos. Em outras palavras, esta categoria tem como objetivo
revelar o que os pesquisadores da rea tm usado em termos de ferramentas, tanto
computacional como lingustica, para resolver os problemas apresentados. As
tcnicas e mtodos que emergiram a partir desta anlise foram includos nos mapas
conceitual construdos, que sero apresentados na prxima seo, e esto
destacados em negrito nos pargrafos que se seguem.
Semeghini-Siqueira, Costa e Cohn (1986) propem que a compreenso
de linguagem natural por computador seja feita interagindo o componente sinttico
(formalizaes de Chomsky) e o componente semntico (contribuies da semntica
estrutural, gerativa e argumentativa) com incurses pelo componente pragmtico.
Assim, segundo os autores, o ponto de partida deste trabalho a gramtica
gerativo-transformacional mas que, em consonncia com a corrente semanticista,
no seria possvel compreender a sintaxe desvinculada da semntica e recorreram a
Fillmore (1968) para postular que a informao semntica faz parte do "plano de
composio da frase" (p. 116). Segundo os autores, a compreenso da linguagem
seria feita numa rede de ativao onde os componentes so tratados paralelamente:
o conhecimento especfico da lngua sobre a estrutura dos sintagmas, as relaes
entre as unidades lexicais
21
e os conhecimentos sobre o universo lingustico
escolhido (no caso do trabalho, Astronomia) so trabalhados concomitantemente. Os
autores complementam que aps muitas confrontaes, foi possvel depreender um
conjunto de relaes lgico-semnticas entre as unidades lexicais, ou seja,
associaes hierrquicas entre os significados. Estas relaes lgico-semnticas
foram apresentadas utilizando-se as notaes da linguagem de programao Prolog
(p. 119). A anlise sinttico-semntica realizada utilizando-se regras de gramticas
e sintagmas nominais, preposicionais, adjetivos e frases relativas (onde os verbos
so analisados para gerar conexes entre os itens lexicais) (p. 122).
O artigo Ziviani e Albuquerque (1987) apresenta um novo mtodo para
deteco de termos atravs da utilizao de um ndice que reduz drasticamente a

21
Os autores ressaltam que os termos lingusticos palavra, vocbulo, signo, item lexical e unidade lexical foram considerados
equivalentes, apesar de no serem iguais.
125
quantidade de dados a serem percorridos. O ndice criado atravs da obteno de
um arquivo de assinaturas. Segundo os autores, um arquivo de assinaturas de
palavras uma sequncia de inteiros, onde cada inteiro obtido aplicando-se uma
funo de transformao sobre as palavras do texto. Uma rvore Patricia
construda sobre as assinaturas das palavras do texto, permitindo a deteco de
termos em tempo proporcional ao logaritmo base dois do nmero de assinaturas
obtidas do arquivo original. Os autores apresentam inmeras vantagens em
converter a palavra em um nmero inteiro, dentre elas a compreenso do tamanho
(p. 177 e 178). Apesar dos autores apresentarem um apelo computacional maior,
eles tambm fazem uso de estratgias sabidamente da rea de PLN: elimina
stopwords (apesar de no usar esta denotao), consultando uma lista "negativa" de
palavras e citando van Rijsbergen (1979); elimina sufixos, citando Lovins (1968) e
van Rijsbergen(1979); resolve problemas de grafias ambguas usando o metodo
Soundex (Knuth, 1973); e tratam erros de digitao utilizando medidas de
semelhana entre duas cadeias (p. 178).
Ripoll e Mendes (1988) destacam que existem duas hipteses de
resoluo da ambiguidade lxica pelo homem: na primeira todos os possveis
significados de uma palavra so ativados em paralelo e depois, atravs do
contexto feita a escolha do significado adequado
22
. A outra possibilidade,
segundo os autores, que o contexto restrinja a priore a escolha precisa do
significado adequado (p. 297). Quanto a representao dos significados das
palavras, segundo os autores, existem duas alternativas utilizando um modelo
conexionista: a abordagem localizada, onde cada conceito (significado de uma
palavra) corresponde a uma unidade da rede; e a abordagem distribuda, onde
cada conceito corresponde a um padro de ativao de determinadas unidades da
rede, que so tambm compartilhadas por outros conceitos (p. 298). Para ilustrar,
os autores citam algumas caractersticas que normalmente so usadas para
representar verbos e substantivos, tais como se existe um agente, se o verbo
causal, qual a natureza da mudana, dentre outras (p. 298). O sistema proposto
resolve ambiguidade lxica de verbos em trs nveis: no nvel lxico, cada unidade
corresponde a uma palavra que consta no dicionrio da linguagem. As unidades do
nvel lxico ativam as do nvel de significado das palavras; neste nvel, cada

22
No mapa conceitual, adotou-se as expresses Identificar o significado pelo contexto e Contexto restringe os significados
possveis para representar as duas hipteses de resoluo de ambiguidades.
126
unidade representa um possvel significado das palavras; cada unidade do nvel
lxico ativa uma ou mais unidades do nvel de significado. A deciso de qual o
significado correto tomada atravs das ativaes vindas do nvel dos casos
verbais; no nvel de casos verbais, cada unidade corresponde aos possveis casos
verbais de cada significado do verbo (dentre as inspiraes, utilizou-se os casos de
Fillmore) (p. 300).
Fusaro e Ziviani (1989), assim como em Ziviani e Albuquerque (1987),
tem como enfoque o mtodo de recuperao de informao textual: codificao dos
termos, construo do arquivo invertido e definio de uma linguagem de consulta.
A implementao da linguagem apresentada envolveu a construo de um
interpretador para a gramtica da linguagem (que pode ser feita manual ou
automaticamente), e a criao de rotinas semnticas para cada sentena vlida da
gramtica (responsveis por localizar as ocorrncias dos termos da consulta e
retornar os documentos que apresentam tais termos) (p. 294 e 295).
Strube de Lima (1990) apresentou uma reviso de literatura quanto a
mtodos e tcnicas aplicados no tratamento da lngua natural, mais especificamente
na correo ortogrfica automtica de textos. Quanto aos tipos de erros e
estratgias de correo, a autora destaca que do ponto de vista lingustico clssico,
os erros podem ser distribudos em trs nveis diferentes: o nvel lxico, o nvel
sinttico e o nvel semntico, em outras palavras, erros a nvel da palavra, da
construo ou do sentido, respectivamente. Segundo a autora, no nvel lxico esto
os erros de ortografia, os erros fonticos (troca de letras que apresentam som
similares) e os erros de gerao (uso incorreto de uma desinncia ao construir um
plural, por exemplo). Os erros tipogrficos (erros de digitao) so includos nesta
categoria. No nvel sinttico, considera-se a correo no que diz respeito s regras
de construo da frase e concordncia entre seus componentes. J no nvel
semntico, uma interpretao da frase concebida de tal maneira que seja
possvel verificar o seu significado (p. 44 e 45).
Em Leffa (1991), o objetivo da pesquisa foi comparar a utilizao de um
dicionrio tradicional com um eletrnico. O dicionrio eletrnico deveria incluir
em cada verbete no apenas informao lexical como tambm informao
gramatical. A seleo dos itens para compor o dicionrio eletrnico foi feita de
acordo com dois critrios bsicos: frequncia dos termos no uso escrito da lngua
inglesa e contrastividade com o termo correspondente da lngua portuguesa. Para
127
levantamento dos termos mais frequentes, usou-se listas j existentes, enquanto que
a constrastividade foi baseada num trabalho anterior do prprio autor. A lista final
chegou a 4.700 verbetes com cerca de 10.000 valores semnticos (bem acima dos
3.300 termos considerados apropriados para compreenso geral de um texto, de
acordo com o autor) (p. 192).
Rocha et al. (1992) apresentam um sistema com rede neural artificial
evolutiva e hierrquica de trs nveis, para identificar o contedo em comum de um
grupo de textos de um banco de dados, e produzir sumrios (lista de tpicos). A
primeira rede neural (word net) responsvel por escanear os textos e identificar
as palavras mais frequentes e mais significativas. Esta rede prov a entrada da
prxima rede: rede de frases (phrase net). Esta rede tem como objetivo identificar
as associaes (frases) entre as palavras mais frequentes no banco de dados.
Estas frases so usadas como entradas da prxima rede: rede de texto (text net).
Esta ltima rede responsvel por encontrar possveis padres de textos no
banco de dados (p. 822). Os autores destacam que redes neurais evolutivas so
redes que utilizam aprendizado para ajustar a estrutura de seus neurnios para
representar eventos no ambiente externo. Desta forma, possvel representar as
palavras, as frases ou textos no banco de dados, assim como modificar os neurnios
para acomodar pequenas variaes das mensagens recebidas, tais como as
promovidas por erros de digitao, no caso de palavras ou pequenas variaes na
composio de frases e textos (p. 819).
Rocha, Rocha e Huff (1993) destacam a importncia de se traduzir
termos expressos em diferentes vocabulrios mdicos usando um processo
completamente automatizado. Segundo os autores, durante vinte anos tem se
concentrado em desenvolver modelos alternativos para representao de dados
clnicos de pacientes. Segundo os autores, a melhor opo o modelo de
definio de eventos (Event Definition Model) que apresenta uma viso
conceitual dos registros mdicos como sendo uma sequncia de eventos clnicos.
Os dados clnicos so semanticamente representados por um quadro (frame) de
atributos. Segundo os autores, a criao e a manuteno dessas representaes
requerem um lxico, onde os conceitos so representados na sua forma cannica (p.
690). Este lxico foi criado manualmente avaliando-se todos os termos presentes
nos vocabulrios usados: o dicionrio de dados de um sistema especialista (Iliad -
OpenClinical AI Systems in Clinical Practice) como vocabulrio de origem e o UMLS
128
Metathesaurus como vocabulrio alvo (target).
Robin (1994) prope um modelo de sumarizao automtica que primeiro
constri um rascunho contendo somente os fatos essenciais do texto, e depois
vai incrementando-o com fatos anteriores (historical background) presentes em
um limite de espao. Segundo o autor, este modelo requer um novo tipo de
conhecimento linguistico: operaes de reviso (revision operations),
especificando as vrias maneiras nas quais uma rascunho pode ser transformado de
forma concisa, a fim de acomodar uma nova informao. O sistema desenvolvido
tem cinco componentes principais: um gerador de fatos, um planejador de frases, um
lexicalizador (lexicalizer), um revisor e um unificador. Internamente, um rascunho
representado como uma estrutura de caractersticas em trs camadas:
especificao semntica profunda, especificao semntica de superfcie e
especificao gramatical profunda.
Julia, Seabra e Semeghini-Siqueira (1995) propem a construo de
um analisador (parser) que gera automaticamente regras semnticas. O analisador
proposto corresponde a uma estrutura (como definido por Piaget), que
automaticamente gera regras semnticas (abstraes lambda) durante a anlise,
orientada por um mtodo heurstico. A parte sinttica da gramtica expressa por
meio de regras, tais como as regras de gramtica proposta por Chomsky. Em
outras palavras, o analisador corresponde a uma estrutura representada por um
sistema formal cujos axiomas so abstraes de casos e as inferncias so regras
de reduo. O analisador implementado baseado em algoritmos de busca cujo
objetivo descobrir um caminho da rvore no qual a folha seja a categoria de
significado (p. 806 e 807). Segundo os autores, no decorrer do tempo, diversas
teorias lingusticas tm tentado explicar os aspectos relacionados com palavras,
frases e textos considerando apenas os seres humanos como interlocutores. No
entanto, os autores afirmam que, por no ser possvel compreender o significado
de um texto com base apenas nas palavras e na estrutura sinttica, volta-se o
estudo para as operaes lingusticas e processos cognitivos que esto implcitos
na produo e recepo do texto. Coeso e coerncia so ento apresentados
como princpios fundamentais. Segundo os autores, vrios fatores podem ser
usados para explicar o que faz uma produo verbal tornar-se um texto: a coeso, a
coerncia, a situao, a informao, a inteno, a intertextualidade, a aceitabilidade,
a inferncia, a pertinncia, o conhecimento do mundo, dentre outros. Neste estudo,
129
os autores propem que a coeso uma espcie de avaliao do texto realizada
pelo leitor. Em outras palavras, a coeso objetiva e pode ser reconhecida
automaticamente, j a coerncia subjetiva, pois cada autor a identifica de uma
maneira diferente, de acordo com sua viso do mundo (p. 807).
Barros (1996) prope a construo de um modelo de resoluo de
anfora pronominal sem a utilizao de modelo de mundo (world model) para
assim garantir a portabilidade do sistema. O modelo proposto, chamado de mdulo
de discurso (discurse module), baseado em uma lista de candidatos a resoluo
da anfora. Esta lista incrementada dinamicamente para cada consulta
analisada. Assim, quando uma anfora encontrada numa consulta, os candidatos
so selecionados nesta lista tendo como base informaes sintticas e de
domnio. Quando vrias candidatas so selecionadas, as opes so apresentadas
ao usurio para que possa escolher uma, ou inclusive rejeitar todas. Assim, a autora
conclui afirmando que este modelo prov um processo semi-automtico de
resoluo de anforas independente do domnio.
Rosa (1997) prope mapear papis temticos em regras semnticas
usando vetores de caractersticas organizados com base nas relaes temticas
entre o verbo e as outras palavras de uma frase. Cada palavra representada por
um vetor de bits no qual cada subconjunto tem um significado associado. O objetivo
do trabalho utilizar a ideia de representao de caractersticas semnticas com o
intuito de construir uma estrutura capaz de analisar e aprender a correta atribuio
de relacionamentos temticos das palavras na sentena (p. 241). A rede neural
construda tem trs camadas, sendo que a entrada da rede o vetor de
caractersticas, enquanto que a sada a estrutura temtica da sentena. O autor
destaca que, para vrios problemas de Inteligncia Artificial, impossvel fornecer
para a rede, todos os valores possveis de entrada. Segundo ele, esta deficincia
resolvida pelas redes backpropagation usando-se mecanismos de generalizao,
ou seja, a rede tem condies de fazer uma espcie de interpolao dos dados
fornecidos e prover uma sada para aquelas situao, at ento desconhecidas (p.
242).
Oliveira e Wazlawick (1998) prope a resoluo de anforas usando
redes neurais artificiais. As sentenas utilizadas tanto no treinamento como no
teste do modelo, so constitudas por padres tais como "sujeito verbo objeto.
Ele/ela verbo objeto". O modelo composto por duas redes neurais artificiais: o
130
parser (rede simples recorrente) e o segmentador (rede multicamadas
feedforward), cada uma com funo especfica. O parser recebe como entrada uma
sequncia de palavras e como sada a representao dos papis (case role
representation) (p. 1195). J no segmentador, a entrada a prxima palavra da
sequncia mais a sada do parser (p. 1196).
Carvalho e Strube de Lima (1999) propem a utilizao de sistemas
multi-agentes para o processamento de lngua natural e apresentam que existem
vrias maneiras de distribuir o conhecimento lingustico entre os agentes. Segundo
as autoras, quando os agentes so associados somente a nveis lingusticos, o
nmero de agentes bastante reduzido, se comparado abordagem onde existe um
agente por palavra da sentena. Entretanto, a complexidade dos agentes envolvidos
no processo cresce consideravelmente. Para testar essas abordagens, as autoras
propem o desenvolvimento de dois sistemas: no primeiro, os agentes foram
associados categoria morfossinttica das palavras e no segundo, os agentes
foram associados a nveis de conhecimento e a fenmenos lingusticos. As
autoras complementam que embora os dois sistemas tenham sido desenvolvidos
para a lngua portuguesa, as ideias principais podem ser generalizadas para outras
lnguas. O modelo inspirado em um trabalho de 1995 para a lngua francesa, mas
se difere em vrios aspectos, sendo a principal diferena, o fato de usar
conhecimento semntico. Sob o ponto de vista lingustico, o sistema faz anlise
lxico-morfolgica, sinttica e semntica. Os agentes contm ainda dicionrios,
gramticas e redes conceituais. Segundo as autoras, o tratamento da frase comea
com uma anlise lxico-morfolgica, atravs do agente morfolgico, que envia
seus resultados para o agente sinttico, para que este possa construir a rvore de
derivao; o agente sinttico, por sua vez, envia seus resultados para o analisador
semntico para a construo da estrutura semntica.
Kinoshita (1999) prope um sistema de traduo baseado em
exemplos que foram extrados da Bblia em grego e suas tradues para ingls e
portugus. Segundo o autor, os exemplos so anotados com nmeros de acordo
com a anotao de James (James Strong annotation). Segundo o autor,
palavras, bigramas e trigramas so extrados dos exemplos, juntamente com suas
tradues e uma mquina de estados finitos construda. A traduo de novas
sentenas ento feita identificando-se as palavras, bigramas e trigramas que j
so conhecidas e atribuindo-se a traduo correspondente.
131
Barcia et al. (1999) propem a utilizao da tcnica de Inteligncia
Artificial de Raciocnio baseado em Casos (RBC) para soluo de problemas
jurdicos. Segundo os autores, Raciocnio Baseado em Casos usa experincias
anteriores e semelhantes para a soluo de um novo problema, baseando-se no
princpio de analogia, assumindo-se que problemas semelhantes tem solues
semelhantes. Por esta razo, os autores afirmam que o RBC uma tcnica muito
adequada ao domnio jurdico, pois utiliza o mesmo tipo de raciocnio utilizado pelos
juristas na soluo de um problema. Segundo os autores, os casos jurdicos so
representados na forma de um caso que consiste no texto do documento original e
um conjunto de ndices na forma de pares atributo-valor. Os atributos dos
documentos textuais, usados como ndices para a recuperao, tm que indicar a
utilidade das informaes do caso na situao presente. Para reforar esta forma de
representao, o conhecimento do domnio includo na forma de um vocabulrio
jurdico controlado e um dicionrio de termos. este conhecimento de domnio que
permite a recuperao dos documentos e o processo de extrao automtico,
atravs da identificao de expresses indicativas e relevantes dos textos jurdicos
em linguagem natural, juntamente com a modelagem explcita da semelhana
destes termos jurdicos. O vocabulrio controlado define o valor dos ndices usados,
enfocando no domnio de aplicao especfico (no caso, jurisprudncia criminal).
Segundo os autores, este vocabulrio controlado constitudo de termos jurdicos
que so usados nos Tribunais para representar fatos enquadrados normativamente
e que, por sua vez, so definidos atravs dos termos-chave de uma norma.
Segundo os autores, o dicionrio foi desenvolvido por profissionais do direito com
base na experincia deles. Segundo os autores, o processo de recuperao
dividido em etapas, sendo que inicialmente um problema jurdico descrito em
linguagem natural para iniciar o processo de recuperao pelo usurio; em seguida,
a similaridade do problema inicial com cada caso na base de casos determinado
por uma mtrica da similaridade (relativo a importncia de cada atributo para a
pesquisa); e finalmente, os dez melhores casos so ordenados de acordo com o
grau de similaridade. Os casos ordenados so apresentados ao usurio de modo
que ele possa visualizar um resumo de todos os casos, com algumas informaes
sobre o documento jurdico ou, se o usurio quiser, o documento completo. Assim, o
usurio poder escolher entre os melhores casos, aquele documento que o mais
adequado.
132
Berber Sardinha (1999) apresenta um trabalho terico onde algumas
questes no estudo da padronizao so levantadas: quais os padres lexicais dos
quais a palavra faz parte; a palavra se associa regularmente com outros sentidos
especficos; em quais estruturas ela aparece; h uma correlao entre o uso/sentido
da palavra e as estruturas das quais ela participa; e a palavra est associada com
(uma certa posio na) organizao textual? Para verificar se dois ou mais itens
lexicais formam um padro necessrio saber se a co-ocorrncia significativa,
isto , se ocorre mais vezes do que o esperado por acaso. Segundo o autor, para
saber se a co-ocorrncia entre os itens pesquisados significativa, necessria a
obteno de estatsticas de co-ocorrncia, atravs da aplicao de frmulas
matemticas especializadas. Desta forma, a funo das estatsticas apontar se os
itens formam colocaes ou se so co-ocorrncias esprias. Segundo o autor, o
trabalho se estrutura em torno de estudos de caso. Quatro cenrios foram
selecionados por serem potencialmente relevantes para a rea. O primeiro discute,
do ponto de vista de sua prosdia semntica (associao entre itens lexicais e
conotao positiva, negativa ou neutra), a expresso tocando para a frente. O
segundo e o terceiro centram-se na prosdia semntica de dois verbos comuns do
portugus: causar e acontecer, respectivamente. O quarto e ltimo estudo
enfoca o advrbio absolutamente. O autor ressalta que a motivao para esses
estudos diferente. O primeiro estudo de carter exploratrio e visa buscar
evidncias no corpus que confirmem ou desconfirmem a intuio do falante nativo.
Em contrapartida, o autor destaca que os trs ltimos estudos possuem uma
orientao contrastiva, nos quais o intuito comparar os resultados do portugus
com o de outras lnguas.
Em Villavicencio (1999) usada uma rede ortogonal de heranas
mltiplas para representar informao lexical. Segundo autora, diferentes redes so
usadas para representar diferentes tipos de conhecimento lingustico. Assim, as
regularidades lingusticas so representadas prximo ao topo da rede, enquanto
que os nodos mais abaixo da rede so usados para representar as sub-
regularidade ou excees.
Jose Neto e Menezes (2000) apresentam a arquitetura bsica do
etiquetador morfolgico treinvel proposto neste trabalho. Segundo os autores, o
modelo dividido em trs mdulos: o primeiro responsvel pela etiquetao inicial
de palavras conhecidas; o segundo que realiza a etiquetao inicial de palavras
133
desconhecidas, e um terceiro e ltimo, que promove um refinamento contextual
(p. 55). No primeiro modulo, ocorre a obteno da etiqueta mais provvel para as
palavras conhecidas: a estrutura de dados utilizada neste mdulo uma rvore n-
ria de letras, utilizada para armazenar o lxico, contendo uma lista associada a
cada uma de suas folhas. Esta lista utilizada para armazenar as vrias etiquetas
morfolgicas possveis, em ordem decrescente de frequncia de aparecimento.
Segundo os autores, uma vantagem, inerente a esta estrutura em forma de rvore,
que ocorre naturalmente uma compresso do tamanho da base de dados pelo fato
de todos os prefixos serem armazenados apenas uma vez na estrutura. O segundo
mdulo atribui uma etiqueta para as palavras desconhecidas, com base em
sufixos. Os autores complementam que com base nas ltimas letras dos itens
lexicais encontrados no corpus de treinamento e nas etiquetas morfolgicas
associadas a cada um deles, este mdulo infere um mapeamento que usado na
etiquetao de itens lexicais que nunca apareceram no corpus de treinamento
(palavras desconhecidas). Segundo os autores, a heurstica por trs deste mdulo
tem um embasamento lingustico: sabe-se que, nas lnguas cujas palavras
apresentam a estrutura prefixo + radical + sufixo, o sufixo de uma palavra tem uma
forte correlao com a sua categoria morfolgica. O terceiro mdulo o refinador
contextual. Segundo os autores, ele responsvel por escolher, dentre as vrias
etiquetas possveis para uma dada palavra, aquela que mais se adapte ao contexto
em que esta palavra se encontra. Os autores complementam que a ideia central do
mtodo baseia-se na utilizao de uma janela de trs posies (etiqueta j
consumida anteriormente, a da posio e a prxima).
Berber Sardinha (2000) tem como objetivo analisar a manuteno da
prosdia semntica dentro do contexto da traduo de padres lexicais. Segundo
o autor, o primeiro item lexical analisado para o estudo foi o 'commit', por acreditar
que o mesmo possui prosdia semntica negativa. Assim a questo em foco seria
verificar se o equivalente 'cometer' teria tambm uma prosdia semntica negativa.
O segundo item selecionado como estudo de caso foi a expresso verbal (phrasal
verb), 'set in', pelo fato dele apresentar associaes negativas. Para cada traduo
do item lexical selecionado para estudo, foi feita uma busca no corpus para observar
a frequncia de ocorrncia dos mesmos. Os mais bem colocados, em termos da
frequncia de ocorrncia, e valores aceitveis de informao mtua e o teste de
associao T-score) eram analisados.
134
Padilha e Viccari (2000) descrevem o processamento de
transformaes morfolgicas do portugus, utilizando transdutores, um tipo de
mquina de estados finitos. Atravs de uma extenso da morfologia de dois nveis,
gramticas para a ortografia e fonologia portuguesa foram desenvolvidas. Segundo
os autores, essas gramticas so "traduzidas nos transdutores que efetivamente
realizam as transformaes de forma simples, eficiente, bidirecional e localizada,
sem misturar etapas lingusticas diversas" (p. 51).
Larocca Neto et al. (2000) afirmam que as notcias representam um
campo importante de aplicao de sumarizao automtica. O objetivo deste
trabalho desenvolver um sistema treinvel baseado em aprendizado de mquina
para sumarizao de notcias. Segundo os autores, para obter a estrutura
aproximada do texto, combinou-se a sada de um algoritmo de clusterizao
aglomerativa com a deteco de sentenas que so essenciais (capturam a ideia
principal do documento) ou cenrio (background que contm informao adicional
mas no essencial). Segundo os autores, a deteco das sentenas de cenrio
baseada em heursticas. Em seguida, os autores complementam que, usando a
representao aproximada da estrutura do texto possvel selecionar um conjunto
de caractersticas para usar num sistema de sumarizao automtica (similares s
heursticas de Strzalkowski, 1998), dentre elas: indicador de conceitos principais,
usando medidas estatsticas tais como frequncia do termo ou o tfidf (term
frequency inverse document frequency); ocorrncia de nomes prprios; ocorrncias
de anforas; ocorrncia de marcadores de discursos, tais como 'por que', 'alm
disso', dentre outros; conexo com outras sentenas, identificada de maneira similar
aos mapas de relacionamento textual (Text Relationship Maps de Mitra, 1997),
usando representao vetorial; a profundidade da sentena na rvore gerada pelo
algoritmo de clusterizao aglomerativa; dentre outras. Os autores destacam que
todas as sentenas so analisadas por um software de part-of-speech,
amplamente usado na literatura (BRILL, 1992
23
).
Dias-da-Silva et al. (2000) ressaltam que o processo de desenvolvimento
do thesaurus eletrnico para o portugus (TeP) foi realizado em oito etapas: anlise
da forma e do contedo de obras de referncia disponveis (os mais variados tipos
de dicionrios do portugus e ingls, publicados em papel ou disponveis em meio

23
Brill, E. A simple rule-based part-of-speech tagger. In Proccedings of the Third Conference on Applied Computational
Linguistics.Association for Computational Linguistics. 1992.
135
digital), com vistas delimitao do objeto thesaurus e, sobretudo, utilizao
dessas obras como fontes de conhecimento lexical; seleo das obras de referncia,
enquanto fontes garantidas de conhecimento lexical, e estabelecimento de critrios
de filtragem da informao lexical extrada; especificao do contedo e da forma da
base do thesaurus; implementao de um editor para a construo dessa base;
insero dos dados na base do thesaurus por linguistas; aplicao de testes de
consistncia global da base e de sua completude relativa s fontes de
conhecimento lexical selecionadas e ao lxico do ReGra (NUNES et al., 1996);
converso da base do thesaurus no TeP; anlise de questes referentes
apresentao e disseminao do TeP, bem como ao seu modo de integrao a
outros aplicativos.
Rossi et al. (2001) definem as descries definidas conforme trabalho
anterior, desenvolvido para o tratamento da correferncia em Lngua Inglesa
(VIEIRA, 1998
24
). A classificao adotada no presente trabalho distingue os usos
que seguem um antecedente textual, daqueles que introduzem novos elementos no
discurso. Assim, quatro classes foram definidas: Anforas diretas, que so aquelas
antecedidas por uma expresso (definida ou no) que tem o mesmo nome-ncleo e
referem-se mesma entidade no discurso; Anforas indiretas, que no tm o
mesmo nome-ncleo do seu antecedente (pode ser um sinnimo do antecedente ou
mesmo uma elipse); Associativas, que introduzem um referente novo no discurso,
mas que tem uma relao semntica com algum antecedente j introduzido; e
Novas no discurso, que so aquelas que introduzem um novo referente no texto
que no se relaciona com nenhum antecedente no discurso, ou seja, no tem uma
ncora em que possa se apoiar semanticamente. A fim de auxiliar a anlise das
descries definidas, foi desenvolvida uma interface para a anotao de
correferncia em corpus da lngua portuguesa, classificao e contabilizao dos
tipos usados. Atravs dessa interface, trs diferentes sujeitos realizaram o trabalho
de anotao de correferncia, armazenando e totalizando os resultados alcanados
de forma padronizada. Para cada texto selecionado, so exibidas as sentenas
numeradas, com as descries destacadas. O usurio ento classifica-a em nova no
discurso, anfora direta, anfora indireta, associativa ou no classificada. Se a
descrio definida for classificada, o usurio dever informar ainda alguns dados,

24
Vieira, R. . Definite description processing in unrestricted text. Centre for Cognitive Science, Edinburgh University.
Edinburgh, UK., 1998. (Dissertao de Doutorado).
136
tais como o nmero da sentena onde o antecedente se encontra e, o sintagma
nominal antecedente desta descrio. Tendo feito esta classificao manual, os
autores apresentam um sistema (em Prolog) para o tratamento automtico de
correferncia nominal, baseado no estudo feito manualmente. A verso apresentada
no artigo, por ser um trabalho em andamento, efetua a classificao das descries
como novas no discurso ou anforas. Assim, para cada sintagma nominal, o sistema
compara o seu ncleo com os armazenados na lista de antecedentes potenciais
(todos os extrados do corpus). Se existir, a descrio definida classificada como
anfora direta. Se, no houver antecendente, procura-se investigar indcios de que
ela possa ser uma descrio nova no discurso. Segundo os autores, no sistema
desenvolvido anteriormente para a Lngua Inglesa (VIEIRA, 1998), a identificao de
descries definidas novas no discurso, baseada numa srie de heursticas
(referentes estrutura sinttica da descrio definida), e que estudos comparativos
entre o Ingls e o Portugus estavam sendo desenvolvidos para adaptar essas
heursticas. Por fim, caso todos os testes falhem, a descrio definida dada como
no classificada. Os textos foram submetidos a uma anlise sinttica automtica,
atravs do software interativo do projeto Visual Interactive Syntax Learning VISL
(http://visl.hum.ou.dk/itwebsite/visl/visltop.html).
Gamallo, Agustini e Lopes (2001) descrevem um mtodo no
supervisionado pobre de conhecimento para a aquisio de restries de
seleo, baseado nas hipteses contextual e de co-especificao. Segundo os
autores, na maioria das abordagens pobres de conhecimento para aprendizagem
de restrio de seleo, o processo de induo e generalizao da informao
semntica a partir de frequncias de co-ocorrncia de palavras consiste em
agrupar automaticamente palavras consideradas similares. Segundo os autores, a
melhor estratgia conhecida para se medir a similaridade entre palavras a baseada
na hiptese de distribuio de Harris. De acordo com esta teoria, palavras que co-
ocorrem em contextos sintticos semelhantes so semanticamente similares e,
portanto, devem ser agrupados em uma mesma classe semntica. No entanto, os
mtodos de aprendizagem baseados na hiptese de distribuio podem levar, a
concentrar numa mesma classe, palavras que atendem a diferentes restries de
seleo. Segundo os autores, para contornar este problema, deve-se extrair classes
contextuais de palavras a partir de construes sintticas adequadas, considerando
que contextos sintticos similares compartilham as mesmas restries
137
semnticas nas palavras. Os autores destacam que dois contextos sintticos que
ocorrem com (quase) as mesmas palavras so semelhantes e, ento as mesmas
restries semnticas sobre essas palavras so aplicadas (chamada de hiptese
contextual). Estratgias de extrao semntica baseada na hiptese contextual
podem explicar a variao semntica das palavras em diferentes contextos
sintticos. Uma vez que estas abordagens esto preocupadas com a extrao de
similaridades semnticas entre os contextos sintticos, as palavras sero agrupadas
de acordo com a sua distribuio sinttica. Esses agrupamentos representam
classes semnticas dependentes do contexto. O processo de restrio mtua entre
duas palavras relacionadas chamado por Pustejovsky
25
como "co-especificao"
ou "co-composio". Co-especificao ocorre quando duas expresses
sintaticamente dependentes deixam de ser interpretadas como "predicado-
argumento", onde o predicado a funo ativa, que institui as preferncias
semnticas em um argumento passivo, que corresponde a essas preferncias. Pelo
contrrio, cada palavra de uma dependncia binria considerada simultaneamente
como um predicado e um argumento. Ou seja, cada palavra, tanto impe restries
semnticas como atende a requisitos semnticos. Segundo os autores, para avaliar
as hipteses apresentadas, foi desenvolvido um sistema para realizar aquisio
automtica de restries semnticas. O sistema constitudo por quatro mdulos:
Parsing, onde o texto anotado por palavra (MARQUES, 2000
26
) e por blocos
parcialmente analisados (ROCIO ET AL., 2001
27
). Uma heurstica ento utilizada
para identificar dependncias binrias. O resultado uma lista de tuplas de co-
ocorrncia contendo a relao sinttica e os lemas das duas palavras relacionadas;
Extrao, quando as dependncias binrias so utilizadas para extrair os contextos
sintticos; Filtragem, quando cada par de palavras contextuais so comparados
estatisticamente usando uma variao da medida de pesos de Jaccard
28
;
Clusterizao, onde classes bases so sucessivamente agregadas pelo mtodo de
agrupamento conceitual para induzir a classes mais gerais, que representem as
restries de seleo dos contextos sintticos.

25
James Pustejovsky. The Generative Lexicon. MIT Press, Cambridge, 1995.
26
Nuno Marques. Uma Metodologia para a Modelao Estatstica da Subcategorizao Verbal. PhD thesis, Universidade Nova
de Lisboa, Lisboa, Portugal, 2000.
27
Rocio, V.; Clergerie, E. de la; and Lopes, J.G.P. . Tabulation for multi-purpose partial parsing. Journal of Grammars, 4(1),
2001.
28
Gregory Grefenstette. Explorations in Automatic Thesaurus Discovery. Kluwer Academic Publishers, USA, 1994.
138
Gonzalez e Strube de Lima (2001), com o intuito de viabilizar a
expanso automtica de consulta, utilizaram um thesaurus (denominado T-Lex),
que possui uma estruturao semntica para implementar relacionamentos lexicais,
considerando fundamentos da Teoria do Lxico Gerativo (TLG) de Pustejovsky
(1995
29
). A TLG introduz um conjunto de recursos para anlise semntica de
expresses em linguagem natural, incluindo operaes gerativas que possibilitam
derivaes composicionais das palavras dependentes de contexto. Um lxico
semntico, de acordo com a TLG, caracterizado como um sistema computacional
onde a estrutura Qualia um dos nveis de representao, com quatro campos (ou
papis) de descrio. Assim, na representao de um item lexical, o papel Formal
distingue-o num amplo domnio, o papel Constitutivo descreve o que faz parte dele,
o papel Agentivo especifica como ele passou a existir e o papel Tlico explica qual a
sua funo ou propsito. No T-Lex, cada categoria gramatical possui estruturas
Qualia especficas. Assim, os novos termos expandidos nas consultas so obtidos
pela utilizao de critrios semnticos para compor relacionamentos lexicais,
conforme estabelecidos no T-Lex. Segundo os autores, os termos obtidos na
expanso de uma consulta so selecionados entre os descritores contidos no T-Lex,
a partir de operaes gerativas. Essas operaes tem como objetivo compor um
campo lexical (ou campo semntico) de um item lexical. As operaes utilizadas so
(GONZALEZ, 2000
30
): especializao, co-herana, associao, equivalncia,
decomposio e agregao.
Souza, Pereira e Nunes (2001) apresentam um ambiente para testar
estratgias de sumarizao automtica extrativa de portugus. Segundo os autores,
as tcnicas utilizadas consideram a seleo de sentenas relevantes a partir da
existncia de palavras-chave geradas automaticamente, e/ou palavras do ttulo, de
sua localizao, de palavras sinalizadoras e palavras-chaves fornecidas pelo autor
do documento, quando disponveis (p. 1). Foram implementados dois mtodos de
extrao de palavras-chaves (PEREIRA, 2001
31
): baseado na frequncia de
determinados padres morfossintticos, e baseado na frequncia de radicais,
baseado no algoritmo Extractor (TURNEY, 1999
32
). Os textos sumarizados so

29
PUSTEJOVSKY, J. The Generative Lexicon. Cambridge: The MIT Press, 1995. 298 p.
30
GONZALEZ, M. O Lxico Gerativo de Pustejovsky sob o Enfoque da Recuperao de Informaes. Trabalho Individual I,
PPGCC, Faculdade de Informtica, PUCRS, maio 2000. 52 p.
31
PEREIRA, M. Algoritmos de Extrao de Palavras-chaves em Portugus. NILC-TR-01-06, Setembro, 2001.
32
TURNEY, Peter (1999). Learning to Extract Keyphrases from Text, Tech. Report Number NRC-41622, National Research
Council Canada, Institute for Information Technology
139
submetidos a dois programas (ALUSIO; AIRES, 2000
33
): Tokennizer, que separa as
pontuaes das palavras, e o Tagger, que etiqueta todas as palavras do texto
(classe morfossinttica). Vrias estratgias de seleo de sentenas foram
avaliadas, combinando-se as palavras-chave, as palavras do ttulo, a localizao de
palavras sinalizadoras (tais como objetivo, resultado, neste artigo, este artigo, dentre
outras), e as palavras-chave definidas pelo autor. O sistema implementado utiliza um
programa de extrao de radicais para o portugus baseado no algoritmo de Porter
(PORTER, 1980
34
).
Orengo e Huyck (2001) apresentam um algoritmo composto por oito
passos, que devem ser executados em sequncia. Dentre os passos implementados
esto a reduo do plural e do feminino, a reduo adverbial, do aumentativo ou
diminutivo, a reduo nominal e verbal, dentre outros. Cada passo tem um conjunto
de regras, sendo que cada regra contm uma lista de excees. Para avaliar o
algoritmo apresentado, utilizou-se o mtodo de Paice
35
, que determina o clculo dos
ndices de overstemming, quando parte do radical removida pelo algoritmo, e
understemming, quando o sufixo no removido completamente.
Jose Neto e Moraes (2002) exploram as propriedades dos autmatos
adaptativos para a elaborao de reconhecedores que tratem o no-determinismo e
a ambiguidade sinttica. Segundo os autores, no-determinismo ocorre quando duas
ou mais construes sintticas apresentam prefixo comum, enquanto que
ambiguidades ocorre quando uma sentena tem duas ou mais interpretaes
vlidas. Segundo os autores, adotou-se, para a descrio da sintaxe desta
simplificao da linguagem natural, a notao de Wirth, uma meta-linguagem
apropriada para a elaborao de descries gramaticais livres de contexto. Para
cada regra da gramtica, aplicam-se transformaes de substituio, de forma que
seja reduzido, a um mnimo, o nmero de no-terminais presentes na gramtica. A
cada um desses no-terminais remanescentes corresponder uma sub-mquina
especfica. Em cada regra identificam-se todas as construes sintticas que
correspondam a sequncias de smbolos que devem figurar obrigatoriamente na
sentena (p. 2 e 3). Os autores destacam ainda que o mtodo adotado para a
construo de um autmato adaptativo a partir da gramtica consiste em desenhar

33
ALUSIO, S.M.; AIRES, R.V. Etiquetao de um Corpus e Construo de um Etiquetador de Portugus. Relatrios Tcnicos
do ICMC-USP, 107 (NILC-TR-00-2). Maro 2000, 18p.
34
PORTER, M. F. An algorithm for suffix stripping. Program, 14(3):130--137, 1980.
35
Paice, C.D. An Evaluation Method for Stemming Algorithms. In: ACM SIGIR Conference on Research and Development in
Information Retrieval, 1994, pp. 42-50.
140
uma mquina de estados inicial que reconhea qualquer cadeia vlida de smbolos
representada pelo conjunto disponvel de regras gramaticais. E complementam que
no usado nenhum mtodo de construo de reconhecedores convencional a
partir de gramticas livres de contexto, mas explora-se a caracterstica adaptativa do
modelo de reconhecimento adotado.
Bidarra (2002) apresenta alguns aspectos bsicos para construo de
lxicos computacionais baseados em dados de parafasia semntica. Segundo o
autor, parafasia um tipo de erro recorrente na fala de pacientes - problema de
acesso lexical no apenas restrito s substituies de palavras, mas tambm
marcado por erros de escolha de som. Assim, o lxico foi elaborado a partir das
chamadas estruturas de traos tipadas (CARPENTER, 1992
36
), no contexto das
gramticas de unificao, fortemente baseado nas teorias do lxico gerativo
(PUSTEJOVSKY, 1991
37
) e da HPSG (POLLARD; SAG, 1987
38
). Como ambiente
cognitivo de execuo para o processamento lexical foi considerado o modelo
proposto por Levelt (1992
39
). Segundo eles, as palavras no lxico seriam
estruturadas por meio de traos funcionais, perceptivos e semntico conceituais,
alguns genricos, outros mais especializados, esses ltimos tambm chamados de
traos distintivos. Os traos seriam, em tal abordagem, os responsveis pela
identificao e consequente indexao da palavra correta no lxico. No modelo,
notam-se cinco processos envolvidos na gerao de fala fluente: o mdulo
conceitualizador, responsvel pela gerao e monitorao das mensagens emitidas
e recebidas pelo falante; o de processamento lingustico, responsvel por realizar
dois tipos de codificao (gramatical e fontica) nos fragmentos de mensagem
oriundos do mdulo conceitualizador; os sistemas de articulao e de audio, que
produzem a entrada do prximo mdulo; e o mdulo de compreenso, que fecha o
ciclo retornando a informao processada ao conceitualizador, aceitando-a como
correta ou rejeitando-a, e corrigindo-a se possvel. Segundo o autor, para determinar
as condies necessrias para a implementao do lxico (eletrnico), o modelo
terico lexical proposto tem sido confrontado com dados extrados de sees clnico-
teraputicas de acompanhamento longitudinal de pacientes afsicos, submetidos a

36
CARPENTER, B. The Logic of Typed Feature Structures. Cambridge University Press: NY, 1992.
37
PUSTEJOVSKY, J. The Generative Lexicon. Cambridge: The MIT Press, 1995. The Gererative Lexicon. Computational
Linguistics, n. 17, p. 409-441, 1991.
38
POLLARD, C. e SAG, I. A. Information-Based Syntax and Semantics, Vol. 1: Fundamentals. CSLI Lecture Notes n. 13. Center
for the Study of Language and Information: Stanford, 1987.
39
LEVELT, W. J. M. Accessing words in speech production: stages, processes and representations. Cognition, n. 42, p. 1-22,
1992. Speaking: from intention to articulation. Cambridge: MIT Press, 1989.
141
testes de conversao livre ou de nomeao de objetos.
Pardo e Rino (2002) apresentam o sumarizador DMSumm (Discourse
Modeling SUMMarizer), que possui os trs processos clssicos da gerao
automtica de textos: seleo de contedo, planejamento textual e realizao
lingustica. A mensagem-fonte, que ser sumarizada pelo DMSumm, constituda
de trs componentes: o objetivo comunicativo (objetivo que o escritor pretende
alcanar com seu texto), a proposio central (a informao principal que o escritor
deseja transmitir com a veiculao do texto ) e a base de conhecimento (contedo
informativo do texto-fonte). Os autores destacam que na seleo de contedo, o
DMSumm recebe a mensagem-fonte como entrada e tem a funo de diminuir o
contedo informativo para a produo dos sumrios, podando a base de
conhecimento. So usadas 12 heursticas de poda, definidas em (RINO E SCOTT,
1994
40
), para selecionar o contedo relevante; no planejamento textual, a
mensagem-fonte reduzida usada pelo planejador para produzir as estruturas
retricas dos possveis sumrios, considerando-se a base de conhecimento j
podada e o objetivo comunicativo e a proposio central originais (com base no
modelo de discurso de Rino, fazendo um mapeamento de relaes semnticas e
intencionais nas relaes retricas dos planos de texto, utilizando, para isso,
operadores de plano, os quais so um artifcio computacional para a montagem da
estrutura e do contedo textual); por fim, a realizao lingustica produz os
sumrios, propriamente ditos, a partir dos planos de texto, utilizando, para isso,
templates definidos em funo de uma gramtica e de um lxico de uma
determinada lngua natural.
Schulz et al. (2002) tem como objetivo apresentar uma metodologia que,
segundo os autores, abandona os mtodos tradicionais de recuperao e se baseia
no uso de morfemas mdicos, como unidades atmicas para indexao e
recuperao de informao. Segundo os autores, a ideia central extrair de um
documento somente informaes relevantes para a busca, as quais geralmente
esto contidas nas razes das palavras (radicais) para construir o ndice do
documento, em vez de usar a superfcie do texto, ou seja, as palavras originais.
Assim, segundo os autores, todos os documentos seriam submetidos a um processo
de normalizao morfossemntica antes de serem automaticamente indexados para,

40
Rino, L.H.M. and Scott, D. (1994). Automatic generation of draft summaries: heuristics for content selection. ITRI Techn.
Report ITRI-94-8. University of Brighton, England.
142
assim, melhorar o desempenho de motores de busca. O sistema
MORPHOSAURUS faz uso do que os autores chamaram de bases terminolgicas
e de rotinas de normalizao de textos. Segundo os autores, as bases
terminolgicas so constitudas por vrios repositrios: "subwords" classificados
como radicais, prefixos e sufixos, nomes prprios, thesaurus (dicionrio de
sinnimos) e um mapeamento do repositrio de subwords para o MeSH (Medical
Subject Headings). Ainda segundo os autores, a terminologia interage com rotinas
de normalizao de textos: segmentador, que extrai subwords do texto para, ento,
substitu-las pelo seu identificador, usando o repositrio de subwords; e processador
de acrnimos, onde acrnimos e abreviaes so identificados e expandidos usando
a base de acrnimos.
Bonfante e Nunes (2002) apresentam a implementao de um parser
probabilstico, seguindo o modelo de Collins (1999
41
). O modelo, implementado
originalmente para a lngua inglesa, baseia-se na noo de ncleos lexicais, onde
para cada regra observada no conjunto de treinamento, as palavras que no so
ncleo so chamadas de modificadores, exercendo influncia sobre ele. A
formao da estrutura sinttica de uma sentena se d atravs de um processo
bottom-up comandado pela probabilidade de um ncleo e um modificador se
juntarem para formar um sintagma
42
. Utilizou-se um conjunto de sentenas
obtidas do corpus NILC e anotadas sintaticamente pelo parser do Bick (2000
43
).
Zavaglia (2003) destaca que o modelo de representao proposto contm
informaes semnticas (relaes semnticas para resgatar o significado de cada
item lexical) e morfossintticas (classe gramatical, gnero e nmero das palavras). O
modelo proposto no pretende definir, de modo direto, o significado de um item
lexical homgrafo, mas somente sugerir o significado para cada item, assim como
para suas ocorrncias polissmicas. A base de conhecimento lexical construda
constituda de vrios componentes: informao ontolgica (esta ontologia foi
construda na tese de Doutorado da prpria autora), informao Qualia (baseada
na Teoria do Lxico Gerativo de Pustejovsky), informao morfossinttica,
informao definicional (extrada de um dicionrio base), e informao
pragmtica (exemplos do uso do item homnimo extrados de um corpus de 11

41
Collins, M. J. . Head-Driven Statistical Models for Natural Language Parsing. PhD thesis, University of Pennsylvania, 1999.
42
No mapa conceitual da seo 4.2.2, esta expresso foi representada como Probabilidade de ocorrncia.
43
Bick, E. . The Parsing System. "Palavras" Automatic Grammatical Analysis of Portuguese in a Constraint Grammar
Framework. Aarhus University Press, 2000.
143
milhes de palavras do Laboratrio de Estudos Lexico-grficos da Unesp de
Araraquara).
Martins, Monard e Matsubara (2003) discutem que tarefas como
sumarizao e clusterizao de documentos esto relacionadas ao processo de
minerao de texto (text mining), dependendo da natureza da aplicao e das
categorias serem conhecidas. Dentre as fases clssicas do processo de minerao
de textos esto: a obteno dos documentos, pr-processamento, extrao de
conhecimento e avaliao e interpretao dos resultados. Segundo os autores, na
fase de pr-processamento, os documentos podem ser transformados em um vetor
de termos (bag-of-words) que ocorrem no documento, ou em representaes mais
elaboradas (e cita Montes-y-Gmez et al., 2001
44
). No entanto, os autores destacam
que experimentos anteriores revelaram que as representaes mais sofisticadas
apresentaram resultados inferiores. Os termos que compem o vetor podem ser
palavras simples ou compostas (2, 3, , n-gram) que ocorrem no documento. Cada
termo usada como um atributo do conjunto de dados representado na forma de
atributo-valor. O valor atribudo a cada termo pode ser binrio (0 ou 1) ou medidas
estatsticas que levam em considerao a frequncia com o termo aparece tanto no
documento, como nos demais. Os termos com alta frequncia em todos os
documentos, ou pelo menos na maioria, tendem a no apresentarem informao til
para discriminar um documento. Segundo os autores, vrios critrios podem ser
utilizados para reduzir o nmero de atributos (dimensionalidade) do conjunto de
dados. Um mtodo amplamente utilizado, de acordo com os autores, reduzir cada
termo ao seu radical, utilizando algoritmos de stemming (e cita o algoritmo de
Porter, de 1980, para o ingls). Outra maneira de reduzir a dimensionalidade do
vetor de termos eleger os termos mais representativos para discriminar os
documentos. Neste momento, os autores citam a lei de Zipf (Zipf's Law de 1949
45
),
como sendo uma alternativa para eliminar os termos que no so representativos
numa coleo de documentos. Alm disso, os autores complementam citando o
trabalho de Luhn (1958
46
) que usou esta lei para especificar um limiar mnimo e
mximo de corte, para excluir os termos irrelevantes e o trabalho de Van Rijsbergen

44
Montes-y-Gmez, M., A. Gelbukh, A. Lpez-Lpez, & R. Baeza-Yates (2001). Flexible comparison of conceptual graphs. In H.
Mayr, J. Lazansky, G. Quirchmayr, & P. Vogel (Eds.), Proc. DEXA-2001, 12th International Conference and Workshop on
Database and Expert Systems Applications. LNCS 2113, pp. 102111. Springer-Verlag.
45
Zipf, G. (1949). Human Behaviour and the Principle of Least Effort. Addison-Wesley.
46
Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of Research and Development 2 (2), 159165.
144
(1979
47
) que afirma que a correta determinao desse limiar obtida por um
processo de tentativa e erro. Utilizaram trs algoritmos de aprendizado: dois
algoritmos simblicos de regras de associao; e um baseado em tcnicas
estatsticas de aprendizado Support Vector Machines (SVM) para ilustrar o uso
de reduo de dimensionalidade do conjunto de treinamento. Os autores
apresentam a ferramenta PreText, desenvolvida com o objetivo de realizar
automaticamente a tarefa de pr-processamento de um coleo de documentos, e
inclui a funcionalidade de reduzir a dimensionalidade do conjunto de dados usando a
lei de Zipf e os limiares de Luhn. A ferramenta permite considerar somente os
radicais dos termos, com frequncias entre um intervalo definido pelo usurio ou
pelo limiar de Luhn. As configuraes padro do PreText usar a frequncia do
termo, no reduzir ao radical e usar como termos, 1, 2 e 3-grams. De uma maneira
geral, a PreText funciona da seguinte maneira: extrai os radicais de palavras em
portugus, ingls ou espanhol; elimina as stopwords; contabiliza a frequncia de
cada radical no documento e na coleo; atribui um peso aos termos (binria,
frequncia absoluta ou tfidf); aplica a lei de Zipf e os limiares de Luhn; define usar
palavras simples ou compostas (n-grams); apresenta grficos da frequncia dos
radicais; e salva a tabela de atributos-valor em um arquivo (para ser usado, por
exemplo, como entrada de um outro projeto da equipe do LABIC/USP Discover).
Pardo, Rino e Nunes (2003) apresentam o NeuralSumm, sumarizador
que utiliza uma rede neural SelfOrganizing (SOM) para classificar cada sentena
de um texto-fonte de acordo com seu grau de importncia. A rede Som foi
comparada com os algoritmos de classificao Naive-Bayes e o de rvore de
deciso C4.5. Considerou-se que as sentenas podem ser classificadas como
essenciais (ideia principal de um texto), complementares (acrescentam contedo a
ideia principal) ou suprfluas (no acrescentam contedo algum). As sentenas
essenciais devem sempre estar no extrato [sempre so includas], as
complementares podem ou no ser includas enquanto que as suprfluas devem
ser descartadas [no so includas]. O extrato produzido pelo NeuralSumm
considera a classificao obtida pelas sentenas, a taxa de compresso desejada e
a pontuao das sentenas dada pela distribuio de palavras do texto (uma das
caractersticas consideradas pela rede neural). As caractersticas (features)
utilizadas so: o tamanho da sentena; a posio da sentena no texto; a posio da

47
Van Rijsbergen, C. J. (1979). Information Retrieval, 2nd edition. Dept. of Computer Science, Univ. of Glasgow.
145
sentena no pargrafo a que pertence; a presena de palavras-chave na sentena; a
presena de palavras da gist sentence na sentena
48
, isto , a sentena que
melhor expressa a ideia principal do texto (PARDO, 2002
49
).; a pontuao da
sentena com base na distribuio das palavras do texto; o TF-ISF da sentena; a
presena de palavras indicativas na sentena. Os autores destacam que as features
utilizadas para classificao das sentenas so, quase na totalidade, independentes
de lngua, gnero textual e domnio.
Gasperin e Strube de Lima (2003) destacam que a tcnica desenvolvida
na dissertao de mestrado (GASPERIN, 2001
50
), para criar listas de palavras
relacionadas semanticamente, inclui trs passos: extrair o contexto sinttico de
cada palavra do corpus; comparar cada par de palavras usando seus contextos
sintticos por meio de uma medida de similaridade
51
; e construir listas com as
palavras mais similares para cada nome (termo) do corpus. Segundo as autoras,
para encontrar a similaridade entre as palavras, seus contextos sintticos so
comparados usando a medida binria de Jaccard (1994
52
). Neste trabalho, gerou-
se listas somente para os nomes e adjetivos, sendo que os verbos no foram
considerados. Utilizou-se uma ferramenta para expanso de consulta QET
(PIZZATO, 2002
53
) que, comparando vrias listas, utiliza grafos e um processo
iterativo, para retornar pesos para cada palavra, em funo do caminhamento
adotado na consulta (GASPERIN; STRUBE DE LIMA, 2003, p. 4).
Oliveira, Garrao e Amaral (2003) propuseram um conjunto de critrios
que devem ser aplicados s expresses para a deteco de locues
preposicionais. No entanto, os autores ressaltam que possvel que uma locuo
seja positiva para um dado teste e negativo para outro, ou seja, que os testes no
sejam nem necessrio, nem to pouco suficientes para determinar a implementao
de uma dada expresso. O primeiro critrio definido consiste em reconhecer uma
locuo preposicional como uma expresso fixa e no ambgua (unambiguously
frozen expression), o que significa que a sequncia de lexemas em questo
sempre interpretada como uma locuo preposicional. O segundo critrio definido

48
Segundo os autores, a gist sentence de um texto determinada pela aplicao do mtodo GistKey, que tambm utiliza a
distribuio de palavras no texto.
49
Pardo, T.A.S. (2002a). GistSumm: Um Sumarizador Automtico Baseado na Idia Principal de Textos. Srie de Relatrios do
NILC. NILC-TR-02-13. Available for download in www.nilc.icmc.usp.br/nilc/~thiago
50
Gasperin, C. V. . Extrao Automtica de relaes semnticas a partir de relaes sintticas. Master's thesis, PPGCC
PUCRS, Porto Alegre (2001).
51
No mapa conceitual da seo 4.2.2, adotou-se a expresso Comparar usando medidas de similaridades.
52
Gregory Grefenstette. Explorations in Automatic Thesaurus Discovery. Kluwer Acad. Publishers, USA, 1994.
53
Pizzato, L. A. . Estrutura multitesauro para recuperao de informaes. Master's thesis, PPGCC PUCRS, Porto Alegre
(2002).
146
o da substituio, baseado na noo de que uma locuo preposicional
normalmente pode ser substituda por uma preposio simples ou por outra
locuo preposicional. O terceiro critrio o que identifica se a preposio existe
em funo de um verbo precedente, ou seja, se ocorre anteriormente
expresso. E o quarto e ltimo critrio se existe a possibilidade de inserir um
determinante (artigo definido).
Alves e Chishman (2004) apresentam uma viso crtica sobre os
tradutores automticos e o fenmeno da ambiguidade, procurando mostrar como os
tradutores automticos processam esse complexo fenmeno lingustico.
Inicialmente, as autoras fizeram uma apresentao dos tradutores automticos, e em
seguida propuseram uma reorganizao das nomenclaturas envolvidas no
tratamento da ambiguidade. Finalmente, as autoras compararam o desempenho de
quatro tradutores automticos: Systran(SYS) e Free Translator (FTR)
disponveis na Web livremente, L&H Power Translator Pro (PTP) e Micro Power
Delta Translator 2.0 (DT) comercializados. Segundo as autoras, os tradutores
foram avaliados de acordo com sua capacidade de traduo de casos ambguos
utilizando como lngua fonte o Portugus e como lngua alvo, o Ingls.
Specia e Nunes (2004) procuraram identificar os casos mais
problemticos de ambiguidade e assim delimitar a proposta do modelo de
desambiguao lexical de sentido. Essa pesquisa apresentada com detalhes em
Specia and Nunes (2004
54
), consistiu de um experimento com o crpus BNC (British
National Corpus) (BURNARD, 2000
55
) utilizando trs sistemas de traduo
automtica ingls-portugus: Systran, FreeTranslation e Globalink Power
Translator Pro. Foram submetidas aos tradutores, as sentenas que continham os
15 verbos mais frequentes do BNC. As tradues foram, ento, manualmente
analisadas para verificar a ocorrncia da ambiguidade, seus efeitos na traduo das
sentenas e o comportamento dos sistemas diante desse fenmeno. Desse estudo,
foram selecionados sete verbos (to go, to get, to make, to take, to come, to look e to
give) que foram considerados os mais problemticos, por terem sido usados em
sentenas que no foram traduzidas corretamente por nenhum tradutor (75% do
total). As autoras destacam que em uma etapa de pr-processamento do corpus de
exemplos, podem ser levantadas informaes lingusticas (ou extralingusticas)

54
Specia, L. and Nunes, M.G.V. (2004) A ambiguidade lexical de sentido na traduo do ingls para o portugus um recorte
de verbos problemticos, Srie de Relatrios do NILC, NILC-TR-04-01, So Carlos, Maro, 30p.
55
Burnard, L. (2000) Reference Guide for the British National Corpus (World Edition), Oxford University Press.
147
sobre a sentena, como a categoria gramatical das palavras, o lema do verbo e a
traduo (sentido) desse verbo (classe de cada exemplo, ou seja, a caracterstica
que deve ser aprendida). Para submeter esse corpus a um algoritmo de
aprendizado de mquina, preciso indicar que caractersticas (features) das
sentenas sero consideradas no processo de aprendizado para a gerao de
regras para classificar novos casos de ambiguidade. Segundo as autoras, quanto
mais informaes sobre o uso da palavra ambgua (features significativas) so
fornecidas ao algoritmo, maiores so as chances de o conhecimento obtido ser
consistente e til. A partir da estrutura atributo-valor gerada pode-se utilizar um
algoritmo de aprendizado de mquina simblico convencional para gerar um modelo
preditivo para classificar, isto , identificar o sentido (classe) dos verbos em novas
sentenas. Como formalismo de representao proposicional, as autoras optaram
por utilizar a Programao Lgica Indutiva para o aprendizado baseado em
exemplos, por fazer uso de um formalismo relacional, cujo poder de expressividade
, segundo as autoras, similar ao da Lgica de Primeira Ordem. Assim, com base
nos exemplos e no conhecimento representado de maneira relacional, bem como
nas restries sobre o modelo a ser gerado, regras seria geradas
automaticamente
56
que relacionem diversos tipos de conhecimento e de
informaes das sentenas de exemplo. Segundo as autoras, por serem simblicas,
tais regras podem ser facilmente compreendidas e, com isso, o modelo pode ser
manualmente ajustado, se necessrio.
Rino et al. (2004) compararam o desempenho de cinco sistemas de
sumarizao [sumarizadores (extratos)] automtica encontrados na literatura:
GistSumm, TF-ISF-Summ, NeuralSumm, ClassSumm e SuPor. Utilizou-se 100
textos de jornais brasileiros disponibilizados no corpus TeMrio, para os quais, os
sumrios foram produzidos manualmente por consultores da lngua portuguesa. No
houve comparao dos sumrios gerados pelos sistemas com os produzidos por
especialistas da lngua portuguesa no corpus TeMrio, visto que no so extratos.
Para efeitos de comparao, foram usadas as medidas preciso, cobertura (recall) e
f-measure
57
.
Aluisio et al. (2004) apresentam o Lcio-Web como sendo um
repositrio de recursos para o desenvolvimento de pesquisas da lngua

56
No mapa conceitual da seo 4.2.2, foi includa a expresso Regras de Identificao de sentido.
57
Para calcular tais medidas, os sumrios ideais (extratos dos sumrios manuais) foram gerados utilizando-se
http://www.nilc.icmc.usp.br/~thiago.
148
portuguesa do Brasil e de ferramentas lingusticas e computacionais. Segundo os
autores, o Lcio-Web integra diferentes tipos de corporas disponveis, que podem
ser acessveis por usurios especialistas e leigos, e por este motivo, uma interface
foi desenvolvida para permitir que os usurios exponham os seus objetivos.
Segundo os autores, o Lcio-Web composto por: um corpus de referncia,
chamado Lcio-Ref; parte do Lcio-Ref foi manualmente validado por tags
morfosintticas, chamado Mac-Morpho; parte do Lcio-Ref foi tambm anotado
automaticamente com lemas, partes do discurso (POS) e tags sintticas; por textos
no anotados, chamado de Lcio-Dev; corporas de textos Portugus-Ingls,
chamados Par-C (para alinhamento de sentenas e palavras) e Comp-C (para
mtodos de extrao de termos). Alm disso, os autores discutem sobre os dados
mantidos no corpus de referncia Lcio-Ref, e sobre os requisitos necessrios para
que um texto seja includo no corpora.
Matsubara, Monard e Batista (2004) tem como objetivo propor avaliar a
utilizao de duas ou mais descries dos dados em algoritmos multi-viso.
Cada descrio composta por todos os termos constitudos por um determinado
nmero de palavras, ou seja, por todos os n-gram (com n fixo) formados a partir do
texto. Neste trabalho, avaliou-se utilizar unigrama para a primeira viso, e bigrama
para a segunda viso. Segundo os autores, no Laboratrio de Inteligncia
Computacional LABIC
58
foi desenvolvida a ferramenta computacional PreTexT
59

que tem como objetivo realizar o pr-processamento de textos utilizando a
abordagem bag-of-words. Foram escolhidas duas bases de textos para realizar os
experimentos. Para ambas as bases, utilizou-se a lista de stopwords padro do
PreTexT e os termos foram transformados em stems, removendo prefixos ou sufixos
de um termo, ou mesmo transformando um verbo para sua forma no infinitivo. Para
representar os textos foi utilizada a medida tf, que representa o valor de cada stem
(termo ou atributo) do documento como o nmero de vezes que o termo aparece no
documento. Para cada base, foram criadas as duas descries (usando 1-gram e 2-
grams) para aplicar o algoritmo co-training.
Pardo, Marcu e Nunes (2005) apresentam o aprendizado de estruturas
argumentais dos verbos modelado probabilisticamente com base no modelo

58
http://labic.icmc.usp.br
59
Edson Takashi Matsubara, Claudia Aparecida Martins, and Maria Carolina Monard. Pretext: Uma ferramenta para pr-
processamento de textos utilizando a abordagem bag-ofwords. Technical Report 209, ICMCUSP, 2003.
ftp://ftp.icmc.sc.usp.br/pub/BIBLIOTECA/rel_tec/RT_209.zip.
149
noisy-channel (SHANNON, 1948
60
), considerado um modelo gerativo pelo fato de
se basear em uma histria gerativa de como os dados so produzidos ou
transformados. Neste trabalho, assume-se que sentenas em lngua natural so
produzidas por um processo gerativo estocstico, onde o verbo da sentena
escolhido, assim como os seus argumentos, com certas probabilidades. O algoritmo
Expectation-Maximization (EM) (DEMPSTER et al., 1977
61
) ento usado para
estimar os parmetros do modelo, ou seja, estimar estas probabilidades (que so
inicializadas uniformemente).
Caseli, Nunes e Forcada (2005) apresentam o mtodo Language-
Independent Heuristics Lexical Aligner (LIHLA) que usa alinhamentos
estatsticos, e pela utilizao de heursticas independente de linguagem,
objetivando encontrar o melhor alinhamento entre palavras e sentenas. Dois
lxicos bilngues gerados a partir da ferramenta NATools foram utilizados. Para
gerar este lxico, os textos paralelos devem ser alinhados. Neste trabalho, utilizou-
se o Translation Corpus Aligner -TCA
62
, mas segundo os autores, qualquer outro
mtodo de alinhamento poderia ser utilizado. Dado dois arquivos de sentenas
alinhadas, o alinhador de palavras NATools contabiliza as co-ocorrncias das
palavras em todos os pares de sentenas alinhadas e constri uma matriz esparsa
de probabilidades de palavra-palavra, usando o algoritmo iterativo Expectation-
maximization. Finalmente, os elementos com maiores valores na matriz so
escolhidos para compor os dois lxicos bilngue probabilsticos (fonte-alvo e alvo-
fonte). Para cada palavra do corpus, so dados tambm o nmero de ocorrncias no
corpus (frequncia absoluta) e as tradues mais provveis, juntamente com as
probabilidades.
Specia, Nunes e Stevenson (2005) apresentam como objetivo obter e
avaliar as regras [de identificao de sentido] geradas, e afirmam que utilizou-se
os mesmos sete verbos ambguos e as mesmas caractersticas (features) como
fonte de conhecimento (utilizados no trabalho anterior). Para produzir as regras,
utilizou-se o algoritmo de rvore de deciso C4.5, considerando cada ramo como
sendo uma regra, e usando a implementao original do sistema Sniffer (BATISTA;

60
Shannon, C. (1948). A mathematical theory of communication. Bell System Technical Journal, Vol. 27, N. 3, pp. 379-423.
61
Dempster, A.P.; Laird N.M.; Rubin, D.B. (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of
the Royal Statistical Society, Ser B, Vol. 39, pp. 1-38.
62
Hofland, K. (1996). A program for aligning English and Norwegian sentences. In Hockey, S., Ide, N., and Perissinotto, G.,
editors, Research in Humanities Computing, pages 165178, Oxford. Oxford University Press.
150
MONARD, 2004
63
), como parte do ambiente de minerao de dados Discover
(PRATI et al., 2003
64
). As regras produzidas foram analisadas usando critrios
subjetivos (manualmente) e medidas objetivas tais como erro (verso negativa da
preciso), cobertura (coverage), suporte (mesmo que revocao) e novelty (relao
entre a premissa e a concluso da regra), fornecidas pelo sistema Rulee (PAULA,
2003
65
), que tambm faz parte do ambiente Discover.
Silva, Vieira e Osorio (2005) afirmam que, o conhecimento lingustico
utilizado foi produzido a partir dos resultados obtidos pelo analisador sinttico
Palavras (BICK, 2000
66
) juntamente com o Palavras Xtractor (GASPERIN et al.,
2003
67
). Sete experimentos foram realizados com as seguintes combinaes de
termos: somente os nomes, nomes e adjetivos, nome e nomes prprios, nomes,
adjetivos e nomes prprios, adjetivos e nomes prprios, somente verbos, e verbos e
nomes. As palavras irrelevantes foram eliminadas com base na lista de stopwords de
Paulo Quaresma (da Universidade de vora), contendo 476 termos. A anlise de
radicais foi feita baseado no algoritmo de Porter
68
. A frequncia relativa foi usada
para obter os termos relevantes. O modelo espao vetorial foi usado para
representar os documentos. Utilizou-se como algoritmos de aprendizado rvore
de deciso e redes neurais para a tarefa de classificao, e o k-means, para a
clusterizao. Todas as implementaes foram obtidas no Weka.
Piltcher et al. (2005) destacam que o corretor ortogrfico foi desenvolvido
para fazer a mediao entre a interface (chat) e o mdulo que identifica o assunto da
mensagem (utilizando uma ontologia de domnio) do sistema de recomendao. As
palavras das mensagens so enviadas para o corretor separadamente, e a funo
de similaridade calculada. Caso uma correo seja sinalizada, de acordo com um
limiar, uma nova palavra (corrigida) repassada. A funo de similaridade
implementada no presente trabalho um hbrido das mtricas Levenshtein
(LEVENSHTEIN, 1966
69
), Metaphone (substituio de um caractere por outro de

63
Batista, G.E.A.P.A. and Monard, M.C. (2004) Sniffer: um Ambiente Computacional para Gerenciamento de Experimentos de
Aprendizado de Mquina Supervisionado. In: Proceedings of the I WorkComp Sul, Florianpolis.
64
Prati, R.C, Geronimi, M.R., and Monard, M.C. (2003) An Integrated Environment for Data Mining. In: Proceedings of the IV
Congress of Logic Applied to Technology (LAPTEC-2003), Marlia.
65
Paula, M.F. (2003) Ambiente para explorao de regras. Dissertao de Mestrado em Cincia da Computao. Instituto de
Cincias Matemticas e de Computao, USP, So Carlos.
66
67
Gasperin et al., Extrating XML Syntactic Chunks from Portuguese Corpora. In: Proceeding of the Workshop TALN 2003
Natural Language Processing og Minority Language and Small Languages France June 11 14 (2003).
68
Disponvel em http://snowball.sourceforge.net.
69
Levenshtein, V. (1966). Binary codes capable of correcting deletions, insertions and reversals. Soviet Physics Doklady, 10(8).
151
som igual ou semelhante) e Soundex (KNUTH, 1973
70
). Em outras palavras,
calcula-se o custo da distncia de Levenshtein entre a palavra analisada e a palavra
do banco; calcula-se o custo da distncia de Levenshtein entre a Metaphone Key de
ambas as palavras; e finalmente, obtm-se a diferena de bits entre a Soundex Key
gerada a partir de cada palavra. Para reduzir o tempo de processamento, a funo
de similaridade era calculada somente para as palavras que tinham a mesma inicial
da procurada.
Rino e Seno (2006) propem a implementao do prottipo
RHeSumaRST (Regras Heursticas de Sumarizao de estruturas RST),
baseado nos modelos de estruturao retrica do discurso da Rhetorical Structure
Theory (RST) (MANN & THOMPSON, 1987
71
) e de coerncia global do discurso
da Teoria de Veins (VT) (CRISTEA et al., 1998
72
). Segundo as autoras, o problema
do RHeSumaRST evitar quebras de cadeias de co-referncias nos sumrios.
Assim, heursticas so escolhidas para identificar informaes suprfluas em uma
estrutura retrica (ou estrutura RST) de um texto-fonte, e garantir que sua excluso
no prejudicar a recuperao de possveis elos co-referenciais. Assim, um
antecedente s ser includo diante da incluso do seu referente. O sistema admite
como entrada somente a estrutura RST do texto-fonte a ser sumarizado, e como
sada, ou a estrutura RST do sumrio ou um texto cuja realizao lingustica
elementar. Em outras palavras, as heursticas do RHeSumaRST se baseiam em
duas hipteses principais, associando a RST VT, respectivamente: (a) os satlites
de relaes RST podem ser suprfluos e, portanto, excludos de uma estrutura RST
de um sumrio; (b) os satlites que contm antecedentes de termos anafricos j
inclusos na estrutura de um sumrio no podem ser excludos. Foram utilizados dois
outros sumarizadores automticos: o modelo de salincia de Marcu (1997
73
) e um
baseline, cujos sumrios so construdos pela poda de todo satlite das estruturas
RST.
Caseli e Nunes (2006) tem como objetivo induzir conhecimento
lingustico para traduo regras de transferncia [processo de induo de
regras] e dicionrio bilngue para o portugus do Brasil. O corpus utilizado foi pr-

70
Knuth, D. (1973). The Art of Computer Programming. Addison-Wesley, 3 edition.
71
MANN, W.C.; THOMPSON, S.A. Rhetorical Structure Theory: A Theory of Text Organization. Technical Report ISI/RS-87-190,
1987.
72
CRISTEA, D.; IDE, N.; ROMARY, L. Veins Theory: A Model of Global Discourse Cohesion and Coherence. In the Proceedings
of the Coling/ACL1998, pp. 281-285. Montreal, Canada, 1998.
73
MARCU, D. 1997. The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts. PhD Thesis,
Department of Computer Science, University of Toronto.
152
processado fazendo o alinhamento das sentenas, etiquetando o discurso e
alinhando as palavras. As sentenas dos artigos do corpusFAPESP foram
automaticamente alinhadas usando a ferramenta Translation Corpus Aligner
(TCAalign
74
); os pares de sentenas alinhadas tambm foram etiquetadas usando
ferramentas disponveis em Apertium
75
. Finalmente, os exemplos de traduo
tiveram suas palavras alinhadas usando o alinhador lexical LIHLA
76
, proposto
pelas autoras (e analisado posteriormente). O processo de induo de regras de
transferncia do projeto ReTraTos dividido em trs passos: identificao de
padres, baseada nos algoritmos Sequential Pattern Mining (SPM) e
PrefixSpan
77
; gerao de regras, criando restries
78
entre os valores das
caractersticas de um dos lados do padro identificado, e generalizando essas
restries; e finalmente, a seleo das regras. De acordo com as autoras, alm das
regras de transferncia, um dicionrio bilngue induzido baseado nos alinhamentos
observados nos exemplos de traduo: criao de um dicionrio bilngue para cada
direo de traduo (da fonte para o alvo e do alvo para a fonte); unio dos dois
dicionrios; generalizao das entradas do dicionrio; tratamento das diferenas
sintticas quando o valor do gnero ou nmero tiver sido determinado; e tratamento
das sentenas.
Balage Filho et al. (2006) avaliam a utilizao do sistema de
sumarizao GistSumm, desenvolvido por parte dos autores (PARDO et al.,
2003
79
), na tarefa de responder perguntas em um determinado idioma. Segundo os
autores, o GistSumm um sumarizador automtico que utiliza o mtodo extrativo
[extratos] baseado em gist (ideia principal do texto). Em outras palavras, o
sumarizador assume que por meio de estatsticas simples possvel identificar a
sentena gist (gist sentence), e a partir dela construir o sumrio. O sumarizador
GistSumm composto por trs etapas: segmentao do texto; ranking das

74
Hofland, K.: A program for aligning English and Norwegian sentences In Hockey, S., Ide, N., Perissinotto, G. (eds) Research
in Humanities Computing, Oxford, Oxford University Press (1996) 165178.
75
Disponvel em http://www.apertium.org.
76
Caseli, H. M., Nunes, M. G. V., Forcada, M. L.: Evaluating the LIHLA lexical aligner on Spanish, Brazilian Portuguese and
Basque parallel texts In Proceedings of the XXI Congreso de la Sociedad Espaola para el Procesamiento del Lenguaje Natural
(SEPLN) (2005) 18
77
Pei, J., Han, J., Mortazavi-Asl, B., Wang, J., Pinto, H., Chen, Q., Dayal, U., Hsu, M.: Mining Sequential Patterns by Pattern-
Growth: The PrefixSpan Approach IEEE Transactions on Knowledge and Data Engineering 16(10) (2004) 117
78
Carbonell, J., Probst, K., Peterson, E., Monson, C., Lavie, A., Brown, R., Levin, L.: Automatic Rule Learning for Resource-
Limited MT In Proceedings of the 5th Conference of the Association for Machine Translation in the Americas (AMTA 2002)
(2002) 110.
79
Pardo, T.A.S., Rino, L.H.M., Nunes, M.G.V.: GistSumm: A Summarization Tool Based on a New Extractive Method. In:
Mamede, N.J., Baptista, J., Trancoso, I., Nunes, M.G.V. (eds.) PROPOR 2003. LNCS, vol. 2721, pp. 210218. Springer,
Heidelberg (2003)
153
sentenas, baseado em Luhn (1958
80
), que soma a frequncia de cada palavra da
sentena no documento todo; e produo do extrato. Uma nova verso do
GistSumm
81
permite gerar um extrato a partir de um tpico definido pelo usurio.
Durante a participao no CLEF 2006, dois experimentos foram executados: no
primeiro, a pergunta era usada como tpico, e o sistema retornava as sentenas
gist de maior avaliao; e no segundo experimento, foi desenvolvido um filtro
(heurstica) para encontrar [a resposta], dentre as sentenas retornadas pelo
GistSumm, aquela que fosse mais apropriada. Tendo como base as palavras que
compem as sentenas, a heurstica tenta identificar o tipo da pergunta feita, e
consequentemente, o tipo da resposta desejada, para, ento, eleger a mais
adequada.
Enembreck et al. (2006) compararam a descrio de um projeto de
pesquisa e desenvolvimento com o perfil dos possveis candidatos. Estes perfis
foram gerados automaticamente a partir dos itens de conhecimento presente nos
currculos da plataforma Lattes, tais como artigos e textos escritos pelos
candidatos. Utilizou-se o TFIDF para atribuir valores s caractersticas dos
currculos e abordagem baseada em centride para calcular a similaridade entre os
perfis e a descrio do projeto. Para normalizar os perfis e identificar os termos que
melhor discriminam os candidatos, utilizou-se o ndice Gini
82
.
Leite e Rino (2006) analisaram a contribuio das caractersticas
implementadas no sistema Supor no processo de sumarizao automtica. O
sumarizador Supor utiliza um corpus de treinamento composto dos textos fonte e
dos extratos ideais. Todas as sentenas do texto fonte so representadas no
conjunto de treinamento como um tupla de valores binrios para as caractersticas,
selecionadas pelo usurio. Cada tupla rotulada com a classe que sinaliza se a
sentena est ou no no sumrio (tendo como base o sumrio ideal). Este conjunto
de treinamento usado para calcular as probabilidades usadas no classificador
Bayesiano para ranquear as sentenas que devero compor o sumrio. Assim, as
melhores sentenas so includas no sumrio, tendo em vista o fator de compresso
definido pelo usurio. Dentre as caractersticas implementadas pelo Supor, que

80
Luhn, H.: The automatic creation of literature abstracts. IBM Journal of Res. and Develop. , 159165 (1958)
81
Balage Filho, P.P., Uzda, V.R., Pardo, T.A.S., Nunes, M.G.V.: Estrutura Textual e Multiplicidade de Tpicos na Sumarizao
Automtica: o Caso do Sistema GistSumm. Technical Report 283. Instituto de Cincias Matemticas e de Computao,
Universidade de So Paulo (2006).
82
S. Shankar, and G. Karypis, "A Feature Weight Adjustment Algorithm for Document Categorization", KDD-2000 Workshop on
Text Mining, Boston, USA, August 2000.
154
podem ser usadas em separado ou em combinao, esto o mtodo da cadeia
lexical (lexical chains method
83
), que verifica a existncia de palavras relacionadas
(por exemplo, sinnimos/antnimos ou hipnimos/hipernimos); o mtodo do mapa
de relacionamento textual (text relationship map method
84
), semelhante ao mtodo
anterior, mas considera pargrafos ao invs de sentenas, e constri um grafo
chamado de mapa de relacionamento do texto fonte que representa o seu grau de
coeso; o mtodo da importncia dos tpicos (importance of topics method
85
), que
tem como objetivo identificar os principais tpicos do texto fonte, que devero
orientar a seleo de sentenas; o tamanho e a localizao da sentena; a presena
de nomes prprios; e a frequncia das palavras. Segundo os autores, com o intuito
de melhorar a expressividade desse conjunto de caractersticas, os autores
assumiram valores categricos e numricos e no mais binrios, como na verso
original do Supor. Como algoritmos de classificao, foram utilizados o modelo
Naive-Bayes e o algoritmo de rvore de deciso C4.5, ambos usando a
ferramenta Weka. Os dados precisaram ser discretizados, visto que estes
algoritmos no trabalham com valores numricos.
Moraes e Strube de Lima (2007) utilizaram a hierarquia definida por
Langie (2004), que estrutura as categorias na forma de uma rvore, analisando um
volume bem menor de documentos. O categorizador hierrquico desenvolvido
formado por vrios classificadores multicategoriais, que implementam o algoritmo k-
Nearest Neighbor (k-NN). No presente trabalho, os textos utilizados da PLN-BR
CATEG foram lematizados, ou seja, os verbos foram colocados no infinitivo e
substantivos na forma masculina singular, pelas ferramentas CHAMA e FORMA,
desenvolvidas por Gonzalez et al. (2006
86
). A preparao dos textos foi feita por
classificador e, consistiu em identificar os termos (nicos), uma vez que j estavam
lematizados, selecionar os mais relevantes e remover as stopwords. Os documentos
foram representados no formato de bag-of-words, e a tcnica tfidf foi utilizada para
calcular os pesos dos termos. Os classificadores implementam o algoritmo k-NN,
que, dado um texto do conjunto de documentos de teste (no rotulados), encontra os

83
Barzilay, R., Elhadad, M.: Using Lexical Chains for Text Summarization. In: Mani, I., Maybury, M. T. (eds.): Advances in
Automatic Text Summarization. MIT Press (1997) 111-121.
84
Salton, G., Singhal, A., Mitra, M., Buckley, C.: Automatic Text Structuring and Summarization. Information Processing &
Management 33 (1997) 193-207.
85
Larocca Neto, J., Santos, A.D., Kaestner, A.A., Freitas, A.A.: Generating Text Summaries through the Relative Importance of
Topics. In: Monard, M. C., Sichman, J. S. (eds.): Proc. Of 15th Brazilian Symposium on Artificial Intelligence (SBIA'00). Lecture
Notes in Artificial Intelligence, No. 1952, Springer-Verlag (2000) 300-309.
86
Gonzalez, M., Lima, V.L.S. e Lima, J.V. (2006) Tools for Nominalization: an Alternative for Lexical Normalization, In:
Workshop on Comp. Proc. Of Portuguese Lang Written and Spoken, 7; PROPOR, 2006, Springer-Verlag, p.100-109.
155
k documentos vizinhos a esse texto que pertencem ao conjunto de treino, de acordo
com uma mtrica (co-seno) que avalia a similaridade entre os termos dos
documentos.
Kinoshita et al. (2007) apresentam o CoGrOO Corretor Gramatical
para o OpenOffice, que visa fazer a correo gramatical de diversos erros, tais
como concordncia verbal e nominal, crase, uso indevido dos adjetivos 'mau' e 'mal',
dentre outros encontrados no portugus do Brasil. De acordo com os autores, duas
caractersticas do CoGrOO devem ser ressaltada: arquitetura hbrida e a utilizao
de regras e estatsticas. Neste artigo, os autores apresentam as diferenas entre as
duas verses disponibilizadas para o corretor, e comparam o desempenho CoGrOO,
com o corretor gramatical do editor de texto Microsoft Word, chamado ReGra
(NUNES E OLIVEIRA, 2000
87
). O CoGrOO composto pelos seguintes mdulos:
detector de delimitador (boundary) de sentenas; tokenizador, que separa as
sentenas em palavras; identificador de potenciais nomes prprios; etiquetador
de discurso (part-of-speech tagger); chunker, que identifica os sintagmas nominais
e verbais; identificador do sujeito e do verbo da frase; e finalmente o detector de
erros gramaticais. Para as etapas, onde conhecimento lingustico exigido, utiliza-se
um dicionrio criado a partir do corpus anotado CETENFOLHA. O etiquetador
utilizado foi similar ao de Brill (1992
88
). De acordo com os autores, utilizou-se como
referncia a biblioteca OpenNLP
89
, que como foi desenvolvida originalmente para o
ingls, precisou passar por algumas modificaes.
Specia, Stevenson e Nunes (2007) apresentam uma abordagem
hbrida de desambiguao lexical de sentido que utiliza um formalismo de
representao expressivo, fontes de conhecimento de fundo (cenrio) e
compartilhado, e a programao lgica indutiva como tcnica de aprendizado. A
programao lgica indutiva utiliza tcnicas de aprendizado de mquina e
programao lgica para construir teorias de primeira ordem a partir de
conhecimento de fundo e de exemplos, os quais so representados usando
clusulas de primeira ordem. Utilizou-se o sistema Aleph ILP (SRINIVASAN, 2000),
que prov um sistema completo de inferncia e pode ser customizado de vrias

87
M.G.V. Nunes, O.N. Oliveira Jr., O processo de desenvolvimento do Revisor Gramatical ReGra, Proc. of XXVII SEMISH,
Vol. 1, p. 6, Curitiba, Brazil, 2000.
88
E. Brill, A Simple Rule-Based Part Of Speech Tagger, Proceedings of ANLP-92, 3rd Conference of Applied Natural
Language Processing, Trento, Italy, 1992.
89
OpenNLP, an open-source framework to develop natural language applications http://opennlp.sourceforge.net
156
maneiras. Os corpus utilizados foram lematizados, usando Minipar (LIN, 1993
90
), e
etiquetados (part-of-speech), usando Mxpost (RATNAPARKHI, 1996
91
). Como fonte
de conhecimento de fundo usada nos algoritmos de aprendizado, os autores
experimentaram 12 alternativas diferentes de caractersticas, contendo bag-of-
words, bigramas, palavras a direita e a esquerda do verbo, etc. Alm do
conhecimento de fundo, o sistema aprende tambm a partir de um conjunto de
exemplos. Dois experimentos foram realizados para um cenrio multilngue (ingls-
portugus) e monolngue (ingls). Para comparar a abordagem proposta, avaliou-se
tambm os algoritmos de aprendizado: rvore de deciso (C4.5), Naive-Bayes e
Support Vector Machine (SVM), usando o Weka.
Silva e Vieira (2007) apresentaram a comparao entre duas tcnicas de
aprendizado de mquina: rvore de deciso e support vector machine (SVM)
para categorizao de textos com seleo de caractersticas baseada em
informaes lingusticas. Na fase de pr-processamento dos documentos os
termos irrelevantes (stopwords) foram removidos e utilizou-se o algoritmo de Martin
Porter, desenvolvido para a lngua portuguesa, para reduo dos radicais
92
. As
informaes lingusticas foram adquiridas utilizando-se o analisador sinttico
PALAVRAS (BICK, 2000). As informaes lingusticas consideradas foram as
categorias gramaticais. Os classificadores baseados em rvore de deciso e SVM
foram treinados usando a ferramenta WEKA.
Milidiu, Duarte e Cavalcante (2007) utilizaram trs algoritmos de
aprendizado de mquina para reconhecimento de nomes prprios: cadeia de
Markov (Hidden Markov Models), aprendizado baseado em transformaes e
Support Vector Machine (SVM). Para o algoritmo de Markov e o baseado em
transformaes utilizou-se implementaes realizadas pelo laboratrio LEARN da
Puc-Rio, enquanto que para o algoritmo SVM utilizou-se uma implementao
chamada libsvm (CHANG; LIN, 2001
93
). Os autores criaram manualmente um
sistema de referncia, chamado de baseline system, composto com nomes de
localidades, personalidades e organizaes extradas da Web. No modelo de
Markov, os autores usaram as etiquetas de reconhecimento de nomes prprios

90
Dekang Lin. 1993. Principle based parsing without overgeneration. Proceedings of the 31st Meeting of the Association for
Computational Linguistics (ACL- 93), Columbus, pages 112-120
91
Adwait Ratnaparkhi. 1996. A Maximum Entropy Part-Of-Speech Tagger. Proceedings of the Conference on Empirical Methods
in Natural Language Processing, New Jersey, pages 133-142.
92
Disponvel em http://snowball.sourceforge.net
93
Chang, C. and Lin, C. (2001). Libsvm: a library for support vector machines, software available at
http://www.csie.ntu.edu.tw/~cjlin/libsvm.
157
(NER): PER (para personalidades); ORG (para organizaes); LOC (para
localidades); e O (outros), como estados escondidos e as etiquetas de discurso (pos-
tag) como observaes. Assim, cada sentena mapeada em uma sequncia de
etiquetas de discurso, e ento o algoritmo de Viterbi encontra a melhor etiqueta
NER. No modelo baseado em transformaes, os autores usaram como
classificadores iniciais, o sistema de referncia e o modelo de Markov criado. J no
SVM, os autores precisaram mapear as sentenas num espao vetorial. Assim,
considerou-se uma janela de tamanho 5, composta com a palavra corrente, dois
vizinhos antes e dois depois. Para cada elemento, foram elucidadas a prpria
palavra, a etiqueta de discurso e a classificao inicial, quando for o caso,
representados por valores categricos (zeros ou uns).
Caseli et al. (2008) apresentam uma ferramenta visual gratuita
desenvolvida baseada no alinhador lexical hbrido LIHLA, proposto anteriormente
pelos prprios autores
Aziz, Pardo e Paraboni (2008) destacam que a abordagem estatstica
de traduo consiste em encontrar a sentena em portugus que maximiza a
probabilidade de ser a traduo de uma dada sentena em pspanhol. Dado um
par de sentenas, assume-se que elas tem uma traduo mtua se existir pelo
menos um alinhamento possvel entre elas. Para segmentar as sentenas
utilizou-se o SENTER
94
, tanto para os textos em portugus como para espanhol
(com algumas modificaes). Para as tarefas de alinhamento das sentenas,
utilizou-se o mtodo Translation Corpus Aligner
95
(TCAalign
96
). O modelo de
traduo foi gerado usando o Cambridge Tool Kit (CMU
97
), enquanto que as
probabilidades foram obtidas usando o ISI ReWrite Decoder tool
98
. Para efeitos
de avaliao, comparou-se os escores BLUE
99
do mtodo estatstico proposto neste
trabalho, com os obtidos pelo sistema baseado em regras Apertium.

94
Pardo, T. A. S. SENTER: Um Segmentador Sentencial Automtico para o Portugus do Brasil. NILC Technical Reports Series
NILC-TR-06-01. University of So Paulo, So Carlos, Brazil (2006).
95
Hofland, K. and Johansson, S. The Translation Corpus Aligner: A program for automatic alignment of parallel texts. In:
Corpora and Cross-linguistic research Theory, Method, and Case Studies. S. Johansson & S. Oksefjell (Eds.): Rodopi,
Amsterdam (1998).
96
Caseli, H. M. Induo de lxicos bilngues e regras para a traduo automtica. Doctoral thesis, University of So Paulo, So
Carlos, Brazil (2007).
97
Clarkson, P. R. and Rosenfeld, R. Statistical Language Modeling Using the CMU - Cambridge Toolkit In Proceedings of ESCA
Eurospeech (1997).
98
Germann, U.; Jahr, M.; Knight, K.; Marcu, D., and Yamada, K. Fast Decoding and Optimal Decoding for Machine Translation.
Proceedings of he 39th Annual Meeting of the Association for Computational Linguistics (2001).
99
Papineni, K.; Roukos, S.; Ward, T. and Zhu, W. BLEU: a Method for Automatic Evaluation of Machine Translation.
Proceedings of he 40th Annual Meeting of the Association for Computational Linguistics (2002) 311-318.
158
Morais e Ambrosio (2008) apresentam um sistema que tem como
objetivo associar semanticamente documentos em domnios representados por
ontologias. O sistema recebe a ontologia, definindo o contexto, e um documento
texto, e usando tcnicas de minerao de dados, compara-os, para obter o grau de
relevncia do documento no domnio. No presente trabalho foi escolhido o domnio
'acidentes de trnsito' (traffic accident), para o qual uma ontologia foi definida com o
auxlio de especialistas que trabalham no TJGO e categorizam documentos, assim
como os advogados que usam o repositrio para consulta. A ontologia foi
desenvolvida seguindo a metodologia proposta por Guizzardi (2000
100
) e usando o
ambiente Protg
101
. O processo de categorizao composto por trs passos:
extrao dos termos mais relevantes da ontologia, identificando seus conceitos,
atributos relaes e instncias; extrao dos termos mais relevantes dos
documentos, produzindo um vetor de termos com as frequncias relativas
(minerao de texto); e o clculo do grau de similaridade entre eles, usando os
coeficientes de Jaccard e Overlap
102
. O sistema avaliado usando as mtricas
preciso (precision), revocao (recall) e fall-out.
Caminada, Quental e Garrao (2008) destacam que o processo de
identificao baseado na localizao de preposies no corpus a partir de sua
anotao morfossinttica. Sendo assim, ambos os corpora foram anotados
morfossintaticamente pela ferramenta PALAVRAS e sofreram um processo de
atomizao para reverter as expresses multivocabulares j identificadas por esta
ferramenta e assim poder ter seus multivocbulos re-identificados e avaliados contra
a evidncia de corpus. Esta ferramenta implementa cinco algoritmos amplamente
descritos e utilizados na literatura de multivocbulos e colocaes
103
: o Teste-T, o
Chi-Square, o Log Likelihood, o Mutual Information e o Dice Coefficient.
Quando uma preposio identificada, a palavra anterior e as duas subsequentes
so armazenadas, compondo uma janela de anlise.
Seno e Nunes (2008) destacam que para calcular a distncia semntica
entre uma sentena e um cluster, o sistema SiSPI implementa trs medidas

100
GUIZZARDI, G. Desenvolvimento para e com reuso: Um estudo de caso no domnio de vdeo sob demanda. Masters thesis,
Universidade Federal do Esprito Santo, 2000.
101
MUSEN, M. A. Protege-ii: Computer support for development of intelligent systems from libraries of components. MEDINFO
95 - World Congress on Medical Informatics, 8 1995.
102
LOH, S. Descoberta de conhecimento em textos. Available in http://atlas.ucpel.tche.br/~loh/, last access in Sep/07, Dez
2005.
103
MANNING, C. D., SCHUTZE, H. Foundations of Statistical Natural Language Processing, The MIT Press, Cambridge,
Massachusetts, Londres Inglaterra, 1999.
159
estatsticas de similaridade: Word Overlap
104
, TF-IDF (Term Frequency Inverse
Document Frequency
105
) e TF-ISF (Term Frequency Inverse Sentence
Frequency
106
). O sistema composto por dois mdulos: segmentao de
sentenas (Sentence Splitting), desempenhado pelo SENTER
107
, e clusterizao
de sentena (Sentence Clustering), que usa o mtodo de clusterizao
incremental Singlepass
108
. Neste mtodo, cada sentena de entrada deve ser
inserida num cluster j existente ou em um novo cluster. Essa deciso baseada
num limiar de similaridade.
Aziz, Pardo e Paraboni (2009), com o intuito de avaliar diferentes
parmetros de treinamento e decodificao, vrios experimentos de traduo do
portugus do Brasil para o ingls americano foram realizados. Segundo os autores,
foram utilizadas as heursticas de Moses (KOEHN et al., 2007
109
) e trigramas no
sistema de traduo automtica estatstica descrito em um trabalho anterior (AZIZ
et al., 2009
110
). As opes analisadas foram a heurstica de alinhamento, o tamanho
mximo da frase, o uso de pesos de importncia lexical e tuning.
Seno e Nunes (2009) afirmam que a fuso sentencial pode ser de duas
formas: por interseo, que combina na sentena de sada somente as
informaes que se repetem nas sentenas de entrada; e por unio de
informaes, que preserva todas as informaes das sentenas de entrada na
sentena de sada. A fuso de sentenas feita em trs passos: identificao de
informaes comuns (alinhamento), fuso e linearizao. O sistema recebe de
entrada um conjunto de sentenas similares previamente processadas pelo parser
Palavras (BICK, 2000
111
). Para cada sentena, o parser fornece informaes de
discurso (part-of-speech) e de dependncia sinttica entre palavras e chunks, alm
do lema de cada palavra. Durante o alinhamento e fuso, o sistema faz uso da base
de sinnimos Tep1 (MAZIERO et al., 2008
112
), de uma stoplist, para a identificao

104
Radev, D., Otterbacher, J.: Zhang, Zhu.: Cross-document Relationship Classification for Text Summarization. In:
Computational Linguistics (to appear, 2008).
105
Salton, G., Allan, J.: Text Retrieval Using the Vector Processing Model. In: 3rd Symposium on Document Analysis and
Information Retrieval. In: 3rd Symposium on Document Analysis and Information Retrieval. University of Nevada, Las Vegas
(1994).
106
Larocca Neto, J., Santos, A.D., Kaestner, C.A.A., Freitas, A.A.: Document Clustering and Text Summarization. In: 4th
International Conference Practical Applications of Knowledge Discovery and Data Mining PAAD 2000, pp. 4155 (2000).
107
Pardo, T.A.S.: SENTER: Um Segmentador Sentencial Automtico para o Portugus do Brasil. Technical Report NILC-TR-06-
01, So Carlos-SP, Brazil, 6p (2006).
108
Van Rijsbergen, C.J.: Information Retrieval, 2nd edn. Butterworths, Massachusetts (1979).
109
Koehn, Philipp et. al. (2007) Moses: Open Source Toolkit for Statistical Machine Translation. ACL-2007.
110
Aziz, Wilker Ferreira, Thiago Alexandre Salgueiro Pardo and Ivandr Paraboni (2009) Statistical Phrase-based Machine
Translation: Experiments with Brazilian Portuguese. VII Encontro Nacional de Inteligncia Artificial (ENIA-2009).
111
Bick, E. (2000). The Parsing System Palavras - Automatic Grammatical Analysis of Portuguese in a Constraint Grammar
Framework, Aarhus University Press.
112
Maziero, E.G., Pardo, T.A.S., Di Felippo, A., Dias-da-Silva, B.C. (2008). A Base de Dados Lexical e a Interface Web do TeP
160
de palavras irrelevantes ao alinhamento. Durante a linearizao, um gerador de
formas superficiais, desenvolvido no contexto do trabalho de Caseli (2007
113
),
usado para auxiliar na realizao da sentena. A linearizao envolve os aspectos
gramaticais da sentena a ser gerada. Assim, a rvore resultante da fuso
percorrida, gerando todas as sentenas possveis. As sentenas so pontuadas
usando o sistema jNina (PEREIRA E PARABONI, 2007
114
).
Salles et al. (2009) tem como objetivo propor uma nova abordagem para
o tratamento dos efeitos temporais em algoritmos de classificao. Definiu-se o
fator de ajuste temporal, que faz uma ponderao dos documentos de treino, em
funo do momento de sua criao e do momento da criao do documento a ser
classificado. A definio desse fator envolve dois aspectos: o ponto de referncia,
que define o momento de interesse da classificao, e a distncia temporal, que
define a separao em unidade de tempo do momento de criao do documento ao
ponto de referncia. Neste trabalho, os autores propem dois classificadores
temporais baseados no modelo de espao vetorial: Rocchio e Knearest
Neighbours (KNN), e compararam os resultados obtidos pelas verses temporais
desses algoritmos com as verses tradicionais.
Braga, Monard e Matsubara (2009) destacam que os algoritmos de
aprendizado semi-supervisionado pode ser de uma nica viso (single-view) ou
de mltiplas vises (multi-view), No presente trabalho, utilizou-se o algoritmo de uma
nica viso Self-Training
115
, e o de mltiplas vises, Co-Training
116
, ambos com
algoritmo de aprendizado supervisionado Multinomial Naive Bayes (MNB)
117
. As
base de dados foram representadas no formato de atributos-valores, onde
unigramas foram usadas como primeira viso, e bigramas como segunda viso. Foi
usado o pr-processador PreTexT II
118
, as stopwords foram removidas e a anlise
de radicais realizada
119
.
Villavicencio, Caseli e Machado (2009) avaliaram a influncia de duas

2,0 - Thesaurus Eletrnico para o Portugus do Brasil. In: Anais do VI Workshop em Tecnologia da Informao e da Linguagem
Humana - TIL, pp, 390-392.
113
Caseli, H.M. (2007). Induo de Lxicos Bilngues e Regras para a Traduo Automtica. Tese de Doutorado. ICMC-USP,
158 p.
114
Pereira, D.B. and Paraboni, I. (2007). A Language Modelling Tool for Statistical NLP. In: Anais do V Workshop em Tecnologia
da Informao e da Linguagem Humana TIL, pp. 1679-1688.
115
Chapelle, O., Sch olkopf, B., Zien, A.: Introduction to semi-supervised learning. In: Semi-Supervised Learning (Adaptive
Computation and Machine Learning). (2006) 1-12.
116
Blum, A., Mitchell, T.: Combining labeled and unlabeled data with Co-Training. In: COLT '98: Proceedings of the 11th Annual
Conference on Computational Learning Theory. (1998) 92-100.
117
McCallum, A., Nigam, K.: A comparison of event models for naive bayes text classification. Technical Report WS-98-05,
Association for the Advancement of Artificial Intelligence (1998).
118
Disponvel em http://www.icmc.usp.br/~caneca/pretext.htm
119
Porter, M.F.: An algorithm for suffix stripping. Program: electronic library and information systems 40(3) (2006) 211-218.
161
abordagens para identificao de expresses multi-palavras: a primeira baseada
em estatsticas, utilizando a medida de pointwise mutual information (PMI) e
informao mtua (MI), como implementado no pacote estatstico Ngram
120
; e a
segunda, baseada em alinhamento lexical entre o portugus e o ingls, gerado
pelo alinhador estatstico de palavras GIZA++
121
. As sentenas do corpus usado
foram inicialmente alinhadas usando o alinhador Translation Corpus Aligner
(TCA
122
) e anotadas usando o Apertium
123
, enquanto que as ngramas candidatas
foram anotadas usando o Tree Tagger
124
.

4.2.1.3. Material emprico utilizado

Nesta seo, procurou-se destacar os materiais empricos utilizados em
cada artigo selecionado para anlise, ou seja, identificar as bases de dados
utilizadas e o idioma foco destes trabalhos. Espera-se verificar se a comunidade
cientfica nacional foi capaz de criar um arcabouo experimental a partir do qual as
pesquisas podem ser desenvolvidas, constitudo tanto por ferramentas como por
bases de documentos (corpus). Em outras palavras, pretende-se identificar os
recursos disponveis e utlizados ao longo dos anos, e elaborar um catlogo de
possibilidades para pesquisas futuras na rea de PLN.
Na TAB. 10 apresentada a sntese dos resultados obtidos pela anlise
de contedo, de acordo com os materiais empricos usados. Para cada artigo
analisado, procurou-se identificar o material emprico, e se o mesmo havia sido
construdo especialmente para o trabalho em questo e qual o idioma dos
documentos que o compe. Considerou-se o fato de ter sido o material emprico
CONSTRUDO, caso o mesmo tenha sido criado com o propsito inicial de ser
usado nos experimentos do trabalho, e de ser CONHECIDO, caso o mesmo tenha
sido reutilizado. Assim, se ao apresentar o material emprico, o autor incluir

120
Banerjee, S. and Pedersen, T. (2003). The design, implementation and use of the ngram statistics package. In In
Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics, pages 370
381.
121
Och, F. J. and Ney, H. (2000). Improved statistical alignment models. In Proceedings of the 38th Annual Meeting of the ACL,
pages 440447, Hong Kong, China.
122
Hofland, K. (1996). A program for aligning English and Norwegian sentences. In Hockey, S., Ide, N., and Perissinotto, G.,
editors, Research in Humanities Computing, pages 165178, Oxford. Oxford University Press.
123
Armentano-Oller, C., Carrasco, R. C., Corb-Bellot, A. M., Forcada, M. L., Ginest-Rosell, M., Ortiz-Rojas, S., Prez-Ortiz, J.
A., Ramrez-Snchez, G., Snchez-Martnez, F., and Scalco, M. A. (2006). Open-source Portuguese-Spanish
machinetranslation. In Proceedings of the VII Encontro para o Processamento Computacionalda Lngua Portuguesa Escrita e
Falada (PROPOR-2006), pages 5059, Itatiaia-RJ, Brazil.
124
Schmid, H. (1994). Probabilistic part-of-speech tagging using decision trees. In International Conference on New Methods in
Language Processing.
162
referncias a outros trabalhos, seu material emprico ser considerado conhecido.
Se o autor fez uso de um corpus de outro trabalho e fez um recorte, tambm ser
considerado conhecido. Considerou-se a opo 'No se aplica', para os trabalhos
que no apresentaram experimentos envolvendo base de documentos.

TABELA 10
Anlise de contedo das publicaes: dimenso Material emprico

Autores
Material emprico utilizado Construdo ou
Conhecido
Idioma
Semeghini-Siqueira, Costa e
Cohn (1986)
universo lingustico em 'sistema solar', com o
auxlio de dois astrnomos da USP, e
recorrendo-se a literatura especfica
Construdo Portugus
Ziviani e Albuquerque (1987) --- No se aplica No se aplica
Ripoll e Mendes (1988) --- No se aplica Portugus
Fusaro e Ziviani (1989) --- No se aplica Genrico
Strube De Lima (1990)
---
No se aplica
Genrico
(exemplos em
portugus)
Leffa (1991)
cinco pequenos textos de narrativas jornalsticas
em ingls, de aproximadamente 100 palavras
cada um
Construdo
Portugus e
Ingls
(traduo)
Rocha et al. (1992)
utilizou-se uma base de 45 textos descrevendo
tcnicas de enfermagem.
Construdo Ingls
Rocha, Rocha e Huff (1993)
dicionrio de dados de um sistema especialista
(Iliad - OpenClinical AI Systems in clinical
practice) e o UMLS Metathesaurus
Construdo Ingls
Robin (1994) --- No se aplica Ingls
Julia, Seabra e Semeghini-
Siqueira (1995)
---
No se aplica Ingls
Barros (1996) --- No se aplica Ingls
Rosa (1997) --- No se aplica Portugus
Oliveira e Wazlawick (1998)
utilizou-se textos compostos por trs sentenas,
mas no explicitaram o formato destes arquivos
(somente que obedece o padro "sujeito verbo
objeto. Ele/ela verbo objeto")
Construdo Ingls
Carvalho e Strube De Lima
(1999)
---
No se aplica
Genrico
(desenvolvido
para o
portugus).
163
Kinoshita (1999)
exemplos extrados da Bblia, livro de Mateus,
em grego, ingls e portugus
Construdo
Grego para
ingls e
portugus
Barcia et al. (1999) --- No se aplica Portugus
Berber Sardinha (1999)
32 milhes de palavras oriundas de jornais,
conversas informais, artigos e outros
Construdo Portugus
Villavicencio (1999) --- No se aplica Ingls
Jose Neto e Menezes (2000)
corpus Penn Treebank, com textos em ingls, e
o corpus Tycho Brahe, com textos em portugus
Conhecido.
Ingls e
Portugus
Berber Sardinha (2000) corpus com mais de 140 milhes de palavras Construdo Portugus
Padilha e Viccari (2000) --- No se aplica
Exemplos em
Portugus
Larocca Neto et al. (2000)
base de documentos TIPSTER, contendo textos
em ingls de revistas sobre computao,
hardware, software, etc.
Conhecido. Ingls
Dias-Da-Silva et al. (2000) --- No se aplica Portugus
Rossi et al. (2001)
corpus constitudo por 15 textos do Jornal
Correio do Povo (de Porto Alegre)
Construdo Portugus
Gamallo et al. (2001)
textos em Portugus P.G.R. (Portuguese General
Attorney Opinions), constitudo por documentos
de jurisprudncia
Conhecido
Portugus
(genrico)
Gonzalez e Strube De Lima
(2001)
corpus de teste com 7.095 palavras, constitudo
por 34 resumos de dissertaes do
PPGCC/PUCRS
Construdo Portugus
Orengo e Huyck (2001)
foram utilizadas de 2.800 palavras escolhidas
aleatoriamente
Construdo Portugus
Souza, Pereira e Nunes (2001)
artigos cientficos de computao retirados da
Revista Brasileira de Informtica na Educao e
dos anais do Simpsio Brasileiro de Informtica
na Educao
Construdo Portugus
Jose Neto e Moraes (2002) --- No se aplica Portugus
Bidarra (2002) --- No se aplica Portugus
Pardo e Rino (2002)
Theses Corpus
Conhecido
(desenvolvido por
um dos autores)
Portugus
Schulz et al. (2002) --- No se aplica
Portugus e
Ingls
Bonfante, A. G. ; Nunes, M. G.
V.
corpus NILC
Conhecido Portugus
164
Zavaglia (2003) --- No se aplica Portugus
Martins, Monard e Matsubara
(2003)
corpus do NILC
Conhecido Portugus
Pardo, Rino e Nunes (2003) CorpusDT Conhecido Portugus
Gasperin e Strube De Lima
(2003)
corpus do NILC
Conhecido Portugus
Oliveira, Garrao e Amaral
(2003)
corpus do NILC
Conhecido Portugus
Alves e Chishman (2004)
CETENfolha e ZERO Hora (Brasil) e
CETENpublico e COMPARA (Portugal)
Conhecido Portugus
Specia e Nunes (2004)
---
No se aplica
Ingls e
Portugus
(traduo)
Rino et al. (2004) corpus TeMrio Conhecido Portugus
Aluisio et al. (2004) --- No se aplica Portugus
Matsubara, Monard e Batista
(2004)
base news e a base lnai
Conhecido Ingls
Pardo, Marcu e Nunes (2005) Text REtrieval Conference (TREC 2002) Conhecido Ingls
Caseli, Nunes e Forcada (2005)
CorpusFAPESP
Conhecido
Portugus,
Espanhol e
Ingls
Specia, Nunes e Stevenson
(2005)
Compara
Conhecido Ingls
Silva, Vieira e Osorio (2005) corpus do NILC Conhecido Portugus
Piltcher et al. (2005)
trs bases distintas: histricos de sesses,
documentos da biblioteca digital e a ontologia
de domnio
Construdo
Independe
(Portugus e
Ingls)
Rino e Seno (2006) corpus TeMrio e corpus Rhetalho Conhecido
Portugus
(independente)
Caseli e Nunes (2006)
CorpusFAPESP
Conhecido
Portugus e
Espanhol
(traduo)
Balage Filho et al. (2006)
coleo de documentos em Portugus
disponibilizada pelo CLEF
Conhecido Portugus
Enembreck et al. (2006)
uma amostra de 52 projetos de mestrado
escritos por membros do curso de Cincia da
Computao da PUC-PR
Construdo Portugus
Leite e Rino (2006)
corpus TeMrio

Conhecido Portugus
165
Moraes e Strube De Lima
(2007)
corpus PLN-BR CATEG
Conhecido Portugus
Kinoshita et al. (2007)
corpus contendo informaes do site do Metr-
SP, contendo 16.536 palavra em 800 sentenas
Construdo Portugus
Specia, Stevenson e Nunes
(2007)
corpus ingls-portugus contendo 500
sentenas e o Senseval-3.
Construdo e
Conhecido (dois
experimentos)
Ingls-
Portugus e
Ingls
Silva e Vieira (2007) Corpus NILC Conhecido Portugus
Milidiu, Duarte e Cavalcante
(2007)
SNR-CLIC (Mac-Morpho)
Conhecido Portugus
Caseli et al. (2008)
---
No se aplica
Portugus-
Ingls e
Portugus-
Espanhol
Aziz, Pardo e Paraboni (2008) revista eletrnica de Pesquisa da FAPESP Conhecido
Portugus-
Espanhol
Morais e Ambrosio (2008)
documentos de jurisprudncia do Tribunal de
Justia do estado de Gois TJGO
Construdo Portugus
Caminada, Quental e Garrao
(2008)
corpus Jornalstico, composto de textos de um
jornal e o corpus Internet, construdo a partir da
ferramenta WebBootCat
Construdo Portugus
Seno e Nunes (2008)
corpus composto por 20 colees de notcias,
coletado manualmente a partir de vrios sites
de agncias de notcias
Construdo Portugus
Aziz, Pardo e Paraboni (2009) revista eletrnica de Pesquisa da PAFESP Conhecido
Portugus-
Ingls
Seno e Nunes (2009) corpus NILC Conhecido Portugus
Salles et al. (2009)
duas colees de documentos: da Biblioteca
Digital da ACM e da base de dados MedLine
Conhecido
Ingls
(Genrico)
Braga, Monard e Matsubara
(2009)
foram utilizadas cinco bases de documentos:
Construdo Ingls
Villavicencio, Caseli e Machado
(2009)
corpus paralelo portugus-ingls contendo 283
textos em portugus e sua verso em ingls,
extrados do Jornal de Pediatria
Construdo
Portugus-
ingls

Semeghini-Siqueira, Costa e Cohn (1986) delimitaram o universo
lingustico em 'sistema solar' e com o auxlio de dois astrnomos da USP, e
recorrendo-se a literatura especfica (glossrio especfico e explicaes tcnicas
sobre Astronomia em portugus), explicitaram os significados e estabeleceram os
relacionamentos entre as unidades lexicais. No artigo, sugere-se que esta inspeo,
assim como a consequente formulao das regras foram feitas manualmente.
166
Em Ziviane e Albuquerque (1987), os autores apresentam a rvore
Patrcia construda para uma frase exemplo, no fazendo assim uso de uma coleo
de textos.
Ripoll e Mendes (1988) apresentam algumas frases em portugus para
ilustrar a definio do significado adequado do verbo "bater", tambm no fazendo
uso de uma base de documentos.
Fusaro e Ziviani (1989) no apresentaram experimentos envolvendo
exemplos de aplicao da linguagem de consulta desenvolvida.
Strube de Lima (1990) apresentou uma reviso de literatura sobre
mtodos e tcnicas empregadas a correo ortogrfica automtica e portanto no
apresentou nem experimentos, nem resultados prticos.
Leffa (1991) destaca que antes de se testar o dicionrio com usurios,
era necessrio fazer um levantamento da cobertura dos 4.700 termos inserido no
dicionrio criado, em textos de diferentes reas. Foram selecionados aleatoriamente
6 segmentos de textos de 500 palavras cada um, produzindo um corpus de 30.000
palavras. Segundo o autor, os resultados obtidos para a cobertura destes 4.700
verbetes justificam um trabalho mais amplo de avaliao envolvendo leitores
verdadeiros interagindo com textos autnticos. Assim, cinco pequenos textos de
narrativas jornalsticas em ingls, de aproximadamente 100 palavras cada um, foram
usados para o teste de compreenso de leitura. Um grupo de 43 alunos foram
classificados de acordo com a proficincia em lngua inglesa: iniciantes e
intermedirios. Somente os iniciantes foram usados na pesquisa. Dois testes de
compreenso foram administrados para cada sujeito: um usando o dicionrio
tradicional e o outro usando o eletrnico.
Em Rocha et al. (1992), a base de dados foi criada para ilustrar o
funcionamento das redes neurais utilizadas. Com o objetivo de extrair conhecimento
em interfaces de banco de dados em LN, o trabalho avaliou a possibilidade de fazer
uso de diversos bancos de dados de termos mdicos (ou clnicos), utilizou-se uma
base de 45 textos descrevendo tcnicas de enfermagem.
Em Rocha, Rocha e Huff (1993), diante do objetivo de demostrar a
abordagem adotada, os autores utilizaram um dicionrio de dados de um sistema
especialista (Iliad - OpenClinical AI Systems in clinical practice) como vocabulrio de
origem e o UMLS Metathesaurus como vocabulrio alvo (target). O lxico usado tem
4.351 entradas representando mais de trs mil conceitos (p. 691).
167
Em Robin (1994), tendo em vista que o objetivo do trabalho era o
desenvolvimento de sumarizadores automticos usando fatos histricos, foi
apresentada uma anlise de corpus de sumrios sobre esportes escritos por
humanos. O autor apresenta, para dois exemplos de narrativas de um jogo de
basquete, as operaes de reviso geradas, assim como o processo de gerao de
maneira incremental, utilizando estas operaes, para gerar as frases que compem
o sumrio.
Julia, Seabra e Semeghini-Siqueira (1995) no apresentaram
experimentos envolvendo exemplos do analisador desenvolvido, e sim inmeros
exemplos de regras de produo utilizadas (expresses lambdas) (p. 809 e 810).
Barros (1996) no apresentou experimentos envolvendo exemplos do
modelo desenvolvido, e sim um exemplo detalhado de como uma consulta (query)
seria processada.
Rosa (1997) apresentou tabelas ilustrando os vetores de caractersticas
semnticas extradas para alguns substantivos e verbos de sentenas em portugus,
e discute os resultados alcanados para situaes especficas (p. 242).
Oliveira e Wazlawick (1998) discutem vrios critrios de configurao
das redes neurais utilizadas durante os experimentos, e afirmam que os resultados
foram obtidos utilizando-se textos compostos por trs sentenas, mas no
explicitaram o formato destes arquivos (somente que obedece o padro "sujeito
verbo objeto. Ele/ela verbo objeto"). Os exemplos apresentados esto no idioma
ingls.
Carvalho e Strube de Lima (1999) discutem as principais diferenas
entre as distribuies lxico-categorial e a lingustica-cognitiva, e algumas
constataes a cerca dos modelos construdos, mas no realizaram experimentos
explcitos usando bases de documentos.
Kinoshita (1999) prope um sistema de traduo baseado em exemplos
extrados da Bblia, livro de Mateus, em grego, ingls e portugus, anotado de
acordo com a anotao de Strong (Strong's annotation). Os exemplos so
organizados em palavras, bigramas e trigramas.
Barcia et al. (1999) apresentaram a proposta da utilizao de Raciocnio
baseado em casos na recuperao de textos jurdicos e no apresentaram
experimentos envolvendo bases de dados.
O trabalho apresentado em Berber Sardinha (1999) se desenvolve em
168
torno de estudos de caso considerados relevantes para a rea. O corpus usado para
os estudos de casos constitudo de mais de 32 milhes de palavras oriundas de
jornais, conversas informais, artigos acadmicos e outros.
Villavicencio (1999) no apresentou experimentos nem to pouco
simulaes, e sim trechos da hierarquia proposta.
Jose Neto e Menezes (2000) afirmam que "a dificuldade central da
anotao morfolgica, em comparao com lnguas tais como o ingls, reside no
fato de que h a necessidade de um nmero bem maior de etiquetas para
representar a maior riqueza morfolgica da lngua portuguesa" (p. 62). Os autores
apresentam como exemplo o corpus Penn Treebank, com textos em ingls, que usa
um conjunto de 36 etiquetas morfolgicas, a menos de pontuaes, enquanto que o
corpus Tycho Brahe, com textos em portugus, usa 231 etiquetas. Mesmo assim, os
autores afirmam que o mtodo proposto neste trabalho no afetado por esta
dificuldade. Dois experimentos foram realizados: no primeiro experimento realizado
utilizou-se um trecho que no faz mais parte do corpus Tycho Brahe (segundo os
autores, foi usado o que era disponvel na poca da realizao do experimento),
composto de 1.812 palavras e dividido em duas partes: corpus de treinamento,
contendo 1.684 itens lexicais (palavras e pontuaes) e corpus de aplicao, com
128 itens lexicais. O segundo experimento, segundo os autores, mais abrangente
e confivel, sob o ponto de vista prtico. Os trs mdulos foram treinados com o uso
de um texto de Antnio das Chagas, que faz parte do corpus Tycho Brahe, e que
composto de 57.425 palavras, divididas da seguinte forma: corpus de treinamento
contendo 51.017 itens lexicais e corpus de aplicao com 6.408 itens lexicais (p. 62).
Berber Sardinha (2000) utilizou um corpus constitudo por mais de 140
milhes de palavras com o intuito de contrastar algumas prosdias semnticas do
ingls com as suas equivalentes do portugus.
Padilha e Viccari (2000) apresentaram um trabalho terico sem a
utilizao de material emprico.
Larocca Neto et al. (2000) tem como objetivo propor um sistema
treinvel para sumarizao de notcias. O sistema foi treinado e testado usando a
base de documentos TIPSTER (HARMAN, 1994
125
), contendo textos em ingls de
revistas sobre computao, hardware, software, etc. Dentre os documentos

125
Harman, D. Data Preparation. In R. Merchant, editor, The Proceedings of the TIPSTER Text Program Phase I. Morgan
Kaufmann Publishing Co. 1994.
169
disponveis, 33.658 contm o sumrio produzido pelo prprio autor do texto. Para o
experimento realizado no trabalho foi usado um conjunto de 900 documentos,
dividido em dois subconjuntos de 100 e 800 documentos.
Dias-da-Silva et al. (2000) no apresentaram experimentos nem
simulaes. Foram apresentadas algumas telas do editor de thesaurus construdo
ilustrando algumas entradas fornecidas.
Em Rossi et al. (2001), foi utilizado um corpus lingustico, para
desenvolver os estudos de correferncia nominal para o caso de descries
definidas, constitudo por 15 textos e artigos do Jornal Correio do Povo, de Porto
Alegre, editados no segundo semestre do ano de 1999. Do total de 248 sentenas
dos 15 artigos do corpus, extraiu-se 1.879 sintagmas nominais, sendo que 880
destes (aproximadamente 50%) so descries definidas. Segundo os autores, este
processo de preparao do corpus est descrito em detalhes em outro trabalho
(VIEIRA et al., 2000
126
).
Gamallo, Agustini e Lopes (2001) testaram o o sistema com um corpus
de textos em Portugus P.G.R. (Portuguese General Attorney Opinions), constitudo
por documentos de jurisprudncia, do qual foram extradas 1.643.579 ocorrncias de
palavras. Segundo os autores, o corpus foi, primeiro, marcado pelo etiquetador (part-
of-speech) apresentado por Marques (2000
127
). Em seguida, sequncias de blocos
(sequences of chucks) foram analisadas por um parser parcial (ROCIO et al.,
2001
128
). Usando heursticas de associao, essas pores foram unidas para criar
dependncias sintticas binrias.
Em Gonzalez e Strube de Lima (2001), foi utilizado um corpus de teste
com 7.095 palavras (excluindo-se as stopwords), constitudo por 34 resumos de
dissertaes do Programa de Ps-Graduao em Cincia da Computao (PPGCC)
da Faculdade de Informtica da PUCRS. Em mdia, os documentos possuem, cada
um, 208 palavras.
Souza, Pereira e Nunes (2001) utilizaram 12 exemplares de revistas
cientficas brasileiras da rea de computao, formando um corpus de 58 artigos em
portugus, objetivando um levantamento de padres morfossintticos das palavras-
chave elaboradas pelos autores dos artigos: combinaes de categorias gramaticais.

126
Vieira, R. et al. . Extrao de sintagmas nominais para o processamento de correferncia. V Encontro para o processamento
computacional da Lngua Portuguesa escrita e falada - PROPOR, Atibaia SP, 19-22 Nov 2000
127
Nuno Marques. Uma Metodologia para a Modelao Estatstica da Subcategorizao Verbal. PhD thesis, Universidade
Nova de Lisboa, Lisboa, Portugal, 2000.
128
V. Rocio, E. de la Clergerie, and J.G.P. Lopes. Tabulation for multi-purpose partial parsing. Journal of Grammars, 4(1), 2001.
170
A avaliao do sistema desenvolvido pelos autores foi feita utilizando-se dezoito
artigos cientficos de computao retirados da Revista Brasileira de Informtica na
Educao e dos anais do Simpsio Brasileiro de Informtica na Educao - 1998.
Orengo e Huyck (2001) utilizaram um vocabulrio de 32 mil palavras
distintas obtidas a partir da verso para o portugus do algoritmo de Porter
129
. Deste
conjunto de palavras, foram selecionadas aleatoriamente um conjunto de 2.800
palavras paras as quais foram atribudos manualmente os radicais corretos.
Jose Neto e Moraes (2002) no apresentaram experimentos envolvendo
colees de documentos. Procurou-se ilustrar a construo de autmatos a partir de
uma gramtica que representa um subconjunto da lngua portuguesa. Segundo os
autores, o mtodo proposto apresenta "uma aplicabilidade relativamente geral" (p.
4), e que portanto, pode ser devidamente estendido para levar em considerao os
aspectos da linguagem natural no considerados na simplificao imposta. A
gramtica simplificada usada como base para o raciocnio no considera importantes
aspectos de dependncia de contexto, que certamente devem ser levados em conta
em outras etapas do processamento da linguagem.
Em Bidarra (2002), por ser um trabalho essencialmente terico e
descritivo, no foram realizados experimentos. O autor apresentou alguns exemplos
de afasia, em portugus, para ilustrar o modelo proposto.
Em Pardo e Rino (2002), utilizou-se o Theses Corpus (PARDO, 2002
130
),
contendo 10 introdues de teses e dissertaes da rea de computao, tendo, em
mdia, 530 palavras cada introduo. Esse corpus foi escolhido pelo fato dos textos
apresentarem a estrutura Problema-Soluo e serem acompanhados por sumrios
autnticos, ou seja, aqueles produzidos pelos prprios autores dos textos.
Em Schulz et al. (2002) apresentada uma metodologia de indexao e
recuperao de textos mdicos e como tal, no apresenta a realizao de
experimentos. Ao final do artigo, apresentado o resultado da metodologia aplicada
a dois exemplos de textos em portugus e ingls, de contedo idntico.
Bonfante e Nunes (2002) no apresentaram resultados dos
experimentos, apenas afirmaram que utilizou-se um conjunto de sentenas extradas
do corpus NILC. Como treebank alimentadora do processo, utilizou-se um conjunto

129
Disponvel em http://open.muscat.com.
130
Pardo, T.A.S. (2002). DMSumm: Um Gerador Automtico de Sumrios. Dissertao de Mestrado. Departamento de
Computao. Universidade Federal de So Carlos. So Carlos SP.
171
de sentenas obtidas do corpus NILC
131
anotadas sintaticamente com o parser do
Bick (2000
132
).
Zavaglia (2003) no apresentou experimentos, apenas dois exemplos da
representao do item homnimo 'banco'.
Martins, Monard e Matsubara (2003) utilizam um corpus obtido do NILC
com mais de 4.000 documentos em portugus dividido nos seguintes tpicos:
didtico, jornalstico, jurdico, literrio e tcnico. Foram selecionados 248
documentos jornalsticos classificados em quatro classes: informtica, economia,
esporte e poltica.
Em Pardo, Rino e Nunes (2003), utilizou-se, para treinar a rede neural do
NeuralSumm, sentenas extradas de um corpus de 10 textos cientficos
(introdues de teses e dissertaes com aproximadamente 530 palavras e 19
sentenas cada) do domnio da Computao em Portugus do Brasil, chamado
CorpusDT (FELTRIM et al., 2001
133
). As sentenas dos textos foram classificadas
em essencial, complementar ou suprflua, por 10 juzes linguistas computacionais e
falantes nativos do Portugus do Brasil. Para cada sentena, foi extrado um
conjunto de oito caractersticas (features), assumindo a classificao indicada pela
maioria dos juzes.
Em Gasperin e Strube de Lima (2003), utilizou-se o corpus do NILC para
gerar a lista de palavras e para avaliar os resultados obtidos com a recuperao com
expanso de consultas. Este corpus contm 5.093 artigos em portugus publicados
no jornal Folha de So Paulo no ano de 1994, sobre vrios assuntos. Consultas
foram realizadas e um especialista humano classificou os documentos como
relevantes e no relevantes. Essa classificao manual foi usada para gerar os
ndices de revocao e preciso dos experimentos realizados.
Em Alves e Chishman (2004), quatro tradutores foram avaliados de
acordo com sua capacidade de traduo de casos ambguos utilizando como lngua
fonte, o Portugus e como lngua alvo, o Ingls. Foram submetidas aos tradutores,
38 frases de fontes variadas, tais como os corpora eletrnicos CETENfolha e ZERO
Hora (Brasil) e CETENpublico e COMPARA (Portugal).

131
Disponvel em www.nilc.icmc.sc.usp.br
132
133
Feltrim, V.D.; Nunes, M.G.V.; Alusio, S.M. (2001). Um corpus de textos cientficos em Portugus para a anlise da Estrutura
Esquemtica. Srie de Relatrios do NILC. NILCTR-01-4. Available for download in
www.nilc.icmc.usp.br/nilc/pessoas/valeria.htm
172
Oliveira, Garrao e Amaral (2003) destacam que os critrios definidos
foram testados em um corpus em portugus brasileiro do Ncleo Interinstitucional de
Lingustica Computacional (NILC), descrito em (AIRES, 2001
134
), que contm cerca
de 37 milhes de palavras, incluindo textos corretos (publicaes como livros, jornais
e revistas, ou seja, que foram submetidas a reviso de especialistas), incorretos
(redaes de alunos undergraduates e material de propaganda) e semi-corretos
(extrados de contratos, relatrios, dissertaes de mestrado, etc).
Specia e Nunes (2004) no realizaram experimentos. Os verbos
considerados problemticos foram selecionados em um projeto anterior das autoras.
Os idiomas escolhidos foram o ingls como lngua fonte e o portugus como lngua
alvo.
Rino et al. (2004) compararam o desempenho de cinco sistemas de
sumarizao automtica encontrados na literatura. Utilizou-se o corpus TeMrio
135
),
contendo 100 textos de jornais, construdo com o propsito de sumarizao
automtica. Estes textos foram obtidos da Folha de So Paulo (60 textos) e do
Jornal do Brasil (40 textos). Os sumrios apresentados foram produzidos
manualmente por consultores da lngua portuguesa.
Aluisio et al. (2004) autores apresentaram o Lcio-Web como sendo um
repositrio de recursos para o desenvolvimento de pesquisas da lngua portuguesa
do Brasil e de outras ferramentas lingusticas e computacionais.
Matsubara, Monard e Batista (2004) utilizaram duas bases de textos,
news e lnai, para realizar os experimentos. A base news foi criada a partir da base
mini-news
136
, e contm 800 documentos classificados em duas classes, sci e talk,
cada uma delas com 400 documentos. A base lnai contm ttulos, resumos e
referncias de artigos sobre Case-Based Reasoning (CBR) e Inductive Logic
Programming (ILP) retirados dos Lecture Notes in Artificial Intelligence (LNAI), que
contm 396 artigos, dos quais 277 (70%) so da classe CBR e 119 (30%) so da
classe ILP.
Pardo, Marcu e Nunes (2005) utilizaram todas as sentenas extradas
dos dados da TREC2002 (Text REtrieval Conference), com no mximo 10 palavras,

134
Aires, R.V.X., Alusio, S.M, Criao de um corpus com 1.000.000 de palavras etiquetado morfossintaticamente. Relatrios do
NILC, NILC-TR-01-8, 2001.
135
Pardo, T.A.S., Rino, L.H.M.: TeMrio: A corpus for automatic text summarization (in Portuguese). NILC Tech. Report NILC-
TR-03-09 (2003). Disponvel em http://www.linguateca.pt/Repositorio/TeMario
136
C.L. Blake and C.J. Merz. UCI Repository of Machine Learning Databases, 1998.
http://www.ics.uci.edu/~mlearn/MLRepository.html.
173
que continham os 1.500 verbos mais frequentes do ingls. Segundo os autores,
estes dados foram escolhidos, pelo fato de j estarem anotados por um
reconhecedor de entidades mencionadas (REM): o BBN Identifinder (BIKEL et al.,
1999
137
).
Caseli, Nunes e Forcada (2005), para testar o mtodo proposto,
utilizaram o corpus paralelo portugus-espanhol da Fapesp (CorpusFAPESP),
composto por 1.292 artigos (646 em portugus e 646 em espanhol) da verso online
da revista brasileira cientfica de Pesquisa da Fapesp
138
.
Em Specia, Nunes e Stevenson (2005), utilizou-se sentenas em ingls
contendo os verbos to come, to get, to give, to go, to look, to make e to take,
extradas do corpus Compara (FRANKENBERG-GARCIA; SANTOS, 2003
139
),
contendo textos de livros de fico. Cada sentena tem uma etiqueta de sentido que
corresponde a traduo do verbo da sentena (feito automaticamente e revisado
manualmente, em trabalho anterior). Juntamente com a etiqueta de sentido esto as
etiquetas e lemas de todas as palavras e as relaes sintticas sujeito-objeto.
Silva, Vieira e Osorio (2005) utilizaram o corpus do Ncleo
Interdisciplinar de Lingustica Computacional (NILC) contendo 855 textos
jornalsticos da Folha de So Paulo do ano de 1994, distribudos nos assuntos
informtica, economia (property), esporte, poltica e turismo.
Em Piltcher et al. (2005), foram utilizadas trs bases distintas presentes
no Sistema de recomendao (LOH, 2004
140
): histricos de sesses, onde todas as
mensagens enviadas ao chat foram gravadas. Assumiu-se que os termos que
apareciam com frequncia estavam grafados corretamente; documentos textuais,
compostos pelos artigos cientficos da biblioteca digital do sistema de
recomendao; e a ontologia, que considerada a fonte mais confivel, em relao
as anteriores, porque foi criada de modo supervisionado por humanos.
Rino e Seno (2006) realizaram dois experimentos: num primeiro
momento, foram utilizados 10 textos jornalsticos que j possuem seus sumrios de
referncia, extrados do corpus TeMrio
141
, com um total de 5.277 palavras,

137
Bikel, D.M.; Schwartz, R.; Weischedel, R.M. (1999). An Algorithm that Learns Whats in a Name. Machine Learning (Special
Issue on NLP).
138
A revista de pesquisa da FAPESP est disponvel em http://revistapesquisa.fapesp.br com textos paralelos escritos em
portugus do Brasil (original), e verses em Ingls e Espanhol.
139
Frankenberg-Garcia, A. and Santos, D. (2003) Introducing COMPARA: the Portuguese-English Parallel Corpus. Corpora in
translator education, pp. 71-87.
140
Loh, S. (2004). Investigao sobre a identificao de assuntos em mensagens de chat. Workshop de TI e Linguagem
Humana - XXIV Congresso da Sociedade Brasileira de Computao, Salvador.
141
Disponvel em http://www.linguateca.pt/Repositorio/TeMario
174
aproximadamente uma pgina e meia para cada texto; num segundo momento,
foram utilizados 20 textos jornalsticos, extrados do corpus Rhetalho
142
, anotados
retoricamente por especialistas em RST, que tambm os anotaram com suas
cadeiras de co-referncia.
Caseli e Nunes (2006) citam que foi utilizado o corpus paralelo
portugus-espanhol CorpusFAPESP composto por artigos da revista eletrnica de
Pesquisa da Fapesp
143
. No entanto, apesar das autoras alegarem que experimentos
j esto sendo feitos, no foram apresentados resultados de simulaes ou
exemplos de regras produzidas.
Balage Filho et al. (2006) utilizaram a coleo de documentos em
portugus disponibilizada pelo CLEF que contm artigos jornalsticos de dois jornais:
o brasileiro Folha de So Paulo e o portugus Pblico, dos anos de 1994 e 1995.
Segundo os autores, o portugus foi escolhido por duas razes: por ser o idioma
nativo dos autores e por ser a nica linguagem suportada pelo GistSumm
(sumarizador usado durante os experimentos).
Enembreck et al. (2006) utilizaram uma amostra de 52 projetos de
mestrado escritos por membros do curso de Cincia da Computao da PUC-PR
(curso de lotao dos prprios autores). Para cada um dos 22 professores do curso,
foram selecionados 22 itens de conhecimento, e cada item de conhecimento foi
representado por um vetor de 500 termos.
Leite e Rino (2006) utilizaram o corpus TeMrio
144
durante os
experimentos, dividido em trs conjuntos de textos: 100 textos originais, com seus
respectivos sumrios (elaborados manualmente) e os extratos produzidos
automaticamente.
Moraes e Strube de Lima (2007) utilizaram uma coleo de mais de 26
mil textos jornalsticos escritos em lngua portuguesa do corpus PLN-BR CATEG
145
,
que rene textos da Folha de So Paulo dos anos de 1994 a 2005. Para a
realizao dos experimentos de Langie (2004), foram utilizados os textos referentes
a 1994 (Folha-Hierarq), e portanto no foram usados no presente trabalho. Segundo
as autoras, a Folha-Hierarq um subconjunto da Folha-RIcol
146
.

142
Disponvel em http://nilc.icmc.usp.br/~thiago/rhetalho.html
143
Disponvel em http://revistapesquisa.fapesp.br
144
Pardo, T.A.S., Rino, L.H.M.: TeMrio: A corpus for automatic text summarization (in Portuguese). NILC Tech. Report NILC-
TR-03-09 (2003)
145
Coleo obtida atravs do projeto Recursos e Ferramentas para a Recuperao de Informao em Bases Textuais em
Portugus do Brasil (PLN-BR).
146
Disponvel em http://www.linguateca.pt/Repositorio/Folha-RIcol/.
175
Kinoshita et al. (2007) apresentam o corretor gramatical para o
Portugus CoGrOO, destacando seu funcionamento e componentes. Um importante
recurso lingustico utilizado no CoGrOO o corpus CETENFOLHA corpus
147
,
composto por textos jornalsticos com a notao morfosinttica. Para comparar o
desempenho do CoGrOO com o Regra, corretor gramatical do editor de texto
Microsoft Word, os autores criaram um corpus a partir de informaes contidas no
site do Metr-SP, contendo 16.536 palavra em 800 sentenas. Um especialista
humano analisou o corpus e identificou 51 erros gramaticais.
Em Specia, Stevenson e Nunes (2007), dois experimentos foram
realizados: no primeiro construiu-se um corpus Ingls-Portugus contendo 500
sentenas para cada um dos 10 verbos frequentes e considerados problemticos, de
acordo com trabalho anterior (SPECIA et. al., 2005
148
). No segundo experimento,
adotou-se um cenrio monolngue, contendo sentenas em Ingls contendo 32
verbos do exemplo Senseval-3, usado em (MIHALCEA et. al. 2004).
Silva e Vieira (2007) utilizaram uma coleo de 855 documentos de um
corpus composto por artigos do Jornal Folha de So Paulo do ano de 1994
149
,
classificados manualmente em 5 categorias, tais como: informtica, imveis, esporte,
poltica e turismo. Segundo as autoras, este corpus foi cedido pelo NILC (Ncleo
Interinstitucional de Lingustica Computacional), ao grupo de pesquisa em PLN da
Unisinos-RS. Em mdia cada documento da coleo possui 215 palavras e 124
palavras distintas por textos, totalizando 19.519 palavras distintas.
Milidiu, Duarte e Cavalcante (2007) utilizaram um corpus com 2.100
sentenas obtidas do SNR-CLIC
150
, anotados manualmente com as etiquetas de
discurso (part-of-speech).
Em Caseli et al. (2008), no foram realizados experimentos prticos. Os
autores apresentaram a ferramenta grfica VisualLIHLA desenvolvida baseada no
alinhador lexical hbrido LIHLA, proposto anteriormente pelos prprios autores.
Aziz, Pardo e Paraboni (2008), com o objetivo de construir o modelo de
traduo apresentado foram coletados 645 textos portugus-espanhol da revista
eletrnica de Pesquisa da FAPESP. Apesar das bases conterem cerca de 450 mil

147
Linguateca, CETENFolha, Brazilian-Portuguese annotated corpus (http://www.linguateca.pt/ Dec. 2006).
148
Lucia Specia, Maria G.V. Nunes, and Mark Stevenson. 2005. Exploiting Parallel Texts to Produce a Multilingual Sense
Tagged Corpus for Word Sense Disambiguation. Proceedings of the Conference on Recent Advances on Natural Language
Processing (RANLP-2005), Borovets, pages 525-531.
149
Disponvel em http://www.inf.unisinos.br/~renata/laboratorio/mais_jornal_mt.htm
150
Criado a partir do Mac-Morpho construdo por sua vez a partir de textos do corpus do NILC.
176
palavras, os autores as consideraram bases pequenas, quando comparadas a
outros experimentos realizados que utilizaram 200 milhes e at mesmo um bilho
de palavras. Utilizou-se um conjunto de treinamento composto por 17.000 pares de
sentenas.
Em Morais e Ambrosio (2008), foram utilizados documentos de
jurisprudncia do Tribunal de Justia do estado de Gois TJGO. Esses
documentos foram manualmente categorizados por especialistas, permitindo avaliar
os resultados obtidos pelo sistema. O repositrio utilizado contm aproximadamente
150 mil documentos, que encontram-se disponveis no site do TJGO para consultas.
Para avaliar o sistema, dois conjuntos de 60 documentos foram usados, contendo
cada um 30 documentos classificados como 'acidente de trnsito' e 30 de outra
categoria.
Em Caminada, Quental e Garrao (2008), foram utilizados dois corpus:
Corpus Jornalstico composto de textos de um jornal de grande circulao e possui
material contemporneo brasileiro, com no mais que uma dcada de idade, com
mais de 32 milhes de tokens (palavras, sinais de pontuao, etc); e o Corpus
Internet, construdo a partir da ferramenta WebBootCat
151
, que coleta textos na
internet a partir de parmetros definidos pelo usurio, como listas de palavras
sementes.
Em Seno e Nunes (2008), utilizou-se um corpus composto por 20
colees de notcias, todas contendo os mesmos tpicos, e coletado manualmente a
partir de vrios sites de agncias de notcias, totalizando 1.153 sentenas em 71
documentos. Para criar um corpus de referncia, cada sentena, de cada
documento, foi manualmente classificada, ou seja, associada a um cluster, pela
primeira autora desse trabalho.
Aziz, Pardo e Paraboni (2009) afirmam que todos os experimentos foram
realizados para um corpus paralelo portugus-ingls da revista eletrnica de
Pesquisa da PAFESP. Os dados de treinamento consiste num conjunto de 17.000
pares de sentenas. Para teste, foram usadas 649 pares desconhecidos.
Seno e Nunes (2009) construram um modelo que foi induzido a partir do
Corpus NILC
152
, composto por 160 Mb de textos jornalsticos, usando o sistema

151
KILGARRIFF, A., RYCHLY, P., SMRZ, P., TUGWELL, D., The Sketch Engine, Prodeedings from the Euralex 2004, Frana, p.
105-116. 2004.
152
Disponvel em http://www.nilc.icmc.usp.br/~rh/corpus/
177
jNina (PEREIRA; PARABONI, 2007
153
).
Em Salles et al. (2009), para avaliar os classificadores propostos, foram
realizados experimentos utilizando duas colees de documentos provenientes de
reas de conhecimento distintas: a primeira constituda por mais de 24 mil
documentos coletados da Biblioteca Digital da ACM, contendo artigos da cincia da
computao, criados no perodo entre 1980 e 2001, e classificados em 11
categorias; a segunda coleo derivada da base de dados MedLine, constituda de
mais de 800 mil documentos da rea de Medicina, classificados em 7 classes
distintas, criados entre 1970 e 1985.
Em Braga, Monard e Matsubara (2009), foram utilizadas cinco bases de
documentos: uma contendo pginas da internet da base Courses
154
, trs contendo
artigos de notcias de uma lista de discusso
155
, e a ltima contendo dados de
filmes
156
.
Villavicencio, Caseli e Machado (2009) utilizaram um corpus paralelo
portugus-ingls contendo 283 textos em portugus e sua verso em ingls,
extrados do jornal de Pediatria. Para avaliar as expresses multi-palavras
candidatas, utilizou-se o glossrio de pediatria, produzido pelo grupo
TextQuim/TERMSUL
157
que contm ngramas extrados do corpus com frequncia
superior a 5 e conferidos manualmente.

4.2.1.4. Resultados observados

Nesta seo so apresentados os resultados apresentados pelos autores
dos trabalhos analisados, juntamente com as perpectivas de continuidade dos
mesmos. Alm disso, procurou-se identificar, para cada publicao avaliada, se os
autores realizaram experimentos prticos, e se foram usados mtodos automticos
de avaliao ou se o mesmo foi avaliado com base no julgamento humano. A sntese
desses resultados apresentada na TAB. 11.

153
Pereira, D.B. and Paraboni, I. (2007). A Language Modelling Tool for Statistical NLP. In: Anais do V Workshop em Tecnologia
da Informao e da Linguagem Humana TIL, pp. 1679-1688.
154
Blum, A., Mitchell, T.: Combining labeled and unlabeled data with Co-Training. In: COLT '98: Proceedings of the 11th Annual
Conference on Computational Learning Theory. (1998) 92-100.
155
http://people.csail.mit.edu/jrennie/20Newsgroups/
156
Movie Review Data (http://www.cs.cornell.edu/People/pabo/movie-review-data/)
157
http://www.ufrgs.br/textquim
178
TABELA 11
Anlise de contedo das publicaes: dimenso Resultados Observados

Autores Realizou experimento? Houve Avaliao?
Se sim, manual ou
automtica
Semeghini-Siqueira, Costa e
Cohn (1986)
No, apenas exemplos No No
Ziviani e Albuquerque
(1987)
No, apenas consideraes
sobre o mtodo desenvolvido
No No
Ripoll e Mendes (1988)
No, apenas algumas frases em
portugus
No No
Fusaro e Ziviani (1989)
No, apenas os comandos que
compem a linguagem de
consulta criada
No No
Strube De Lima (1990) No. No No
Leffa (1991) Sim, com usurios
Sim, usando medidas
qualitativas (porcentagem)
para avaliar nvel de
compreenso fornecido ao
leitor
Manual
Rocha et al. (1992) No, apenas exemplos No No
Rocha, Rocha e Huff (1993) Sim
No apresentou resultados
quantitativos (apenas no
apresentou diferena
significativa)
Sim, por mdicos
Robin (1994) Sim No Manual (Visual)
Julia, Seabra e Semeghini-
Siqueira (1995)
No. No No
Barros (1996) No, apenas um consulta. No Manual (Visual)
Rosa (1997) Sim Sim
Manual: foram usadas
sentenas ditas vlidas
e invlidas, que foram
definidas manualmente.
Oliveira e Wazlawick (1998) Sim No
No apresentou ndices
de acerto/erro
Carvalho e Strube De Lima
(1999)
No foram apresentados
nenhum experimento, nem
mesmo exemplo de frase.
No No
Kinoshita (1999) Sim Sem resultados estatsticos Manual (Visual)
Barcia et al. (1999) No. No No
Berber Sardinha (1999) Sim No No
Villavicencio (1999) No. No No
Jose Neto e Menezes (2000) Sim Sim Automtico
179
Berber Sardinha (2000) Sim Sim No
Padilha e Viccari (2000) No. No No
Larocca Neto et al. (2000) Sim Sim
Sim, usando validao
cruzada, estatsticas
(revocao/preciso)
Dias-Da-Silva et al. (2000) No. No No
Rossi et al. (2001) No. No
Sim, com trs
pesquisadores
classificando
manualmente as
correferncias nominais
(humana)
Gamallo et al. (2001) Sim No No
Gonzalez e Strube De Lima
(2001)
Sim Sim (preciso e revocao) Automtica
Orengo e Huyck (2001) Sim Sim Automtica
Souza, Pereira e Nunes
(2001)
Sim Sim Manual
Jose Neto e Moraes (2002) No. No No
Bidarra (2002) No. No No
Pardo e Rino (2002) Sim Sim sim.
Schulz et al. (2002) No. No. No
Bonfante, A. G. ; Nunes, M.
G. V.
No. No No
Zavaglia (2003) No. No No
Martins, Monard e
Matsubara (2003)
Sim Sim
Automtico (%cross-
validation error
comparado a uma base
de documentos
previamente
classificada por
assunto)
Pardo, Rino e Nunes (2003) Sim Sim
Manual para classificar
as sentenas em
essencial,
complementar e
suprflua) e automtica
ao comparar o extrato
gerado com o ideal
(preciso e cobertura
redefinidos para este
contexto)
Gasperin e Strube De Lima
(2003)
Sim Sim
Documentos relevantes
foram classificados na
mo e somente 7
consultas foram
realizadas
180
Oliveira, Garrao e Amaral
(2003)
Sim (listagem de locues que
casaram com o critrio)
No No
Alves e Chishman (2004) Sim Sim Manual (Visual)
Specia e Nunes (2004) No. No No se aplica
Rino et al. (2004) Sim Sim
Automtico (usando os
sumrios ideais)
Aluisio et al. (2004) No. No. ---
Matsubara, Monard e Batista
(2004)
Sim Sim
Automtico (%10 fold-
cross-validation)
Pardo, Marcu e Nunes
(2005)
Sim Sim
humana e automtica
(usando dados que
foram anotados
manualmente)
Caseli, Nunes e Forcada
(2005)
Sim Sim
automtica (usando
dados que foram
anotados
manualmente)
Specia, Nunes e Stevenson
(2005)
Sim Sim
automtica (medidas
objetivas) e manual
(subjetiva)
Silva, Vieira e Osorio (2005) Sim Sim Automtico
Piltcher et al. (2005) Sim Sim
Automtico (preciso e
abrangncia foram
calculadas utilizando
base corrigida
manualmente)
Rino e Seno (2006) Sim Sim
Automtico
(informatividade) e
manual (coerncia)
Segundo as autoras SIM, mas
no foram apresentados
resultados
No No
Balage Filho et al. (2006) Sim Sim
Manual (a partir do
julgamento humano,
que diz se est correta,
errada, imprecisa,
incompleta ou ausente)
Leite e Rino (2006) Sim Sim Automtica
Moraes e Strube De Lima
(2007)
Sim Sim
Automtico (resultado
melhor depende da
avaliar manual)
Kinoshita et al. (2007) Sim Sim
Manual (correto foi
definido por um
humano)
Specia, Stevenson e Nunes
(2007)
Sim Sim Automtico
Milidiu, Duarte e Cavalcante
(2007)
Sim Sim Manual e automtica
Caseli et al. (2008)
No foram realizados
experimento
No No
181
Aziz, Pardo e Paraboni
(2008)
Sim Sim
Automtica (escore
BLUE) e manual (erros
sintticos e lexicais e
word error rates
WER)
Morais e Ambrosio (2008) Sim Sim
automtica (usando
documentos que foram
classificados
manualmente)
Caminada, Quental e Garrao
(2008)
Sim Sim
Confuso (classificao
Teste-T)
Seno e Nunes (2008) Sim Sim
automtica (usando
sentenas que foram
classificadas
manualmente)
Aziz, Pardo e Paraboni
(2009)
Sim Sim automtica
Seno e Nunes (2009) Sim Sim manual (dois humanos)
Salles et al. (2009) Sim Sim automtica
Braga, Monard e Matsubara
(2009)
Sim Sim
automtica (acurcia e
taxa de erro mdio)

Semeghini-Siqueira, Costa e Cohn (1986) afirmam que o sistema
implementado utilizando Prolog tem como finalidade facilitar a consulta a uma base
de dados relacional. Como resultado, os autores apresentam vrios "tipos" de
perguntas em portugus que ele capaz de "entender" (p. 124). Alm disso, os
autores concluem afirmando que "para se mudar a base de conhecimento, no
necessrio modificar o mecanismo da gramtica, basta trocar o vocabulrio e
estabelecer novas conexes sinttico-semnticas" (p. 125).
Ziviane e Albuquerque (1987) apresentaram um novo mtodo para
armazenamento de grandes volumes de dados utilizando um ndice de assinaturas.
Como resultados, os autores apresentaram algumas observaes sobre o mtodo
descrito relacionadas ao tempo de resposta em relao ao nmero de palavras (p.
181).
Ripoll e Mendes (1988) apresentaram como resultado algumas
observaes a cerca do sistema proposto. Segundo os autores, a anlise da frase
baseada em casos verbais resolve muitos casos de ambiguidade lxica, porm
existem algumas situaes nas quais a informao da estrutura sinttica auxiliaria
no tratamento da ambiguidade (p. 303). Alm disso, os autores complementam que,
do ponto de vista semntico, o auxlio de contexto mais global do que o da frase
182
resolve ambiguidade que os casos verbais no resolvem (p. 303). Sendo assim, os
autores sugerem como trabalhos futuros acrescentar um nvel sinttico (seguindo as
ideias apresentadas em Selman (1985) e Waltz (1985) e interligar os substantivos
com uma rede semntica que forneceria o contexto mais global da frase.
Em Fusaro e Ziviani (1989), os autores apresentaram algumas
observaes sobre a linguagem proposta afirmando apenas que "uma verso
simplificada da linguagem foi implementada no sistema PATPLUS com excelentes
resultados" (p. 297).
Strube de Lima (1990) apresentou uma reviso de literatura sobre
mtodos e tcnicas empregadas a correo ortogrfica automtica e portanto no
apresentou nem experimentos, nem resultados prticos. Como discusso final, a
autora conclui que "seguramente, nem todos os erros de sintaxe podem ser
corrigidos sem levarmos em conta informaes semnticas. Muitos deles nem
podero ser detectados sem um tratamento semnticos (...)" (pg 52). E
complementa que a deteco e a correo de erros a nvel semntico permanecem
como um vasto campo de pesquisa do qual existem, segundo a autora,
pouqussimos resultados. Existe at o presente (na publicao do artigo), o
tratamento semntico de subconjuntos da lngua, inseridos em aplicaes
especficas, podendo-se visualizar, segundo a autora, para um futuro prximo, o
aproveitamento de alguns conhecimentos semnticos buscando aprimorar os
mecanismos de deteco e correo de erros (p. 53).
Leffa (1991) apresentou algumas estatsticas sobre cobertura do
dicionrio elaborado para diversas reas de conhecimento, o que sugere que os
4.700 verbetes selecionados pelo critrio de frequncia, tinham condies de
proporcionar um bom nvel de compreenso ao leitor. Alm disso, o autor apresentou
dados qualitativos sobre a avaliao da utilizao do dicionrio pelos alunos
selecionados (p. 195)
Rocha et al. (1992) concluram que o conhecimento adquirido pelo
sistema desenvolvido em bases de dados especialistas pode ser usado para
construir sistemas especialistas na rea mdica.
Rocha, Rocha e Huff (1993) destacam que existe um esforo em traduzir
os dados do dicionrio Iliad (OpenClinical AI Systems in clinical practice) em termos
do vocabulrio alvo UMLS Metathesaurus. Sendo assim, procurou-se comparar o
desempenho do sistema proposto a um mtodo manual. O principal objetivo foi
183
verificar se o sistema foi pelo menos comparvel reviso manual realizada por um
mdico. Foram realizados experimentos com 150 termos distintos. Segundo os
autores, a comparao entre o sistema proposto e a traduo manual no
apresentou diferena significativa (estatisticamente). Os autores concluem ainda
que, o esforo manual para se criar o lxico certamente a fase mais trabalhosa do
projeto, mas que ele seguramente o centro de todo o sistema e que o sucesso
depende dele (p. 693).
Robin (1994) apresenta vrios exemplos de sentenas geradas sem e
com a aplicao das operaes de reviso proposta no modelo. Alm disso, o autor
discute a cerca da portabilidade deste modelo para outro domnio de conhecimento
(diferente de basquete esportes). Segundo o autor, os resultados sugerem que o
modelo de gerao, assim como os dados lingusticos usados neste trabalho, podem
ser reutilizados em sistemas de sumarizao de textos de qualquer assunto.
Julia, Seabra e Semeghini-Siqueira (1995) no apresentaram
experimentos envolvendo exemplos do analisador desenvolvido, e sim inmeros
exemplos de regras de produo utilizadas (expresses lambdas) (p. 809 e 810).
Como concluso, os autores destacam que a principal contribuio do trabalho o
fato de que "a tcnica utilizada neste analisador pode realmente fazer a tarefa do
linguista de definir a gramtica mais fcil, pois permite que o mesmo defina apenas
as abstraes lambda que devem ser associadas ao verbo e s categorias da
gramtica" (p. 811).
Barros (1996) no apresentou experimentos envolvendo exemplos do
modelo desenvolvido, e sim um exemplo detalhado de como uma consulta (query)
seria processada.
Em Rosa (1997), a anlise de desempenho do sistema considerou
sentenas vlidas, ou seja, que deveriam ser aceitas pelo sistema, e sentenas
invlidas, ou seja, que deveriam ser rejeitadas. Das 6.000 sentenas vlidas, o
sistema rejeitou apenas 5, enquanto que das cerca de 3.000 frases invlidas, o
sistema aceitou 26. Diante disso, o autor conclui que o desempenho do sistema
muito bom, mas faz uma ressalva: "para os tipos de frases para o qual foi treinado"
(p. 243). Alm disso, o autor destaca que a abordagem conexionista j provou ser
eficaz no tratamento de um pequeno conjunto de construes lexicais em portugus
(e cita um trabalho anterior de sua autoria datado de 1994).
Em Oliveira e Wazlawick (1998), duas abordagens conexionistas foram
184
apresentadas para a resoluo de anfora em segmentos de texto com mais de
duas frases. Na primeira abordagem uma rede simples recorrente treinada com
um subconjunto de segmentos de textos gerados artificialmente. A rede aprende os
exemplos que lhe foram apresentados com a mesma estrutura com a qual foi
treinada. Na segunda abordagem, o modelo foi alterado para uma rede multi-
camadas feedfoward que permitiu generalizar para sentenas de tamanho arbitrrio
(p. 1198). O sistema foi treinado com texto contendo poucas sentenas. Apesar de
no terem apresentado ndices de acertos, os autores afirmam que a abordagem
proposta para resoluo de anfora "resolve eficientemente todos os exemplos
apresentados que contm a mesma estrutura dos que foram treinados" (p. 1.198).
Carvalho e Strube de Lima (1999) apresentaram como resultados
algumas comparaes entre os modelos construdos. Segundo elas, quanto
distribuio do conhecimento, no modelo lxico-categorial, os agentes so simples,
parecendo-se com agentes reativos e contm basicamente conhecimento
gramatical. Conhecimentos sinttico e semntico esto contidos em um dicionrio
que deve estar completo em termos de conhecimento sobre as palavras da lngua.
Esse conhecimento externo aos agentes. No modelo lingustico-cognitivo, o
conhecimento est distribudo entre os agentes, que contm dicionrios e
analisadores relacionados a cada uma das fases do processamento. Alm disso, as
autoras complementam que o agente semntico contm um dicionrio semntico
baseado na semntica lxico-gerativa de Pustejovski (de 1995) e usa os
mecanismos gerativos dessa teoria, j os agentes associados a fenmenos utilizam
heursticas do domnio.
Kinoshita (1999) conclui que apesar de existirem vrios erros de
traduo, possvel entender vrios versos da Bblia. E complementa que a
traduo para o portugus apresentou resultados melhores que para o ingls, e
justifica que a ordem das palavras no ingls mais rgido que no portugus, e a
correspondncia das palavras entre o grego e o portugus maior do que entre o
grego e o ingls. Alm disso, o autor destaca que a anotao de Strong pode ser
usada para alinhamento de corpus.
Barcia et al. (1999) apresentaram a proposta da utilizao de Raciocnio
baseado em casos na recuperao de textos jurdicos e no apresentaram
experimentos envolvendo bases de dados. Como concluso, os autores destacam
que o RBC oferece um potencial significativo para a recuperao inteligente de
185
documentos jurisprudenciais. Ainda segundo os autores, seus principais benefcios
so "o enfoque no conhecimento em forma de episdios individuais, em lugar de
conhecimento de domnio genrico e a recuperao baseada na similaridade" (p. 6).
Alm disso, os autores colocam como contunuidade do trabalho, a validao da
aplicao da abordagem proposta.
Berber Sardinha (1999) apresentou alguns estudos de caso
considerados relevantes para a rea. O corpus usado para os estudos de casos
constitudo de mais de 32 milhes de palavras oriundas de jornais, conversas
informais, artigos acadmicos e outros. Quatro estudos foram relatados e
selecionados por serem potencialmente relevantes. Para cada estudo de caso, o
autor, baseando-se nas medidas estatsticas definidas, discute a perfil semntico
mais frequente. Segundo o autor, as trs estatsticas mais empregadas no estudo de
colocao so a razo entre observado e esperado, a informao mtua e o escore
T. O autor conclui que "o emprego de um corpus e de ferramentas computacionais
propicia maior consistncia e abrangncia na anlise". Alm disso, o autor ressalta
que os resultados apresentados indicam que "a metodologia empregada para a
descrio dos perfis semnticos verstil, podendo ser aplicada para estudos
exploratrios e contrastivos".
Villavicencio (1999) afirma que como resultado da utilizao do padro
de herana para representar informaes sobre subcategorizao verbal possvel
obter uma hierarquia altamente estruturada e sucinta. E conclui que, comparando o
modelo proposto com outros encontrados na literatura, ele evita a necessidade de
especificar e declarar tipos redundantes.
Jose Neto e Menezes (2000) destacam que no primeiro experimento, a
taxa de acerto obtida (82,81%) comparvel ao relatado em outros trabalhos da
poca. J no segundo experimento, os autores afirmam que obteve-se bom
desempenho final, chegando-se aos 90%. No entanto, os autores ressaltam que
outros autores argumentam que o mtodo baseado em exemplos memorizados
comea a produzir resultados satisfatrios a partir de um corpus com 300.000
palavras.
Berber Sardinha (2000) apresentou os resultados que indicam que as
prosdias semnticas podem variar entre o portugus e o ingls. O presente estudo
corrobora, portanto, outros estudos contrastivos, que identificaram discrepncias
entre itens equivalentes de lnguas diferentes. Segundo o autor, para evitar erros, o
186
tradutor deveria ter acesso informao sobre a prosdia semntica da lngua-alvo.
Alm disso, segundo o autor, a informao sobre prosdia semntica, embora
valiosa, no est documentada em materiais de referncia. O dicionrio consultado,
por exemplo, embora de prestgio, no inclua informao conotacional. Diante disso,
o autor conclui que em uma pesquisa futura poderia considerar a questo de como
um sistema de traduo automtica poderia beneficiar-se da prosdia semntica,
alm de como tornar automtica a aquisio de informao sobre prosdia
semntica. Outras questes que ficam para estudos posteriores, segundo o autor,
seriam sobre at que ponto factvel incluir-se informao conotacional em todos os
verbetes de um dicionrio ou glossrio e sobre como escolher e selecionar itens
para incluso.
Padilha e Viccari (2000) apresentaram um trabalho terico sem a
realizao de experimentos. Segundo os autores, os transdutores so "sem dvida
adequados para o processamento morfolgico" (p. 51). No entanto, os autores
afirmam que duas limitaes devem ser ressaltadas: sua construo generativa (no
h algoritmos de aprendizado de novas transformaes, a gramtica deve ser
alterada e o transdutor reconstrudo); e a ausncia de pesos para diferenciar
mapeamentos ambguos. Apesar disto, os autores concluem que "a abordagem
apresentada para o problema da morfologia parece teoricamente mais adequada,
abrangente e flexvel do que a empregada em aplicaes para resolver problemas
especficos, como texto-para-fala somente" (p. 51).
Em Larocca Neto et al. (2000), o sistema foi treinado e testado usando
uma base de documentos contendo textos em ingls de revistas sobre computao,
hardware, software, etc. Para o experimento realizado no trabalho, a base utilizada
foi dividida em dois subconjuntos de 100 e 800 documentos. Todos os experimentos
realizados foram avaliados usando um procedimento de validao cruzada (10-fold
cross-validation), e dois algoritmos de classificao: Naive-Bayes e o C4.5. Alm
disso, os autores destacam que, usual avaliar os resultados, em recuperao da
informao, utilizando-se as medidas revocao (recall) e preciso (precision). No
entanto, no escopo deste trabalho, assim como em outros experimentos de
sumarizadores treinveis, o nmero de sentenas retornadas igual ao nmero de
sentenas do sumrio, e portanto revocao = preciso = taxa de acurcia, e sendo
assim, somente esta ltima medida foi usada. Para os experimentos iniciais (usando
100 documentos), obteve-se cerca de 38% de acerto, usando todas as
187
caractersticas extradas. Os autores procuraram, usando o algoritmo C4.5, quais as
caractersticas mais relevantes. Usando as trs caractersticas que apresentaram
maior desempenho (ocorrncia de nomes prprios, conectividade das sentenas e
indicador de conceitos principais), a taxa de acerto neste primeiro experimento,
alcanou cerca de 49%. Para o segundo subconjunto de 800 documentos, o sistema
apresentou cerca de 37% de acerto, usando todas as caractersticas, e 50% usando
somente as trs caractersticas de maior desempenho. Como trabalho futuro, os
autores afirmam que o sistema deveria ser avaliado por julgamento humano.
Dias-da-Silva et al. (2000) apresentaram algumas telas do editor de
thesaurus construdo ilustrando algumas entradas fornecidas. Os autores concluem
afirmando que so inmeros os ganhos acumulados durante o desenvolvimento do
thesaurus eletrnico para o portugus. Complementam afirmando que "h que se
ressaltar a salutar troca de experincias e o profcuo exerccio de construo do
dilogo necessrio, cooperativo e colaborativo entre linguistas e informatas" (p. 9).
Alm disso, os autores finalizam afirmando que "os especialistas da computao
tiveram a oportunidade de apreciar com maior profundidade os resistentes
problemas postos pela linguagem humana, que parece resistir a qualquer tentativa
de ser reduzida a um cdigo de mquina" (p. 9).
Rossi et al. (2001) desenvolveram uma interface para permitir a
resoluo manual de correferncia de descries definidas, em corpus da lngua
portuguesa. Atravs dessa interface, as descries definidas (sintagmas nominais
que comeam com artigos definidos a, o, as, os) so classificadas em nova no
discurso, anfora direta, anfora indireta, associativa ou no classificada. A partir
dessa anlise manual pde-se estudar a concordncia entre falantes nativos (trs
pesquisadores que realizaram simultaneamente a anlise do corpus) em relao ao
processo de interpretao de textos envolvendo correferncia, confirmando ndices
de concordncia obtidos anteriormente em estudos da Lngua Inglesa. Os resultados
encontrados por essa anotao manual tambm foram usados no desenvolvimento
de um processo automtico de resoluo de correferncia nominal em Prolog (em
andamento). Em sntese, para a anotao manual, foram apresentados resultados
relacionados com a distribuio das classificaes obtidas, assim como algumas
discusses quanto a concordncia entre os trs avaliadores humano. Quanto ao
sistema desenvolvido, no foram apresentados resultados, pois o sistema encontra-
se em desenvolvimento.
188
Gamallo, Agustini e Lopes (2001) apresentou uma estratgia no
supervisionada para adquirir restries de seleo baseada em hipteses de
contexto e de co-especificao. A estratgia baseia-se principalmente em dois
pressupostos lingusticos: a hiptese da co-especificao, ou seja, duas expresses
relacionadas por uma dependncia binria apresentam restries semnticas entre
si; e a hiptese contextual, ou seja, dois contextos sintticos compartilham as
mesmas restries semnticas se co-ocorrerem com as mesmas palavras. Os
autores afirmaram que faz parte do trabalho atual deles (na poca de publicao do
artigo), medir a eficincia da estratgia de aprendizagem. Apesar disso, os autores
apresentaram como resultados, alguns exemplos de agrupamentos gerados,
destacando como o sentido (sense) de palavras polissmicas representado pela
atribuio natural da palavra em vrios agrupamentos. Os autores concluem que o
trabalho se difere dos anteriores em duas questes especficas: tanto na maneira de
extrair similaridade das palavras (usando hiptese contextual) como na forma de
definio de contextos sintticos (hiptese da co-especificao).
Gonzalez e Strube de Lima (2001) apresentaram os resultados
comparando a recuperao com e sem expanso automtica de consulta, com o
intuito de avaliar os benefcios do thesaurus proposto. O objetivo central desta
avaliao verificar o ganho obtido pela expanso automtica de consulta, em
termos de preciso e resposta, num sistema de RI, utilizando-se um thesaurus com
estrutura semntica fundamentada na TLG. Segundo os autores, os resultados
obtidos na avaliao indicam que a expanso de consulta pode trazer benefcios
RI. Entretanto, esta expanso no pode ser feita indiscriminadamente, num enfoque
quantitativo, sob pena de prejudicar os resultados do mecanismo de busca. As
curvas de preciso/resposta foram calculadas de acordo com os procedimentos
adotados pela comunidade internacional nas Text Retrieval Conferences (TRECs).
Como trabalhos futuros, os autores alertam que se faz necessria analisar a
influncia de cada papel da estrutura Qualia na expanso; avaliar o comportamento
dos verbos como termos que viabilizam vnculos entre termos expandidos; e
examinar o desempenho de termos composicionais e perifricos na expanso (p. 8).
Souza, Pereira e Nunes (2001) compararam os sumrios resultantes
com o texto original, com o sumrio feito pelo prprio autor do artigo cientfico e com
o sumrio feito pela ferramenta AutoResumo do Word. Avaliou-se o percentual de
sumarizao, ou seja, o nmero de sentenas do sumrio dividido pelo nmero total
189
de sentenas do texto-fonte, o percentual de erros de coeso e coerncia, dado pelo
nmero de sentenas problemticas dividido pelo nmero total de sentenas do
sumrio, e se o sumrio gerado manteve a idia principal do texto-fonte. Segundo os
autores, dos 18 textos sumarizados pelo AutoResumo do Word, 11 no preservaram
a ideia central do texto, sendo que usando duas das estratgias avaliadas, somente
em trs sumrios a idia principal no foi preservada. Com relao aos erros de
coeso e coerncia, observou-se que os resultados variaram de texto pra texto. Os
autores no deixam claro como as avaliaes foram feitas, mas sugere-se que tenha
sido feita manualmente.
Orengo e Huyck (2001) compararam a sada do algoritmo de remoo de
sufixos implementado com a sada esperada, definida manualmente a partir de uma
lista de palavras distintas. Utilizou-se o mtodo de Paice, que determina o clculo
dos ndices de overstemming (parte do radical removida), e understemming (o
sufixo no removido totalmente). Ao comparar o algoritmo implementado com a
verso para o portugus do algoritmo de Porter, os autores destacam que aquele
produziram menos erros de overstemming e understemming que este.
Jose Neto e Moraes (2002) apresentam como exemplo ilustrativo, a
construo de um autmato a partir de uma gramtica que define uma aproximao
livre de contexto de um pequeno subconjunto da lngua portuguesa. Segundo os
autores, para exemplificar, utilizou-se uma gramtica, que "define grosseiramente
alguns aspectos de uma linguagem natural (no caso, portugus), de uma forma
puramente sinttica, sem considerar os aspectos da dependncia de contexto, que
certamente devero ser levados em conta em outras etapas do processamento" (p.
4). Os autores destacam que o mtodo adotado para a construo de um autmato
adaptativo a partir da gramtica consiste em desenhar uma mquina de estados
inicial que reconhea qualquer cadeia vlida de smbolos representada pelo conjunto
disponvel de regras gramaticais. E complementam que no usado nenhum
mtodo de construo de reconhecedores convencional a partir de gramticas livres
de contexto, mas explora-se a caracterstica adaptativa do modelo de
reconhecimento adotado. Finalmente, os autores afirmam que " possvel provar que
o comportamento temporal desses autmatos bastante adequado tambm em
relao ao comprimento da cadeia de entrada, mesmo nos casos de ambiguidade e
no-determinismo" (p. 6).
Bidarra (2002) apresenta alguns aspectos bsicos para construo de
190
lxicos computacionais baseados em dados de parafasia semntica. O objetivo,
segundo o autor, discutir a pesquisa que o autor na sua tese de Doutorado, onde
ele props um modelo de descrio lexical para dar suporte a questes relacionadas
com patologias da linguagem e consequentemente modelos computacionais para
este fim. Como resultados e concluso, o autor afirma que ao longo do texto, ele
tentou mostrar que o lxico desenvolvido uma modelagem apropriada para a
construo de sistemas de PLN, no apenas preocupado com a engenharia do
produto mas, sobretudo, formalizado de acordo com os estudos realizados no
mbito de teorias (neuro) lingusticas envolvendo a linguagem humana. No entanto,
ele reconhece que existem pendncias e imprecises, mas que o objetivo foi
apresentar uma reflexo a respeito da importncia de se elaborar sistemas
(computacionais) que venham de algum modo contribuir para o avano das
pesquisas em linguagem. O autor conclui afirmando que o projeto encontra-se
"atualmente" (na poca da publicao desse artigo) em fase de especificao e
implementao do lxico.
Em Pardo e Rino (2002), vrios experimentos foram feitos para avaliar o
DMSumm, enfocando, principalmente, as premissas bsicas do sistema, isto , a
satisfao do objetivo comunicativo e a preservao da proposio central. Utilizou-
se o Theses Corpus (PARDO, 2002
158
), contendo 10 introdues de teses e
dissertaes da rea de computao, tendo, em mdia, 530 palavras cada
introduo. Esse corpus foi escolhido pelo fato dos textos apresentarem a estrutura
Problema-Soluo e serem acompanhados por sumrios autnticos, ou seja,
aqueles produzidos pelos prprios autores dos textos. Foram considerados dois
pontos de deciso principais (WHITE et al., 2000
159
) para a avaliao dos sumrios
automticos: textualidade e preservao da ideia principal. Os sumrios automticos
e autnticos foram julgados por 10 juzes linguistas computacionais e falantes
nativos do portugus do Brasil. Dentre os resultados do julgamento humano tem-se
que 67% dos sumrios automticos mantiveram a textualidade, enquanto que 90%
dos sumrios autnticos mantiveram a textualidade; alm disso, 61% dos sumrios
automticos preservaram somente parcialmente a ideia principal e 31% a
preservaram totalmente, enquanto todos os sumrios autnticos preservaram

158
Pardo, T.A.S. (2002). DMSumm: Um Gerador Automtico de Sumrios. Dissertao de Mestrado. Departamento de
Computao. Universidade Federal de So Carlos. So Carlos SP.
159
White, J. S.; Doyon, J. B.; Talbott, S. W. (2000). Task Tolerance of MT Output in Integrated Text Processes. In ANLP/NAACL
2000: Embedded Machine Translation Systems, pp. 9-16. Seattle, WA.
191
totalmente a ideia principal. A medida Kappa foi calculada em 0.78, indicando a
concordncia entre os juzes humanos. Os autores avaliaram tambm a
informatividade semntica dos sumrios automticos em relao aos autnticos,
conforme sugerido por Mani (2001
160
), isto , o quanto de informao foi reproduzida
no sumrio automtico em relao a todo o contedo do texto-fonte. Segundo os
autores, as medidas de preciso (precision), cobertura (recall
161
) e f-measure foram
calculadas, sendo que no contexto da sumarizao automtica elas so definidas da
seguinte forma: a preciso indica o quanto de informao do sumrio autntico, os
sumrios automticos apresentaram em relao a tudo o que apresentaram, ou seja,
indica o quo prximos os sumrios automticos esto dos autnticos; a cobertura
indica o quanto de informao do sumrio autntico, os sumrios automticos
apresentaram, ou seja, indica o grau de informatividade dos sumrios automticos
em relao aos autnticos; a f-measure uma distribuio da combinao da
preciso e da cobertura, sendo, portanto, uma medida nica de eficincia de um
sistema. No caso da sumarizao automtica, ela indica o desempenho de um
sistema em produzir sumrios prximos dos ideais. Segundo os autores, o
DMSumm produziu sumrios com 44% de preciso e 54% de cobertura, com uma f-
measure de 0,48.
Em Schulz et al. (2002), os autores destacam que a verso atual do
MORPHOSAURUS tem aproximadamente 15 mil subwords, abrangendo a
terminologia clnica em ingls, alemo e portugus, mas que a construo dos
repositrios de nomes prprios e acrnimos ainda no havia sido abordada.
Bonfante e Nunes (2002) afirmam que no possuem ainda resultados
concretos, pois os experimentos esto em andamento. No entanto, elas destacam
que o fato de identificar previamente os sintagmas nominais de cada sentena
facilita o processamento do parser, uma vez que evita gastar recursos
computacionais avaliando as possveis unies improvveis.
Zavaglia (2003) no apresentou experimentos, apenas dois exemplos da
representao do item homnimo 'banco'. Como consideraes finais, a autora
destaca que a estrutura Qualia do Lxico Gerativo serviu como estrutura
representacional para expressar o significado lexical, e que a verso computacional
do modelo desenvolvido (base de conhecimento lexical - BCL) encontra-se

160
Mani, I. (2001). Automatic Summarization. John Benjamins Publishing Co., Amsterdam.
161
Traduo adotada pelos prprios autores.
192
disponibilizada no NILC.
Martins, Monard e Matsubara (2003) utilizaram trs algoritmos de
aprendizado: dois algoritmos simblicos de regras de associao; e um baseado em
tcnicas estatsticas de aprendizado Support Vector Machines (SVM) para ilustrar
o uso de reduo de dimensionalidade do conjunto de treinamento, implementada no
PreText. Os resultados obtidos demonstraram que, para a coleo usada, o
algoritmo SVM apresentou desempenho melhor que os dois outros algoritmos
usados e erro muito prximo de zero quando utilizou-se um nmero reduzido de
atributos.
Em Pardo, Rino e Nunes (2003), os autores destacam que a avaliao
do NeuralSumm foi realizada objetivando medir o desempenho da rede neural do
tipo SOM em classificar sentenas corretamente como essenciais, complementares
e suprfluas e, num segundo momento, verificar a proximidade dos extratos gerados
automaticamente com seus sumrios autnticos, isto , aqueles produzidos pelos
prprios autores dos textos-fonte. Para treinamento e teste, foram utilizadas as
sentenas do CorpusDT: 10 teses e dissertaes cujas as sentenas foram
classificadas manualmente por juzes humanos. Para efeito de comparao, utilizou-
se tambm os classificadores Naive-Bayes e C4.5. A rede neural do NeuralSumm
obteve a menor taxa de erro (41%) em relao aos outros classificadores (51% a
57%). Segundo os autores, utilizou-se a validao cruzada (10-fold cross-validation),
pelo fato do corpus ser pequeno. No entanto, os autores ressaltam que a
classificao humana de sentenas para compor um extrato muito subjetiva, pois
depende de vrios aspectos relacionados, por exemplo, com o conhecimento prvio
do leitor, com o tempo disponvel para a leitura e com a inteno comunicativa
percebida pelo leitor. Assim, para permitir uma maior flexibilidade na classificao,
assumiu-se que as sentenas complementares tambm podem ser classificadas
como essenciais e as suprfluas tambm podem ser classificadas como
complementares. Para este novo experimento, as redes neurais alcanaram 27% de
erro. Para verificar a proximidade dos extratos gerados automaticamente com seus
sumrios autnticos, os autores ressaltam que comparar os sumrios autnticos, ou
seja, os elaborados pelos prprios autores seria uma tarefa difcil, visto que os
autores tendem a no preservar as sentenas dos textos-fonte. Assim, para resolver
este problema, os autores destacam que tem-se adotado os sumrios ideais (gold-
standards), que consistem na verso extrativa dos sumrios autnticos. Para se
193
produzir o sumrio ideal
162
, costuma-se utilizar a medida do co-seno (SALTON,
1989
163
): para cada sentena do sumrio autntico, procura-se a sentena
correspondente no texto-fonte mais semelhante. Para essa avaliao, foram
coletados outros 10 textos cientficos (introdues de teses e dissertaes) da
computao (no contendo nenhum dos textos utilizados anteriormente) com seus
respectivos sumrios autnticos, para os quais foram gerados automaticamente os
sumrios ideais. A cobertura (recall) indica o nmero de sentenas do extrato que
coincidem com as do sumrio ideal; e a preciso indica a razo entre o nmero de
sentenas coincidentes com as do sumrio ideal e o total de sentenas do extrato.
Os resultados obtidos para cobertura e preciso foram, respectivamente, de 32% e
41%, mas segundo os autores, apesar de aparentemente serem insatisfatrios, no
indicam que os extratos produzidos pelo NeuralSumm sejam ruins. Os autores
afirmam que os valores obtidos esto relativamente prximos dos valores que outros
trabalhos obtiveram quando fizeram avaliao similar.
Em Gasperin e Strube de Lima (2003), a estratgia de teste realizada
consistiu em para cada palavra inserida pelo usurio na consulta, percorrer a lista
gerada automaticamente, procurando por novas palavras semanticamente
relacionadas que poderiam ser includas na consulta; submeter ambas as consultas,
original e expandida, a uma base de documentos; e verificar as medidas de preciso
e revocao obtidas. Foram realizadas 7 consultas (nas verses original e
expandida), e observou-se que com a consulta expandida, a revocao aumenta,
enquanto que a preciso diminui, se comparado com a consulta original. As autoras
finalizam afirmando que o conhecimento semntico de uma lista gerada
automaticamente pode melhorar a recuperao por meio da expanso de consulta
(p. 7).
Em Alves e Chishman (2004), como resultado da reorganizao da
nomenclatura usada no tratamento e abordagem da ambiguidade, as autoras
propem que na ambiguidade semntica lexical compreende os casos de
ambiguidade que tm origem no lxico e podem ser polissemia, homonmia,
vagueza ou vaguidade, e, uso conotativo da linguagem. Dentre os tipos de
ambiguidades no lexicais esto a ambiguidade sinttica ou estrutural e a

162
Segundo os autores, o programa utilizado para gerar os sumrios ideais encontra-se disponvel para download em
http://www.nilc.icmc.usp.br/~thiago/NeuralSumm.html
163
Salton, G. (1989) Automatic Text Processing. The Transformation, Analysis and Retrieval of Information by Computer.
Addison-Wesley.
194
pragmtica ou aberta. Como resultado da anlise do desempenho dos tradutores
avaliados diante de casos de ambiguidades, as autoras afirmam que de uma
maneira geral, os tradutores geralmente no percebem a traduo mais adequada
para o contexto, e no indicam que pode haver outra possibilidade de traduo.
Como exemplo, apresentaram os resultados obtidos para a palavra 'canto'. As
autoras concluem que apesar da traduo automtica ter sido a primeira aplicao
no numrica da computao (datada de 1949), o desempenho desses sistemas
ainda est muito longe do que seria ideal.
Oliveira, Garrao e Amaral (2003) apresentaram como resultado uma
tabela listando as locues preposicionais encontradas no corpus. As ocorrncias
foram organizadas de acordo com o critrio: satisfaz totalmente, parcialmente e
outras expresses frequentes co-ocorrentes. Segundo os autores, este trabalho
realizou inicialmente uma pesquisa em corpus e que o critrio, detalhado pelas
ocorrncias no corpus, deve ser implementado computacionalmente quando ser
formalizado. Os autores destacam que a grande dificuldade encontrar os casos
onde os fatores semnticos so determinando para identificar as locues
preposicionais.
Specia e Nunes (2004) apresentaram como justificativa para a escolha
dos verbos problemticos, a serem abordados no presente trabalho, os resultados
de experimentos realizados em um projeto anterior (SPECIA; NUNES, 2004
164
). No
foram realizados experimentos, pois as autoras apresentaram a proposta de
construo de um modelo que est em fase de especificao, que dever ser
implementado usando algum ambiente de programao lgica indutiva. As autoras
apresentam como diferencial com relao aos trabalhos existentes, alm da
aplicao para o portugus, a utilizao de um formalismo de representao do
conhecimento e dos exemplos de desambiguao baseado na Lgica de Primeira
Ordem, mais expressivo que o proposicional e segundo as autoras, ainda no
explorado em quaisquer aplicaes de desambiguao lexical de sentido, mesmo
nas monolngues.
Em Rino et al. (2004), os autores realizaram uma avaliao do tipo caixa-
preta, ou seja, considerando somente as sadas dos sistemas. Alm disso, a
avaliao dos cinco sistemas analisados foi realizada comparando-se os sumrios

164
Specia, L. and Nunes, M.G.V. (2004) A ambiguidade lexical de sentido na traduo do ingls para o portugus um recorte
de verbos problemticos, Srie de Relatrios do NILC, NILC-TR-04-01, So Carlos, Maro, 30p.
195
produzidos com os ideais (formados pelas sentenas do texto-fonte mais similares
as sentenas do sumrio feito pelo autor). Analisando-se as medidas preciso,
revocao e f-measure, os sistemas SuPor e ClassSumm apresentaram os melhores
resultados 42,8% e 42,4% de f-mesasure, respectivamente. O sistema NeuralSumm
apresentou o pior resultado (31% de f-measure). Os autores destacam que a
proximidade nos resultados do SuPor e do ClassSumm pode ser explicado pela
relao existente entre algumas caractersticas usadas: no primeiro frequncia de
palavras e frases sinalizadas, e no segundo, o TF-ISF mdio, o indicador de
conceitos principais e a similaridade do ttulo. Isto justificado pois o TF_ISF mdio
baseado na frequncia das palavras, enquanto que os conceitos principais e o
ttulo podem apresentar sinalizadores das frases.
Aluisio et al. (2004) apresentam o Lcio-Web como sendo um repositrio
de recursos para o desenvolvimento de pesquisas da lngua portuguesa do Brasil e
de outras ferramentas lingusticas e computacionais. Como resultados, os autores
apresentaram vrias funcionalidades e requisitos do Lcio-Web, envolvendo tipos de
buscas e recursos armazenados. Segundo os autores, a primeira verso do Lcio-
Web, lanada em janeiro de 2004, disponibilizou o Lcio-Ref (com mais de 4 milhes
de palavras distribudas em textos de vrios gneros, tipos e domnios) e o Mac-
Morpho (com mais de um milho de palavras de textos jornalsticos da Folha de So
Paulo). OS textos do Mac-Morpho foram automaticamente anotados pelo parser
Palavras de Bick, e revisado manualmente.
Matsubara, Monard e Batista (2004) destacam que, ao analisar o
nmero de exemplos rotulados errado e o erro dos classificadores induzidos,
possvel concluir que o co-training atingiu excelentes resultados com o conjunto
news (0,5%) e resultados muito bons com o conjunto lnai (8,7%). Alm disso, os
autores destacam que foi utilizada uma quantidade muito pequena de exemplos com
seus rtulos originais, somente 5%, o que comprova que o algoritmo co-training,
juntamente com a abordagem proposta, pode ser muito efetivo nos casos em que se
possui apenas um pequeno conjunto de exemplos rotulados, e o custo para rotular
mais exemplos alto. Os autores propem como trabalhos futuros, verificar o uso de
diferentes indutores, como Support Vector Machines, na construo dos
classificadores.
Em Pardo, Marcu e Nunes (2005), para avaliar se as estruturas
argumentais aprendidas so plausveis ou no, dois experimentos foram realizados.
196
No primeiro experimento, foram avaliadas as 20 estruturas argumentais mais
provveis aprendidas pelo modelo proposto, para trs verbos escolhidos
aleatoriamente. Estas estruturas foram apresentadas a trs humanos linguistas
computacionais para, independentemente, julg-las em termos de sua
corretude/plausibilidade. Cerca de 90% das estruturas foram julgadas corretas pelos
juzes (estatstica Kappa de 0.77, indicando concordncia entre eles). No segundo
experimento, para um conjunto de 20 verbos escolhidos aleatoriamente (incluindo os
trs anteriores), as estruturas argumentais foram comparadas com as estruturas
previstas pelo PropBank (repositrio construdo manualmente para a especificao
semntica dos verbos). As medidas preciso e cobertura foram redefinidas neste
contexto, e utilizadas para avaliar o modelo. Como aspectos positivos do modelo, os
autores afirmam que o modelo capaz de aprender estruturas argumentais com
grande preciso, sem esforo de anotao, usando ferramentas relativamente
simples. No entanto, ele no capaz de lidar apropriadamente com sintagmas
verbais, advrbios e complementos verbais sentenciais complexos, e que estas
limitaes sero objeto de pesquisas futuras. Os autores finalizam apresentando o
repositrio de estruturas argumentais aprendidas para os 1.500 verbos mais
frequentes do ingls (ArgBank
165
), e que como prximo passo deste trabalho, um
repositrio semelhante deve ser produzido para o portugus brasileiro, utilizando-se
o Corpus NILC (PINHEIRO; ALUSIO, 2003
166
).
Caseli, Nunes e Forcada (2005) construram manualmente um
alinhamento de referncia a partir de 20 pares de textos paralelos selecionados
aleatoriamente do corpus portugus-espanhol da Fapesp (CorpusFAPESP). Os
termos dde corpus de referncia foram alinhados por dois anotadores bilngues
seguindo os princpios definidos em Caseli et al. (2005
167
). A maioria dos
alinhamentos era do tipo 1:1 (83%), alm dos casos de omisso (quase 7%) e
sentenas (quase 10%). Esse alinhamento de referncia foi usado para avaliar
automaticamente o produzido pelo LIHLA, usando as medidas preciso, revocao e
taxa de erro de alinhamento (AER). Experimentos similares foram feitos a partir de
corpus paralelo portugus-ingls considerando 10 pares de textos selecionados
aleatoriamente. Assim, o LIHLA obteve preciso entre 84-92% e revocao entre 76-

165
Disponvel em http://www.nilc.icmc.usp.br/~thiago/ArgBank/index.html
166
Pinheiro, G.M. e Alusio, S.M. (2003). Corpus NILC: Descrio e Anlise Crtica com Vistas ao Projeto Lacio-Web. Srie de
Relatrios Tcnicos do Instituto de Ciencias Matemticas e de Computao ICMC, Universidade de So Paulo, N. 190.
167
Caseli, H. M., Scalco, M. A. G., and Nunes, M. G. V. (2005). Manual para anotao de alinhamentos lexicais. Srie de
Relatrios do ICMC 256 (NILC-TR-05-09), NILC, www.nilc.icmc.usp.br/nilc/download/NILC-TR-05-09.pdf.
197
88%, alcanando taxas de erro entre 9-19%. Os melhores resultados foram obtidos
no primeiro experimento, quando utilizou-se corpus paralelo portugus-ingls. Os
autores concluem afirmando que a grande contribuio do LIHLA o fato de ser
baseado em heurstica independente de linguagem e por isto pode ser aplicado a
outro par de linguagens sem qualquer modificao.
Em Specia, Nunes e Stevenson (2005), utilizou-se como medidas
objetivas para avaliar a tarefa de desambiguao lexical de sentido: erro (verso
negativa da preciso), cobertura (coverage), suporte (mesmo que revocao) e
novelty (relao entre a premissa e a concluso da regra), dentre as opes
fornecidas pelo sistema Rulee. A avaliao foi dividida em dois passos: primeiro,
essas medidas objetivas so aplicadas com o intuito de reduzir o nmero de regras,
e ento, as resultantes eram manualmente analisadas, com o intuito de selecionar
aquelas que forem consideradas interessantes para o processo de desambiguao
lexical de sentido. Ao analisar as regras individualmente, observou-se que os
melhores resultados foram obtidos utilizando como fonte de conhecimento, os lemas
da primeira e da segunda palavra, a esquerda e a direita do verbo, o primeiro nome,
o primeiro adjetivo, o primeiro verbo a esquerda e o a direita do verbo, e a primeira
preposio a direita do verbo, apresentou os melhores resultados. Os autores
concluem que as regras obtidas foram analisadas por critrios objetivos e subjetivos,
e que as regras de maior qualidade podem ser usadas como fonte de conhecimento
em um sistema relacional de desambiguao lexical de sentido, o que segundo os
autores, indito.
Silva, Vieira e Osorio (2005) realizaram inmeros experimentos,
alternando-se os parmetros dos algoritmos de aprendizado de mquina utilizados, o
nmero de termos usados, o mtodo de pr-processamento avaliado, dentre outro.
Segundo os autores, na tarefa de classificao, ao utilizar informaes lingusticas
(categorias gramaticais) para selecionar os termos indexadores dos documentos, os
melhores resultados foram obtidos ao utilizar os nomes, sendo que a melhor taxa de
acerto foi obtida quando utilizou-se nomes juntamente com os adjetivos (erro de
18%). No entanto, os autores destacam que o segundo melhor resultado (erro de
19,7%) foi observado quando utilizou-se o mtodo tradicional (stopwords e
stemming). Na tarefa de clusterizao, a preciso aumentou, aproximadamente, de
50% (abordagem tradicional) para 63% (usando informao lingustica).
Piltcher et al. (2005) realizaram trs experimentos alternando-se o
198
dicionrio de referncia utilizado: histrico das sesses, artigos da biblioteca ou a
ontologia. Para todos os experimentos, utilizou-se como entrada uma lista de 7.652
palavras, que foi analisada manualmente, e constatou-se que 2.976 delas
precisavam de correo. Utilizando-se o histrico de sesses, observou-se que a
preciso (razo entre termos corretos e corrigidos) ficou em 30% para o limiar de
similaridade superior a 72%, e, aumentou para cerca de 80%, ao considerar o limiar
em 84%. No entanto, em ambos os casos, a abrangncia (razo entre termos
corretos e correes esperadas) ficou muito baixa (3%), o que demostra, segundo
os autores, que esta base no confivel. Utilizando-se os documentos da biblioteca
digital, observou-se que a preciso ficou em 30% (limiar de 72%) e 50% (limiar de
84%), mas que em ambos os casos, os resultados eram melhores quando mais
documentos eram usados. Ao avaliar a ontologia, observou-se resultados melhores
quando a ontologia havia passado por interveno humana. Segundo os autores, a
abrangncia esta diretamente ligada qualidade dos termos adotados para o
dicionrio, enquanto que a quantidade contribui para a melhoria da preciso.
Analisando, em separado, as trs mtricas utilizadas, observou-se a tcnica de
Levenshtein apresentou preciso bem aqum das demais tcnicas, apesar de ter
apresentado a melhor abrangncia. As demais tcnicas, mesmo tendo uma boa
preciso, obtiveram uma abrangncia pouco significativa (entre 3% e 7%).
Rino e Seno (2006) afirmam que, em um trabalho anterior, o
RHeSumaRST foi avaliado sob duas perspectivas sugeridas nas Document
Undestanding Conference (DUC): informatividade, que visa verificar se as
heursticas permitiam preservar as informaes mais relevantes do texto-fonte; e
coerncia, que visa verificar se as heursticas garantiam a inexistncia de quebra de
cadeias de co-referncias. Para calcular a informatividade, foi usada a ferramenta
ROUGE (LIN, 2004
168
; 2004
169
), que compara a informatividade de sumrios
gerados por sumarizadores diversos. Foram utilizados dois outros sumarizadores
automticos: o de Marcu (1997
170
) e um baseline, cujos sumrios so construdos
pela poda de todo satlite das estruturas RST. Utilizando-se os 10 textos extrados
do TeMario, o RHeSumaRST foi mais informativo que o baseline, porm menos que

168
LIN, C. ROUGE: a Package for Automatic Evaluation of Summaries. In Proceedings of the Workshop on Text Summarization
Branches Out (WAS 2004), Barcelona, Spain, 2004.
169
LIN, C. Looking for a Few Good Metrics: Automatic Summarization Evaluation - How Many Samples Are Enough?. In
Proceedings of the NTCIR Workshop 4, Tokyo, Japan, 2004.
170
MARCU, D. 1997. The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts. PhD Thesis,
Department of Computer Science, University of Toronto.
199
o modelo de Marcu. A avaliao da coerncia das estruturas RST, por sua vez, foi
mais complicada, devido necessidade de comparao manual: cada sumrio
produzido pelos mesmos trs sistemas foi comparado com seu correspondente
texto-fonte, anotado manualmente com as cadeias de co-referncia. Desse modo, foi
possvel identificar as quebras de cadeias de co-referncia nos sumrios, para os
casos em que a anfora era comprovada no texto-fonte (isto , quando no era uma
referncia nova). Segundo as autoras, o RheSumaRST apresentou o menor ndice
de quebra, quando comparado aos outros sistemas, mas que a diferena no
justifica o esforo necessrio de modelagem e processamento estrutural. As autoras
concluem que poca, o estado da Sumarizao Automtica no Brasil, era
caracterizado pela inexistncia de recursos dicionarizados sofisticados (sobretudo
ontolgicos) para a adoo expressiva de mtodos empricos, e que por este motivo,
a resoluo profunda do RheSumaRST promissora pela simplicidade de
elaborao dos algoritmos de deteco das unidades elementares de discurso
(oraes demarcadas por sinais de pontuao) e de reconhecimento das veias (um
conjunto de unidades do discurso que podem conter o antecedente de uma anfora)
de estruturas RST. Ainda segundo as autoras, o trabalho braal do sistema
(anotao manual das cadeiras de co-referncia) e das estruturas retricas pode ser
superado com a associao ao DiZer (PARDO, 2005
171
), um analisador discursivo
baseado no mesmo modelo de Marcu, mas voltado ao processamento de textos em
portugus.
Caseli e Nunes (2006) alegaram que experimentos j esto sendo feitos,
mas no apresentaram resultados de simulaes ou exemplos de regras produzidas.
Como concluso, as autoras afirmam que este artigo traz uma breve descrio do
procedimento desenvolvido no projeto ReTraTos para induo de regras de
transferncia e dicionrio bilngue (p. 9). Ainda segundo as autoras, a prxima etapa
consistem em induzir regras para tipos de alinhamento e categorias (POS)
separadamente, e estender o mtodo para traduo entre portugus e ingls.
Balage Filho et al. (2006) afirmam que a principal mtrica de avaliao
usada no CLEF a acurcia (accuracy), definida a partir do julgamento humano, que
aponta se a resposta est correta, errada, imprecisa, incompleta ou ausente.
Segundo os autores, algumas variaes da acurcia tambm so usadas, tais como

171
PARDO, T.A.S. 2005. Mtodos para Anlise Discursiva Automtica. Tese de Doutorado. Instituto de Cincias Matemticas e
de Computao, Universidade de So Paulo. So Carlos-SP, Junho, 211p.
200
Confidence Weighted Score (CWS), Mean Reciprocal Rank Score (MRRS) e a K1.
Os autores afirmam que os resultados obtidos para ambos os experimentos so
muito pobres (p. 374), pois a grande maioria das respostas foi sinalizada como
incorretas. Diante disso, os autores apresentam inmeras questes que deveriam
ser investigadas no futuro, e concluem que aps os experimentos realizados no
CLEF, acredita-se que tcnicas de sumarizao simples no so suficientes para a
tarefa de responder perguntas, apesar de serem eficientes para o que eles se
propem (p. 375).
Enembreck et al. (2006) compararam os membros sugeridos pelo
sistema com os membros reais das dissertaes de mestrado selecionadas.
Segundo os autores, normalmente existem trs avaliadores internos, o orientador e
um membro externo. Assim, a avaliao foi feita usando duas medidas: comparando
somente o primeiro candidato sugerido pelo sistema com o orientador; e
comparando a equipe proposta pelo sistema com os trs grupos de pesquisa. O
sistema foi capaz de identificar cerca de 20% dos orientadores das dissertaes,
75% dos grupos de pesquisas envolvidos no desenvolvimento da pesquisa.
Analisando os casos para os quais o sistema no conseguiu identificar o grupo de
pesquisa dos envolvidos, foi possvel constatar que estes projetos caracterizavam
temas novos, e consequentemente os membros ainda no apresentavam produo
significativa. Descartando-se assim, estes casos, o sistema conseguiu identificar
22% dos orientadores e 88% dos grupos de pesquisa.
Leite e Rino (2006) utilizaram como medida de avaliao: a preciso,
dada pelo nmero de sentenas relevantes divididas pelo tamanho do sumrio
(extrato); a revocao (recall), dada pelo nmero de sentenas relevantes dividido
por tamanho do sumrio ideal, e a medida F, obtida pela relao das duas
anteriores. Segundo os autores, o classificador Naive-Bayes apresentou os
melhores resultados, com medida F em torno de 45%. Ao comparar o sumarizador
construdo (Supor-v2) com outros sumarizadores, o mesmo apresentou resultados
superiores aos demais. Os autores destacam que apesar da diferena ser de apenas
3% na medida F, o desempenho do sistema desenvolvido ainda sim significante,
considerando que conseguir tais melhorias muito difcil. Alm disso, os autores
concluem que os trs sumarizadores que apresentaram os melhores resultados
(Supor-v2, Supor e o ClassSumm) utilizam como classificar o modelo Naive-Bayes, o
que confirma a sua aplicabilidade.
201
Moraes e Strube de Lima (2007) destacam que, de uma maneira geral,
os resultados obtidos foram muito ruim (preciso, revocao
172
e F1). Segundo elas,
como os documentos utilizados no foram previamente rotulados, no h como
distinguir certos documentos sem um processo manual que, dada a quantidade de
textos, no foi realizado. As autoras concluem que uma consequncia imediata
deste fato a baixa preciso de classificao na maioria das categorias
escolhidas(p. 1665). Diante disso, as autoras finalizam afirmando que os resultados
apresentados ainda so preliminares. () necessrio tambm realizar uma
avaliao manual dos resultados do categorizador, a fim de estudar sua eficcia
principalmente em nvel de subclasse: analisar, por exemplo, se os documentos
classificados em Agricultura de fato pertencem a essa subcategoria(p. 1666).
Kinoshita et al. (2007) destacam que o CoGrOO e o ReGra detectaram 7
erros em comum. CoGrOO detectou 8 erros que o Regra no detectou, por outro
lado, o Regra detectou 7 que o CoGrOO no. Os autores concluem que a arquitetura
do CoGrOO hbrida e mescla o uso de regras simblicas e estatsticas com
aprendizado de mquina baseado em treinamento com corpus anotado (usando
algoritmo de entropia mxima). Alm disso, os autores destacam que a abordagem
usada para identificar o sujeito e verbo das sentenas inovadora, pois no foi
encontrada na literatura, nenhuma metodologia similar.
Specia, Stevenson e Nunes (2007) destacam que na tarefa multilngue a
abordagem apresentou resultados superiores aos observados pelos outros
algoritmos de aprendizado de mquina. Na tarefa monolngue, os resultados foram
comparveis ao dos outros sistemas avaliados. Os autores concluem afirmando que
os resultados confirmam a hiptese de que a programao lgica indutiva, para
gerar regras expressivas, usada em conjunto com uma variedade de fonte de
conhecimento, traz benefcios para sistemas de desambiguao lexical de sentido.
Silva e Vieira (2007) afirmam que os melhores resultados foram obtidos
ao utilizar a combinao de substantivos com adjetivos, e substantivos, adjetivos e
nomes prprios. Os experimentos mostraram que o algoritmo de rvore de deciso
possui um desempenho melhor do que SVM para um nmero de termos reduzido, e
estabiliza-se a partir de um certo ponto, enquanto que o SVM atinge melhores
resultados consistentemente com o aumento do nmero de termos utilizados no
aprendizado.

172
As autoras mantiveram o termo recall sem traduz-lo.
202
Milidiu, Duarte e Cavalcante (2007) afirmam que os trs algoritmos
analisados (cadeia de Markov, aprendizado baseado em transformaes e Support
Vector Machine) foram avaliados usam validao cruzada (10 cross-validation). Os
autores definiram sete experimentos combinando estes mtodos com a utilizao de
um sistema de referncia (baseline system), composto com nomes de localidades,
personalidades e organizaes extradas da Web. Segundo os autores, as
localidades foram mais facilmente reconhecidas com preciso mdia em torno de
93%, enquanto que as organizaes so as mais difceis de serem reconhecidas,
com preciso mdia de 75%. Alm disso, os autores destacam que os algoritmos
SVM e o baseado em transformaes mostraram-se excelentes alternativas para
reconhecimento de nomes prprios quando for possvel contar com um sistema de
referncia, como o usado neste trabalho. No entanto, destacam ainda que os
resultados obtidos sem a utilizao do sistema de referncia representam uma
soluo pobre. Os autores afirmam que os resultados obtidos (88% de medida F),
utilizando-se SVM e o sistema de referncia, foram melhores que os obtidos pelo
conhecido PALAVRAS-NER
173
(que obteve 80.6%).
Caseli et al. (2008) citam os resultados obtidos em experimentos obtidos
em trabalhos anteriores (CASELI ET AL., 2005
174
; CASELI ET AL., 2005
175
), e
reafirmam que o mtodo LIHLA alcanou preciso entre 84 e 92%, e revocao
entre 76 e 91%, para Portugus-Ingls e Portugus-Espanhol, respectivamente.
Como resultado do presente trabalho, os autores apresentam a interface grfica da
ferramenta VisualLIHLA
176
, e descrevem o funcionamento da mesma.
Aziz, Pardo e Paraboni (2008) compararam os escores BLUE
177
do
mtodo estatstico proposto neste trabalho, com os obtidos pelo sistema baseado
em regras Apertium
178
, e observou-se que os resultados foram muito prximos. O
escore BLUE representa o nmero de n-gramas compartilhadas entre a traduo
automtica e a referncia usada e varia de 0 a 1. O sistema baseado em regras
Apertium apresentou resultados sutilmente melhores que o mtodo estatstico (0,6 e

173
Bick, E. (2006). Functional aspects in portuguese ner. In Proc. of the 7th Intl. Workshop, PROPOR, Lecture Notes in Artificial
Inteligence. Springer-Verlag, Heidelberg.
174
H. M. Caseli, M. G. V. Nunes, and M. L. Forcada. Evaluating the LIHLA lexical aligner on Spanish, Brazilian Portuguese and
Basque parallel texts. Procesamiento del Lenguaje Natural, (35):237244, 2005.
175
H. M. Caseli, M. G. V. Nunes, and M. L. Forcada. LIHLA: A lexical aligner based on language-independent heuristics. In
Proceedings of ENIA 2005, pages 641650, Sao Leopoldo, RS, Brazil, 2005.
176
Disponvel em http://www.nilc.icmc.usp.br/nilc/tools/visuallihla/lihla.htm.
177
Papineni, K.; Roukos, S.; Ward, T. and Zhu, W. BLEU: a Method for Automatic Evaluation of Machine Translation.
Proceedings of he 40th Annual Meeting of the Association for Computational Linguistics (2002) 311-318.
178
Corb-Bellot, A.M.; Forcada, M.L.; Ortiz-Rojas, S.; Prez-Ortiz, J.A.; Ramrez-Snchez, G.; Snchez-Martnez, F.; Alegria, I.;
Mayor, A.; Sarasola, K. An open-source shallow transfer machine translation engine for the romance languages of Spain. 10th
Annual Conference of the European Association for Machine Translation (2005) 79-86.
203
0,58, respectivamente). Diante disso, os autores optaram por fazer uma avaliao
qualitativa (manual) dos mtodos. Mais especificamente, foram calculados os erros
lexicais e sintticos e uma medida mista word error rates (WER) que considera o
nmero de inseres, delees e trocas necessrias para transformar uma
candidata a traduo a uma referncia. Para essa segunda avaliao, uma amostra
de 20 tradues (com 482 palavras) foi analisada no nvel sinttico e lexical. Os
resultados apresentaram valores maiores de WER para a abordagem estatstica, o
que sugere que, se comparada ao Apertium, exige um esforo maior para
transformar a sada do sistema na traduo correta (0,32 para o mtodo estatstico e
0,26 para o baseado em regras).
Morais e Ambrosio (2008) utilizaram para avaliar o sistema as mtricas
preciso (precision), revocao (recall) e fall-out. Vrios experimentos foram
realizados com o intuito de identificar alguns parmetros usados na configurao do
modelo: limiar para um termo ser considerado relevante (Term Weight Index), limiar
para que dois documentos sejam considerados similares (Similarity Index), mtodo
de clculo da similaridade (Jaccard ou Overlap), dicionrio usado nas tcnicas de
minerao de texto, dentre outros. Os melhores resultados foram obtidos utilizando-
se Term Weight Index superior ou igual a 25%, Similarity Index maior ou igual a 41%,
calculando-se a similaridade pelo coeficiente Overlap e utilizando no dicionrio de
referncia as stopword, os nomes prprios e as negaes. No segundo experimento,
repetiu-se as simulaes anteriores usando outro conjunto de documentos, o que
mostrou que os resultados independe dos exemplos usados. Os autores concluem
que foi possvel observar que o uso de ontologias para categorizao de
documentos eficiente, se a ontologia tiver o mnimo de qualidade, ou seja, tenha
representatividade dos conceitos, propriedades, relaes, funes, restries e
instncias (p. 6). Alm disso, os autores concluem que o uso de tcnicas
estatsticas so adequadas mas fortemente dependentes do dicionrio usado. E
complementam que a criao de um dicionrio de nomes prprios, para o contexto
da jurisprudncia, pode ser um processo interminvel, diante da dinamicidade da
rea.
Caminada, Quental e Garrao (2008) apresentam o diagrama de classes
da ferramenta implementada Linguistics Tools e mostram os resultados obtidos em
dois experimentos realizados: no primeiro clculo, utilizou-se janela de tamanho 2
para identificar assim os bigramas, e posteriormente, janela de tamanho 3 para
204
identificar os trigramas. Segundo os autores, com isso possvel identificar quando
um bigrama no um multivocbulo e sim parte de uma expresso maior. Como
resultados, os autores apresentam a classificao Teste-T para cada corpus.
Seno e Nunes (2008) destacam que medidas de qualidade, interna e
externa, podem ser usadas para garantir a eficincia da clusterizao. Medidas
externas comparam os agrupamentos (clusters) gerados com os classificados
manualmente, enquanto que as medidas internas no usam qualquer tipo de
conhecimento externo, apenas a coeso (cohesiveness) dos agrupamentos gerados,
ou seja, medir quanto similar so os elementos de cada um. Apesar disso, os
autores argumentam que para medir a qualidade de uma soluo e a eficincia do
mtodo de clusterizao, as medidas externas so mais apropriadas. Assim, utilizou-
se como medidas de avaliao a preciso (precision), a revocao (recall), a medida
F (F-measure), a entropia (entropy) e a pureza (purity). Dentre os parmetros
ajustados no modelo, os autores destacam o tamanho do cluster e o limiar de
similaridade. Como resultados, os autores apresentam inmeras relaes existentes
entre as medidas de avaliao usadas, os parmetros do modelo e as medidas de
similaridade implementadas. Observa-se que os resultados so muito prximos:
todos os mtodos de similaridade apresentaram bons resultados (cerca de 86% de
medida F) para determinadas configuraes. Os autores concluem que, inicialmente,
o SiSPI foi proposto para o portugus, mas como independente de domnio, pode
ser facilmente customizado para outras linguagens.
Aziz, Pardo e Paraboni (2009) analisaram quatro parmetros de
configurao dos mtodos estatsticos de traduo automtica: a heurstica de
alinhamento, o tamanho mximo da frase, o uso de pesos de importncia lexical e
tuning. Vrios experimentos foram realizados e, de uma maneira geral, a diferena
entre os resultados obtidos foi muito sutil, normalmente na terceira casa decimal (em
torno de 0,3). Para avaliao, foram utilizadas as medidas BLEU
179
e NIST
180
, que
representam o nmero de n-gramas compartilhados entre a traduo da mquina e a
humana (usada como referncia).
Em Seno e Nunes (2009), a seleo de contedo foi avaliada
comparando cada sentena gerada automaticamente com duas sentenas de

179
Papineni, K.; S. Roukos; T. Ward and W. Zhu (2002) BLEU: a Method for Automatic Evaluation of Machine Translation.
ACL-2002, pages 311-318.
180
NIST (2002) Automatic Evaluation of Machine Translation Quality using n-gram Cooccurrence Statistics.
http://www.nist.gov/speech/tests/mt/doc/ngram-study.pdf
205
referncia produzidas por dois humanos. Para cada um dos 57 conjuntos (contendo
de 2 a 4 sentenas cada), os humanos foram instrudos a produzir uma nica
sentena, preservando apenas as informaes comuns entre elas. A concordncia
entre os humanos foi avaliada calculando a preciso, a cobertura e a medida F de
cada sentena do primeiro humano em relao sentena do segundo humano. As
autoras concluem que o sistema obteve 91% de medida F no melhor caso, sendo
prximo dos resultados reportados em tarefa similar para a lngua inglesa (96%).
Em Salles et al. (2009), para quantificar a eficcia dos classificadores
propostos, foram utilizadas as mtricas preciso, revocao, macroF1 e acurria.Os
resultados mostraram que a verso temporal dos algoritmos apresentaram um
ganho na acurcia de 3% para o KNN e de 7% (documentos da computao) ou
11% (para os documentos da medicina) utilizando-se o algoritmo Rocchio.
Braga, Monard e Matsubara (2009) destacam que os resultados usando
o Self-Training no apresentaram melhoria consistente ao utilizar unigramas e
bigramas para representar os documentos. Alm disso, os piores resultados foram
obtidos utilizando-se somente bigramas, e que os resultados utilizando-se somente
unigrama eram compartveis aos observados quando utilizou-se a combinao dos
dois. Segundo os autores, no houve diferena significativa entre os algoritmos
avaliados: Self-Training e Co-Training.
Villavicencio, Caseli e Machado (2009) afirmam que para avaliar a
eficcia das abordagens analisadas para identificao de expresses multi-palavras
em um corpus de domnio especfico, foi realizada uma comparao automtica
usando o padro ouro construdo (glossrio de ngramas de pediatria). Foram
utilizadas as medidas preciso (nmero de candidatas corretas dentre as opes
retornadas), recall (nmero de candidatas corretas dentre todas as opes da lista
de referncia) e a medida F (combinao das duas anteriores). Os autores destacam
que os melhores resultados foram obtidos utilizando-se a abordagem estatstica (os
ngramas que no contm pontuao ou nmeros, com frequncia superior a 5 que
no comecem com determinantes, verbos auxiliares, pronomes, advrbios,
conjunes, dentre outros) considerando-se somente os n melhores candidatos de
acordo com as medidas pointwise mutual information (PMI) e informao mtua (MI):
cerca de 56% de preciso.

206
4.2.2. Anlise de Contedo das publicaes: sistematizao dos enunciados
apresentados
Nesta seo so apresentados os resultados obtidos a partir da anlise
de contedo das 68 publicaes sorteadas (de acordo com os critrios definidos e
apresentados no captulo anterior). Pretende-se nesta seo apresentar as
publicaes analisadas dentro de um sistema semntico definido a partir das
categorias de anlise utilizadas. Essa viso sistmica foi elaborada a partir da
anlise de contedo desse material emprico.
Conforme mencionado anteriormente, algumas categorias de anlise
foram definidas tendo em vista que a presente tese tem como objetivo analisar a
produo cientfica da rea de PLN. Sendo assim, durante a anlise de contedo
das publicaes sorteadas, procurou-se extrair principalmente a problemtica
discutida pelos autores, a metodologia adotada e os resultados alcanados. Para as
categorias de anlise problemtica e metodologia adotada, um mapa conceitual foi
construdo com o intuito de sintetizar as temticas relevadas pelos autores das
publicaes analisadas. Todos os mapas conceituais apresentados nesta tese foram
construdos usando a ferramenta CMap
181
, e os critrios de formatao e layout
adotados sero explicados juntamente com os diagramas. Vale adiantar que,
durante a elaborao dos mapas procurou distribuir as publicaes em ordem
cronolgica no sentido anti-horrio (o que permitiu uma melhor distribuio e
visualizao dos blocos diagramticos).
Analisando-se os trabalhos quanto a realizao de experimentos
possvel observar que ao longo dos anos a porcentagem de trabalhos que
apresentaram experimentos prticos aumentou: das 4 publicaes analisadas da
dcada de 80, nenhuma apresentou experimentos, das 14 analisadas na dcada de
90, 7 apresentaram experimentos, enquanto que a partir dos anos 2.000, 74% das
publicaes analisadas apresentaram experimentos prticos. Isso sugere que as
pesquisas na rea de PLN, ao longo dos anos, tm apresentado um enfoque mais
experimental, talvez como consequncia da forte insero da rea da cincia da
computao (TAB. 12).

181
CMapTools Knowledge kit - verso 5.04, disponvel em http://cmp.ihmc.us
207
TABELA 12
Publicaes envolvendo experimentos prticos por dcada

Dcada
Total de
publicaes
Publicaes envolvendo
experimento
Percentual de publicaes
envolvendo experimento
1986-1989 4 0 0%
1990-1999 14 7 50%
2000-2009 43 32 74%

Neste sentido, procurou-se avaliar o desenvolvimento de experimentos
prticos por rea dos autores das publicaes. Observou-se que 86% dos trabalhos
que apresentaram experimentos, tinham pelo menos um autor da rea da
computao. Alm disso, dos artigos que possuam pelo menos um autor da
lingustica, a maioria (70%) no apresentou experimentos prticos, com exceo de
trs trabalhos: Leffa (1991) (dicionrio), Rosa (1998), Oliveira et al. (2003). Alm
disso, observou-se que depois do ano de 2.000, todos os artigos que possuam pelo
menos um autor da rea da cincia da computao, apresentaram experimentos
prticos, com exceo de Caseli (2008).
Para cada artigo analisado, procurou-se avaliar tambm o tipo de
avaliao adotada pelos autores. Analisando-se os artigos, foram encontrados
basicamente dois tipos de avaliao: 35% adotaram avaliao automtica, com
medidas estatsticas de erros e acertos, 45% usaram validao manual, ou seja,
envolveu a avaliao de um humano, e 20% dos trabalhos envolveu avaliao
automtica e manual. Um aspecto interessante foi observado quando analisou-se
tambm se foi utilizado no trabalho algum corpus de documentos para teste e
consequente avaliao. Correlacionando o tipo de avaliao com o corpus utilizado,
observou-se que dos trabalhos que tiveram avaliao automtica, 40% fez uso de
corpora reutilizados, oque facilita que mtricas estatsticas sejam adotadas.
Outro aspecto interessante observado foi o idioma para o qual o artigo foi
desenvolvido: 65% dos artigos analisados foram desenvolvidos para o portugus,
20% para o ingls, enquanto que 15% dos trabalhos eram propostas de abordagens
genricas, ou seja, independente da linguagem natural foco.
A anlise horizontal realizada com base nos ttulos de todas as 621
publicaes relevantes mostrou que 34% delas tinham o primeiro autor de rea
desconhecida, e que 66% havia sido desenvolvido de maneira multidisciplinar, ou
208
seja, envolvendo pesquisadores de vrias reas. Na anlise profunda, realizada
adentrando-se no contedo das publicaes, foi possvel ter acesso, a partir dos
cabealhos dos artigos, rea dos autores que foram consideradas desconhecidas,
de acordo com a coleta automtica da Plataforma Lattes.
Apesar de a anlise horizontal revelar que 66% das publicaes foram
desenvolvidas envolvendo pesquisadores de vrias reas, o mesmo no foi
observado no recorte submetido anlise de contedo, onde a grande maioria
(78%) foi escrito por autores da mesma rea. Dentre os artigos sorteados para
anlise de contedo, nenhum deles foi escrito por pesquisadores da rea da cincia
da informao, 12% possuam somente autores da lingustica, 76% somente por
autores da cincia da computao, 6% envolvendo pesquisadores das duas reas
(computao e lingustica), e 7 % de outras reas.
A primeira dimenso analisada foi a problemtica abordada pelos autores
dos artigos submetidos anlise de contedo. Na FIG. 15 apresentado um mapa
conceitual contendo todas as problemticas abordadas nas 68 publicaes
analisadas. Pode-se observar que, a temtica central o PLN e foi colocado no
centro do mapa em vermelho. A partir dele, identificou-se alguns problemas
recorrentes, tais como sumarizao, traduo, recuperao de informao,
tratamento de ambiguidade e outros, que foram destacados em roxo. Em torno
desses problemas, organizaram-se as problemticas observadas nas publicaes,
que foram includas no mapa em negrito e vermelho. Os autores foram apresentados
de maneira mais discreta (retngulos brancos) visto que o objetivo era destacar as
problemticas e no as personalidades.
Na TAB. 13 so apresentadas as problemticas reveladas a partir da
anlise de contedo das publicaes avaliadas, juntamente com o nmero de artigos
relacionados. possvel observar que dos 68 artigos analisados, 18 foram sobre
recuperao de informao, enquanto que as problemticas de sumarizao,
tratamento de ambiguidade, analisadores (parser) e traduo foram igualmente
enfatizadas (apesar dessa ltima ter tido um artigo a menos).

209
TABELA 13
Principais problemticas reveladas a partir da anlise de contedo
Problemtica #Artigos relacionados
Recuperao de informao 18
Sumarizao 10
Tratamento de Ambiguidade 10
Analisadores (parser) 10
Traduo 9
Aplicaes para a prpria rea 4
Exemplos de aplicaes do PLN 4
Correo automtica 3
Total 68

Com o intuito de facilitar a compreenso do mapa conceitual apresentado
na FIG. 14, optou-se por apresentar tambm recortes de acordo com as principais
problemticas (FIG. 20 a 24). As discusses que segue so apresentadas de acordo
com a evidncia apontada pela quantidade de artigos relacionados com cada
problemtica (TAB. 13).
210

FIGURA 19 Mapa conceitual contendo as problemticas observadas nas publicaes analisadas

211

analisadas: recorte RECUPERAO DE INFORMAO

analisadas: recorte SUMARIZAO

212

analisadas: recorte TRATAMENTO DE AMBIGUIDADE

analisadas: recorte ANALISADORES (PARSER)
213

FIGURA 24 - Mapa conceitual apresentando as problemticas observadas nas publicaes
analisadas: recorte OUTRAS

A prxima categoria de anlise focalizada foi a metodologia adotada pelos
autores dos artigos analisados. Procurou-se apresentar, para cada problemtica
observada, o substrato metodolgico-conceitual que emergiu dos artigos analisados. No
centro do mapa conceitual, manteve-se a problemtica identificada (em vermelho), e a
partir de cada artigo, a metodologia foi detalhada. Os recursos utilizados nos artigos
analisados foram apresentados em amarelo.
A discusso que segue cada mapa conceitual construdo traduz o rigor
acadmico adotado, tanto no tocante anlise, quanto nas correlaes delineadas. As
concluses apresentadas foram direcionadas por algumas consideraes e por alguns
pressupostos. Por exemplo, no escopo desta tese, considerou-se classificao quando os
documentos foram previamente atribudos a alguma classe, e categorizao como sendo
sinnimo de clusterizao (do ingls clustering), que ocorre quando os documentos so
agrupados em funo das suas similaridades, e no de conhecimento prvio das
categorias. Outras consideraes sero discutidas a medida que elas se tornarem
necessrias.

4.2.2.1. Problemtica RECUPERAO DE INFORMAO

Na FIG. 25 apresentado o mapa conceitual construdo a partir da metodologia
adotada pelos artigos analisados sobre RECUPERAO DE INFORMAO.
214

FIGURA 25 Mapa conceitual apresentando as metodologias observadas nas publicaes analisadas que tiveram como problemtica
RECUPERAO DE INFORMAO
215
Dentre as problemticas reveladas pelos artigos analisados, a recuperao de
informao foi a que sem dvida teve maior destaque na produo cientfica nacional.
Alm disso, a grande maioria desses artigos so trabalhos recentes (nos anos 2.000), o
que reflete a efervescncia que a rea vem passando. Alm disso, dos 18 artigos
analisados sobre recuperao de informao, oito so voltados para tcnicas de pr-
processamento de documentos, o que sugere que este tema ainda esteja em aberto.
Para facilitar a compreenso das observaes que emergiram desta anlise,
optou-se por apresentar a problemtica da recuperao de informao, de maneira
segmentada, seguindo o mapa conceitual da FIG. 25, no sentido anti-horrio.
Dos trabalhos analisados, dois tinham como problemtica central a utilizao
de PLN na expanso automtica de consultas em recuperao de informao, sendo que
ambos apresentaram um autor em comum (Strube de Lima). O primeiro trabalho,
Gonzalez e Strube de Lima (2001), utilizou um thesaurus, que possui uma estruturao
semntica para implementar relacionamentos lexicais, considerando fundamentos da
Teoria do Lxico Gerativo (TLG) de Pustejovsky. Segundo os autores, os resultados
obtidos na avaliao indicam que a expanso de consulta pode trazer benefcios RI,
mas advertem que esta expanso no pode ser feita indiscriminadamente, sob pena de
prejudicar os resultados do mecanismo de busca. O outro trabalho, Gasperin e Strube de
Lima (2003), teve como objetivo avaliar a qualidade de uma lista de palavras
semanticamente relacionadas, gerada automaticamente durante o mestrado da primeira
autora. Foram realizadas sete consultas (nas verses original e expandida), e observou-
se que, quando comparado consulta original, a consulta expandida aumentou a
revocao mas diminuiu a preciso.
De acordo com as definies adotadas no escopo desta tese, cinco artigos
abordaram a classificao de documentos. Dentre os trabalhos analisados, observou-se
que dois trabalhos apresentaram co-autorias coincidentes: Matsubara, Monard e Batista
(2004) e Braga, Monard e Matsubara (2009). Ambos destacam a utilizao do
aprendizado de mquina semi-supervisionado. Segundo os autores, este modelo combina
as facilidades do aprendizado supervisionado no qual fornecido um conjunto de
exemplos de treinamento rotulado com a classe de cada exemplo, com as do aprendizado
no-supervisionado no qual a classe de cada exemplo no conhecida. Segundo os
autores, excelentes resultados foram alcanados, o que comprova a sua aplicabilidade
nos casos em que se possui apenas um pequeno conjunto de exemplos rotulados, e o
custo para rotular mais exemplos alto. Alm disso, Braga, Monard e Matsubara (2009)
ressaltam que combinar unigramas e bigramas no tem apresentado melhorias
216
significativas na classificao supervisionada de textos. O trabalho mostrou que os piores
resultados foram obtidos utilizando-se somente bigramas, e que os resultados utilizando-
se somente unigrama foram compartveis aos observados quando se utilizou a
combinao dos dois. Apesar de esses trabalhos terem sido desenvolvidos em co-autoria
de pesquisadores brasileiros, ambos utilizaram bases de documentos em ingls, o que
sugere que experimentos anlogos devessem ser realizados para o portugus.
O artigo de Silva e Vieira (2007) define categorizao como sendo o processo
de alocar os documentos em categorias pr-definidas, e por este motivo foi atribudo a
subproblemtica de classificao, diante da definio de classificao adotada no escopo
desta tese.
Vale destacar que, este trabalho se assemelha com outro trabalho, Silva, Vieira
e Osorio (2005), publicado em co-autoria pela mesma dupla de autoras, que foi alocado,
no escopo desta tese, na subproblemtica de pr-processamento. Isso se deve ao fato do
primeiro (de 2005) ter dado nfase utilizao de informaes lingusticas (categorias
gramaticais) como caractersticas, e por isso estar na categoria de pr-processamento,
enquanto que o mais recente (de 2007) enfatizou a comparao entre os algoritmos de
aprendizado de mquina avaliados, e, portanto foi atribudo subproblemtica dos
trabalhos de classificao.
Os melhores resultados observados no artigo de Silva e Vieira (2007) foram
obtidos quando utilizou-se nomes juntamente com os adjetivos como caractersticas
descritivas dos documentos, com taxa de erro de 18%. No entanto, os autores destacam
que o segundo melhor resultado (com erro de 19,7%) foi observado quando utilizou-se o
mtodo tradicional (stopwords e stemming), o que sugere que ambas abordagens
apresentam desempenho similar.
Os autores do prximo artigo, Moraes e Strube de Lima (2007), usaram os
termos classificao e categorizao como sendo sinnimos, assim como classes e
categorias. Segundo as autoras, o artigo considera a categorizao sobre uma coleo de
documentos no rotulados, que se encontram apenas organizados sob ttulos de 29
sees da Folha de So Paulo. No entanto, essa organizao foi usada como sendo a
classe para efeito de avaliao do modelo. Segundo as autoras, os resultados obtidos
foram muito ruins, e atribuem isso incerteza da categorizao por tpicos apresentadas
na base de documentos usada. Segundo elas, como os documentos utilizados no foram
previamente rotulados, no h como distinguir certos documentos sem um processo
manual.
Ainda dentro da subproblemtica de classificao de documentos, um trabalho
217
que merece destaque o Salles et al. (2009) que prope uma nova abordagem para o
tratamento dos efeitos temporais em algoritmos de classificao j conhecidos, derivando
assim classificadores robustos temporalmente. Os autores destacam que apesar do
tempo ser uma dimenso importante para qualquer espao informacional, a maioria das
tcnicas atuais de classificao automtica de documentos no considera a evoluo
temporal dos documentos. Em outras palavras, ignora-se o fato de que a variao na
definio dos termos e das classes ao longo do tempo tende a tornar o conjunto de
treinamento muito confuso, impactando negativamente nos classificadores que
negligenciam esta evoluo. Essa preocupao no foi observada em nenhum artigo
analisado dentre a produo cientfica nacional, nem mesmo no ARIST.
Dentro da subproblemtica de categorizao, dois artigos foram analisados:
Seno e Nunes (2008) destacam que identificar sentenas ou trechos similares de textos
tem desempenhado um importante papel em vrias aplicaes de PLN, tais como gerao
de pargrafo, sumarizao automtica, construo de ontologias, bibliotecas digitais,
dentre outras. Sendo assim, o presente trabalho teve como objetivo comparar um mtodo
no supervisionado e incremental de clusterizao, com mtodos usando somente
mtricas estatsticas de similaridades. Para critrio de avaliao, criou-se um corpus de
referncia, onde cada sentena, de cada documento, foi manualmente classificada, ou
seja, associada a um cluster. Os resultados obtidos foram muito prximos: todos os
mtodos de similaridade apresentaram bons resultados (cerca de 86% de medida F).
O outro artigo relacionado categorizao de documentos foi o de Morais e
Ambrosio (2008) que avaliou o uso de ontologia de domnio na tarefa de clusterizao,
usando documentos de jurisprudncia. Este trabalho poderia ter sido alocado, no escopo
desta tese, em exemplos de aplicaes, no entanto, a anlise de contedo revelou a
nfase dada pelos autores no mtodo de categorizao, enquanto que o domnio
jurisprudncia foi usado exclusivamente com o propsito de ilustrar o experimento. Os
autores destacaram que, para identificar o contexto semntico dos documentos, tem-se
usado tcnicas de minerao de texto (text-mining) ou ontologias. No entanto, os autores
destacam que no foi encontrada na literatura alguma pesquisa que combine ambas as
estratgias para desenvolver mecanismos de categorizao automtica de documentos.
Assim, este trabalho teve como objetivo analisar automaticamente se um documento
relevante, dado o domnio representado por uma ontologia. Mesmo sendo um trabalho de
categorizao, os autores utilizaram dois conjuntos de classificados para avaliar o modelo
construdo. Os autores concluram que o uso de ontologias para categorizao de
documentos eficiente, se a ontologia tiver o mnimo de qualidade, ou seja, tenha
218
representatividade dos conceitos, propriedades, relaes, funes, restries e
instncias (p. 6). Alm disso, os autores concluem que o uso de tcnicas estatsticas so
adequadas, mas fortemente dependentes do dicionrio usado (lista de stopwords, nomes
prprios, adjetivos, dentre outros).
Os dois primeiros artigos analisados envolvendo pr-processamento so
voltados para a construo de ndices e arquivos invertidos para representao dos
documentos no processo de recuperao de informao. O artigo seguinte Martins,
Monard e Matsubara (2003) apresentou a ferramenta PreText, desenvolvida com o
objetivo de realizar automaticamente a tarefa de pr-processamento de uma coleo de
documentos. Segundo os autores, na fase de pr-processamento, os documentos podem
ser transformados em um vetor de termos (bag-of-words) que ocorrem no documento. Os
termos que compem este vetor podem ser palavras simples ou compostas (2, 3, , n-
gram). Neste trabalho, os autores apresentam como alternativas para reduo da
dimenso desse vetor, utilizar o radical dos termos, utilizando-se um algoritmo de
remoo de sufixos (stemming), ou eleger os termos mais significativos, usando a lei de
Zipf e o limiar de Luhn. Os autores destacam ainda que representaes mais elaboradas
tm sido avaliadas, mas apresentado resultados piores.
Apesar disso, o prximo trabalho, Silva, Vieira e Osorio (2005), propem uma
nova tcnica de pr-processamento utilizando informaes lingusticas, selecionando
combinaes de categorias (nomes, adjetivos, nomes prprios e verbos) nas tarefas de
classificao e clusterizao de documentos. Os melhores resultados foram obtidos ao
utilizar os nomes, sendo que a melhor taxa de acerto foi obtida quando utilizou-se nomes
juntamente com os adjetivos. O mtodo tradicional (stopwords e stemming) apresentou o
segundo melhor resultado, confirmando o que discutido pelos autores do artigo anterior.
O prximo trabalho, Milidiu, Duarte e Cavalcante (2007), envolve o
reconhecimento automtico de nomes prprios. Os autores criaram manualmente um
sistema de referncia composto com nomes de localidades, personalidades e
organizaes extradas da Web. Utilizou-se uma janela de tamanho igual a 5, inclundo a
palavra corrente, as duas anteriores e as duas posteriores. Utilizando-se o sistema de
referncia como treinamento, o modelo apresentou 88% de medida F. No entanto, sem o
sistema de referncia, os resultados obtidos so, segundo os autores, muito pobres.
O trabalho seguinte, Caminada, Quental e Garrao (2008), tem como objetivo
apresentar uma abordagem estatstica para a busca e identificao de bigramas e
trigramas multivocabulares da lngua portuguesa, baseados em padres gramaticais
definidos por um processo de anotao. O prximo trabalho, Villavicencio, Caseli e
219
Machado (2009), apresentam como abordagens para identificao de expresses multi-
palavras a utilizao de estatsticas e de alinhamento lexical. Segundo os autores, os
melhores resultados foram obtidos utilizando-se a abordagem estatstica.
As bases de documentos, assim como as ferramentas utilizadas pelos
trabalhos analisados e discutidos nesta problemtica, sero apresentados posteriormente
em momento oportuno.

4.2.2.2. Problemtica SUMARIZAO

adotada pelos artigos analisados sobre SUMARIZAO.
A anlise de contedo apontou para a existncia de duas abordagens
principais de sumarizao automtica de textos: abordagem emprica e fundamental. A
abordagem emprica tambm chamada de superficial ou pobre de conhecimento, uma
vez que baseado em informaes estatsticas ou empricas. Nesta abordagem, as
sentenas normalmente so representadas por tabelas de atributo-valor que representam
as caractersticas (features) extradas do texto. A partir da abordagem emprica ou
superficial, possvel gerar extratos, ou seja, selecionar as sentenas relevantes do texto
original e por meio de justaposio, obter uma sntese. J a abordagem fundamental
tambm chamada de profunda ou rica em conhecimento, visto que baseada em
informaes lingusticas. A abordagem profunda tende a produzir sumrios textuais, ou
resumos da designao em portugus, reformulando o contedo do texto original e
gerando novas sentenas. Dos dez trabalhos analisados dentro da problemtica
sumarizao, somente dois (PARDO; RINO, 2002; RINO; SENO, 2006) usaram a
abordagem profunda e produziram sumrios (resumos). Assim, pode-se afirmar que os
trabalhos analisados sugerem que a maioria das pesquisas em sumarizao automtica
tem privilegiado a abordagem emprica utilizando diferentes caractersticas extradas dos
textos.
O trabalho de Pardo e Rino (2002) aplicou a abordagem fundamental para
avaliar se o objetivo comunicativo foi mantido no sumrio gerado. Segundo os autores,
31% dos sumrios automticos gerados preservaram totalmente a ideia central do texto
original, enquanto que 61% deles mantiveram parcialmente. Alm disso, os autores
destacam que todos os resumos elaborados pelos prprios autores (chamado de
sumrios autnticos) preservaram totalmente a ideia do texto original. O trabalho de Rino
e Seno (2006) voltou a utilizar a abordagem fundamental ou profunda no sistema
220
implementado RHeSumRST, para avaliar a importncia do tratamento co-referencial na
sumarizao automtica. O sistema desenvolvido foi comparado com dois outros
sistemas, e segundo as autoras, o sistema foi mais informativo que um deles, e menos
informativo que o outro. Alm disso, as autoras afirmaram que o sistema apresentou
menos quebra (ndice de 3%) de co-referncia nos sumrios, quando comparado com os
outros sistemas (que apresentaram 5% e 15% de quebra). As prprias autoras concluem
que o RheSumaRST apresentou o menor ndice de quebra, quando comparado aos
outros sistemas, mas que a diferena no justifica o esforo necessrio de modelagem e
processamento estrutural.
Os autores que utilizaram a abordagem emprica destacaram que verificar a
proximidade dos extratos gerados automaticamente com seus sumrios autnticos
(elaborados pelo prprio autor) seria uma tarefa difcil, visto que os autores tendem a no
preservar as sentenas do texto original. Assim, os autores tm adotado uma verso
extrativa dos sumrios autnticos, chamada de sumrios ideais.
Dos artigos analisados, somente o terceiro, Souza, Pereira e Nunes (2001),
utilizou o portugus como idioma fonte. Os autores usaram a abordagem emprica e
afirmaram que apesar de ser um mtodo simples, no havia notcia de trabalhos
anteriores voltados para o portugus.
O trabalho seguinte, Pardo, Rino e Nunes (2003), utilizou a abordagem
emprica (estatstica) utilizando as redes neurais artificiais SelfOrganizing (SOM) para a
gerao de extratos. Segundo os autores, este foi o primeiro trabalho de sumarizao
automtica para o portugus utilizando RNAs. A rede neural utilizada apresentou
resultado melhor (41% de erro) quando comparada com outros algoritmos de
classificao: Naive-Bayes (57% de erro) e rvore de deciso C4.5 (51% de erro). Alm
disso, os autores destacam que estes resultados foram obtidos a partir de sentenas
classificadas manualmente por juzes humanos. Assim, ao assumir que possvel
flexibilizar essa classificao manual, as redes neurais apresentaram apenas 27% de
erro. Os prprios autores assumem que os resultados alcanados: 32% de cobertura
(recall) e 41% de preciso so aparentemente insatisfatrios. No entanto, isso no
significa que os extratos produzidos sejam ruins. Os autores afirmam que os valores
obtidos so prximos aos apresentados por outros trabalhos semelhantes.

221

FIGURA 26 - Mapa conceitual apresentando as metodologias observadas nas publicaes analisadas que tiveram como problemtica
SUMARIZAO
222
O trabalho de Rino et al. (2004) comparou cinco sistemas sumarizadores que
utilizam a abordagem emprica (estatstica), comparando os sumrios gerados e os
sumrios ideais (construdos a partir dos sumrios autnticos). Os sistemas Supor e
ClassSum apresentaram os melhores resultados (42,8% e 42,4% de medida F,
respectivamente), enquanto que o NeuralSum, apresentou os piores resultados (31% de
medida f). Segundo os autores, a similaridade entre os sistemas Supor e ClassSum deve-
se ao fato deles utilizarem caractersticas semelhantes.
O trabalho de Balage et al. (2006) aplicou o sumarizador GistSumm em um
sistema respondedor automtico, mas obteve resultados considerados pelos prprios
autores como sendo muito pobres, pois a grande maioria das respostas foi sinalizada
como sendo incorretas. E concluram que tcnicas de sumarizao simples no so
suficientes para a tarefa de responder perguntas, apesar de serem eficientes para o que
elas se propem (p. 375).
O trabalho de Leite e Rino (2006) utiliza caractersticas, mas prope que sejam
usados valores categricos e numricos ao invs de valores binrios. Esta sugesto
gerou uma melhoria de apenas 3% na medida f, quando comparado com outros sistemas.
Vale destacar que, as caractersticas utilizadas foram evoluindo ao longo dos
anos. Inicialmente usava-se frequncia de palavras, posio da sentena no texto,
frequncia de palavras temticas, ocorrncia de palavras-chaves, do ttulo, dentre outras.
J o trabalho de Leite e Rino (2006) utiliza como caractersticas ocorrncia de cadeia
lexical (lexical chains method), que verifica a existncia de palavras relacionadas (por
exemplo, sinnimos/antnimos ou hipnimos/hipernimos); o mtodo do mapa de
relacionamento textual (text relationship map method), semelhante ao mtodo anterior,
mas considera pargrafos ao invs de sentenas, e constri um grafo chamado de mapa
de relacionamento do texto fonte que representa o seu grau de coeso; o mtodo da
importncia dos tpicos (importance of topics method), que tem como objetivo identifica
os principais tpicos do texto fonte, que devero orientar a seleo de sentenas, dentre
outras.
Quanto a realizao de experimentos, vale destacar que praticamente todos os
trabalhos analisados realizaram experimentos prticos envolvendo corpus de
documentos. Apesar de as bases de documentos serem apresentadas posteriormente,
vale destacar a utilizao recorrente do corpus TeMrio, criado no mbito do NILC sob a
coordenao da profa. Lucia H. Machado Rino.

223
4.2.2.3. Problemtica TRATAMENTO DE AMBIGUIDADE

adotada pelos artigos analisados sobre TRATAMENTO DE AMBIGUIDADE.
Analisando-se os trabalhos que tiveram como problemtica observada o
tratamento de ambiguidade, foi possvel observar que ela tem sido um tema de pesquisa
desde os primrdios do perodo analisado, com o artigo de Ripoll e Mendes (1988) at os
dias atuais, com o artigo de Specia, Stevenson e Nunes (2007).
Dentre os problemas abordados no tratamento de ambiguidade, observou-se
uma concentrao em basicamente dois problemas: desambiguao lexical,
principalmente de verbos (com cinco trabalhos) e resoluo de anforas (com trs
trabalhos). Os outros dois trabalhos eram voltados para simplificao da linguagem
natural para uma gramtica livre de contexto, e avaliao de tradutores automticos
quanto ao tratamento de ambiguidades.
O primeiro trabalho analisado foi o de Ripoll e Mendes (1988), que prope
utilizar um modelo conexionista e uma gramtica de casos para tratar a ambiguidade
lxica de um subconjunto de verbos no portugus. Os autores utilizam algumas
caractersticas para representar os verbos, tais como se o verbo causal, se existe um
agente, qual a natureza da mudana, dentre outras. O sistema proposto resolve
ambiguidade lxica de verbos em trs nveis: lxico, de significado e dos casos verbais
(utilizando-se os casos de Fillmore). Segundo os autores, a anlise da frase baseada em
casos verbais resolve muitos casos de ambiguidade lxica, porm existem algumas
situaes nas quais a informao da estrutura sinttica auxiliaria no tratamento da
ambiguidade.
O prximo trabalho analisado, que abordou tratamento de ambiguidade lexical,
foi o de Zavaglia (2003). A autora destaca que, o problema da homonmia gramatical
resolvido facilmente por sistemas computacionais, mas o mesmo no acontece com
outros problemas da ambiguidades, tais como homonmia semntica e a polissemia.
Segundo a autora, isso se deve ao fato da mquina no ser capaz de relacionar
semanticamente itens lexicais em meio a construes sintticas ou inseridos no contexto.
Assim, este trabalho teve como objetivo propor o tratamento de itens lexicais homnimos
da lngua portuguesa do Brasil, por meio da construo de uma base de dados conceitual,
ou seja, uma base de conhecimento lexical. Segundo a autora, tal base ir suprir as
necessidades de um analisador sinttico, assim, a homonmia poder ser tratada, uma
vez que ser fornecido mquina, subsdios lingusticos tais como relaes semnticas
224
de itens lexicais em redes de significao. Essa base constituda de vrios
componentes: informao ontolgica (esta ontologia foi construda na tese de Doutorado
da prpria autora), informao Qualia (baseada na Teoria do Lxico Gerativo de
Pustejovsky), informao morfossinttica, informao definicional (extrada de um
dicionrio base), e informao pragmtica (exemplos do uso do item homnimo extrados
de um corpus de 11 milhes de palavras do Laboratrio de Estudos Lexico-grficos da
UNESP de Araraquara). Para este trabalho, a autora no apresentou experimentos,
apenas dois exemplos da representao de um item homnimo.
Os prximos trs trabalhos, que foram publicados em co-autorias das mesmas
pesquisadoras, abordaram a desambiguao lexical de sentido de verbos. Specia e
Nunes (2004) alertaram para o problema da ambiguidade lexical que ocorre quando so
identificadas apenas variaes de significado (de sentido) nas opes de traduo, ou
seja, todas as opes so da mesma categoria gramatical (o que chamada de
ambiguidade lexical de sentido). O projeto prope a construo de um modelo hbrido
lingustico-computacional, ou seja, baseado em conhecimento lingustico (dicionrios) e
em algoritmos de aprendizado de mquina (corpus de exemplos). As autoras procuraram
identificar os casos mais problemticos de ambiguidade utilizando trs sistemas de
traduo automtica ingls-portugus. As tradues foram, ento, manualmente
analisadas para verificar a ocorrncia da ambiguidade, seus efeitos na traduo das
sentenas e o comportamento dos sistemas diante desse fenmeno. Esse trabalho
(apresentado em 2004) encontrava-se em especificao e voltou a ser discutido em dois
outros trabalhos em co-autoria em 2005 e 2007. O prximo trabalho analisado foi Specia,
Nunes e Stevenson (2005) que teve como objetivo extrair regras do modelo predito que
possam ser usadas como fonte de conhecimento no processo de aprendizado de
mquina. Ao analisar as regras individualmente, observou-se que os melhores resultados
foram obtidos utilizando como fonte de conhecimento, os lemas da primeira e da segunda
palavra, a esquerda e a direita do verbo, o primeiro nome, o primeiro adjetivo, o primeiro
verbo a esquerda e o a direita do verbo, e a primeira preposio a direita do verbo.

225

TRATAMENTO DE AMBIGUIDADE
226
O trabalho de Specia, Stevenson e Nunes (2007) teve como objetivo apresentar
uma abordagem de desambiguao lexical de sentido baseada em corpus com
conhecimento de fundo (background knowledge), ou seja, considera o contexto prximo
palavra ambgua fazendo-se uso de uma lista de palavras. Neste trabalho ser dada
nfase a traduo de dez verbos ambguos do ingls para o portugus. Como fonte de
conhecimento de fundo usada nos algoritmos de aprendizado, os autores experimentaram
12 alternativas diferentes de caractersticas, contendo bag-of-words, bigramas, palavras a
direita e a esquerda do verbo, dentre outras.
A outra subproblemtica observada dentro do tratamento de ambiguidade foi a
resoluo de anforas que englobou trs trabalhos, que sero discutidos a seguir.
O primeiro trabalho analisado sobre resoluo de anfora foi Barros (1996).
Este artigo descreve um mecanismo para resoluo de anfora pronominal sem a
utilizao de modelo do mundo (world models), para garantir a portabilidade e ainda
oferecer uma interface para consultas em linguagem natural em banco de dados. Assim,
quando uma anfora encontrada numa consulta, os candidatos so selecionados tendo
como base informaes sintticas e de domnio. Cabe ao usurio, escolher um dentre as
opes ou rejeitar todas. Segundo a autora, este modelo prov um processo semi-
automtico de resoluo de anforas independente do domnio, mas no apresentou
experimentos.
O prximo trabalho de Oliveira e Wazlawick (1998) discute o problema da
ambiguidade diante da resoluo de anforas presente nos pronomes "ele" e "ela". Os
autores propem a utilizao de redes neurais artificiais, usando como dados de
treinamento, padres tais como "sujeito verbo objeto. Ele/ela verbo objeto". O modelo
composto por duas redes neurais artificiais: o parser (rede simples recorrente) e o
segmentador (rede multicamadas feedforward), cada uma com funo especfica. Os
autores no apresentaram ndices de acertos, mas afirmaram que a abordagem proposta
resolveu eficientemente todos os exemplos apresentados que contm a mesma estrutura
dos que foram treinados.
O terceiro e ltimo artigo analisado sobre resoluo de anforas foi o de Rossi
et al. (2001), que teve como objetivo identificar as sequncias de expresses em um texto
que se referem a uma mesma entidade. Mais especificamente, investiga-se a
correferncia das descries definidas (sintagmas nominais iniciados por artigo definido).
Segundo os autores, quatro tipos de anforas foram definidas: anforas diretas, indiretas,
associativas e novas no discurso. Os autores desenvolveram uma interface para a
anotao manual de correferncia em corpus da lngua portuguesa, classificao e
227
contabilizao dos tipos usados. Com esta classificao manual, os autores apresentaram
um sistema (em Prolog) para o tratamento automtico de correferncia nominal, baseado
no estudo feito manualmente. Os autores apresentaram resultados oriundos da anotao
feita manualmente, mas no apresentaram resultados do sistema, pois o mesmo
encontra-se em desenvolvimento.
Finalmente, o trabalho de Jose Neto e Moraes (2002) prope efetuar uma
reduo inicial da complexidade da linguagem que se deseja definir, atravs da
elaborao de uma aproximao livre de contexto da mesma. Os autores complementam
que eliminando-se aspectos mais complexos da linguagem, tais como ambiguidades,
pode-se obter uma boa aproximao da linguagem natural. A gramtica simplificada (no
formato de um autmato adaptativo) usada como base para o raciocnio no considera
importantes aspectos de dependncia de contexto, que certamente devem ser levados
em conta em outras etapas do processamento da linguagem.
O trabalho de Alves e Chishman (2004) um trabalho terico e tem como
objetivo mostrar como alguns tradutores automticos tratam o complexo fenmeno
lingustico da ambiguidade. Como resultado da anlise do desempenho dos tradutores
avaliados, as autoras afirmam que de uma maneira geral, os tradutores geralmente no
percebem a traduo mais adequada para o contexto, e no indicam que pode haver
outra possibilidade de traduo. As autoras concluem que apesar da traduo automtica
ter sido a primeira aplicao no numrica da computao (datada de 1949), o
desempenho desses sistemas ainda est muito longe do que seria ideal.
Nenhum dos trabalhos analisadores que abordaram tratamento de
ambiguidade realizou experimentos prticos, com exceo dos artigos de Specia, Nunes e
Stevenson de 2005 e 2007.

4.2.2.4. Problemtica ANALISADORES (PARSER)

adotada pelos artigos analisados sobre ANALISADORES (PARSER).
A partir da anlise de contedo realizada, foi possvel identificar trs nveis de
anlise da linguagem natural: anlise lxico-morfolgica, anlise sinttica e anlise
semntica. Alm disso, observou-se que alguns trabalhos abordaram dois ou at mesmo
trs nveis de anlise, o que justifica as linhas interceptadas no mapa conceitual
apresentado na FIG. 28.

228

ANALISADORES (PARSER)
229
Dentre os trabalhos que propem anlise lxico-morfolgica esto Jose Neto e
Menezes (2000) que prope um mtodo para a construo de um etiquetador
morfolgico, que possa ser usado em vrias lnguas. Segundo os autores, existem,
basicamente, quatro paradigmas ou mtodos de etiquetagem morfolgica de textos em
linguagem natural: o estatstico; o que se utiliza de regras escritas manualmente; o
baseado em regras inferidas automaticamente; e o com base em exemplos memorizados.
Segundo os autores, todos utilizam trs fontes de informao lingustica, extradas de um
corpus de treinamento: os sufixos de palavras, como parte do processo de inferncia da
etiqueta morfolgica de palavras desconhecidas; uma lista de palavras associadas a
categorias morfolgicas (lxico), para fornecer informaes sobre palavras conhecidas; e
o contexto prximo ao item lexical que se quer etiquetar (2 ou 3 etiquetas ao redor), para
refinar a escolha de sua etiqueta. Assim, o mtodo proposto etiqueta primeiro as palavras
conhecidas, depois as desconhecidas usando heurstica de acordo com o sufixo, e
finalmente faz um refinamento, de acordo com o contexto. Os experimentos revelaram
uma taxa de acerto comparvel a de outros trabalhos da poca. No entanto, os autores
argumentaram que o mtodo baseado em exemplos memorizados comea a produzir
resultados satisfatrios somente a partir de um corpus com 300.000 palavras. O outro
trabalho sobre anlise lxico-morfolgica foi o de Padilha e Viccari (2000) que prope o
desenvolvimento de processadores para a morfologia do portugus utilizando mquinas
de estados finitos (transdutores). Os autores apresentaram um trabalho terico sem a
realizao de experimentos. Apesar disso, os autores alegam que os transdutores so
adequados para o processamento morfolgico da lngua portuguesa, mas ressaltam como
limitaes a sua construo generativa (no h algoritmos de aprendizado de novas
transformaes, a gramtica deve ser alterada e o transdutor reconstrudo); e a ausncia
de pesos para diferenciar mapeamentos ambguos.
Dentre os trabalhos que abordaram a anlise sinttica est o trabalho de
Bonfante e Nunes (2002) que destacaram a importncia de se recuperar a estrutura
sinttica das sentenas. Este trabalho apresenta parte da tese de doutorado da primeira
autora (em desenvolvimento na poca), que visa investigar o comportamento de
analisadores sintticos usando a abordagem emprica. O modelo proposto baseia-se na
noo de ncleos lexicais, onde, para cada regra observada no conjunto de treinamento,
as palavras que no so ncleo so chamadas de modificadores, exercendo influncia
sobre ele. Na poca da publicao deste trabalho no haviam ainda resultados concretos,
pois os experimentos estavam em andamento.
J o prximo trabalho, abordou todos os nveis de anlise usando um sistema
230
multi-agentes. Carvalho e Strube de Lima (1999) afirmam que vrios trabalhos tm
utilizado a abordagem sequencial, com processamentos associados aos diferentes nveis
lingusticos. No entanto, os sistemas distribudos apresentam-se como uma alternativa
vivel para o processamento da lngua natural, uma vez que mdulos autnomos,
especializados e distribudos podem se cooperar para resolver o problema. Para testar
essas abordagens, as autoras propem o desenvolvimento de dois sistemas: no primeiro,
os agentes foram associados categoria morfossinttica das palavras e no segundo, os
agentes foram associados a nveis de conhecimento e a fenmenos lingusticos. Sob o
ponto de vista lingustico, o sistema faz anlise lxico-morfolgica, sinttica e semntica.
Segundo as autoras, o tratamento da frase comea com uma anlise lxico-morfolgica,
atravs do agente morfolgico, que envia seus resultados para o agente sinttico, para
que este possa construir a rvore de derivao; o agente sinttico, por sua vez, envia
seus resultados para o analisador semntico para a construo da estrutura semntica.
As autoras no apresentaram resultados de experimentos realizados.
O trabalho de Julia, Seabra e Semeghini-Siqueira (1995) propem um parser
que realiza a anlise sinttica e semntica. O analisador proposto corresponde a uma
estrutura, que gera automaticamente regras semnticas durante a anlise, baseado em
heurstica. A parte sinttica da gramtica expressa por meio de regras (gramtica de
Chomsky). Os autores no apresentaram experimentos envolvendo exemplos do
analisador desenvolvido.
Os prximos trabalhos analisados abordam anlise semntica da linguagem
natural. Rosa (1997) teve como objetivo representar as palavras usando um conjunto de
caractersticas semnticas que possuem um significado associado, e construir uma
arquitetura capaz de analisar e aprender a atribuio correta dos relacionamentos
temticos das palavras nas sentenas. Assim, o autor prope mapear papis temticos
em regras semnticas usando vetores de caractersticas organizados com base nas
relaes temticas entre o verbo e as outras palavras de uma frase. O autor conclui que a
abordagem conexionista j provou ser eficaz no tratamento de construes lexicais, mas
que o sistema apresenta bons resultados para os tipos de frases para o qual foi treinado.
O trabalho seguinte, Berber Sardinha (1999), apresentou um trabalho terico com relatos
de um estudo cujo foco a descrio de padres lexicais e colocaes do portugus. Os
relatos apresentados visaram fornecer uma descrio dos perfis semnticos de vrias
palavras da lngua portuguesa. Segundo o autor, a co-ocorrncia entre os itens
pesquisados significativa, dependendo da estatstica de co-ocorrncia obtida (razo
entre observado e esperado, a informao mtua e o escore T). O autor apresentou
231
quatro estudos de caso e, baseando-se nas medidas estatsticas definidas, discutiu a
perfil semntico mais frequente.
O prximo trabalho analisado que aborda anlise semntica foi o de Gamallo,
Agustini e Lopes (2001) que tem como objetivo descrever um mtodo baseado em corpus
para a extrao de informao semntica. Segundo os autores, o intuito utilizar
informaes sintticas para extrair as restries de seleo e preferncias semnticas ao
invs de combinao de palavras. Em outras palavras, apresentado um mtodo no
supervisionado "pobre de conhecimento" (usando apenas a co-ocorrncia das palavras)
para adquirir restries de seleo baseado em hipteses de contexto (para extrair
similaridade das palavras) e de co-especificao (para definir os contextos sintticos). O
principal objetivo calcular a frequncia da co-ocorrncia dentro de construes
sintticas, ou sequncias de n-gramas, com o objetivo de extrair informaes semnticas,
tais como restries de seleo e ontologias de palavras. Como resultados, os autores
apresentaram alguns exemplos de agrupamentos gerados, destacando como o sentido de
palavras polissmicas representado pela atribuio natural da palavra em vrios
agrupamentos.
O outro trabalho analisado que abordou anlise semntica foi o de Oliveira,
Garrao e Amaral (2003) que propuseram um conjunto de critrios aplicados s
expresses para a deteco de locues preposicionais. Como resultado, os autores
apresentaram uma tabela listando as locues preposicionais encontradas no corpus. Os
autores concluam que este trabalho realizou inicialmente uma pesquisa em corpus e que
o critrio deve ser implementado computacionalmente.
Finalmente, o ltimo trabalho analisado que abordou anlise semntica foi o de
Pardo, Marcu e Nunes (2005) que apresentou uma abordagem no supervisionada,
completamente automtica, para o aprendizado das estruturas argumentais de verbos,
utilizando-se um modelo estatstico gerativo baseado no modelo noisy-channel de
Shannon (1948) e treinado por meio do algoritmo Expectation-Maximization. Para avaliar
se as estruturas argumentais aprendidas so plausveis ou no, dois experimentos foram
realizados. Os resultados foram obtidos comparando algumas estruturas argumentais
aprendidas pelo modelo proposto, com estruturas julgadas por humanos linguistas
computacionais. Os ndices mdios de preciso e cobertura foram de 76% e 86%,
respectivamente. Como aspectos positivos do modelo, os autores afirmam que o modelo
capaz de aprender estruturas argumentais com grande preciso, sem esforo de
anotao, usando ferramentas relativamente simples. No entanto, ele no capaz de lidar
apropriadamente com estruturas complexas (sintagmas, por exemplo).
232
Em sntese, vale destacar que das problemticas observadas, a que parece ter
perdido espao foi a de desenvolvimento de analisadores (o que sugere o nmero de
trabalhos relacionados e as datas). Alm disso, a maioria dos trabalhos apresenta
modelos sem a realizao de experimentos que comprovem a sua real aplicabilidade.

4.2.2.4. Problemtica TRADUO

adotada pelos artigos analisados sobre TRADUO.
A partir da anlise de contedo realizada nos artigos relacionados com a
problemtica traduo automtica (machine translation), foi possvel observar que existem
algumas abordagens clssicas que tm sido usadas pelos pesquisadores: utilizao de
conhecimento lingustico para extrair regras de transferncia (traduo), de mtodos
estatsticos e de alinhamento.
A traduo automtica pode ser considerada uma tarefa difcil, principalmente
por precisar de conhecimento lingustico profundo de vrias linguagens. Os mtodos
estatsticos, por outro lado, tambm podem ser complicados por necessitarem de grandes
corpora paralelos e alinhados (CASELI; NUNES, 2006). Apesar disso, os trabalhos
analisados revelaram que as duas abordagens tm sido avaliadas.
Observou-se tambm que vrios mtodos tm sido desenvolvidos com o
objetivo de encontrar automaticamente correspondncias estruturais, sintticas ou lexicais
a partir de textos paralelos. Esses textos paralelos so etiquetados de tal maneira que
alinhamentos sejam possveis. Tais correspondncias so usadas para construir
gramticas de traduo, no formato de regras de transferncia, e para obter a
probabilidade de um alinhamento ocorrer.
O primeiro trabalho que prope o desenvolvimento de traduo completamente
automtica foi o de Caseli e Nunes (2006) que sugere a utilizao de textos paralelos
para induzir regras de transferncias. No entanto, o trabalho encontra-se em andamento e
no apresentaram resultados.

233

TRADUO
234
Os prximos dois trabalhos foram publicados pelos mesmos autores. Aziz,
Pardo e Paraboni (2008) afirmam que os mtodos estatsticos tm sido amplamente
utilizados e propem compar-los com as regras de transferncias, o que apresentou
resultados muito prximos. Ao realizar uma avaliao manual dos mtodos, os autores
concluram que a abordagem estatstica exigiu um esforo maior para transformar a sada
do sistema na traduo correta. Em 2009, os mesmos autores analisaram quatro
parmetros de configurao dos mtodos estatsticos de traduo automtica, e, de uma
maneira geral, a diferena entre os resultados obtidos foi muito sutil, normalmente na
terceira casa decimal. Ambos usaram o escore BLUE para avaliar os resultados. O escore
BLUE representa o nmero de n-gramas compartilhadas entre a traduo automtica e a
referncia usada e varia de 0 a 1. O sistema baseado em regras apresentou resultados
sutilmente melhores que o mtodo estatstico (0,6 e 0,58, respectivamente). O que sugere
que os resultados obtidos foram ruins.
Os dois ltimos trabalhos analisados abordaram o desenvolvimento de um
alinhador lexical (LIHLA), que inclusive foi usado nos outros trabalhos e ser apresentado
no quadro de recursos.
Vale destacar que todos os trabalhos, que abordaram mtodos automticos de
traduo envolvendo o portugus, utilizaram o corpus da revista de pesquisa da FAPESP
com textos paralelos escritos em portugus do Brasil (original), e verses em ingls e
espanhol.

4.2.2.5. Outras Problemticas

As aplicaes para a prpria rea, os exemplos de aplicao do PLN e
correo automtica foram includas numa mesma figura (FIG. 30), por terem apresentado
menos trabalhos analisados, e sero discutidas seguindo o sentido anti-horrio do mapa
conceitual apresentado na FIG. 30. Na problemtica das aplicaes para a prpria rea
foram includos os trabalhos que objetivaram desenvolver repositrios de recursos e
ferramentas para o desenvolvimento de pesquisas na rea de PLN. Vale ressaltar que nas
demais problemticas tambm foram relatadas pesquisas que produziram ferramentas
e/ou recursos que poderiam e podem ser reutilizadas. No entanto, aqueles artigos tinham
como objetivo discutir a(s) tcnica(s) e mtodo(s) utilizado(s) na construo do recurso,
sendo este ltimo, consequncia da pesquisa. J os trabalhos alocados dentro dessa
problemtica, a construo do recurso foi apresentada como sendo o foco na pesquisa e
no coadjuvante.
235

OUTRAS
236
Dois trabalhos analisados tiveram como objetivo a construo de um
lxico: Villavicencio (1999) demonstrou como o uso de unificao padro na
organizao da informao lexical pode fornecer descrio no redundante de tipos
lexical. Segundo a autora, padres foram utilizados para estruturar o lxico,
concentrando-se na descrio das informaes de categorizao verbal. A autora
no apresentou experimentos, mas considerou que da utilizao do padro de
herana, para representar informaes sobre subcategorizao verbal, possvel
obter uma hierarquia altamente estruturada e sucinta.
O outro trabalho que descreve a construo de lxicos foi o de Bidarra
(2002) que considerou alguns aspectos bsicos para a construo de lxicos para o
PLN, relacionados afasia ou parafasia semntica. Por ser um trabalho
essencialmente terico e descritivo, no foram realizados experimentos, mas o autor
apresentou alguns exemplos de afasia, em portugus, para ilustrar o modelo
proposto.
O trabalho de Dias-da-Silva et al. (2000) abordou inmeras questes
envolvidas no processo de compilao de um Thesaurus Eletrnico Bsico para o
Portugus do Brasil (TeP). Foram apresentadas algumas telas do editor de
thesaurus construdo, ilustrando algumas entradas fornecidas.
O ltimo trabalho analisado foi o de Aluisio et al. (2004) que tem como
objetivo discutir os requisitos necessrios para se construir um grande repositrio de
recursos e ferramentas, e apresentar o corpora Lcio-Web, projeto em
desenvolvimento desde 2002, na universidade de So Paulo (NILC, IME e FFLCH).
Segundo os autores, o Lcio-Web foi projetado tanto para pesquisadores lingusticos
tericos como prticos, e para o desenvolvimento tanto de ferramentas lingusticas
computacionais como de aplicaes, tais como etiquetadores (tagger), analisadores
(parsers), corretores gramaticais (grammar checkers), mtodos de recuperao de
informao e sumarizao automtica.
Dentro da problemtica dos exemplos de aplicao do PLN, foram
includos os trabalhos que tiveram o PLN como atividade meio e no como atividade
fim da pesquisa. Assim, sero apresentados trabalhos que usaram mtodos e
tcnicas do PLN para resolver problemas diversos, tais como consultas em banco de
dados ou soluo automtica de problemas jurdicos.
O primeiro trabalho analisado includo na problemtica de exemplos de
aplicao do PLN foi tambm o primeiro artigo analisado: Semeghini-Siqueira, Costa
237
e Cohn (1986). Os autores apresentam um discurso muito prximo do que foi
observado na leitura do ARIST: o processamento de linguagem natural est
engatinhando em relao a outros campos pesquisa, tais como inteligncia artificial,
e sofre forte influncia das teorias de Chomsky, e de gramticas formais (gerativa e
transformacional). Apesar dos autores passarem a proposta conexionista no ttulo e
citar a inteligncia artificial no incio do artigo (sugeriu a utilizao de redes neurais),
eles descrevem um sistema em Prolog, com a finalidade de facilitar a consulta a uma
base de dados relacional usando linguagem natural. Como resultado, os autores
apresentam vrias perguntas em portugus que o sistema foi capaz de
compreender.
O prximo trabalho analisado foi o de Rocha et al. (1992) que teve como
objetivo apresentar um sistema com rede neural artificial hierrquica, capaz de
compreender o contedo de textos e produzir listas de tpicos a partir de registros
de banco de dados. Os autores concluram que o conhecimento adquirido pelo
sistema desenvolvido em bases de dados especialistas pode ser usado para
construir sistemas especialistas na rea mdica.
O terceiro e ltimo trabalho analisado que apresentou exemplos de
aplicao do PLN foi o de Barcia et al. (1999) que props a utilizao da tcnica de
Raciocnio baseado em Casos (RBC) para soluo de problemas jurdicos. Os casos
jurdicos foram representados na forma de um caso, que consiste no texto do
documento original e um conjunto de ndices na forma de pares atributo-valor. Os
atributos dos documentos textuais, usados como ndices para a recuperao devem
indicar a utilidade das informaes do caso na situao presente. Para reforar esta
forma de representao, o conhecimento do domnio foi includo na forma de um
vocabulrio jurdico controlado e um dicionrio de termos.
Dentro da problemtica de correo automtica, o primeiro trabalho
analisado foi o de Strube de Lima (1990) que apresentou uma reviso de literatura,
que teve como objetivo dar ao leitor uma viso panormica no que se refere ao tema
correo ortogrfica automatizada, apresentando as tcnicas e os mtodos
empregados na poca no tratamento da lngua natural, abordando vantagens e
deficincias.
O prximo trabalho analisado dentre dessa problemtica foi o de Piltcher
et al. (2005) que tratam a correo de palavras dentro de um ambiente de chat
(salas de bate-papo). A abordagem utilizada probabilstica (estatstica) e no
238
requer a utilizao de analisadores sintticos (parsers). Para calcular a similaridade
entre as palavras, utilizou-se as mtricas Levenshtein, Metaphone e Soundex para
correo automtica de erros de digitao. Analisando as trs mtricas utilizadas,
observou-se a tcnica de Levenshtein apresentou preciso bem aqum das demais
tcnicas, apesar de ter apresentado a melhor abrangncia. As demais tcnicas,
mesmo tendo uma boa preciso, obtiveram uma abrangncia pouco significativa
(entre 3% e 7%).
O terceiro e ltimo artigo analisado dentro da problemtica de correo
automtica foi o Kinoshita et al. (2007) que apresentaram o CoGrOO Corretor
Gramatical para o OpenOffice. Os autores compararam o CoGrOO com o ReGra,
corretor gramatical do editor de texto Microsoft Word, detectaram 7 erros em comum.
CoGrOO detectou 8 erros que o Regra no detectou, por outro lado, o Regra
detectou 7 que o CoGrOO no. Os autores concluem que a arquitetura do CoGrOO
hbrida e mescla o uso de regras simblicas e estatsticas com aprendizado de
mquina baseado em treinamento com corpus anotado.

4.2.2.6. Ferramentas utilizadas e corpora

A partir dessa anlise foi possvel identificar as ferramentas
computacionais utilizadas pelos autores dos artigos analisados durante a realizao
dos experimentos. Uma sntese desses recursos apresentada na TAB. 14.

TABELA 14
Ferramentas utilizadas pelos artigos submetidos anlise de contedo

Ferramenta Descrio Citado em Problemtica
PreText
Matsubara, Monard e Batista (2004) Recuperao de Informao
Braga, Monard e Matsubara (2009) Recuperao de Informao
Martins, Monard e Matsubara (2003) Recuperao de Informao
PALAVRAS
(BICK, 2000)
Silva e Vieira (2007) Recuperao de Informao
Silva, Vieira e Osorio (2005) Recuperao de Informao
Caminada, Quental e Garrao (2008) Recuperao de Informao
Seno e Nunes (2009) Sumarizao
Bonfante e Nunes (2002) Analisadores (parser)
Algoritmo de Porter
239
Braga, Monard e Matsubara (2009) Recuperao de Informao
Ferramenta WEKA
Leite e Nunes (2006) Sumarizao
Specia, Stevenson e Nunes (2007) Tratamento de Ambiguidade
Ferramentas
CHAMA
e FORMA
Moraes e Strube De Lima (2007) Recuperao de Informao
SENTER
Seno e Nunes (2008) Recuperao de Informao
Aziz, Pardo e Paraboni (2008) Traduo
Clusterizao
incremental
Singlepass
Seno e Nunes (2008) Recuperao de Informao
Palavras Xtractor Silva, Vieira e Osorio (2005) Recuperao de Informao
Apertium
Villavicencio, Caseli e Machado (2009) Recuperao de Informao
Caseli e Nunes (2006) Traduo
Translation
Corpus Aligner
(TCAligner)
Villavicencio, Caseli e Machado (2009) Recuperao de Informao
Caseli, Nunes e Forcada (2005) Traduo
Base de sinnimos Tep
1.0
(MAZIERO et al., 2008)
Gerador de formas
superficiais
(CASELI, 2007)
sistema jNina (PEREIRA
e PARABONI, 2007)
Alinhador lexical LIHLA
Caseli, Nunes e Forcada (2005) Traduo
Caseli et al (2008) Traduo
Visual Interactive
Syntax Learning (VISL)
Rossi et al. (2001) Tratamento de Ambiguidade
Tradutor Systran(SYS)
Alves e Chishman (2004) Tratamento de Ambiguidade
Specia e Nunes (2004) Tratamento de Ambiguidade
Tradutor Free Translator
(FTR)
Specia e Nunes (2004) Tratamento de Ambiguidade
Tradutor Micro Power
Delta Translator 2.0
(DT)
Tradutor L&H Power
Translator Pro (PTP)
Software Part-of-Speech
(BRILL, 1992)
Larocca Neto et al. (2000) Sumarizao
Tokennizer (ALUSIO;
AIRES, 2000)
Souza, Pereira e Nunes (2001) Sumarizao
Tagger (ALUSIO;
AIRES, 2000)
Algoritmo Extractor
(TURNEY, 1999 )
Sistema Rullee Specia, Nunes e Stevenson (2005) Tratamento de Ambiguidade
Sistema Sniffer Specia, Nunes e Stevenson (2005) Tratamento de Ambiguidade
Ambiente Discover Specia, Nunes e Stevenson (2005) Tratamento de Ambiguidade
240
Sistema Aleph ILP Specia, Stevenson e Nunes (2007) Tratamento de Ambiguidade
Lematizador Minipar Specia, Stevenson e Nunes (2007) Tratamento de Ambiguidade
Etiquetador Mxpost Specia, Stevenson e Nunes (2007) Tratamento de Ambiguidade
Ferramenta NATools Caseli, Nunes e Forcada (2005) Traduo
ISI ReWrite Decoder
Tool
CMU - Cambridge Tool
Kit
Lcio-Web Aluisio et al. (2004) Aplicaes para a prpria rea
Lcio-Ref Aluisio et al. (2004) Aplicaes para a prpria rea
Lcio-Dev Aluisio et al. (2004) Aplicaes para a prpria rea

Analisando o material emprico usado nos artigos submetidos anlise de
contedo, foi possvel observar que no desenvolvimento de pesquisas na rea de
PLN, alguns autores optaram por construir bases de documentos especificamente
para os experimentos realizados no prprio trabalho, enquanto que outros optaram
por reutilizar alguma base de pesquisas anteriores.
Observou-se que 60% dos trabalhos que utilizaram um corpus de
documentos, optaram por reutilizar algum construdo em trabalhos anteriores,
enquanto que 40% foram construdos especificamente para o trabalho analisado.
Alm disso, constatou-se que medida que a rea foi se desenvolvendo, os corpora
passaram a ser reutilizados com maior frequncia: a primeira ocorrncia de
reutilizao de corpus foi observada em trabalhos publicados no ano de 2.000, e a
partir do ano 2.002, 80% dos trabalhos que fizeram uso de corpus, o fizeram de
algum outro conhecido.
Na TAB. 15, apresentado o catlogo de recursos disponveis para o
desenvolvimento de pesquisas na rea de PLN, que foram citados nos artigos
analisados. Para cada corpus, so apresentados, alm do nome, uma pequena
descrio, o idioma e as referncias das publicaes que o utilizaram. Os corpora
foram listados obedecendo a ordem de citao: do mais antigo para o mais recente.

241
TABELA 15
Corpora de documentos utilizados pelos artigos submetidos anlise de contedo

Corpus Idioma Citado em
Penn Treebank ingls Jose Neto e Menezes (2000)
Tycho Brahe portugus Jose Neto e Menezes (2000)
Base de documentos TIPSTER ingls Larocca Neto et al. (2000)
P.G.R. - Portuguese General
Attorney Opinions
portugus Gamallo, Agustini e Lopes (2001)
Theses Corpus (PARDO, 2002) portugus Pardo e Rino (2002)
corpus do NILC Ncleo
Interdisciplinar de Lingustica
Computacional
portugus
Bonfante e Nunes (2002)
Martins, Monard e Matsubara (2003)
Gasperin e Strube de Lima (2003)
Oliveira, Garrao e Amaral (2003)
Silva, Vieira e Osorio (2005)
Seno e Nunes (2009)
CETENfolha portugus Alves e Chishman (2004)
ZERO Hora (Brasil) portugus Alves e Chishman (2004)
CETENpublico portugus Alves e Chishman (2004)
COMPARA (Portugal) portugus
Alves e Chishman (2004)
Specia, Nunes e Stevenson (2005)
TeMrio portugus
Rino et al. (2004)
Rino e Seno (2006)
Rhetalho portugus Rino e Seno (2006)
TREC2002 (Text REtrieval
Conference)
ingls Pardo, Marcu e Nunes (2005)
CorpusFAPESP
portugus
ingls
espanhol
Caseli, Nunes e Forcada (2005)
Aziz, Pardo e Paraboni (2009)
Documentos da CLEF - Cross
Language Evaluation Forum
portugus Balage Filho et al. (2006)
PLN-BR CATEG portugus Moraes e Strube de Lima (2007)
Senseval-3 ingls Specia, Stevenson e Nunes (2007)
Biblioteca Digital da ACM ingls Salles et al. (2009)
Base de dados MedLine ingls Salles et al. (2009)

242

5. Concluso
A Plataforma Lattes do CNPq permitiu ter uma viso panormica da
produo cientfica nacional na rea de processamento de linguagem natural. No
entanto, fez-se necessrio discutir as dificuldades encontradas durante essa coleta.
A maioria dos problemas encontrados est relacionada inconsistncia dos dados
fornecidos pelos prprios pesquisadores. O pesquisador muitas vezes no imagina
que a Plataforma Lattes pode ser usada como fonte de pesquisa para caracterizar
uma rea, ou mesmo uma instituio. Algumas inconsistncias foram identificadas
por processo automtico, sendo que a correo na maioria das vezes foi feita
manualmente. Apesar desses obstculos, no se imagina uma fonte alternativa que
seja melhor, ou pelo menos, similar a Plataforma Lattes para fornecer um retrato da
pesquisa nacional.
Diante do volume de publicaes obtidas a partir dos currculos
cadastrados na plataforma tornou-se fundamental construir um parmetro conceitual
que permitisse identificar a produo nacional sobre processamento de linguagem
natural. A construo desse instrumento de seleo automtica permitiu minimizar
as interferncias intrnsecas em um processo manual de indexao. Assim procurou-
se voltar o olhar para pesquisas sabidamente reconhecidas, e usar esse
reconhecimento como garantia literria do critrio. Neste sentido, a anlise de
assunto realizada em onze captulos de reviso do ARIST propiciou a elaborao de
um parmetro conceitual de atinncia para a rea de processamento de linguagem
natural. Tendo em vista que este processo impregnado de subjetividade, tcnicas
estatsticas foram aplicadas com o intuito de avaliar a qualidade do instrumento
criado.
As publicaes consideradas atinentes foram submetidas a uma anlise
horizontal, baseando-se apenas nas suas caractersticas descritivas, obtidas na
Plataforma Lattes. No entanto, para que os objetivos desta tese fossem alcanados,
era imprescindvel adentrar no contedo dessas publicaes, para caracterizar a
produo nacional sobre processamento de linguagem natural. Assim, por meio de
critrios estatsticos, definiu-se uma amostra representativa de documentos que foi
submetida anlise de contedo. Essa anlise permitiu aprofundar em temticas
que as caractersticas descritivas das publicaes, aquelas coletadas dos currculos
243

da Plataforma Lattes, no permitiriam revelar. Essa amostra de publicaes foi
obtida considerando-se todo o perodo produtivo dos pesquisadores cadastrados na
Plataforma Lattes, sem descartar as mais antigas, mas priorizando a atualidade
(anos 2.000), por incluir a maioria das publicaes.
Apesar da importncia inegvel de se aprofundar nas publicaes
selecionadas, a anlise horizontal apresentou alguns fatos que confirmaram
algumas hipteses, ou apresentaram constataes desafiadoras.
Ao analisar todas as publicaes atinentes para a rea de PLN, pode-se
observar que a rea passou por um boom no incio dos anos 2.000, sendo que a
grande maioria (70%) da produo cientfica foi publicada depois deste marco.
Analisando a rea de vinculao dos autores, foi possvel observar que 64% das
publicaes envolveram pesquisadores de vrias reas.
A participao da cincia da informao na rea de PLN muito modesta,
sendo que a cincia da computao e a lingustica justas foram responsveis por
quase 85% da produo nacional. Alm disso, na dcada de oitenta a cincia da
computao foi o campo disciplinar mais produtivo na rea de PLN, enquanto que a
dcada de noventa foi a mais produtiva para a lingustica. A cincia da informao,
na dcada de noventa, recuou a sua contribuio para a rea tentando recompor
nos anos 2.000.
Analisando as personalidades nacionais que mais publicaram na rea de
PLN, pode-se observar que doze pesquisadores foram responsveis por mais de
20% de toda a produo nacional, sendo que dentre eles, nove so da cincia da
computao, dois da lingustica, e um da engenharia eltrica. Ou seja, dentre a
elite de pesquisadores na rea de PLN no se encontra nenhum pesquisador
declaradamente da cincia da informao. Alm disso, vale destacar que dentre
esses doze pesquisadores, sete fazem parte do grupo de pesquisa NILC formado
por cientistas da computao e da lingustica da USP, UFScar e UNESP.
Dentre as problemticas mais abordadas, foi possvel observar que: a
traduo foi intensamente abordada na dcada de 90; os estudos com indexao
diminuram consideravelmente a partir da dcada de 80; e que as pesquisas sobre
classificao passaram por um perodo de dormncia na dcada de 90; e que existe
uma tendncia clara na rea de PLN de desenvolvimento de pesquisas em
sumarizao automtica.
244

Outro aspecto que a pesquisa revelou foi que a cincia da informao tem
priorizado as pesquisas em indexao automtica, seguido da anlise de contedo.
J a cincia da computao tem priorizado as pesquisas em traduo e
sumarizao, enquanto que a lingustica no tem priorizado o desenvolvimento de
aplicaes e sim de estudo relacionados ao lxico, o que sugere que os trabalhos da
lingustica tenham um cunho mais terico.
Ao adentrar nos trabalhos selecionados foi possvel constatar uma
consequncia natural do processo de amadurecimento no qual as pesquisas tendem
a passar: as bases de documentos utilizadas em experimentos prticos comearam
a ser reutilizadas com maior frequncia. Aps o ano 2.002, 80% dos trabalhos que
fizeram uso de corpus, fizeram-no reutilizando-o de algum outro trabalho. Alm
disso, depois dos anos 2.000, a maioria das publicaes analisadas (74%)
apresentou experimentos prticos, o que sugere que as pesquisas na rea de PLN,
ao longo dos anos, tm apresentado um enfoque mais experimental, refletindo a
forte insero da rea da cincia da computao. Observou-se tambm que a
grande maioria (86%) dos trabalhos que apresentaram experimentos, tinha pelo
menos um autor da computao, enquanto que, dos artigos que possuam pelo
menos um autor da lingustica, a maioria (70%) no apresentou experimentos
prticos. Outro aspecto interessante que a anlise vertical permitiu avaliar foi os
mtodos de avaliao adotados nos trabalhos: observou-se que uma pequena
parcela (35%) dos trabalhos fez uso de mtodos automticos de avaliao,
enquanto que a maioria (65%) apresentou algum processo de validao manual,
com verificao humana dos resultados obtidos. Como j era de se esperar, a
maioria dos trabalhos analisados (65%) foi desenvolvida para o portugus, enquanto
que 20% eram para o ingls, e 15% para abordagens genricas (ou seja,
independente da linguagem natural foco).
Dentre os artigos sorteados para anlise de contedo, nenhum deles foi
escrito por pesquisadores da cincia da informao, 12% possuam somente autores
da lingustica, 75% somente por autores da cincia da computao, 6% envolvendo
pesquisadores das duas reas (computao e lingustica), e 7 % de outras reas.
A anlise de contedo realizada nas 68 publicaes selecionadas permitiu
construir um substrato metodolgico para a rea de processamento de linguagem
natural para cada problemtica revelada. Dentre os artigos analisados, observou-se
245

que a recuperao de informao foi a problemtica que sem dvida teve maior
destaque na produo cientfica nacional. A grande maioria desses artigos so
trabalhos recentes, o que sugere que a rea possa estar sendo impulsionada pelo
prprio desenvolvimento da web. Alm disso, a maioria dos artigos analisados sobre
recuperao de informao est voltada para tcnicas de pr-processamento de
documentos, o que sugere que este tema ainda esteja em aberto.
Dentre as tcnicas de pr-processamento dos documentos, observou-se
que existe uma tendncia forte em representar os documentos por meio de uma
estrutura atributo-valor, que sintetiza as caractersticas extradas do documento.
Observou-se que os critrios usados para construir esta representao tem se
modificado ao longo dos anos, apesar de no estarem alcanando melhorias
significativas. Inicialmente usava-se frequncia de palavras, posio da sentena no
texto, frequncia de palavras temticas, ocorrncia de palavras-chaves, das
palavras do ttulo, dentre outras. Trabalhos mais recentes tm avaliado o uso de
categorias gramaticais (nome, verbo, e outras), palavras relacionadas (sinnimos,
hipnimos, dentre outras), relacionamento textual (dado pelo grau de coeso),
dentre outras alternativas. Alm disso, a anlise dos artigos selecionados revelou
que combinar unigramas e bigramas no tem apresentado melhorias significativas
na classificao supervisionada, nem mesmo em algoritmos semi-supervisionados,
quando comparado as estratgias tradicionais (stopwords e stemming).
Um aspecto interessante observado durante a anlise foi a possibilidade
da relevncia de um conceito mudar ao longo do tempo, visto que este ltimo uma
dimenso importante para qualquer espao informacional (SALLES et al,, 2009).
Esse aspecto foi tratado incorporando, no classificador, caractersticas temporais do
documento e da consulta do usurio. Essa preocupao no foi observada em
nenhum outro artigo analisado dentre a produo cientfica nacional, nem mesmo no
ARIST.
Ao analisar os trabalhos sobre recuperao de informao em
documentos textuais, foi possvel observar a utilizao de vrios algoritmos de
aprendizado de mquina supervisionado (tais como redes neurais, rvore de
deciso, regras de associao e SVM), no supervisionado (tais como k-means,
KNN), alm de algoritmos de aprendizado semi-supervisionado (tais como co-
training e self-training). Vale destacar tambm a utilizao recorrente de unigramas e
246

bigramas para representar os documentos, juntamente com medidas estatsticas e
categricas (substantivos, adjetivos, advrbios, nomes prprios, etc). Para o clculo
do grau de similaridade, observou-se a utilizao das medidas de Word overlap,
medidas de Jaccard, TFIDF e TFISF.
Quanto a realizao de experimentos, vale destacar que a grande maioria
dos trabalhos que abordaram recuperao de informao apresentaram
experimentos prticos e utilizaram como mtricas de avaliao pelos menos as
medidas preciso e revocao. Merece destaque o fato dos resultados obtidos em
alguns trabalhos terem sido muito ruins, em outras palavras, no apresentarem
melhorias significativas (MORAES; STRUBE DE LIMA, 2007; SALLES et al., 2009;
BRAGA; MONARD; MATSUBARA, 2009; SENO; NUNES, 2008).
Dentro da problemtica sumarizao, dos trabalhos analisados, somente
dois usaram a abordagem profunda e produziram sumrios, o que sugere que a
maioria das pesquisas em sumarizao automtica tem privilegiado a abordagem
emprica (para gerar extratos), alternando-se diferentes caractersticas extradas dos
textos. Mais uma vez, merece destaque o fato de todos os artigos analisados
apresentarem experimentos prticos, mas alguns com resultados pouco expressivos
(RINO; NUNES, 2003; RINO et al., 2004; RINO; SENO, 2008; AZIZ; PARDO;
PARABONI, 2009).
O tratamento de ambiguidade, por sua vez, foi alvo de pesquisa por
todo o perodo analisado, o que talvez sinalize para uma impossibilidade de a
linguagem natural ser interpretada completamente por mtodos automticos. Os
prprios autores analisados destacaram que, o problema da homonmia gramatical
resolvido facilmente por sistemas computacionais, mas o mesmo no acontece com
outros problemas da ambiguidades, tais como homonmia semntica e a polissemia.
Os trabalhos analisados que abordaram o tratamento da ambiguidade no
apresentaram experimentos prticos com exceo de dois trabalhos de Specia,
Nunes e Stevenson de 2005 e 2007.
Das problemticas observadas, a que parece ter perdido espao foi a de
desenvolvimento de analisadores (parsers), tendo em vista o nmero de trabalhos
analisados e as datas de publicao. A maioria dos trabalhos apresenta modelos
tericos, sem a realizao de experimentos que comprovem a sua real
aplicabilidade.
247

A pesquisa em traduo automtica continua em evidncia, e dentre as
abordagens clssicas usadas pelos pesquisadores esto: a utilizao de
conhecimento lingustico para extrair regras de transferncia (traduo), de mtodos
estatsticos e de alinhamento. Os mtodos estatsticos tm sido amplamente
utilizados, mas ao compar-los com as regras de transferncias, apresentaram-se
resultados muito prximos. No entanto, a abordagem estatstica exigiu um esforo
maior para transformar a sada do sistema na traduo correta. Ao comparar
parmetros de configurao dos mtodos estatsticos de traduo automtica, a
diferena entre os resultados obtidos foi muito sutil, normalmente na terceira casa
decimal. Isso sugere que, apesar da pesquisa ter sido priorizada nos ltimos anos,
os resultados apresentados ainda so pouco expressivos.
Vale destacar que todos os trabalhos que abordaram mtodos
automticos de traduo envolvendo o portugus, utilizaram o corpus da revista de
pesquisa da FAPESP com textos paralelos escritos em portugus do Brasil
(original), e verses em ingls e espanhol. As outras bases de documentos, assim
como as ferramentas utilizadas pelos trabalhos analisados e discutidos nesta
problemtica, foram apresentadas para compor um framework da pesquisa em
processamento de linguagem natural. Assim, espera-se que esta tese seja usada
como ponto de partida para aqueles que almejarem aventurar-se pela rea de PLN.
Diante dos resultados que emergiram da anlise de contedo das
publicaes analisadas, alguns resgates no ARIST se fazem oportunos. Walker no
captulo de 1973 afirmou que inmeros linguistas estavam questionando no
somente a relevncia dos resultados das pesquisas, como tambm a existncia de
tais resultados. Alguns trabalhos analisados apontam nesta direo: dificuldade de
se obter resultados que reflitam melhorias significativas (MORAES; STRUBE DE
LIMA, 2007; PARDO; RINO; NUNES, 2003; AZIZ; PARDO; PARABONI, 2008).
Simmons no captulo de 1966 afirmou que o principal problema ainda no
resolvido das pesquisas de classificao era utilizar a abordagem estatstica para
classificar no apenas 500 e sim 50 mil ou 150 mil linhas. Os resultados
apresentados sugerem que essa dificuldade j foi contornada diante dos vrios
trabalhos que apresentam testes envolvendo milhares de documentos e milhes de
palavras (CAMINADA; QUENTAL; GARRAO, 2008; SALLES et al., 2009; SENO;
NUNES, 2009).
248

Damerau em seu captulo de 1976 considerou o analisador (parser) como
sendo um dos principais componentes de um sistema de processamento automtico
de linguagem e que continuaria sendo um tema substancial de pesquisas. Os artigos
analisados mostraram que o tema foi priorizado no final dos anos 90 e incio dos
anos 2.000, mas no apresentaram experimentos prticos.
Warner em seu captulo de reviso 1987 questionou se seria possvel
construir um sistema de linguagem natural completamente robusto, e em que
medida este eventual sucesso dependeria de boas prticas de engenharia, e do
conhecimento de processos cognitivos humanos. Diante dos resultados desta tese,
cabe incluir outro questionamento: em que medida tal sucesso dependeria da
prpria linguagem. Em outras palavras, ser que a linguagem natural, com suas
especificidades, permite que mtodos completamente automticos sejam robustos
no processo de reconhecimento de, por exemplo, regionalismos e grias?
Simmons no primeiro captulo de reviso do ARIST analisado (de 1966)
afirmou que traduo automtica era um objetivo distante de ser alcanado.
Chowdhury, autor do ltimo captulo de reviso do ARIST sobre PLN (de 2003)
afirmou que o projeto de sistemas de traduo automtica um trabalho duro, e que
tal problema estaria longe de ser resolvido. A partir dos trabalhos analisados,
observa-se que inegvel o desenvolvimento alcanado pelas pesquisas em
traduo automtica, o que pode ser comprovado pela existncia de vrios
tradutores publicados e reutilizados (ALVES; CHISHMAN, 2004), apesar dos
resultados alcanados ainda serem merecedores de novas investidas.
Simmons, em 1966, afirmou que apesar de um progresso significativo ter
sido feito em pesquisas em respondedores automticos, sistemas de perguntas e
respostas em linguagem natural completamente automticos era um objetivo muito
distante, alm de depender da realizao de toda a rea de processamento de
linguagem. Dentre os trabalhos analisados, nenhum abordou diretamente o
desenvolvimento de respondedores automticos, apenas avaliou a utilizao de um
sumarizador (gerador de extratos) na tarefa de responder perguntas (BALAGE
FILHO et al., 2006).
Embora as pesquisas estejam ocorrendo em campos diferentes da CI,
verificou-se que os estudos feitos devem ser conhecidos, pois podem contribuir com
a rea. Dentre os trabalhos analisados, merecem ser destacados: sobre
249

categorizao (SILVA; VIEIRA, 2007), sobre minerao de texto (SILVA; VIEIRA;
OSORIO, 2005), sintagmas nominais (ROSSI et al., 2001; OLIVEIRA; GARRAO;
AMARAL, 2003), ndices para termos indexadores (ZIVIANE; ALBUQUERQUE,
1987), identificao de autoridades (MILIDIU, DUARTE; CAVALCANTE, 2007) e
textos similares (SENO; NUNES, 2008). Novas exploraes devem ser feitas pela CI
no sentido de adequao dos sistemas de recuperao de informao ao contexto
da web semntica considerando a presena, cada vez mais expressiva, de acesso a
textos completos.
Alm disso, a cincia da informao pode e deve se beneficiar das
ferramentas computacionais desenvolvidas no mbito das pesquisas em PLN,
aplicando-as nos processos clssicos de catalogao e posterior recuperao nos
centros informacionais, assim como na concretizao de modelos abstratos de
representao de informao inerentes ao campo. Por outro lado, os resultados
obtidos no escopo desta tese, deixa no ar uma questo inerente a exiguidade de
processos completamente automticos envolvendo linguagem natural, visto que
cada vez mais, bases previamente analisadas, principalmente manualmente, tm
sido utilizadas em etapas de aprendizado, o que torna o desenvolvimento
engessado e dependente de esforo manual.
Finalmente, vale destacar que no escopo desta tese no se esgotaram as
possibilidades de discusso e ainda h muito que ser explorado. A partir do material
emprico focalizado, outras dimenses de anlise podem ser definidas e exploradas
futuramente. Como trabalho futuro, o instrumento de seleo elaborado pode ser
reformulado, retirando-se a faceta computacional para investigar como a cincia da
informao tem abordado a linguagem natural e a representao documentria.
250
REFERNCIAS
ALUISIO, S. M. ; PINHEIRO, Gisele Montilha ; MANFRIN, Aline P M ; OLIVEIRA, Leandro H M de ;
GENOVES JR, Luiz C ; TAGNIN, Stella E O . The Lacio-Web: Corpora and Tools to Advance
Brazilian Portuguese Language Investigations and Computational Linguistic Tools. IN: 4th
International Conference on Language Resources and Evaluation (LREC 2004), 2004, Lisboa.
Proceedings of The 4th International Conference on Language Resources and Evaluation,
2004. v. 5. p. 1779-1782.
ALVES, Isa Mara da Rosa ; CHISHMAN, R. L. O. . A Ambiguidade e a Traduo Automtica: uma
anlise do desempenho. IN: III Colquio Anual de Lusofonia, 2004, Bragana. Anais do II
Colquio Anual de Lusofonia, 2004. v. 1.
AZIZ, W. F. ; PARDO, T. A. S. ; PARABONI, I. . An Experiment in Spanish-Portuguese Statistical
Machine Translation. In: 19th Brazilian Symposium on Artificial Intelligence (SBIA-2008),
2008, Salvador, Brasil. Springer Lecture Notes in Artificial Intelligence. v. 5249. p. 248-257.
AZIZ, W. F. ; PARDO, T. A. S. ; PARABONI, I. . Fine-tuning in Portuguese-English Statistical Machine
Translation. In: 7th Brazilian Symposium in Information and Human Language Technology
(STIL-2009), 2009, So Carlos, Brasil. Proceedings of STIL-2009, 2009.
BAEZA-YATES, R.; RIBEIRO-NETO, B., Modern Information Retrieval. Addison-Wesley, 1999.
BALAGE FILHO, P. P ; UZEDA, V. R. ; PARDO, Thiago Alexandre Salgueiro ; NUNES, Maria das
Graas Volpe . Experiments on applying a text summarization system for question answering.
In: Cross Language Evaluation Forum 2006 Workshop, 2007, Alicante. Lecture Notes in
Computer Science. Berlin Heidelberg : Springer-verlag, 2006. v. 4730. p. 372-376.
BARCIA, R. M. ; HOESCHL, HUGO ; MATTOS, EDUARDO DA SILVA ; BUENO, TANIA CRISTINA
D'AGOSTINI ; GRESSE VON WANGENHEIM, C. . Uso da Teoria Jurdica para Recuperao
em amplas bases de textos jurdicos. In: Encontro Nacional de Inteligncia Artificial, 1999, Rio
de Janeiro. Anais do XIX Congresso Nacional da Sociedade Brasileira de Computao. Rio
de Janeiro : Edies Entrelugar, 1999. v. 4. p. 107-120.
BARDIN, Laurence. Anlise de contedo. Lisboa: Edies 70; 1977.
BARROS, F. A. . Semi-automatic Anaphora Resolution in Portable Natural Language Interfaces. In:
XIII Brazilian Symposium on Artificial Intelligence (sbia'96), 1996, curitiba. Lecture Notes in
Artificial Intelligence. berlim : springer, 1996. v. 1159. p. 121-130.
BECKER, David, Automated Language Processing, Annual Review of Information Science and
Technology, Vol. 16, Pg. 113-138, 1981.
BERBER SARDINHA, TONY . Estudo baseado em Corpus da Padronizao Lexical no Portugus
Brasileiro: colocaes e perfis semnticos. In: PROPOR'99. IV Encontro para o
Processamento Computacional da Lngua Portuguesa Escrita e Falada, Evora, 1999, p. 269-
287.
BERBER SARDINHA, TONY . Prosdia Semntica na Traduo do Portugus e Ingls: um estudo
baseado em corpus. In: V PROPOR - Encontro para o Processamento Computacional da
Lngua Portuguesa Falada e Escrita, 2000, Atibaia, So Paulo. PROPOR 2000. So Carlos,
SP : ICMC/USP, 2000. p. 93-104.
BIDARRA, J. . Notas para a Especificao de um lxico computacional, baseadas em dados de
Parafasia Semntica. In: Congresso Brasileiro de Computao, II Workshop de Informtica na
251
Sade, 2002, Itaja - SC. Congresso Brasileiro de Computao - II Workshop de Informtica
na Sade, 2002.
BOBROW, D.G.; FRASER, J.B.; QUILLIAN, M.R., Automated Language Processing, Annual Review
of Information Science and Technology, Vol. 2, Pag. 161-186, 1967.
BONFANTE, A. G. ; NUNES, M. G. V. . Parsing Probabilstico para o Portugus do Brasil. In: I
Workshop de Teses e Dissertaes em Inteligncia Artificial (I WTDIA), 2002, Porto de
Galinhas - Recife. I Workshop de Teses e Dissertaes em Inteligncia Artificial (I WTDIA),
2002.
BRAGA, I. A. ; MONARD, M. C. ; MATSUBARA, E. T. . Combining Unigrams and bigrams in Semi-
supervised Text Classification. In: Portuguese Conference on Artificial Intelligence, 2009,
Aveiro. Lecture Notes in Artificial Intelligence, 2009.
BUSH, Vannevar. As we may think. Atlantic Monthly, v. 176, n. 1, p. 101-108. 1945
CAMINADA, Nuno ; QUENTAL, V. S. D. B. ; GARRAO, Milena Uzeda . Linguistic Tools Uma
Plataforma Expansvel de Funes de Consulta a Corpus. In: VI Workshop em Tecnologias
da Informao e Linguagem Humana, 2008, Vila Velha. Anais do VI Workshop em
Tecnologias da Informao e Linguagem Humana. Vila Velha : VI Workshop em Tecnologias
da Informao e Linguagem Humana, 2008.
CAMPOS LEAL, I., Anlise de citaes da produo cientfica de uma comunidade: a construo de
uma ferramenta e sua aplicao em um acervo de teses e dissertaes do PPGCI-UFMG,
Dissertao de Mestrado. Programa de Ps-graduao de Ciencia da Informao da UFMG,
2005.
CARVALHO, A. M. B. R. ; STRUBE DE LIMA, V. L. . Processamento de Lngua Natural: duas
experincias com sistemas multi-agentes. In: IX Intercmbio de Pesquisas em Lingustica
Aplicada, 1999, So Paulo. Anais do 9o. INPLA, 1999.
CASELI, H. M. ; NUNES, M. G. V. . Automatic transfer rule induction from parallel corpora. IN: 3rd
Workshop on Msc dissertations and PhD thesis in Artificial Intelligence (WTDIA2006),
Ribeiro Preto, Brazil, October 2328, Proceedings of the International Joint Conference
IBERAMIA/SBIA/SBRN 2006, 2006. p. 1-10.
CASELI, H. M. ; NUNES, M. G. V. ; FORCADA, M. L. . LIHLA: A Lexical Aligner Based on Language-
Independent Heuristics. IN: V Encontro Nacional de Inteligncia Artificial (ENIA 2005), 2005,
So Leopoldo RS. Proceedings of the V Encontro Nacional de Inteligncia Artificial , 2005.
p. 641-650.
CASELI, H. M. ; PARDO, T. A. S. ; GOMES, F. T. ; NUNES, M. G. V. . VisualLIHLA: the visual online
tool for lexical alignment. In: VI Workshop em Tecnologia da Informao e da Linguagem
Humana, 2008, Vila Velha - ES. Proceedings of the VI Workshop em Tecnologia da
Informao e da Linguagem Humana, 2008.
CHOWDHURY, Gobinda C, Natural Language Processing, Annual Review of Information Science and
CORNELIUS, Ian. Theorizing Information for Information Science, Annual Review of Information
Science and Technology ARIST, v. 36, 2002. .
DAMERAU, Fred J., Automated Language Processing, Annual Review of Information Science and
DIAS, E. W.; NAVES, M. M. L. Anlise de assunto: teoria e prtica. So Paulo: Thesaurus, 2007.
252
DIAS-DA-SILVA, Bento Carlos ; MORAES, Helio Roberto de; OLIVEIRA, Mirna Fernanda de;
HASEGAWA, Ricardo; AMORIM, Daniela Angelucci de; PACHOALINO, Christie . Construo
de um Thesaurus Eletrnico para o Portugus do Brasil. Processamento Computacional do
Portugus Escrito e Falado, Atibaia, v. 4, p. 1-10, 2000.
FERNEDA, E. Recuperao de Informao: anlise sobre a contribuio da Cincia da Computao
para a Cincia de Informao. 2003. 137 f. Tese (Doutorado em Cincia da Informao)
Escola de Comunicaes e Artes, Universidade de So Paulo, So Paulo, 2003.
FUJITA, M. S. L.. A identificao de conceitos no processo de anlise de assunto para indexao.
Rev. Digital de Biblioteconomia e Cincia da Informao, Campinas, v. 1, n. 1, p.60-90, dez.
2003. Disponvel em: <http://dici.ibict.br/archive/00000239/>. Acesso em: 15 ago. 2009.
FUSARO, P. S. ; ZIVIANI, N. . Uma linguagem de consulta para um sistema de recuperao de
informao em texto completo. In: IX Congresso da Sociedade Brasileira de Computao,
1989, Uberlndia. Anais do IX Congresso da Sociedade Brasileira de Computao, 1989. p.
284-288.
GAMALLO, Pablo ; AGUSTINI, Alexandre ; LOPES, Jose Gabriel Pereira . Selection Restrictions
Acquisition from Corpora. In: 10th Portuguese Conference on Artificial Intelligence (EPIA),
2001, Porto. Lecture Notes in Artificial Inteligence, LNAI. Berlin : Springer Verlag, 2001. v.
2258. p. 30-43.
GASPERIN, Caroline Varaschin ; STRUBE DE LIMA, V. L. . Evaluating Automatically Computed Word
Similarity. In: PROPOR 2003, 2003, Faro - Portugal. Computational Processing of the
Portuguese Language (Lecture Notes in Artificial Intelligence). Berlin : Springer-Verlag, 2003.
v. 2721. p. 243-250.
GONZLEZ DE GMEZ, Maria Nlida. Metodologia de pesquisa no campo da cincia da informao.
DataGramaZero - Revista de Cincia da Informao, v. 1, n. 6, dez. 2000.
GONZALEZ, M. A. I. ; STRUBE DE LIMA, V. L. . Recuperao de Informao e Expanso Automtica
de consulta com thesaurus: uma avaliao. In: XXVII Conferncia Latinoamericana de
Informtica (CLEI'2001), 2001, Ciudad de Merida. CD-ROM, 2001.
GUEDES, Emanuel Guedson Ferreira. O conceito aboutness na Organizao e Representao do
Conhecimento, Dissertao de Mestrado em Cincia da Informao, Faculdade de Filosofia e
Cincias, Universidade Estadual Paulista, 90 p., 2009, disponvel em <
http://www.marilia.unesp.br/Home/Pos-Graduacao/CienciadaInformacao/Dissertacoes/
guedes_egf_me_mar.pdf>. Acesso em: 15 de fev. 2010.
GUINCHAT, Claire; MENOU, Michel. Introduo geral s cincias e tcnicas da informao e da
documentao. Braslia: MCT: CNPq: Ibict, 1994.
HAAS, Stephanie W, Natural Language Processing: Toward large-scale, robust systems, Annual
Review of Information Science and Technology, Vol. 31, Pg. 83-119, 1996.
HULLEY et al., Delineando A Pesquisa Clinica 3ed. 2006.
JOSE NETO, J. ; MENEZES, C. E. D. . Um Mtodo para a Construo de Etiquetadores Morfolgicos
Aplicado a Lngua Portuguesa, baseado em Autmatos Adaptativos. In: PROPOR 2000 V
Encontro para o Processamento Computacional da Lngua Portuguesa, 2000, Atibaia. Anais
do V Encontro para o Processamento Computacional da Lngua Portuguesa. So Carlos :
ICMS-USP, 2000. p. 53-64.
JOSE NETO, J. ; MORAES, M. . Formalismo Adaptativo Aplicado ao Reconhecimento de Linguagem
Natural. In: Conferncia Iberoamericana em Sistemas, Ciberntica e Informtica - CISCI
253
2002, Orlando - Flrida. Anais da Conferncia Iberoamericana em Sistemas, Ciberntica e
Informtica - CISCI, 2002.
JULIA, R. M. S. ; SEABRA, J. R. ; SEMEGHINI-SIQUEIRA, I. . An Intelligent Parser that Automatically
Generates Semantic Rules during Syntatic and Semantic Analysis. In: IEEE International
Conference on Systems, Man and Cybernetics, 1995, Vancouver. v. i. p. 806-811.
KAY, Martin; SPARCK JONES, Karen, Automated Language Processing, Annual Review of
Information Science and Technology, Vol. 6, Pag. 141-166, 1971.
KINOSHITA, J. . An Example based Machine Translation System working on trigrams. Societas
Linguistica Eropaea. 32nd Annual Meeting, ljubljana, 8-11 july, 1999. In: Societas Linguistica
Eropaea. 32nd Annual Meeting, , 1999, ljubljana, 1999.
KINOSHITA, J. ; SALVADOR, L. N. ; MENEZES, C. E. D. ; SILVA, W. D. C. M. . COGROO - An
Openoffice Grammar Checker. In: International Conference on Intelligent Systems Design and
Applications, 2007, Rio de Janeiro - Brasil. ISDA'07 - Seventh Iternational Conference on
Intelligent Systems Design and Applications, 2007. p. 525-530.
LANCASTER, Frederick Wilfrid. Indexao e resumos: teoria e prtica. Traduo de Antonio Agenor
Briquet de Lemos. Braslia: Briquet de Lemos/Livros, 2003.
LAROCCA NETO, J. ; SANTOS, A. D. ; KAESTNER, C. A. A. ; FREITAS, A. A. ; NIEVOLA, J. C. . A
Trainable Algorithm for Summarizing News Stories. In: PKDD'2000 Workshop, 2000, Lyon,
France. . Proc. PKDD'2000 Workshop on Machine Learning and Textual Information Access,
2000.
LE COADIC, Yves-Franois. A cincia da informao. Braslia: Briquet de Lemos/Livros, 1996.
LEFFA, V. J. . O uso do dicionrio eletrnico na compreenso do texto em lngua estrangeira. In:
Anais do XI Congresso da Sociedade Brasileira de Computao, 1991. Santos, SP. p. 187-
200.
MARTINS, Claudia A ; MONARD, M. C. ; MATSUBARA, E. T. . Reducing the Dimensionality of Bag-
of-words Text Representation used by Learning Algorithms. In: Artificial Intelligence and
Applications, 2003, Espanha. Proceedings AIA 2003. EEUU : Acta Press, 2003. v. 1. p. 49-58.
MASCARENHAS SILVA, F. Organizao da informao em sistemas eletrnicos abertos de
Informao Cientfica & Tecnolgica: Anlise da Plataforma Lattes., Tese de Doutorado,
Escola de Comunicaes e Artes da USP, 2008, Acessado em maro de 2010, disponvel em
WWW.teses.usp.br/teses/disponiveis/27/27151/tde-17032008-095556/publico/lattes.pdf
MATSUBARA, E. T. ; MONARD, M. C. ; BATISTA, G. E. A. P. A. . Aprendizado Semi-Supervisionado
Multi-Viso para a Classificao de Bases de Texto . IN: Workshop in Artificial Intelligence,
2004, Arica. Jornadas Chilenas de Computacion. Arica : Sociedad Chilena de Ciencias de la
Computacion, 2004. v. 1. p. 1-9.
MIRANDA, Antonio; BARRETO, Aldo de Albuquerque. Pesquisa em cincia da informao no Brasil:
sntese e perspectiva. Revista de Biblioteconomia de Braslia, Braslia, v.23/24, n.3, p. 277-
292, 2000.
MONTGOMERY, Christine A., Automated Language Processing, Annual Review of Information
Science and Technology, Vol. 4, Pag. 145-174, 1969.
MORAES, S. M. W. ; STRUBE DE LIMA, V. L. . Um estudo sobre Categorizao Hierrquica de uma
grande coleo de textos em Lngua Portuguesa. In: V Workshop em Tecnologia da
254
Informao e da Linguagem Humana, 2007, Rio de Janeiro. Anais do Congresso da
Sociedade Brasileira de Computao. Rio de Janeiro, 2007. v. 1. p. 1659-1668.
MORAIS, E. A. M. ; AMBROSIO, A. P. . Automatic Domain Classification of Jurisprudence
Documents. In: EATIS 2008 - Euroamerican Conference on Telematics and Information
Systems, 2008, Aracaju - SE. Anais do EATIS 2008, 2008.
MUELLER, S. P. M. e PERCEGUEIRO, C. M. P. A, O peridico Cincia da Informao na dcada de
90: um retrato da rea refletido em seus artigos, Cincia da Informao, vol.30 no.2 Braslia
May/Aug. 2001..
MUELLER, S. P. M.; CAMPELO, B. S.; DIAS, E. J. W. Disseminao da pesquisa em cincia da
informao e biblioteconomia no Brasil. Cincia da Informao, Braslia, v. 25, n. 3, p. 337-
352, set./dez. 1996.
MUELLER, Suzana P.M.; MIRANDA, Antonio; SUAIDEN, Emir. A pesquisa em Cincia da Informao
no Brasil: anlise dos trabalhos apresentados no IV ENANCIB. Revista de Biblioteconomia de
Braslia, v. 23/24, p. 293-308, 2000..
OLIVEIRA, C. M. G. M. ; GARRAO, M. U. ; AMARAL, L. A. M. . Complex Prepositions Prep+N+Prep
as Negative Patterns in Automatic Term Extraction from Texts. In: 7th Conference on
Computational Lexicography and Text Research, 2003, Budapest. Proceedings of the 7th
Conference on Computational Lexicography and Text Research, 2003.
OLIVEIRA, Itamar Leite de ; WAZLAWICK, R. S. . A Modular Connectionist Parser for Resolution of
Pronominal Anaphoric References in Multiple Sentences. In: International Joint Conference on
Neural Network, 1998, anchorage, alaska. IEEE World Conference on Computational
Intelligence - IEEE/WCCI-98, 1998. v. 2. p. 1194-1199.
PADILHA, E. G. ; VICCARI, R. M. . Morfologia da Lngua Portuguesa com Mquinas de Estados
Finitos. In: 5o. Workshop de Processamento da Lngua Portuguesa Falada e Escrita
(PROPOR-2000), 2000, Atibaia. Anais do 5o. PROPOR - Workshop de Processamento da
Lngua Portuguesa Falada e Escrita, 2000.
PARDO, Thiago A S ; MARCU, Daniel ; NUNES, M. G. V. . Um Modelo Estatstico Gerativo para o
Aprendizado No Supervisionado da Estrutura Argumental dos Verbos. IN: III Workshop em
Tecnologia da Informao e da Linguagem Humana, TIL 2005. , 2005, So Leopoldo. Anais
do XXV Congresso Brasileiro da Sociedade Brasileira de Computao (CD-ROM). So
Leopoldo : SBC, 2005. v. 1. p. 1-10.
PARDO, THIAGO A. S. ; RINO, LUCIA H MACHADO ; NUNES, M. G. V. . NeuralSumm: Uma
Abordagem Conexionista para a Sumarizao Automtica de Textos. In: Encontro Nacional
de Inteligncia Artificial, 2003, Campinas. Anais do ENIA'2003, 2003. v. 1.
PARDO, Thiago Alexandre Salgueiro ; RINO, L. H. M. . DMSumm: Um Gerador Automtico de
sumrios. In: I Workshop de Teses e Dissertaes em Inteligncia Artificial (WTDIA'2002),
2002, Porto de Galinhas - PE. anais do i WTDIA'2002. porto de galinhas - PE : UFPE e
Sociedade Brasileira de Computao, 2002. v. 1. p. 1-10.
PILTCHER, Gustavo ; BORGES, Thyago ; LOH, S. ; LITCHNOW, Daniel ; SIMOES, Gabriel .
Correo de Palavras em Chats: Avaliao de bases para Dicionrios de Referncia. IN:
Workshop de Tecnologia da Informao e Linguagem, 2005, So Leopoldo. Anais Congresso
SBC 2005, 2005. p. 2228-2237.
PINHEIRO, L. V. R. e LOUREIRO, J. M. M., Traados e limites da Cincia da Informao Cincia da
Informao, Braslia, v.24, n.1, p. 42-53, 1995.
255
PINHEIRO, Lena Vnia Ribeiro. Infra-estrutura da pesquisa em Cincia da Informao.
DataGramaZero, Rio de Janeiro, v. 1, n. 6, dez. 2000.
RINO, L. H. M. ; PARDO, Thiago Alexandre Salgueiro ; SILLA JR, Carlos Nascimento ; KAESTNER,
Celso Antonio Alves ; POMBO, M. . A Comparison of Automatic Summarization Systems for
Brazilian Portuguese Texts. IN: A. L. C. BAZZAN, S. LABIDI (eds. ), Advances in Artificial
Inteligence. XVII Brazilian Symposium on Artificial Intelligence - SBIA'04, 2004, So Luis,
Maranho. Lecture Notes in Computer Science. Germany : Springer-Verlag, 2004. v. 3171. p.
235-244.
RINO, L. H. M. ; SENO, Eloize Rossi Marques . A importncia do tratamento co-referencial para a
sumarizao automtica de textos. Estudos Lingusticos (So Paulo), v. XXXV, p. 1179-1188,
2006.
RIPOLL, L. M. B. ; MENDES, S. B. T. . Um modelo conexionista para tratamento da ambiguidade
verbal de um sub-conjunto do portugus. In: XV SEMISH - Seminrio Integrado de Software e
Hardware, 1988, Rio de Janeiro. Anais do XV SEMISH, 1988.
ROBIN, J. P. L. . Automatic Generation and Revision of Natural Language Report Summaries
Providing Historical Background. In: XI Simpsio Brasileiro de Inteligncia Artificial, 1994,
Fortaleza, CE, Brasil. p. 0-0.
ROCHA, A. F. ; GUILHERME, I. R. ; THEOTO, M. ; MIYADAHIRA, A. M. K. ; KOIZUMI, M. S. . A
neural net for extracting knowledge from natural language data bases. IEEE Transactions on
Neural Networks, v. 3, n. 5, p. 819-828, 1992.
ROCHA, R. A. ; ROCHA, B. H. S. C. ; HUFF, S. M. . Automated Translation between Medical
Vocabularies using a Frame-based Interlingua. In: Seventeenth Symposium on Computer
Applications in Medical Care, 1993, 1993. p. 690-694.
ROSA, J. L. G. . A Thematic Connectionist Approach to Portuguese Language Processing. In: Iasted
International Conference on Artificial Intelligence and Soft Computing, 1997, banff.
Proceedings of the Iasted International Conference on Artificial Intelligence and Soft
Computing, 1997.
ROSSI, D. ; PINHEIRO, Clarissa ; FEIER, Nara Bressane ; VIEIRA, Renata . Resoluo Automtica
de Correferncia em textos da Lngua Portuguesa. REIC. Revista Eletrnica de Iniciao
Cientfica, http: //www. sbc. org. br/reic/, v. 1, n. 2, p. 1-9, 2001.
SALLES, T. ; ROCHA, L. C. ; MOURAO, F. H. J. ; CUNHA, L. ; PAPPA, G. L. ; GONCALVES, Marcos
Andre ; MEIRA JUNIOR, Wagner . Classificao Automtica de Documentos Robusta
Temporalmente. In: Simpsio Brasileiro de Banco de Dados, 2009, Fortaleza. Anais do XXIV
Simpsio Brasileiro de Banco de Dados, 2009.
SALTON, Gerard, Automated Language Processing, Annual Review of Information Science and
Technology, Vol. 3, Pag. 169-199, 1968.
SARACEVIC, T.. Information science. Journal of the American Society for Information Science, 50
(12), 1051-1063.
SARACEVIC, T. Cincia da Informao: origem, evoluo, relaes. Perspectivas em Cincia da
Informao, Belo Horizonte, v. 1, n. 1, p. 41-62, jan/jun 1996.
SCHULZ, S. ; NOHAMA, P. ; BORSATO, E. P. ; MATIAS, L. J. D. . Indexao e Recuperao
Automtica de textos mdicos. In: CBIS'2002 - VIII Congresso Brasileiro de Informtica em
Sade, 2002, Natal. Anais do CBIS'2002 - VIII Congresso Brasileiro de Informtica em Sade,
2002. v. 1. p. 1-4.
256
SEMEGHINI-SIQUEIRA, Idmea. ; COSTA, A. ; COHN, P. G. . Uma Gramtica Conexionista:
Propriedades e Aplicaes. In: III Simpsio Brasileiro de Inteligncia Artificial, 1986, Rio de
Janeiro. III Simpsio Brasileiro de Inteligncia Artificial. Rio de Janeiro : IME-RJ, 1986. p. 113-
125.
SENO, Eloize R M ; NUNES, M. G. V. . Fuso Automtica de Sentenas Similares em Portugus. In:
VII Simpsio Brasileiro em Tecnologia da Informao e da Linguagem Humana, 2009, So
Carlos. STIL 2009 - Anais, 2009. p. 1-10.
SENO, Eloize R M ; NUNES, M. G. V. . Some Experiments on Clustering Similar Sentences of Texts
in Portuguese. In: International Conference on Computational Processing of the Portuguese
Language - PROPOR, 2008, Aveiro. Lecture Notes in Computer Science - Computational
Processing of the Portuguese Language. Berlin / Heidelberg : Springer, 2008. v. 5190. p. 133-
142.
SILVA, Cassiana Fagundes da ; VIEIRA, Renata ; OSORIO, Fernando Santos . Evaluating the Use of
Linguistic Information in the Preprocessing Phase of Text Mining - Iberoamerican Journal of
Artificial Intelligence. Inteligncia Artificial, Espanha, v. 9, n. 26, p. 59-66, 2005.
SILVA, Nilza Nunes, Amostragem Probabilstica, Ed. USP, 120 p., 1998.
SIMMONS, Robert F., Automated Language Processing, Annual Review of Information Science and
SOUZA, R. R., Uma proposta para metodologia para escolha automtica de descritores utilizando
sintagmas nominais, tese de Doutorado, Escola de Cincia da Informao, UFMG, 2005.
SPECIA, L. ; NUNES, Maria das Graas Volpe . Um modelo para a Desambiguao lexical de sentido
na Traduo Automtica. IN: WTDIA - Workshop de teses e dissertaes em Inteligncia
Artificial, 2004, So Luis. Anais do II Workshop de teses e dissertaes em Inteligncia
Artificial, 2004. p. 81-90.
SPECIA, L. ; NUNES, Maria das Gracas Volpe ; STEVENSON, Mark . Mining rules for Word Sense
Disambiguation. IN: III TIL - Workshop em Tecnologia da Informao e da Linguagem
Humana, 2005, So Leopoldo. Anais do III TIL - Workshop em Tecnologia da Informao e da
Linguagem Humana, 2005.
SPECIA, L. ; STEVENSON, Mark ; NUNES, Maria das Gracas Volpe . Learning Expressive Models for
Word Sense Disambiguation. IN: ACL-2007 - 45th Annual Meeting of the Association for
Computational Linguistics, 2007, Prague. Proceedings of the 45th Annual Meeting of the
Association for Computational Linguistics, 2007.
STRUBE DE LIMA, V. L. . Tratamento automatizado da lngua natural: rumo a correo automtica?.
Letras de hoje, Porto Alegre, v. 25, n. 4, p. 41-56, 1990.
VILLAVICENCIO, ALINE . Representing a System of Lexical Types using Default Unification. In:
Meeting of the European Chapter of the Association for Computational Linguistics (EACL-99),
1999, Bergen. Proceedings of European Chapter of the Association for Computational
Linguistics (EACL-99). bergen, 1999.
WALKER, Donald E., Automated Language Processing, Annual Review of Information Science and
WARNER, A.J., Natural Language Processing, Annual Review of Information Science and
WITTEN; I. et al.. Managing Gigabytes. Morgan Kaufmann Publishers, Inc. Second Edition. 1999.
257
WIVES, L. K. Utilizando conceitos como descritores de textos para o processo de identificao de
conglomerados (clustering) de documentos, tese de Doutorado, Universidade Federal do Rio
Grande do Sul, 2004.
ZAVAGLIA, C. . Homonmia no Portugus: tratamento semntico segundo a estrutura Qualia de
Pustejovsky com vistas a implementaes computacionais. Revista Alfa, v. 42, n. 47, p. 77-
99, 2003.
ZIVIANI, N. ; ALBUQUERQUE, L. C. A. . Um novo mtodo eficiente para recuperao em textos. In:
VII Congresso da Sociedade Brasileira de Computao, 1987, Salvador. Anais do VII
Congresso da Sociedade Brasileira de Computao, 1987. p. 175-187.
258

APNDICE A ARTIGOS DE REVISO DO ARIST ANALISADOS
Para a construo do critrio de seleo automtica das publicaes atinentes
rea de PLN, os onze artigos de reviso listados a seguir foram analisados.
Chowdhury, Gobinda C, Natural Language Processing, Annual
Review of Information Science and Technology, Vol. 37, Pg.
51-89, 2003.
Haas, Stephanie W, Natural Language Processing: Toward large-
scale, robust systems, Annual Review of Information Science
and Technology, Vol. 31, Pg. 83-119, 1996.
Warner, A.J., Natural Language Processing, Annual Review of
Information Science and Technology, Vol. 22, Pg. 79-108,
1987.
Becker, David, Automated Language Processing, Annual Review of
Information Science and Technology, Vol. 16, Pg. 113-138,
1981.
Damerau, Fred J., Automated Language Processing, Annual Review
of Information Science and Technology, Vol. 11, Pg. 107-161,
1976.
Walker, Donald E., Automated Language Processing, Annual
Review of Information Science and Technology, Vol. 8, Pag. 69-
119, 1973.
Kay, Martin; Jones, Karen Sparck,Automated Language
Processing, Annual Review of Information Science and
Montgomery, Christine A., Automated Language Processing,
Annual Review of Information Science and Technology, Vol. 4,
Pag. 145-174, 1969.
Salton, Gerard, Automated Language Processing, Annual Review
of Information Science and Technology, Vol. 3, Pag. 169-199,
1968.
Bobrow, D.G.; Fraser, J.B.; Quillian, M.R., Automated Language
Processing, Annual Review of Information Science and
Simmons, Robert F., Automated Language Processing, Annual
Review of Information Science and Technology, Vol. 1, Pg.
137-169, 1966.
259

APNDICE B - LISTA DOS TERMOS INDEXADORES
Os termos indexadores usados no critrio de seleo automtica esto listados a seguir, conforme codificados no programa
desenvolvido pela doutoranda no escopo desta tese. Para cada termo, utilizou-se tambm as variaes de nmero e idioma (para
o ingls).
Conceitos Computacionais Conceitos Lingusticos Aplicaes Tcnicas/Mtodos
automatico
computacional
sistema
inteligencia artificial
processamento
tecnologia
parser
algoritmo
redes neurais
implementacao
arvore
grafo
inferencia
portugues
linguagem natural
palavra
linguistica
lexical
verbo
ingles
adjetivo
pronome
adverbio
ambiguidades
sufixo
homografo
sintagmas
morfema
sinonimo
antonimo
hiponimia
meronimia
traducao
sumarizacao
indexacao
classificacao
recuperacao
stemming
etiquetagem
respondedor
analise de conteudo
spelling
analise de estilo
analise de discurso
lexico
gramatica
parser
corpus
dicionario
thesauro
analise de radicais
palavra-chave

Tese Anapaulaladeira PLN Brasil

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tese Anapaulaladeira PLN Brasil

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDADE FEDERAL DE MINAS GERAIS

ESCOLA DE CINCIA DA INFORMAO

S-ar putea să vă placă și