Sunteți pe pagina 1din 36

Transduo de sentimentos de textos

escritos em Ingls para textos escritos em


Portugus usando Redes Complexas

George Narita Vilarinho


Orientador: Prof. Dr. Evandro Eduardo Seron Ruiz

Departamento de Computao e Matemtica

Faculdade de Filosofia, Cincias e Letras de Ribeiro Preto


Universidade de So Paulo
Ribeiro Preto,Brasil
30 de junho de 2017
RESUMO

As aplicaes web proporcionam aos indivduos conectados rede mecanismos


de expresso de ideias e pensamentos de forma livre e espontnea, formando o que
conhecemos por contedo gerado pelo usurio (CGU). Esse conjunto de dados
considerado como uma valiosa fonte de opinies e h mais 15 anos tem sido objeto
de estudo da rea de Anlise de Sentimento que visa a extrao de conhecimentos
a partir desses dados. Este trabalho tem como foco a anlise de sentimento sobre
textos em Portugus, uma das lnguas pouco exploradas pelos trabalhos cientficos
da rea. Faremos uso da abordagem de Anlise de Sentimentos utilizando Grafos
de Palavras com o objetivo de avaliar se os mecanismos de representao de frases
usando redes complexas e suas medidas de centralidade so consistentes na anlise
e transduo de sentimentos em textos escritos em Ingls para o Portugus. Para a
classificao do sentimento expresso nos textos que sero utilizados neste trabalho,
iremos considerar uma mtrica chamada de similaridade entre redes, um compilado
de cinco medidas de centralidade de grafos, so elas: centralidade de grau, Katz,
intermediao, autovetor e PageRank. Acreditamos que o uso em conjunto dessas
medidas poder nos fornecer uma anlise de sentimento mais confivel ao invs de
se utilizar apenas uma delas.

1
Captulo 1
Fundamentao Terica

Este captulo apresenta os principais conceitos-chave necessrios para uma me-


lhor compreenso do projeto, bem como os trabalhos relacionados pertencentes
rea de Anlise de Sentimento e classificao baseada em grafos.

1.1 Recuperao da Informao

O imenso e rpido avano tecnolgico dos ltimos 20 anos permitiu que as pes-
soas pudessem ter fcil acesso informao e se mantivessem conectadas umas com
as outras, 24 horas por dia. Pode-se considerar esse avano, um facilitador tec-
nolgico que incentiva a criao de uma gigantesca quantidade de dados, de fcil
armazenamento, provindos de usurios em contato com a tecnologia [3]. O conjunto
de todos esses dados chamado de contedo gerado pelo usurio (CGU), o qual
contm uma enorme diversidade de tipos de informaes como vdeos, imagens, sons
e principalmente textos [25].
O CGU encontra-se distribudo entre as inmeras aplicaes intranet e da in-
ternet e, diariamente, uma imensa quantidade de novos registros adicionada este
conjunto, tendo assim um crescimento exponencial de sua dimenso e tambm um
enriquecimento da quantidade de informaes explcitas e implcitas contidas em sua
composio. Com a alta dimensionalidade do CGU e o despertar do interesse humano
em seu conhecimento semntico, criou-se a necessidade de se utilizar computadores e

2
projetar algoritmos avanados para a recuperao e processamento de informaes [3]
na intencionalidade de se construir aplicaes promissoras para descoberta de novos
saberes. Podemos citar sistemas preditivos, mineradores de informao, analisadores
de sentimento, identificadores de fraudes e detectores de perfil como alguns exemplos
dessas aplicaes [18].
A Recuperao da Informao (RI) a rea responsvel pela recuperao de da-
dos, principalmente no formato de texto, a partir de diferentes fontes de informaes
no estruturadas, ou seja, representadas e armazenadas de forma livre, por exemplo:
contedo de pginas da web [17]. A RI desempenha seu papel com o auxlio de uma
consulta enviada pelo usurio, a qual especifica as caractersticas que as informaes
a serem recuperadas necessitam ter, e assim, evita-se que documentos irrelevantes
sejam retornados. Um exemplo de consulta que especifica o assunto e a entidade que
devem estar contidos nos textos recuperados seria: "Todas os documentos devem ser
sobre filmes estrelados por Jeniffer Anniston".
O subconjunto de dados retornado, com base na consulta fornecida pelo usurio,
contm apenas documentos que a tcnica de RI julga como relevantes. Embora no
obrigatrio, a RI tambm pode estabelecer um critrio de ordenao (ranking) com
base no nvel de relevncia de cada informao recuperada. Assim, dizemos que um
documento D1 mais relevante que D2 em relao a uma consulta Q, se D1 for
probabilisticamente mais satisfatrio a Q do que D2 , em outras palavras, D1 possui
um contedo que se relaciona com mais eficincia necessidade expressa em Q do
que o contedo presente em D2 [17]. Essa situao fica mais clara se consideramos

3
D1 um texto com diversos pargrafos falando sobre o assunto especificado em Q e
D2 um texto que contm apenas um paragrfo falando sobre Q.
Para calcular a relevncia de um documento, utiliza-se na maioria das vezes as
medidas de preciso e revocao. Define-se preciso como a frao do nmero de
documentos recuperados e revelantes sobre o total de itens retornados pela busca,
enquanto a revocao a razo do total de documentos relevantes e recuperados
sobre o nmero total de itens presentes no CGU. [33]. Portanto, podemos afirmar
que usurios que desejam obter uma quantidade de textos com maior preciso de
relevncia devem priorizar a medida de preciso. J aqueles que almejam conseguir
a maior proporo de documentos relevantes, em relao a todo o CGU, devem dar
maior importncia para a revocao.
Embora relevantes para um determinado contexto, as informaes recuperadas
pelos algoritmos de recuperao de informao ainda no se encontram prontas para
serem processadas. Por serem dados no estruturados, ou seja, sem nenhuma regra
para armazenamento e forma de representao, bastante comum obtermos infor-
maes poludas, tais como imagens com rudos ou textos repletos de grias, links,
abreviaes informais e at mesmo com erros de grafia. Para contornar essa situ-
ao necessrio desempenhar uma tarefa chamada pr-processamento sobre os
dados a serem analisados. No caso de textos, existem diversas tcnicas que possuem
a finalidade de deix-los o menos ruidoso possvel sem alterar seu sentido original.
Discutiremos mais sobre tais tcnicas na prxima seco.

4
1.2 Pr-processamento de Texto

O pr-processamento (ou normalizao) de textos uma das principais ativida-


des precedentes anlise dos dados coletados pela RI. Esse processo consiste em fazer
um tratamento dos documentos removendo ou substituindo tudo o que for desneces-
srio ou que prejudique a inspeo do contedo, seja para uma tarefa de classificao,
agrupamento, extrao de conhecimento, seleo de caractersticas, traduo auto-
mtica e etc [39]. Basicamente, o principal objetivo dessa atividade transformar
sentenas informais em textos escritos na sua forma padro e completamente grama-
tical [21].
Atualmente a normalizao de textos uma tarefa imprescindvel para os sis-
temas de Processamento da Linguagem Natural (PLN)1 . Como dito anteriormente,
o eminente crescimento tecnolgico abriu portas para que as pessoas pudessem se
expressar de forma livre na web, principalmente em redes sociais e aplicativos de
mensagens instntaneas, necessitando apenas de um smartphone com acesso in-
ternet. Como consequncia desse fato, a linguagem natural foi adquirindo novas
caractersticas marcantes, chegando ao ponto de se tornar um novo idioma de tama-
nho reduzido em termo de caracteres, repleto de grias, erros ortogrficos, abreviaes
informais, palavras enfatizadas, hashtags, links, imagens, vdeos, emoticons e emojis.
A existncia de tais caractersticas somada liberdade da forma de expresso por
parte das pessoas, seja pela escrita formal ou no, torna o contedo presente no CGU

1
Subrea da Inteligncia Artificial que estuda formas de se utilizar computadores
para compreenso e manipulao da linguagem humana.

5
bastante diversificado. Por exemplo, possvel representar uma mesma palavra de
diversas formas diferentes seja pelo uso de emojis, abreviao, escrita no formal ou
em sua forma original. Para o crebro humano, compreender uma palavra expressa
em diferentes formatos no costuma ser um desafio, mas para as mquinas essa no
uma tarefa to simples. Em virtude dessa dificuldade, so raras as situaes que
dispensam a etapa de tratamento dos dados antes de uma anlise. A seguir iremos
descrever as principais tcnicas de normalizao textual utilizadas na rea de PLN.

Remoo de elementos irrelevantes: Por conta da variabilidade de fontes


de informao presentes na internet, o conjunto de textos recuperado pode
conter diferentes tipos de elementos como: smbolos, emojis, links, abreviaes
2
coloquiais, stop words , hashtags, marcao html, nmeros, pontuao e etc.
necessrio que o pesquisador defina quais elementos que compe o texto sero
relevantes para seu estudo e remova aqueles que no interessam para se evitar
um processamento desnecessrio [12].
Substituio de elementos: Para alguns estudos, elementos no pertencen-
tes classe de palavras podem ser relevantes, fazendo parte da informao ou
sentido que o texto transmite. Tais elementos podem ser dgitos, emoticons,
emojis, smbolos, grias e outros. Para facilitar o processamento desse tipo de

2
Palavra vazia, em portugus, so termos que no acrescentam informaes im-
portantes ao texto. Mesmo com a eliminao dessas palavras o sentido da frase
permanece inalterado.

6
texto, recomenda-se substituir os itens em questo por palavras que expres-
sem o mesmo sentido. Por exemplo, na frase O filme Gravidade foi vencedor
de 7 Oscars deste ano. o nmero 7 poderia ser substitudo por sua forma
extensa, ento a frase ficaria: O filme Gravidade foi vencedor de sete Oscars
deste ano.. Tambm podemos trocar emoticons que representam determinada
expresso por uma forma extensa, como o caso de =( que poderia ser
facilmente trocado pela palavra triste ou algum de seus sinnimos.
Palavras representadas uniformemente: Com o objetivo de se reduzir a
complexidade do treinamento de sistemas baseado em Aprendizado de M-
quina, esta tcnica prope que todas os termos do texto devem estar represen-
tados de forma minscula ou maiscula em sua totalidade [12]. Essa tcnica
no deve ser usada caso a aplicao que analisar os dados for case-sensitive.
Stemming: Segundo [32], Stemming refere-se ao processo que tem como ob-
jetivo transformar vocbulos para sua forma mais simples. Em outros termos,
busca-se por uma sub-palavra nica e no ambgua (stem) de uma palavra e
de suas variaes [6]. Para maior clareza, se considerarmos os termos refe-
renciado, referido e referncia o stem a ser obtido ser refer. vantajoso
utilizar este mtodo se quisermos identificar similaridade a partir da morfologia
das palavras de um documento, alm de se reduzir a complexidade de busca
por termos correspondentes.
Lematizao: Mtodo similar ao Stemming, porm tem como finalidade re-
duzir os elementos derivados de uma mesma palavra para sua forma cannica
[31], ignorando afixos e tempos verbais. Para exemplificar, se aplicssemos

7
a Lematizao sobre as palavras casaro, casebre, casinha teramos como
resultado a palavra casa.
Expanso de vocbulos: comum nos dialetos a existncia de duas pala-
vras sendo representadas por apenas uma. Denomina-se essa caracterstica de
forma contrada e esta ocorre frequentemente na lngua inglesa. Geralmente
a contrao feita pela combinao de um pronome ou substantivo com um
verbo [1]. A presente tcnica recomenda que palavras contradas sejam expan-
didas para se evitar contraes ambguas que acabariam prejudicando a anlise
do texto. Podemos citar como contrao ambgua o termo Hes que pode ser
a forma reduzida de He is ou He has.
Thesaurus: O Thesaurus um dicionrio pr-compilado de palavras impor-
tantes sob um determinado contexto. E para cada palavra pertencente esse
dicionrio existe um conjunto de palavras correspondentes, ou seja, com mesma
semntica. A motivao para se utilizar o Thesaurus est na possibilidade de
fazer uma indexao e buscas a partir de um dicionrio padro [20].
Identificao de partes do discurso: Partes do discurso, tambm conhecida
como Part of Speech (POS), um conjunto de categorias as quais palavras so
atribudas de acordo com sua funo sinttica no texto onde esto inseridas. As
categorias mais conhecidas so: verbo, adjetivo, substantivo, pronome, prepo-
sio e conjuno. Essa tcnica bastante importante caso haja a inteno de
se fazer uma anlise profunda para extrao de alguma informao semntica
[24].

8
Vale ressaltar que os mtodos do pr-processamento de textos so opcionais
ficando a cargo do pesquisador selecionar os quais devero ser utilizados em seu
projeto. Tambm preciso estabelecer uma sequncia de processamento, visto que,
a variabilidade da ordem de execuo das tcnicas pode produzir resultados distintos.

1.3 Anlise de Sentimento

Hoje em dia um hbito bastante comum consultarmos a internet em busca de


informaes e opinies sobre determinado produto antes de adquiri-lo. Precisamos
ter conhecimento da experincia de quem j possui o objeto para avaliarmos se
este corresponder nossas expectativas; em consequncia disso, h a necessidade de
visitarmos diversos stios da web preferencialmente blogs, redes sociais e pginas de
produtos em e-commerces em busca dessas experincias. Por outra via, existem
diversas empresas interessadas em saber como seus produtos e servios esto sendo
recebidos pelo pblico. Esse conhecimento til para se ter cincia sobre o que est
bom, ruim e o que pode ser melhorado em prol de um maior grau de satisfao e
recomendao de seus clientes.
Entretanto, o excessivo nmero de feedbacks acaba dificultando a anlise ma-
nual de cada experincia, tornando o processo invivel de ser executado por humanos.
Como agravante temos a existncia de comentrios que nada acrescentam avali-
ao final do produto, o chamado spam [19], tambm h a existncia de opinies
tendenciosas enquanto outras so expressas de forma irnica. Cabe ao campo de
estudo chamado Anlise de Sentimento a tarefa de lidar com essas dificuldades e
tentar chegar uma opinio generalizada sobre determinado assunto ou objeto.

9
De acordo com [26] Anlise de Sentimento, ou Minerao de Opinio para alguns,
a rea que analisa e extrai opinies, sentimentos, atitudes e emoes expressadas
em textos acerca de entidades, as quais podem ser: eventos, assuntos, produtos e
servios. A partir desse estudo os sistemas de anlise de sentimento tentam predizer
(classificar) de forma automtica o sentimento central inerente ao contedo analisado.
A maioria dos pesquisadores consideram sentimentos assumindo valores de positivo
e negativo, enquanto outros vo alm desses dois valores, reconhecendo o neutro
como uma terceira polaridade.
Formalmente, o problema de classificao de sentimentos pode ser definido como:
Dado um conjunto D de documentos e um conjunto C={C1 , C1 , ..., Cn } de n classes
representando seus respectivos rtulos, um classificador de sentimentos uma funo
binria F : D x C {0, 1}. [7]. Essa funo encarregada de atribuir o valor 0
ou 1 para uma srie de pares (dj , ci ), tal que dj {D} e ci {C}. Portanto, se o
documento dj pertencer classe ci , ento F (dj , ci ) igual 1, caso contrrio ser 0
[14].

1.3.1 Nveis de anlise textual

[25] afirma que a classificao de sentimento pode ser feita seguindo trs nveis
de importncia, so elas:

Nvel de documento: Neste tipo de anlise, tem-se o objetivo de classifi-


car a polaridade contida em um documento, se positiva, negativa ou neutra,
em relao a uma entidade. Vale ressaltar que preciso que os documentos
processados opinem a respeito de apenas uma entidade [30].

10
Nvel de sentena: A anlise textual desta tarefa executada atravs da
segmentao de todo o contedo em frases seguida de uma verificao com o
objetivo de selecionar as sentenas que expressam subjetividade, para ento
definir a polaridade de cada uma [42].
Nvel de aspecto: O nvel de aspecto uma anlise mais detalhada e bas-
tante til quando se deseja saber o sentimento de cada atributo presente no
texto. Para melhor compreenso considere a frase Eu gosto deste restaurante,
embora seja distante, a comida sempre tima!, podemos notar que existe
trs opinies presentes na frase, duas positivas (restaurante e comida) e uma
negativa (distncia). No final das contas a frase anterior dever ser avaliada
como positiva, embora no seja em sua totalidade. Caso a classificao de sen-
timento fosse centrada apenas no atributo distncia, ento este documento
seria classificado como negativo.

1.3.2 Classificao de abordagens de AS

Existem diversos tipos de abordagens envolvendo a Minerao de Opinio, e


a escolha por qual delas se utilizar deve ser baseada na natureza da tarefa a ser
desempenhada e tambm no tipo de conhecimento que os interessados desejam obter
[38]. Tais abordagens podem ser classificadas em 4 grandes grupos:
Lxica: Esta abordagem utiliza um dicionrio de palavras pr-rotuladas com
seus respectivos sentimentos [38]. Por exemplo, a palavra excelente possui
a polaridade positiva, enquanto ruim tem sentimento negativo. Os traba-
lhos que fazem uso dessa tcnica geralmente atribuem um sentimento a um
documento contabilizando o nmero de palavras positivas e negativas que ele

11
contm. Portanto se em um documento houver mais palavras positivas do que
negativas, ele ser considerado um texto positivo e vise-versa.
Alguns trabalhos vo alm de uma simples contabilidade de vocbulos positivos
ou negativos ao utilizarem pesos que representam a intensidade do sentimento
de cada palavra, isto , uma escala de sentimento. A ttulo de exemplo, a pala-
vra excelente possui uma intensidade positiva maior que bom, representando
essa intensidade numa escala decimal, poderamos atribuir o valor 3 para ex-
celente e 1 para bom. J para horrvel um valor adequado seria 3 e para
o vocbulo ruim 1. Assim a opinio de um documento definida atravs
do somatrio dos pesos do nmero total de palavras mapeadas no dicionrio
lxico. Resumidamente, podemos dizer que a classe lxica de aplicaes de AS
tem o objetivo de calcular a orientao semntica de palavras ou frases de um
documento.
Aprendizado de Mquina: Essa forma de classificao uma das mais
utilizadas nos trabalhos de Anlise de Sentimento fazendo uso de algoritmos
baseados em aprendizagem que podem ser divididos em duas categorias: a)
Algoritmo supervisionado: consiste em escolher vetores de caracterstica e um
corpus j rotulado para o treinamento de um classificador que posteriormente
ir predizer textos de classificao desconhecida com base no aprendizado rece-
bido, b) Algoritmo no-supervisionado: capaz de chegar a uma soluo sem a
necessidade de se treinar um classificador, baseando-se no relacionamento dos
dados para ento agrup-los em categorias de acordo com suas caractersticas
em comum.

12
Hbrida: A evoluo da AS permitiu que vrios pesquisadores apostassem em
uma abordagem hbrida, combinando a eficincia do AM e a rapidez do mtodo
lxico. Podemos citar o exemplo em [29], onde os autores usaram um conjunto
de bigramas (duas palavras em sequncia) divido em duas categorias positiva e
negativa. Aps isso, foram criados pseudo-documentos compreendendo todas
as palavras presentes nos dois conjuntos com o objetivo de calcular a distncia
do cosseno entre eles e documentos no rotulados. O resultado disso foi um
novo conjunto de textos reais com sentimento marcado que serviu de treino
para um classificador de AM supervisionada chamado Nave Bayes..
Grafos: A AS baseada em grafos bastante utilizada no contexto de redes
sociais, especialmente no Twitter a fim de se descobrir o grau de influncia
que uma pessoa tem sobre outra ou uma rede de pessoas. Para esse tipo de
trabalho normalmente so selecionados tokens (emojis, hashtags, palavras) de
mensagens postadas por um usurio importante da rede, tambm conhecido
como hub, para ento se ter um conhecimento sobre como determinado assunto
est sendo recebido pelas pessoas. Outros trabalhos utilizam a estrutura de
grafos para representar e agrupar lxicos com sentimento j marcado, sendo
palavras ou sentenas os ns da estrutura, e os comparam com outros grafos
j rotulados em busca de um valor de similaridade que ir definir o sentimento
daqueles ainda no marcados.

13
1.3.3 reas de aplicao da AS

Por ser uma rea que ganhou grande destaque nos ltimos anos, a Anlise de
Sentimento acaba sendo utilizada em muitas situaes reais de diversos campos de
estudos. Esta subseco apresenta algumas das principais aplicaes desse estudo.
Comrcio eletrnico: Grande parte dos sites de comrcio eletrnico reservam
um espao da pgina de cada produto para usurios, que j o adquiriram,
deixarem suas impresses [41]. Alm da rea de texto para o depoimento,
tambm bastante comum haver campos onde o opinador deixa sua nota acerca
de atributos especficos do produto ou servio como: preo, custo benefcio,
tempo de entrega, atendimento e etc. A medida que uma opinio deixada,
uma nota geral do produto calculada atravs do nmero de estrelas ou nota
que cada atributo recebe do usurio, fazendo assim a propaganda do produto
para futuros novos consumidores. Essas informaes so ideais para aqueles
que desejam recuperar e analisar dados com opinies sobre diversos aspectos
de uma entidade em um nico texto, e tambm bastante teis para empresas
que desejam saber a reputao de suas marcas.
Cenrio poltico: Tambm muito comum o uso da MO para se saber o
sentimento relacionado cada partido durante debates polticos transmitidos
ao vivo pela televiso. Geralmente aplicam-se essa tcnica em redes sociais,
por serem o meio que as pessoas utilizam para expressar seu posicionamento
durante o acontecimento do evento. Tambm comum a construo de sistemas
preditivos que utilizam um grande conjunto de opinies da populao expressas

14
durante a campanha eleitoral com a finalidade de se saber quem ir ganhar a
eleio [41].
Sistemas de deciso: A Minerao de Opinio pode ser aplicada para auxi-
liar sistemas de deciso como o caso dos investimentos financeiros na bolsa
de valores. sempre possvel se encontrar na internet textos relevantes e
atualizados sobre as mais diversas empresas do mercado. O conjunto dessas in-
formaes recuperadas poder ser processado por uma aplicao de minerao
de opinio que ter como resultado as possveis informaes necessrias para o
funcionamento de um sistema de negociao automatizado [38].
Surto de doenas e reas de risco: Possveis regies com surtos de doenas
e reas propensas a ocorrerem desastres naturais podem ser mapeadas com a
ajuda da AS. Atravs de postagens em blogs e redes sociais possvel iden-
tificar as regies de maior concentrao de sentimentos que expressem perigo
ou sofrimento. Tais reas podem ser evacuadas e isoladas de modo que uma
epidemia no se alastre para outras regies ou que pessoas consigam escapar
de provveis tragdias naturais.
Sade: Na rea de sade, frequente a utilizao da AS atravs da abordagem
de Aprendizado de Mquina sobre textos de pacientes presentes em hospitais.
Atravs de uma profunda anlise dos textos referentes ao tratamento recebido
pelos profissionais, exames realizados, condies de limpeza do local e outras
caractersticas, os responsveis pela gerncia do hospital podero ter uma viso
mais detalhada sobre as percepes dos pacientes e ter cincia de onde as

15
mudanas podem ter maior impacto para a melhoria da experincia do paciente
[27].

1.3.4 Desafios

Embora j exista uma considervel quantidade de pesquisas relacionadas a An-


lise de Sentimento, como toda grande rea de estudo sempre h problemas que ainda
so um desafio para a comunidade. Assim como a subseco anterior, iremos aqui
discorrer sobre algumas das principais questes em aberto da AS.
Ambiguidade: O verdadeiro sentido de uma palavra ou conjunto de palavras
inerente ao contexto onde est inserida. Podemos citar a palavra gelado que
pode ser ter um sentindo positivo se estivermos falando de sorvete e negativo
se falamos de pizza.
Negaes: preciso tratar negaes em frases com bastante cuidado, caso
contrrio ser retornado resultados completamente incorretos. Na frase Existe
boa chance de eu no pegar transito ruim.. A presena de uma palavra nega-
tiva pode afetar o resultado da avaliao dessa frase, retornando a polaridade
negativa quando na verdade deveria ser positiva [23].
Sarcasmo: Algumas vezes at para ns, humanos, complicado detectar um
sarcasmo visto que, a entonao da fala um fator que 90% das vezes nos ajuda
a compreender a ironia da fala. Para as mquinas o reconhecimento da ironia
algo que deve ser feito com um alto nvel de detalhes.
Deteco de Spam: Um dos maiores problemas quando vamos consultar a
reputao de um produto a presena de depoimentos falsos e tendenciosos.
Em busca de promover positivamente seus produtos, vrias empresas fazem uso

16
do spam automtico ou contratam pessoas para criarem falsos textos e vdeos
e assim atrair mais clientes [41].
Contedo multimodal: Em alguns casos a orientao semntica de um do-
cumento resultado da unio semntica de suas palavras e complementos como
imagens e vdeos. Tais complementos podem conter um sentido mais enftico
do que as palavras, entretanto extrair caractersticas semnticas ainda no
algo trivial de se fazer e por conta disso essa uma das reas pouco exploradas
pela AS. [16].
Textos multilngues: A possibilidade de se escrever textos em diversos idi-
omas e at mesmo mistur-los na mesma frase acaba dificultando a anlise de
sentimento do texto. preciso escolher uma estratgia de processamento que
seja independente da lngua do documento ou fazer uso de ferramentas de tra-
duo para se conseguir uma maior preciso da anlise [16]. Este trabalho far
uso de um tradutor automtico para avaliar o desempenho da abordagem em
diferente idiomas.

1.4 Grafos e Redes Complexas

O presente trabalho prope uma abordagem hbrida para AS fazendo uso de


um classificador supervisionado e a representao de grafos para o seu treinamento.
Mas antes de apresentar a metodologia do projeto, necessrio elucidar algumas
definies bsicas acerca da teoria dos grafos e redes complexas para um melhor
aproveitamento na leitura das prximas seces.
Assim como ocorre na AS e OM, grafos e redes complexas so termos equiva-
lentes na literatura, porm h pesquisadores da rea que preferem utilizar o termo

17
grafos em pesquisas matemticas, enquanto utilizam redes complexas em estudos
que objetivam representar e analisar o relacionamento no trivial entre entidades
do mundo real [13]. Para este projeto decidiu-se adotar os dois termos de forma
equivalente, porm preferencialmente em momentos distintos; sendo a palavra gra-
fos usada com mais frequncia na parte conceitual e redes complexas quando nos
referimos a um grafo que, com o passar do tempo, adquiriu uma estrutura de alta
complexidade e robustez.

1.4.1 Definio

Definio 1.1. Um grafo no-direcionado G = (V, E) composto de um par


ordenado de conjuntos V = {v1 , ...vn } e E = {e1 , ...ek }, tal que V representa a coleo
de vrtices (ns) v e E simboliza o conjunto de arestas (ligaes) e. Uma aresta e
E um par ordenado de vrtices {u, v} V [13, 37].

Figura 11: Grafo no direcionado.

Definio 1.2. Um grafo dirigido (ou digrafo) G = (V, A) composto de um


par ordenado de conjuntos V = {v1 , ...vn } e A = {a1 , ...ak }, tal que V representa a

18
coleo de vrtices v e A simboliza o conjunto de arcos (flechas) a, no qual cada
arco possui uma direo associada [13, 37].

Figura 12: Grafo direcionado.

Definio 1.3. Um multigrafo um grafo composto de mltiplas arestas e


arestas na forma {v, v} conhecidas como loops. Um grafo sem loops chamado de
grafo simples [13].

Figura 13: Multigrafo.

19
Definio 1.4. Uma aresta e conecta dois vrtices adjacentes u e v, portanto e
= {u, v}. Se u adjacente a v, ento dizemos que u vizinho de v. O conjunto de
vrtices conectados a u atravs de uma aresta chamado vizinhana de u [13].
Definio 1.5. O grau de um vrtice v V (G) definido como o somatrio
do nmero de arestas adjacentes a v. Em um digrafo existem dois tipos de graus de
vrtices, o grau de sada dout (v) que representa o nmero de arcos que partem de v
e o grau de entrada din (v), o nmero de arcos que incidem em v [13].
Definio 1.6. Um grafo P na forma de E = {v0 v1 , v1 v2 , ..., vn1 vn } conhecido
como caminho, sendo v0 o n inicial e vn o n final. O tamanho desse caminho
representado pelo nmero de arestas presentes em E [13].

1.4.2 Redes Complexas

De acordo com [22] ainda no se pode definir com exatido quando um grafo
passa a ser considerado uma rede complexa. De modo impreciso, podemos dizer que
uma rede vista como complexa a partir do momento em que ela cresce de forma
natural, ou seja, sua estrutura evolui baseada em eventos aleatrios e constantes,
sem o seguimento de um plano de construo que conduza esse crescimento.
A maioria das redes complexas apresentam um grande dinamismo em sua estru-
tura, alm do crescimento constante ela est sempre sob efeito de mudanas em sua
configurao de arestas e vrtices, as quais medida que algumas delas so destrudas
outras so adicionadas ao longo do processo [22].
Podemos citar tambm duas outras caractersticas marcantes das redes com-
plexas como sua topologia no-trivial, a qual dificulta sua visualizao e a anlise
no-automtica; e tambm a variabilidade quanto ao tamanho, direo e capacidade

20
dos tipos de conexes existentes na rede [35]. Outras caractersticas podem ser vistas
com mais detalhes em [22, 35].

Figura 14: Rede complexa.

Redes Complexas (RC) uma subrea de Sistemas Complexos (SC) sendo um


campo de estudo interdisciplinar e bastante visado, principalmente por matemticos,
fsicos, bilogos, engenheiros e vrios outros. Em consequncia disso, o estudo de RC
constantemente aplicado em situaes do mundo real e cientficas que necessitam
de uma abstrao formal para representar entidades (ns) e seus mais diversos ti-
pos de relacionamentos (arestas), alm de ser uma tcnica que auxilia na deteco e
compreenso de caractersticas e fenmenos especficos presentes nessas redes. Tais
atributos justificam o uso de redes complexas em uma vasta gama de exemplos, pode-
mos citar: mapeamento de usurios conectados atravs da internet, redes de reaes
bioqumicas, redes neurais do crebro, sistemas biolgicos interativos e acoplados,

21
redes financeiras, trfego areo e terrestre, redes de propagao de informao, alm
de muitas outras situaes [35].

1.4.3 Medidas de Centralidade

Uma medida de centralidade avalia o quo central ou importante uma entidade


ou um relacionamento para a rede, a qual esto inseridos [35]. Assim, pode-se
imaginar que um vrtice que contm um grande nmero de ligaes adjacentes
mais central ou importante do que um outro com menor nmero de ligaes. Tra-
zendo esse conceito para um contexto real, podemos pensar em uma rede complexa
baseada na estrutura de uma rede social, onde os vrtices mais importantes, tambm
chamados de hubs, so perfis de pessoas ou empresas famosas que ao transmitirem
determinada informao, esta ser propagada ao longo da rede com rapidez e poder
atingir milhes de pessoas em questo de segundos.
Na literatura existem diversas medidas de centralidade que se diferenciam pela
heurstica que seguem para identificar pontos e ligaes importantes da rede. Neste
trabalho fazemos uso de dois conjuntos de revises de filmes; um positivo e outro
negativo com seus textos representados na forma de grafo de palavras separadamente.
Em seguida, utilizamos um grupo de cinco medidas de centralidade para realizar a
classificao do sentimento expresso em uma reviso de filme ainda no rotulada.
Tais medidas so apresentadas a seguir.

Centralidade de Grau

Talvez essa seja a primeira ideia que vem cabea da maioria das pessoas ao
pensarem em centralidade de ns. A centralidade de grau simplesmente o somatrio

22
do nmero de adjacncias de um vrtice vi , ou em outras palavras, o valor de seu
grau [28].
Matematicamente temos:

n
X
d(vi ) = aij (1.1)
j=1

onde aij um vrtice adjacente a vi .

Centralidade de Intermediao

A intermediao (ou betweenness) de um n v equivale ao total de menores


caminhos, que passam por v, entre dois pares de ns quaisquer [9]. Ento quanto
maior for a centralidade de intermediao de um n, maior sua importncia na
rede, pois isso significa que ele intermedeia muitos pares de vrtices comunicantes.
Matematicamente temos:

X (s, t|v)
cB (v) = (1.2)
s,tV
(s, t)

onde V o conjunto de vrtices, (s, t) o nmero total de menores caminhos


de um n s para um n t e (s, t|v) o nmero desses menores (s, t)-caminhos que
passam por um vrtice v que no seja s, t.

Centralidade de Autovetor

A centralidade de autovetor calcula a centralidade de um n baseado na centra-


lidade de seus vizinhos, ou seja, a importncia de um vrtice v dependente do grau
de importncia de seus vrtices vizinhos e no do nmero de adjacncias que ele pos-
sui. Em outras palavras, dizemos que a centralidade de autovetor de um n a soma

23
das centralidades dos seus vizinhos diretos [8]. Matematicamente, a centralidade de
autovetor de um vrtice vi de um grafo G dada pela frmula:
n
X
c(vi ) = aij vj (1.3)
j=1

na qual se aij = 1 significa que o vrtice vi adjacente a vj , caso contrrio


aij = 0, e n o nmero de vrtices de G.

Centralidade de Katz

Baseada na centralidade de autovetor, a centralidade de Katz mensura o grau de


influncia relativa de um vrtice v dentro de uma rede G atravs centralidade do seu
conjunto de vizinhos imediatos A, e tambm da centralidade de todos os vizinhos
no imediatos que se conectam com v por meio de cada elemento de A [2]. Para
cada ligao atribudo um peso k , tal que [0, 1] e k representa o tamanho da
distncia entre dois vrtices comunicantes, por exemplo, se vi vizinho imediato de
vj ento k = 1, caso contrrio k > 1. Resumindo, quanto mais distante um vrtice
vi for de vj a ligao entre eles vai perdendo fora. A centralidade de Katz dada
pela seguinte frmula:
X
X n
Ckatz (vi ) = k (Ak )ij (1.4)
k=1 j=1

onde n o nmero de vrtices de G.

24
PageRank

O PageRank foi criado em 1998 pelos fundadores do buscador Google 3 servindo


de base para o seu motor de busca na tarefa de se recuperar e ordernar as pginas
mais relevantes sobre determinado assunto. O nvel de relevncia de uma pgina
medido pelo nmero e a qualidade dos websites que apontam para ela. No contexto
de Redes Complexas, o PageRank funciona da seguinte forma: atribudo um peso,
tambm chamado de voto, para toda aresta que partem de um vrtice vi pra um
vrtice vj , o que contribuir para o aumento da importncia de vj dentro da rede.
Entretanto, o valor do peso da ligao entre vi e vj depende da relevncia de vi ,
ou seja, quanto mais importante for vi maior ser o peso da sua ligao com vj [4].
Podemos ento representar o PageRank atravs da equao:

X P R(vj )
P R(vi ) = (1.5)
v Bv
L(vj )
j i

Note que o valor do PageRank de um n vi depende dos valores de PageRank


de cada n vj pertencente ao conjunto dos ns que incidem sobre vi , Bvi , dividido
pelo nmero de arestas incidentes em vj (L(vj )).

Demais Medidas de Centralidade

Como dito anteriormente, existem diversas medidas de centralidade na literatura


sendo 5 delas utilizadas no presente trabalho. Outras medidas de centralidade podem
ser vistas em [35] bem como suas respectivas classificaes. A seguir, apresentaremos

3
https://www.google.com.br/

25
os trabalhos relacionados classificao de sentimento usando diferentes variaes
da abordagem grafos.

1.5 Trabalhos relacionados

Embora as abordagens lxica e de AM sejam as mais utilizadas no desenvolvi-


mento de trabalhos sobre Anlise de Sentimento por apresentarem um bom desem-
penho, alguns autores apostam na abordagem que utiliza grafos para determinao
de sentimento, principalmente para textos curtos, tais como os provenientes de redes
sociais como o Twitter. Um facilitador para estas abordagens de grafos foi o surgi-
mento do mtodo Label Propagation LP [43], um mtodo semi-supervisionado que
possui o objetivo de reduzir a demanda de dados rotulados. Demanda essa essencial
nas tcnicas de Aprendizado de Mquina.
[36] foram os primeiros a aplicar o LP para anlise de sentimento no Twitter.
Eles propuseram explorar o grafo de seguidores de um conjunto de perfis do Twit-
ter a fim de se produzir uma classificao de sentimento eficiente. A partir desses
relacionamentos eles construram um grafo que tinha usurios, tweets, unigramas,
bigramas, hashtags e emoticons como seus vrtices. Estes vrtices so conectados
baseado em uma relao existente entre eles, por exemplo: usurios so conectados
com tweets criados por eles, tweets so ligados com palavras unigramas e bigramas
contidas por eles e assim por diante. Um pequeno conjunto de vrtices desse grafo,
tambm conhecidos como ns sementes, foi rotulado e sobre eles foi aplicado o Label
Propagation. A informao contida nos ns semente foi propagada ao longo de todo
o grafo construdo e como resultado os autores alegaram que obtiveram uma taxa de
acerto de 87.4% sobre o conjunto de dados utilizado.

26
[10] tambm utilizaram o mtodo de LP baseado em tokens de emoo para an-
lise de sentimento no Twitter. A primeira etapa consistiu na extrao dos tokens de
emoo a partir de um conjunto de tweets. Em seguida um algoritmo de propagao
em grafos foi utilizado para atribuir uma polaridade para cada token extrado. E por
ltimo, um algoritmo de anlise de sentimento classificou os tokens de emoo emo-
ticons. Os resultados mostraram que o uso de tokens de emoo uma abordagem
bastante interessante, pois eles obtiveram bom desempenho na anlise de sentimento
de mensagens escritas em qualquer linguagem natural.
Tanto as pesquisas de [36] quanto de [10] foram desenvolvidas utilizando a ln-
gua inglesa para a deteco do sentimento. Essa uma prtica bastante comum na
comunidade de AS por conta da popularidade do idioma. Esse foco dos trabalhos
cientficos na lngua inglesa levou outros pesquisadores a trabalharem em projetos
sobre anlise de sentimento em textos no sensveis a lngua, ou desenvolveram m-
todos eficazes para textos multilngues, como veremos a seguir.
Quase na mesma poca dos dois trabalhos citados anteriormente, [5] fizeram um
estudo sobre alguns dos maiores desafios em AS associados ao contedo de micro-
blogs. Dentre estes desafios estavam a dificuldade na aplicao de mtodos tradi-
cionais de anlise e a classificao de sentimentos, devido s algumas caractersticas
inerentes do texto deste tipo de texto, tais como, erros de ortografia, siglas, grias,
entre outros. Para solucionar esses problemas, os autores elaboraram um mtodo
que depende de duas fontes ortogonais e complementares de evidncia que so: a)
as caractersticas baseadas em contedo, capturadas atravs de grafos de n-gramas;

27
e, b) as caractersticas baseadas em contexto que so adquiridas a partir da topo-
logia da rede de relacionamentos do usurios. Ambos os mtodos foram projetados
para serem independentes da lngua usada do texto e tolerantes a rudos (erros de
digitao, gramtica, abreviao, ) garantindo alta robustez e eficcia, segundo os
autores. Os grafos foram construdos com base na sequncia de n-gramas dos textos
e associam todos os vizinhos de caracteres com arestas que denotam sua taxa de
co-ocorrncia (mdia) dentro de um tweet nico, ou uma coleo de tweets. A fim de
assegurar que essa abordagem possa ser aplicada em grandes quantidades de dados,
teve-se que aumentar a sua eficincia em termos de tempo. Assim, os autores pro-
puseram conjuntos alternativos de caractersticas com baixo custo computacional de
extrao, exploraram tcnicas de reduo de dimensionalidade e discretizao, alm
de experimentar mltiplos e diferentes mtodos de classificao.
Acreditando que a orientao semntica poderia ser transferida entre diferen-
tes idiomas atravs de alinhamento de grafos, [34] construram grafos monolngues
baseados em dois tipos de relao: a) afinidade entre adjetivos (por exemplo: sau-
dvel e saboroso remetem um sentimento positivo); e b) adjetivos modificadores
de substantivos (por exemplo: comida saudvel). Estes pesquisadores utilizaram
um lxico de sentimentos para determinar a polaridade das palavras presentes nos
vrtices do grafo Ingls, e tambm usaram um lxico bilngue para determinar quais
seriam os vrtices sementes responsveis pela ligao entre o grafo Ingls e o grafo
de lngua estrangeira. O algoritmo SimRank, que determina a similaridade entre dois
vrtices de grafos diferentes, foi utilizado pelos autores para expandir a relao entre
o idioma Ingls e o idioma estrangeiro.

28
[15] apresentaram uma abordagem semelhante a anterior de [34] ao constru-
rem um grafo composto de dois sub-grafos monolngues representando dois idiomas
distintos, um de origem e outro de destino, respectivamente. A ligao entre esses
dois grafos feita por um subgrafo inter-idiomtico baseado na informao de ali-
nhamento de palavras num corpus paralelo. As arestas do grafo monolngue podem
ter pesos positivos ou negativos, correspondendo s relaes de sinonmia ou anton-
mia entre as palavras. Por fim, o algoritmo de Label Propagation foi utilizado para
propagar rtulos de polaridade de sentimento partindo do Ingls, lngua de origem,
para o Chins, idioma destino.
Focando mais na utilizao de grafos para deteco de sentimentos e utilizando
algoritmos de similaridade entre grafos, [40] propuseram o mtodo chamado Anlise
de Sentimento com Grafos de Palavras que foi aplicado sobre tweets considerando
sua sequncia de palavras para a representao em forma de grafo. Um conjunto j
anotado de tweets foi dividido em trs categorias: positivo, negativo e neutro. Cada
uma dessas categorias foi representada por um grafo que era o resultado da unio de
vrios tweets de sua respectiva classe. Em seguida, o grafo de um tweet no rotulado
era comparado com cada um dos grafos de classes e o resultado dessa comparao
um vetor de caractersticas com valores que correspondiam ao grau de similaridade
que aquele tweet tinham com cada classe de sentimentos. Aps esta etapa, foram
utilizados classificadores automticos para fazer a predio do sentimento de cada
texto baseado nos valores do seu vetor de caractersticas. Os testes foram realizados
variando-se a forma de construo dos grafos e os melhores resultados foram obtidos

29
utilizando grafos no direcionados, e considerando o nmero total de arestas em
comum entre eles na formao das arestas.
Por ltimo, citamos o trabalho de [11], que de certa forma foi uma das inspi-
raes desta dissertao. Nesse trabalho os autores introduziram uma tcnica de
classificao supervisionada de mltiplos conjuntos de padres atravs da centrali-
dade de Katz em redes complexas. Foram criadas redes rotuladas (classes) atravs
do mtodo de agrupamento k-NN, seguido da insero de padres no rotulados em
cada uma dessas redes, ou seja, um determinado dado foi inserido em diversas redes
diferentes. Assim, novas redes foram formadas, as quais tiveram sua centralidade de
Katz calculada. A rede que obteve o maior valor de Katz aps a insero do dado
no rotulado foi escolhida como a classe desse dado. Os resultados da tcnica foram
satisfatrios para colees de dgitos manuscritos e mltiplos objetos, superando v-
rios mtodos de classificao presentes no estado-da-arte como o Label Propagation
e Manifold-Based Smoothing under Constraints.

30
REFERNCIAS
[1] Definition of Contractions. Cambridge Dictionary Online: English Dic-
tionary and Thesaurus. <http://dictionary.cambridge.org/grammar/british-
grammar/writing/contractions>. Acesso em: 18 de junho de 2017.
[2] Aggarwal, C. C. (2011). An introduction to social network data analytics. Social
network data analytics, pages 115.
[3] Aggarwal, C. C. and Zhai, C. (2012). Mining text data. Springer Science &
Business Media.
[4] Agirre, E. and Soroa, A. (2009). Personalizing pagerank for word sense disam-
biguation. In Proceedings of the 12th Conference of the European Chapter of the
Association for Computational Linguistics, pages 3341. Association for Compu-
tational Linguistics.
[5] Aisopos, F., Papadakis, G., Tserpes, K., and Varvarigou, T. (2012). Content
vs. context for sentiment analysis: a comparative analysis over microblogs. In
Proceedings of the 23rd ACM Conference on Hypertext and Social Media, pages
187196. ACM.
[6] Alvares, R. V. (2005). Investigao do processo de Stemming na lngua portu-
guesa. PhD thesis, Universidade Federal Fluminense.
[7] BAEZA, Y. and Ribeiro-Neto, B. (2011). Modern information retrieval-the con-
cepts and technology behind search.

31
[8] Bonacich, P. (2007). Some unique properties of eigenvector centrality. Social
networks, 29(4):555564.
[9] Brandes, U. (2001). A faster algorithm for betweenness centrality. Journal of
mathematical sociology, 25(2):163177.
[10] Cui, A., Zhang, M., Liu, Y., and Ma, S. (2011). Emotion tokens: Bridging the
gap among multilingual twitter sentiment analysis. In Asia Information Retrieval
Symposium, pages 238249. Springer.
[11] Cupertino, T. H. and Zhao, L. (2012). Using katz centrality to classify multiple
pattern transformations. In Neural Networks (SBRN), 2012 Brazilian Symposium
on, pages 232237. IEEE.
[12] Denny, M. J. and Spirling, A. (2017). Text preprocessing for unsupervised
learning: why it matters, when it misleads, and what to do about it. Unpublished
manuscript, Dep. Polit. Sci, Stanford Univ and Inst. Quant. Soc. Sci., Harvard
Univ. https://ssrn. com/abstract, 2849145.
[13] Estrada, E. (2013). Graph and network theory in physics. arXiv preprint ar-
Xiv:1302.4378.
[14] Ferreira, J. Z. et al. (2014). Analise de sentimento em documentos financeiros
com mltiplas entidades.
[15] Gao, D., Wei, F., Li, W., Liu, X., and Zhou, M. (2015). Cross-lingual senti-
ment lexicon learning with bilingual word graph label propagation. Computational
Linguistics.
[16] Giachanou, A. and Crestani, F. (2016). Like it or not: A survey of twitter
sentiment analysis methods. ACM Computing Surveys (CSUR), 49(2):28.

32
[17] Greengrass, E. (2000). Information retrieval: A survey.
[18] Gupta, V., Lehal, G. S., et al. (2009). A survey of text mining techniques and
applications. Journal of emerging technologies in web intelligence, 1(1):6076.
[19] Jindal, N. and Liu, B. (2007). Review spam detection. In Proceedings of the
16th international conference on World Wide Web, pages 11891190. ACM.
[20] Katariya, M. N. P., Chaudhari, M., Subhani, B., Laxminarayana, G., Matey,
K., Nikose, M. A., Tinkhede, S. A., and Deshpande, S. (2015). Text preprocessing
for text mining using side information. International Journal of Computer Science
and Mobile Applications, 3(1):0105.
[21] Kaur, H. and Mann, E. J. S. (2016). Text normalization using statistical machine
approach.
[22] Knbel, C. (2009). From random graphs to complex networks: a modelling
approach. na.
[23] Kolkur, S., Dantal, G., and Mahe, R. (2015). Study of different levels for senti-
ment analysis.
[24] Kumar, D. and Josan, G. S. (2010). Part of speech taggers for morphologically
rich indian languages: a survey. International Journal of Computer Applications,
6(5):3241.
[25] Liu, B. (2010). Sentiment analysis and subjectivity. Handbook of Natural Lan-
guage Processing, 2:627666.
[26] Liu, B. and Zhang, L. (2012). A survey of opinion mining and sentiment analysis.
In Mining text data, pages 415463. Springer.
[27] Mehrabi, S. (2013). Sentiment analysis in healthcare.

33
[28] Opsahl, T., Agneessens, F., and Skvoretz, J. (2010). Node centrality in weighted
networks: Generalizing degree and shortest paths. Social networks, 32(3):245251.
[29] Pak, A. and Paroubek, P. (2010). Twitter based system: Using twitter for disam-
biguating sentiment ambiguous adjectives. In Proceedings of the 5th International
Workshop on Semantic Evaluation, pages 436439. Association for Computational
Linguistics.
[30] Pang, B., Lee, L., and Vaithyanathan, S. (2002). Thumbs up?: sentiment clas-
sification using machine learning techniques. In Proceedings of the ACL-02 con-
ference on Empirical methods in natural language processing-Volume 10, pages
7986. Association for Computational Linguistics.
[31] Plisson, J., Lavrac, N., Mladeni, D., et al. (2004). A rule based approach to
word lemmatization.
[32] Porter, M. F. (1980). An algorithm for suffix stripping. Program, 14(3):130137.
[33] Saracevic, T. (1995). Evaluation of evaluation in information retrieval. In Pro-
ceedings of the 18th annual international ACM SIGIR conference on Research and
development in information retrieval, pages 138146. ACM.
[34] Scheible, C., Laws, F., Michelbacher, L., and Schtze, H. (2010). Sentiment
translation through multi-edge graphs. In Proceedings of the 23rd International
Conference on Computational Linguistics: Posters, pages 11041112. Association
for Computational Linguistics.
[35] Silva, T. C. and Zhao, L. (2016). Machine learning in complex networks, volume
2016. Springer.

34
[36] Speriosu, M., Sudan, N., Upadhyay, S., and Baldridge, J. (2011). Twitter pola-
rity classification with label propagation over lexical links and the follower graph.
In Proceedings of the First workshop on Unsupervised Learning in NLP, pages
5363. Association for Computational Linguistics.
[37] Steen, M. Graph theory and complex networks: An introduction, maarten van
steen (2010).
[38] Thakkar, M. H. V. Twitter sentiment analysis using hybrid nave bayes.
[39] Uysal, A. K. and Gunal, S. (2014). The impact of preprocessing on text classi-
fication. Information Processing & Management, 50(1):104112.
[40] Violos, J., Tserpes, K., Psomakelis, E., Psychas, K., and Varvarigou, T. A.
(2016). Sentiment analysis using word-graphs. In WIMS, page 22.
[41] Vohra, M. S. and Teraiya, J. (2013). Applications and challenges for senti-
ment analysis: A survey. In International Journal of Engineering Research and
Technology, volume 2. ESRSA Publications.
[42] Yu, H. and Hatzivassiloglou, V. (2003). Towards answering opinion questions:
Separating facts from opinions and identifying the polarity of opinion sentences.
In Proceedings of the 2003 conference on Empirical methods in natural language
processing, pages 129136. Association for Computational Linguistics.
[43] Zhu, X. and Ghahramani, Z. (2002). Learning from labeled and unlabeled data
with label propagation. Technical report, Carnegie Mellon University. Technical
Report CMU-CALD-02-107.

35

S-ar putea să vă placă și