Sunteți pe pagina 1din 10

Extragerea opiniilor utilizatorilor

n general cercetrile legate de extragerea opiniilor din texte s-au axat pe gsirea opiniilor exprimate
direct n textele analizate . Exist totui domenii unde aceast abordare este deficitar, unde trebuie sa
lrgim perspectivele pentru a detecta i opiniile care nu sunt exprimate direct.
Una dintre lucrrile de referin din domeniul extragerii opiniilor din texte este cea a lui Pang i
Lee , n care documentele sunt clasificate n funcie de opinia prevalent din ntreg textul, obinut ca
sum a tuturor opiniilor ntlnite.
Wiebe mparte textele n propoziii subiective i obiective iar mai apoi accentul a fost pus n
special pe determinarea la nivel individual a polaritii opiniilor ntlnite. Aceast mprire variaz de
la o dihotomie pozitiv-negativ pn la o clasificare mai complex bazat pe intensitatea prerilor din
text .
Un alt scop conex extragerii de opinii este acela de a lega opiniile extrase de concepte. Ulterior s-a
mers mai departe, legnd opiniile de anumite faete ale unor concepte , aprnd astfel ideea de opinii
faetate. Scopul acestei fracionri este de a determina exact care sunt subcomponentele obiectului sau
ideii analizate la care se refer opinia exprimat.
Toate metodele descrise mai sus se bazeaz pe ntlnirea opiniilor exprimate direct n textul analizat,
acesta putnd fi unul dintre motivele pentru care pentru mult timp analiza opiniilor s-a rezumat la
situaii i exemple relativ simple ca recenziile de filme . Simplitatea n acest caz mai survine i din
faptul c obiectul discuiei este cunoscut a priori, o larg majoritate a opiniilor prezente n text sunt
legate de acel obiect iar prerile exprimate pot fi mprite cu uurin n pozitive i negative.
De exemplu in domeniul economic, ntr-un studiu legat de analiza sentimentelor n blog-uri financiare,
Ferguson , folosea adnotri la nivel de paragraf i un clasificator Bayesian, el a artat c n mai mult
de 60% dintre textele analizate au fost gsite opinii. Trebuie totui menionat c studiul sau, s-a
rezumat la analiza textelor n care se gseau referiri explicite la companii listate n indexul S&P500.
Abordri cheie de clasificare a Opinion Mining
Exist o serie de tezaure ,special marcate avnd n vedere componenta sa emotionala. Aceste
dicionare sunt descrise mai jos, cu programe pentru calculator analiza sentiment necesar.
Exist instrumente pentru a identifica sentimentul generate de un text. Aici este o list cu cele mai
populare instrumente:

SenticNet: Analiza avansata a polaritii cuvintelor, lund n considerare nuane lor;


WordNet Affect: clasificare cu ajutorul unui grup sinonim dac un cuvnt este pozitiv sau nu;
SentiWordNet: aceasta este o extensie a WordNet; el atribuie fiecare grup de sinonime din

WordNet, senzaie de trei scoruri: pozitivitate, negativitate, obiectivitate;


SentiSense: o lucrare bazat pe WordNet pentru presarea cuvintele mai exact;
Subjectivity Lexicon : ofer polaritatea unui cuvnt n acelai timp, analizeaza contextul de

utilizare;
MicroWNOp: bazat att pe WordNet i General Inquirer, ofer seturi de cuvinte pozitive i
negative, obiectivele sunt sinonime.

In subcapitolele ce urmeaza vom clasifica fiecare

1.2.1. WordNet-Affect

Motiv de dezvoltare a WordNet-Affect a fost extinderea WordNet, numit WordNet


Domain . n extinderea WordNet Domain fiecarei atribuite a fost alocate cel puin
un domeniu din zona studiata (domain label ) cum ar fi: sport, politica, medicina.
In structura ierarhic organizat au fost inclus dou sute de remarci care fac
obiectul studiului.
WordNet-Affect - un tezaur semantic, n care conceptele legate de emoii sunt reprezentate de cuvinte
care au o conototatie si incarcatura emotionala .
WordNet-Affect este constituit din o multime de atribute WordNet, unde fiecare atribut ii corespund
"conceptele emoionale" si poate fi reprezentat prin "cuvinte pline de emoie"
Astfel, WordNet-Affect a fost creat pebaza WordNet pentru limba englez (exist, de asemenea
versiuni de WordNet-Affect pentru alte limbi ) prin selectarea i clasificarea unor seturi de sinonime cu
diferite conotatii emotionale.
Este de precizat ca atributele verbelor, substantivelor, adjectivelor, adverbelor , ce reprezint descrierea
emoiilor au fost marcate manual folosind etichete emoionale speciale (affective labels, A-labels) .
Aceste etichete descriu diferite stari emotionale diferite, exprimnd starea de spirit, raspunsurile

emotionale, sau situaii care declanseaza emotii. Exemple de astfel de stari emoionale sunt prezentate
n tabelul de mai jos.

Sentimentul
Emotia
Dispozitia
Caracteristica

Exemplu

Faptele
Relatia,atitudinea
Senzatia

De asemenea, WordNet-Affect se folosesc suplimentar si etichetele emotionale pentru a partaja


synset-uri n funcie de valena emoional. Pentru a face acest lucru,se identific suplimentar patru
tagu-ri emotionale: Pozitiv, negativ, neutru, i ambigu.
Prima corespunde emotiilor pozitive, care sunt definite ca o stare emoional caracterizat prin
prezena de semnale pozitive hedonice (sau de placere). Aceasta include synset-uri, cum ar fi bucuria
sau hobby.
n mod similar, o etichet negativ identific emoii negative, care sunt caracterizate prin semnale
hedonice negative (sau durere), cum ar fi furia sau tristetea.
Synset reprezentnd stri emoionale, care depind de valena contextul semantic (de exemplu, uimirea)
este marcat ca ambiguu. n cele din urm, synset-uri stabilesc stri psihologice, i care sunt ntotdeauna
considerate controversate, dar cu toate acestea nu sunt caracterizate prin valenta, ele fiind neutre.

1.2.2. SenticNet

SenticNet reprezint un alt tezaur semantic pentru un set de concepte emotionale. SenticNet
este un proiect lansat de Media Lab de la Massachusetts Institute of Technology n 2010 . De atunci,
proiectul a fost dezvoltat n continuare SenticNet i este folosit pentru proiectarea de aplicaii
inteligente concepute pentru a analiza coninutul emoional al textului i care acoper spectrul
sarcinilor de data mining la organizarea interaciunii om-calculator .
Scopul principal al SenticNet este de a simplifica procedura de recunoatere a informaiilor
conceptual i emoional transferate prin intermediul limbajului natural [31]. Dac am compara tezaure
lexical, cum ar fi SentiWordNet i WordNet-Affect cu SenticNet, diferena lor principala este ca
SentiWordNet i WordNet-Affect ofer cuvinte obligatorii i concepte emotionale la nivel sintactic si
nu permit identificarea componentelor semantice : "a fi in al saptelea cer de fericire " sau " a avea o
presimtire rea ", n timp ce SenticNet face legatura cu termenii alesi la nivel semantic .
Cea mai recent versiune este SenticNet 2 ,spre deosebire de versiunea SenticNet 1 , are o valoare de
atribuire de aproximativ 5700 concepte cheie din blolcul OpenMind SenticNet2 si ofera legatura
semantica obligatorie la mai mult de 14.000 de concepte i permite analiz mai profund i
multilateral a limbajului natural, n comparaie cu SenticNet 1 .
SenticNet 2 este construit folosind sentic-computing" paradigma care utilizeaz tehnici din
inteligenta artificala i web semantic pentru a mbunti detectarea, interpretarea i prelucrarea
limbajului natural de opinii .

Sentic-computing" este o abordare multidisciplinar a analizei sentimentelor la intersecia dintre "


affect computing i common sense computing . Termenul " common sense computing implic o
serie de iniiative pentru a asigura c calculatoare sa prezinta cunotine despre tot n lume n acea
form,ca s fie pe nelesul oameniilor, i c computerele sa fie capabile de a genera concluzii logice
pe baza cunostintelor ce le poseda.
Aceast abordare interdisciplinar implic utilizarea mijloacelor de informare i tiine sociale pentru
a mbunti detectarea, interpretarea i prelucrarea de opinii i sentimente.
n special, metodele de calcul a analizei Sentimentelor implic utilizarea inteligenei artificiale i web
semantic - pentru reprezentarea cunotinelor i concluziilor; matematica pentru calcularea
sarcininilor cum ar fi grafice de procesare ; Lingvistic - pentru analiza discursului i pragmatismului;

psihologie - pentru modelarea cognitiv i emoional; sociologie - pentru a nelege dinamica reelor
sociale i impact social; i n cele din urm de etic - pentru a nelege natura minii i crearea de
maini emoionale.
Sentic-computing" permite analiza documentelor, nu numai la nivelul de pagini ntregi , dar la nivel
de texte, ce permite ca evaluarea sa se realizeze la un nivel mai ridicat de detaliu .

1.2.3. SentiWordNet
SentiWordNet - este un tezaur semantic lexical, prima versiune a care a fost dezvoltat n 2006. n
momentul de fa, cea mai recent versiune este SentiWordNet 3.0 , utilizarea care prevede creterea
cu peste 20% n precizia raport cu prima versiune .
Acest sistem este rezultatul adnotarii automate a fiecrui WordNet synset (set de sinonime), n
conformitate cu gradul de pozitivitate, negativitate, i obiectivitate. Astfel, fiecarei serii de sinonimie
din WordNet ii este atribuita o evaluare numeric. Fiecare dintre aceste estimri ia valori cuprinse
ntre 0 i 1 i in suma primit 1, de unde, fiecare dintre aceste estimri pot avea o valoare diferit de
zero [27]. Teremenii, care pot avea valori diferite pot avea si valori diferite ale estimrilor.

Procesul de nvare SentiWordNet constat din dou etape :


1. Primul pas este dezvoltarea de metode ce au fost utilizate in procesul de e- learning (semisupervised learning) cu implicarea unor profesori pentru verificarea coninutul primar. La
inceput a fost selectat un set mic de synset-uri, pentru care au fost atribuite manual scoruri
numerice. Apoi, pe baza acestui set au fost instruii mai multi clasificatori, a cror sarcin a fost
de a determina gradul de negativitate, obiectivitate, pozitivitate . Dupa instruire, a fost obtinut
model de clasificri, si au fost determinate estimri numerice pentru fiecare WordNet synset.
2. A doua metoda se numeste (random-walk step), si consta ca datele obinute n prima etap a
fost utilizat cu un model aleatoriu (random-walk step) si ca urmare s-a stabilit evalurii
obiective finale, componentele pozitive sau negative ale fiecrui synset.
SentiWordNet se obtine sub licena CC BY-SA 3.0. Aceast licen permite utilizarea
SentiWordNet n scopuri comerciale i tiinifice ,doar cu conditia precizarii numelor
fondatorilor. Oricine poate descrca propriile fiiere SentiWordNet gratuit de pe site-ul oficial.

1.2.4. SentiSense
SentiSense a fost creat ntr-un proces semi-automat in dou etape, n conformitate cu
metodologia de dezvoltare a WordNet Affect si clasific synset-uri WordNet (Miller, 1995) ntr-un set
de categorii emoionale.
SentiSense este format din 5496 cuvinte i 2190 synset-uri etichetate cu o categorie emotionala. Partea
principal a lexiconului const n substantive i adjective, urmate de verbe i un mic set de adverbe.
Categoriile emoionale din SentiSense se bazeaz n cele propuse de Arnold (1960), Plutchik (1980), i
Parrot (2001). Arnold a propus una din primele clasificari de emotii. El a definit o list de unsprezece
emoii fundamentale (furia, aversiune, curaj, respingere, dorinta, disperare, frica, ura, speranta,
dragoste, i tristee).
Plutchik dimpotriva,a luat in considerare un set mai restrns de opt emoii de baz: acceptare, furie,
anticipare, dezgust, bucurie, frica, tristete, si surpriza.
Parrot prezint un set mult mai redus de ase emoii primare: furia, frica, bucuria, iubirea, tristeea, i
surpriz. Ei au fost ntrebati mai nti s propun, pentru fiecare emotie un antonim, cu condiia ca
acestea s aib un antonim clar. Ca rezultat, ei au primit urmtorul set de 20 de emoii i relaii cu
antonimul dintre ele. n timpul procesului de etichetare, cu toate acestea, e de menionat c apte dintre
termeni nu a fost prezenti n corpusul de adnotare, deoarece aveau un sens dificil de clasificat, de
aceea, astfel de emoii au fost eliminate din studiu.
De asemenea, sugerat de annotators, am introdus o categorie ambiguu, pentru a eticheta aceste
concepte cu sens emoional neclare sau ambigue.

Tabelul nr XX putem observa lista cuvintelor ce a au ramas din procesul de andnotare a celor 3
savanti :
Categoria
Ambiguu
Furie
Calm
Disperare
Dezgust
Anticipare

Antonim
Calm
Speranta
Simpatizare
Surpriza

Categoria
Ura
Speran
Fericire
Simpatizare
Iubire
Tristete

Antonim
Iubirea
Disperarea
Tristete
Dezgust
Ura
Fericire

Frica

Calm
Surpriza
Anticipare
Tabelul 1: categorii emoionale n SentiSense i relaia antonim printre ei

Principalul motiv pentru folosirea synset-uri WordNet in loc de termeni este c cuvintele au, de
obicei, mai multe sensuri, astfel nct un cuvnt poate aciona ca subiectiv sau obiectiv n cadrul unei
propoziii n funcie de contextul su, i poate prezinta o polaritate diferit.

1.2.5. Subjectivity Lexicon


Subjectivity Lexicon ofera polaritatea unui cuvnt n acelai timp analizeaz contextul su de
utilizare si se divizeaza in cel construit manual si cel automat. Mai jos vor fi descrise categoriie ce se
includ in divizarea sa.
Lexicul de Sentiment construit manual:
1.

MPQA (Multi-Perspective Question An-swering) Subiectivitatea Lexicului este meninut de


un vocabular de peste 8.000 de subiecte variate, fiecare cuvnt, este clasificat ca pozitiv sau
negativ. Lexicul este generat de MPQA aviz Corpus, care include o gam larg de articole de
tiri adnotate manual pentru opiniile i alte private stari, ofer o list de cuvinte cu un grad

2.

mare de polaritate (pozitiv, negativ, neutru) i puterea (subiectiv tare, subiectiv slab).
Bing Liu Lexicon sau mai numit Opinion Lexicon a fost scris de Liu et al.2005) si const
dintr-o list de cuvinte pozitive i o list de cuvinte negative (n jur de 6800 de cuvinte.
Deoarece lexiconul este generat automat de coninut social media, care conine leme {lemmas]
greite, dar care ar putea fi benefice la analiza tweet, deoarece ele tind s includ ortografii
eronate i prescurtari de cuvinte ; argou Internet (Liu 2010).
Lexicul de Sentiment construit automat

1.

NRC hashtag Sentiment Lexicon: conine termeni Tweet cu scoruri, scor pozitiv indic
asociere cu sentiment pozitiv, n cazul n care scorul negativ indic asocierea cu sentimentul
negativ. Ea are intrri pentru 54129 unigrame i 316531 bigrame; scorurile sunt calculate
folosind PMI pe un corpus de tweets.

2. SentiWordNet: este rezultatul adnotari automate a toturor synset-uri WordNet in functie de


gradul de pozitivitate, negativitate, i neutralitate.

3. Sentiment140-Lexicon este o list de caracteristici cu asociaiile de sentimente pozitive i


negative (Mohammad et al, 2013.). Lexiconul a fost creat din corpusul sentiment140 marcat
automat de 1,6 milioane de tweet-uri.
Sentiment140 are intrri pentru 62468 unigrame, 677698 bigrame, scorurile sunt calculate folosind
PMI pentru sentiment140 corpus tweet.
Etichetele caracteristice sunt unigrame, bigrame, i perechi de n-grame (unigrame-unigrame,
unigrame-bigrame, bigrame-unigrame i bigrame-bigrame). Fiecare caracteristic are un scor care
reflect modul pozitiv sau negativ ale funciei. Dac cuvntul a fost vzut n contexte mai pozitive
dect context negativ, atunci scorul este pozitiv.
Magnitudinea scorul este cea mai nalt atunci cnd distribuia este foarte pozitiva, iar magnitudinea
este mai apropiat de zero cnd cuvntul apare n mod egal n context pozitiv i negativ. Cuvintele
negative sunt marcate folosind similar valori negative n loc de valori pozitive.

1.2.6. MICRO-WNOP
Corpusului Micro-WNOp este compus din 1.105 synset-uri WordNet (dar a fost proiectat pentru
versiuni anterioare WordNet). A fost creat folosind synset-uri de la General Inquirer lexicon. Cu toate
acestea, dup ce a fost facuta procedura de cartografiere Micro-WNOp cu Word- Net 3.0 , 49 de
synset-uri au fost omise. Prin urmare, aceasta este un set de date de 1.056 synset-uri din WordNet 3.0,
care au fost evaluate de ctre experi, clasificindu-le in pozitive, negative sau obiective.
Setul este format din 3 grupe de synset-uri si se divizeaza in urmatoarele :
1.

Prima parte este comun si este compusa din 110 synset-uri (care acoper aproximativ 10%

din synset-uri) a fost evaluat prin toate seturile de 5 evaluatorii.


2. Al doilea grup de synset-uri este parte din Grupul 1 (circa 45%) a fost evaluat de 3
evaluatorii (fiecare synset este format din 3 perechi de valori pozitive i negative de sentimente
) si este compusa din 496 synset-uri.
3. Treilea grup este parte a Grupul 2 ce este compusa din 499 synset-uri (aproximativ 46 %) a
fost evaluat de ctre cei 2 evaluatorii rmasi.

Scopul a fost de a evalua rezultatele de sentiment n WordNet 1.0, 1.1, 2.0 i 3.0. Datorit
angajamentului, Micro-WNOp pare s fie o referin de ncredere stabilit pentru validare. Unele
synset-uri pot fi adnotate ca att pozitive, ct i negative simultan.
Dou criterii au fost adoptate n construcia seturilor:

Relevanta opini : seturile trebuie s conin suficiente synset-uri, care sunt relevante in ceea ce

privete subiectul vizat.


Reprezentativitate WordNet : POS de synset-uri din corpusul ar trebui s fie reprezentative
pentru distribuia synset-uri ntre patru POS.

Pentru a asigura crearea unui corpus format din synset-uri care sunt relevante pentru tema
analizata, lexiconul General Inquirer (GI) a fost utilizat pentru a identifica un set de termeni care sunt
relevante in legatura cu opinia subiectului abordat.
General Inquirer este un sistem de analiz de text care utilizeaz, n scopul de a-i ndeplini sarcinile,
un lexicon cu termeni de clasificate manuali pe un numr mare de categorii, fiecare dintre care indic
prezena unei anumite trasaturi ntr-o anumit perioad.
Lexiconul General Inquirer a fost utilizat pe scar larg n multe lucrri privind determinarea
automat a proprietilor sentiment pe diferiti termeni.Lexicon conine un total de 11788 termeni, 1915
dintre acestea sunt etichetati ca fiind pozitivi i 2291 sunt etichetati negativ (termenii ramasi de 7582
nu aparin nici unei conditiei pozitive sau negative, poate fi considerate, etichetate ca obiectiv).
O list de 100 de termeni pozitivi au fost creati prin selectarea la ntmplare de termeni pozitive din
lexiconul General Inquirer ce a fost utilizat pe scar larg n multe lucrri privind determinarea
automat a proprietilor sentiment pe diferiti termeni.
Acelai proces a fost repetat pentru categoriile negativ i obiectiv. Cele trei liste din termenii
obinuti au fost apoi convertite n liste prin selectarea de synset-uri din WordNet , toti termenii din
synset erau termeni separati.
Listele synset-uri au fost mprite n trei pri pentru a urmri mprirea corpusului MICRO-WNOP
n cele trei grupe : partea comun, Grupul 1 i Grupul 2. In Anexa 1 se arat desfasurat termeni care
au fost selectati i modul n care acestea au fost distribuite ntre prile din corpus.
WordNet

Adjective
18563(16%
)

Substantivele
79689 (69%)

Verbe
Adverbe
3664 (3%) 13508(12%
)

Total
115,424

Total MICRO-WNOP
284 (26%)
MICRO-WNOP Comun 28 (25%)

500 (45%)
51 (46%)

32 (3%)
2 (2%)

289 (26%)
29 (26%)

1105
110

MICRO-WNOP Grup1

214 (43%)

9 (2%)

135 (27%)

496

MICRO-WNOP Grup2 118 (24%)


235 (47%)
21 (4%)
125 (25%)
Tabelul 2: Repartiia synset-uri ntre POS din WordNet i MICRO-WNOP

499

138 (28%)

Tabelul 2 prezint repartizarea synset-uri ntre POS in WordNet i n micro-WNOP. Corpusului


MICRO-WNOP are o proporie mai mic de substantivein ceea ce privete WordNet, acest lucru poate
fi motivat de prezena mare a substantivelor proprii n WordNet, care n schimb lipsesc n lexiconul
General Inquirer ce a fost utilizat pe scar larg n multe lucrri privind determinarea automat a
proprietilor sentiment pe diferiti termeni.
Proporiile dintre celelalte POS este respectat, att n ntregul corpus i n fiecare dintre cele trei pri
ale sale.

S-ar putea să vă placă și