Documente Academic
Documente Profesional
Documente Cultură
n general cercetrile legate de extragerea opiniilor din texte s-au axat pe gsirea opiniilor exprimate
direct n textele analizate . Exist totui domenii unde aceast abordare este deficitar, unde trebuie sa
lrgim perspectivele pentru a detecta i opiniile care nu sunt exprimate direct.
Una dintre lucrrile de referin din domeniul extragerii opiniilor din texte este cea a lui Pang i
Lee , n care documentele sunt clasificate n funcie de opinia prevalent din ntreg textul, obinut ca
sum a tuturor opiniilor ntlnite.
Wiebe mparte textele n propoziii subiective i obiective iar mai apoi accentul a fost pus n
special pe determinarea la nivel individual a polaritii opiniilor ntlnite. Aceast mprire variaz de
la o dihotomie pozitiv-negativ pn la o clasificare mai complex bazat pe intensitatea prerilor din
text .
Un alt scop conex extragerii de opinii este acela de a lega opiniile extrase de concepte. Ulterior s-a
mers mai departe, legnd opiniile de anumite faete ale unor concepte , aprnd astfel ideea de opinii
faetate. Scopul acestei fracionri este de a determina exact care sunt subcomponentele obiectului sau
ideii analizate la care se refer opinia exprimat.
Toate metodele descrise mai sus se bazeaz pe ntlnirea opiniilor exprimate direct n textul analizat,
acesta putnd fi unul dintre motivele pentru care pentru mult timp analiza opiniilor s-a rezumat la
situaii i exemple relativ simple ca recenziile de filme . Simplitatea n acest caz mai survine i din
faptul c obiectul discuiei este cunoscut a priori, o larg majoritate a opiniilor prezente n text sunt
legate de acel obiect iar prerile exprimate pot fi mprite cu uurin n pozitive i negative.
De exemplu in domeniul economic, ntr-un studiu legat de analiza sentimentelor n blog-uri financiare,
Ferguson , folosea adnotri la nivel de paragraf i un clasificator Bayesian, el a artat c n mai mult
de 60% dintre textele analizate au fost gsite opinii. Trebuie totui menionat c studiul sau, s-a
rezumat la analiza textelor n care se gseau referiri explicite la companii listate n indexul S&P500.
Abordri cheie de clasificare a Opinion Mining
Exist o serie de tezaure ,special marcate avnd n vedere componenta sa emotionala. Aceste
dicionare sunt descrise mai jos, cu programe pentru calculator analiza sentiment necesar.
Exist instrumente pentru a identifica sentimentul generate de un text. Aici este o list cu cele mai
populare instrumente:
utilizare;
MicroWNOp: bazat att pe WordNet i General Inquirer, ofer seturi de cuvinte pozitive i
negative, obiectivele sunt sinonime.
1.2.1. WordNet-Affect
emotionale, sau situaii care declanseaza emotii. Exemple de astfel de stari emoionale sunt prezentate
n tabelul de mai jos.
Sentimentul
Emotia
Dispozitia
Caracteristica
Exemplu
Faptele
Relatia,atitudinea
Senzatia
1.2.2. SenticNet
SenticNet reprezint un alt tezaur semantic pentru un set de concepte emotionale. SenticNet
este un proiect lansat de Media Lab de la Massachusetts Institute of Technology n 2010 . De atunci,
proiectul a fost dezvoltat n continuare SenticNet i este folosit pentru proiectarea de aplicaii
inteligente concepute pentru a analiza coninutul emoional al textului i care acoper spectrul
sarcinilor de data mining la organizarea interaciunii om-calculator .
Scopul principal al SenticNet este de a simplifica procedura de recunoatere a informaiilor
conceptual i emoional transferate prin intermediul limbajului natural [31]. Dac am compara tezaure
lexical, cum ar fi SentiWordNet i WordNet-Affect cu SenticNet, diferena lor principala este ca
SentiWordNet i WordNet-Affect ofer cuvinte obligatorii i concepte emotionale la nivel sintactic si
nu permit identificarea componentelor semantice : "a fi in al saptelea cer de fericire " sau " a avea o
presimtire rea ", n timp ce SenticNet face legatura cu termenii alesi la nivel semantic .
Cea mai recent versiune este SenticNet 2 ,spre deosebire de versiunea SenticNet 1 , are o valoare de
atribuire de aproximativ 5700 concepte cheie din blolcul OpenMind SenticNet2 si ofera legatura
semantica obligatorie la mai mult de 14.000 de concepte i permite analiz mai profund i
multilateral a limbajului natural, n comparaie cu SenticNet 1 .
SenticNet 2 este construit folosind sentic-computing" paradigma care utilizeaz tehnici din
inteligenta artificala i web semantic pentru a mbunti detectarea, interpretarea i prelucrarea
limbajului natural de opinii .
psihologie - pentru modelarea cognitiv i emoional; sociologie - pentru a nelege dinamica reelor
sociale i impact social; i n cele din urm de etic - pentru a nelege natura minii i crearea de
maini emoionale.
Sentic-computing" permite analiza documentelor, nu numai la nivelul de pagini ntregi , dar la nivel
de texte, ce permite ca evaluarea sa se realizeze la un nivel mai ridicat de detaliu .
1.2.3. SentiWordNet
SentiWordNet - este un tezaur semantic lexical, prima versiune a care a fost dezvoltat n 2006. n
momentul de fa, cea mai recent versiune este SentiWordNet 3.0 , utilizarea care prevede creterea
cu peste 20% n precizia raport cu prima versiune .
Acest sistem este rezultatul adnotarii automate a fiecrui WordNet synset (set de sinonime), n
conformitate cu gradul de pozitivitate, negativitate, i obiectivitate. Astfel, fiecarei serii de sinonimie
din WordNet ii este atribuita o evaluare numeric. Fiecare dintre aceste estimri ia valori cuprinse
ntre 0 i 1 i in suma primit 1, de unde, fiecare dintre aceste estimri pot avea o valoare diferit de
zero [27]. Teremenii, care pot avea valori diferite pot avea si valori diferite ale estimrilor.
1.2.4. SentiSense
SentiSense a fost creat ntr-un proces semi-automat in dou etape, n conformitate cu
metodologia de dezvoltare a WordNet Affect si clasific synset-uri WordNet (Miller, 1995) ntr-un set
de categorii emoionale.
SentiSense este format din 5496 cuvinte i 2190 synset-uri etichetate cu o categorie emotionala. Partea
principal a lexiconului const n substantive i adjective, urmate de verbe i un mic set de adverbe.
Categoriile emoionale din SentiSense se bazeaz n cele propuse de Arnold (1960), Plutchik (1980), i
Parrot (2001). Arnold a propus una din primele clasificari de emotii. El a definit o list de unsprezece
emoii fundamentale (furia, aversiune, curaj, respingere, dorinta, disperare, frica, ura, speranta,
dragoste, i tristee).
Plutchik dimpotriva,a luat in considerare un set mai restrns de opt emoii de baz: acceptare, furie,
anticipare, dezgust, bucurie, frica, tristete, si surpriza.
Parrot prezint un set mult mai redus de ase emoii primare: furia, frica, bucuria, iubirea, tristeea, i
surpriz. Ei au fost ntrebati mai nti s propun, pentru fiecare emotie un antonim, cu condiia ca
acestea s aib un antonim clar. Ca rezultat, ei au primit urmtorul set de 20 de emoii i relaii cu
antonimul dintre ele. n timpul procesului de etichetare, cu toate acestea, e de menionat c apte dintre
termeni nu a fost prezenti n corpusul de adnotare, deoarece aveau un sens dificil de clasificat, de
aceea, astfel de emoii au fost eliminate din studiu.
De asemenea, sugerat de annotators, am introdus o categorie ambiguu, pentru a eticheta aceste
concepte cu sens emoional neclare sau ambigue.
Tabelul nr XX putem observa lista cuvintelor ce a au ramas din procesul de andnotare a celor 3
savanti :
Categoria
Ambiguu
Furie
Calm
Disperare
Dezgust
Anticipare
Antonim
Calm
Speranta
Simpatizare
Surpriza
Categoria
Ura
Speran
Fericire
Simpatizare
Iubire
Tristete
Antonim
Iubirea
Disperarea
Tristete
Dezgust
Ura
Fericire
Frica
Calm
Surpriza
Anticipare
Tabelul 1: categorii emoionale n SentiSense i relaia antonim printre ei
Principalul motiv pentru folosirea synset-uri WordNet in loc de termeni este c cuvintele au, de
obicei, mai multe sensuri, astfel nct un cuvnt poate aciona ca subiectiv sau obiectiv n cadrul unei
propoziii n funcie de contextul su, i poate prezinta o polaritate diferit.
2.
mare de polaritate (pozitiv, negativ, neutru) i puterea (subiectiv tare, subiectiv slab).
Bing Liu Lexicon sau mai numit Opinion Lexicon a fost scris de Liu et al.2005) si const
dintr-o list de cuvinte pozitive i o list de cuvinte negative (n jur de 6800 de cuvinte.
Deoarece lexiconul este generat automat de coninut social media, care conine leme {lemmas]
greite, dar care ar putea fi benefice la analiza tweet, deoarece ele tind s includ ortografii
eronate i prescurtari de cuvinte ; argou Internet (Liu 2010).
Lexicul de Sentiment construit automat
1.
NRC hashtag Sentiment Lexicon: conine termeni Tweet cu scoruri, scor pozitiv indic
asociere cu sentiment pozitiv, n cazul n care scorul negativ indic asocierea cu sentimentul
negativ. Ea are intrri pentru 54129 unigrame i 316531 bigrame; scorurile sunt calculate
folosind PMI pe un corpus de tweets.
1.2.6. MICRO-WNOP
Corpusului Micro-WNOp este compus din 1.105 synset-uri WordNet (dar a fost proiectat pentru
versiuni anterioare WordNet). A fost creat folosind synset-uri de la General Inquirer lexicon. Cu toate
acestea, dup ce a fost facuta procedura de cartografiere Micro-WNOp cu Word- Net 3.0 , 49 de
synset-uri au fost omise. Prin urmare, aceasta este un set de date de 1.056 synset-uri din WordNet 3.0,
care au fost evaluate de ctre experi, clasificindu-le in pozitive, negative sau obiective.
Setul este format din 3 grupe de synset-uri si se divizeaza in urmatoarele :
1.
Prima parte este comun si este compusa din 110 synset-uri (care acoper aproximativ 10%
Scopul a fost de a evalua rezultatele de sentiment n WordNet 1.0, 1.1, 2.0 i 3.0. Datorit
angajamentului, Micro-WNOp pare s fie o referin de ncredere stabilit pentru validare. Unele
synset-uri pot fi adnotate ca att pozitive, ct i negative simultan.
Dou criterii au fost adoptate n construcia seturilor:
Relevanta opini : seturile trebuie s conin suficiente synset-uri, care sunt relevante in ceea ce
Pentru a asigura crearea unui corpus format din synset-uri care sunt relevante pentru tema
analizata, lexiconul General Inquirer (GI) a fost utilizat pentru a identifica un set de termeni care sunt
relevante in legatura cu opinia subiectului abordat.
General Inquirer este un sistem de analiz de text care utilizeaz, n scopul de a-i ndeplini sarcinile,
un lexicon cu termeni de clasificate manuali pe un numr mare de categorii, fiecare dintre care indic
prezena unei anumite trasaturi ntr-o anumit perioad.
Lexiconul General Inquirer a fost utilizat pe scar larg n multe lucrri privind determinarea
automat a proprietilor sentiment pe diferiti termeni.Lexicon conine un total de 11788 termeni, 1915
dintre acestea sunt etichetati ca fiind pozitivi i 2291 sunt etichetati negativ (termenii ramasi de 7582
nu aparin nici unei conditiei pozitive sau negative, poate fi considerate, etichetate ca obiectiv).
O list de 100 de termeni pozitivi au fost creati prin selectarea la ntmplare de termeni pozitive din
lexiconul General Inquirer ce a fost utilizat pe scar larg n multe lucrri privind determinarea
automat a proprietilor sentiment pe diferiti termeni.
Acelai proces a fost repetat pentru categoriile negativ i obiectiv. Cele trei liste din termenii
obinuti au fost apoi convertite n liste prin selectarea de synset-uri din WordNet , toti termenii din
synset erau termeni separati.
Listele synset-uri au fost mprite n trei pri pentru a urmri mprirea corpusului MICRO-WNOP
n cele trei grupe : partea comun, Grupul 1 i Grupul 2. In Anexa 1 se arat desfasurat termeni care
au fost selectati i modul n care acestea au fost distribuite ntre prile din corpus.
WordNet
Adjective
18563(16%
)
Substantivele
79689 (69%)
Verbe
Adverbe
3664 (3%) 13508(12%
)
Total
115,424
Total MICRO-WNOP
284 (26%)
MICRO-WNOP Comun 28 (25%)
500 (45%)
51 (46%)
32 (3%)
2 (2%)
289 (26%)
29 (26%)
1105
110
MICRO-WNOP Grup1
214 (43%)
9 (2%)
135 (27%)
496
499
138 (28%)