Sunteți pe pagina 1din 17

Modulul 5

Analiza automata a discursului stiintific


-Teorie, programe, aplicatii -
Programele considerate:
Tropes: Software de analiza a textelor: clasificare semantica, analiza
calitativa, analiza discursului, extragerea de cuvinte cheie;
constructia de thesauri si ontologii.
Zoom: Motor de cautare, de clasificare si filtrare semantica, dotat cu
un nucleu de indexare in limbaj natural.

Prof. Dr. Dan CARAGEA


Preliminarii
Analiza discursului este un demers multidisciplinar, calitativ si
cantitativ, care studiaza continutul si contextul discursului (oral si
scris).
Analiza discursului se sprijina pe concepte imprumutate din retorica,
lingvistica, stiintele comunicarii, psihologie, sociologie, istorie,
informatica etc.
Discursul este considerat o realitate in sine, si nu un reflex al realitatii,
asa cum se afirma in analiza continutului.
Analiza evidentiaza o serie de comentarii textuale care sunt relatii de
putere, incluziune, excluziune...
Automatizarea acestui tip de analiza este posibila, programele propuse
de noi fiind, probabil, dintre cele mai complexe de pe piata.
Cronologie

Anii 80: Rodolphe Ghiglione si laboratorul sau (le Groupe de


Recherche sur la Parole, Universitatea Paris VIII) lucreaza la Analiza
Propozitionala a Discursului (APD).
Aceste cercetari incercau sa fundeze stiintific interpretarea textelor
bazata pe teoria «subiectului comunicant».
1985: Publicarea cartii «Dires analysés», PUV, de catre Ghiglione et
alli.
Prima carte asupra noii metode de analiza a continuturilor, APD.
1991: Publicarea cartii «Analyse de contenu et contenus d’analyse»,
Dunod, de catre Ghiglione si Blanchet.
Teoria analizei propozitionale a discursului este finalizata.
Cronologie

1991: Rodolphe Ghiglione si Pierre Molette


Un psiholog si un informatician lucreaza impreuna la automatizarea
analizei textelor.
1994: Crearea firmei ACETIC si comercializarea programului
Tropes V1.0
Primul program de analiza a textelor bazat pe APD. Versiunea 1.4
putea sa trateze pana la 30 000 de documente, fiind primul program
care rezolva automat ambiguitatiile limbii.
1995: «L’Analyse cognitivo-discursive», PUG, de catre Ghiglione et
alli.
Se naste o noua teorie, analiza cognitivo-discursiva, care include
APD.
Cronologie

1997: Acetic lanseaza Tropes V3.0


Primul program care automatizeaza ACD (fraze remarcabile) si
analiza cronologica a textului (rafale si episoade), plecand de la
lucrari provenind din Stiintele Politice.

1998: «Discours politique et télévision», PUF, de catre Ghiglione et


alli.
Analiza cu Tropes a integralitatii articolelor din Le Figaro,
Libération si Le Monde in timpul campaniei prezidentiale.

1998: Publicarea cartii «L’analyse automatique des contenus»,


Dunod, de catre Ghiglione et alli.
Teoria analizei cognitive a discursului este finalizata.
Cronologie

1998: Cartografierea semantica a continuturilor pe Wanadoo


Prima analiza tematica a cautarilor intr-un motor de indexare si
cautare international.

1999: Indexarea Enciclopediei Hachette


Prima aplicare a unei tehnici de cercetare in limbaj natural pentru a
imbunatati cercetarea pe CD-ROM-ul unei enciclopedii pentru
marele public.

1999: Acetic lanseaza Index V4


Primul motor capabil sa faca o analiza morfologica si semantica a
totalitatii Web-ului (francez/englez).
Cronologie
2001: Acetic este considerata o societate de referinta de catre
Ministerul francez al Cercetarii
Tropes intra in invatamantul secundar (Litere, Istorie, Geografie).

2002: Gama Tropes Zoom V6 functioneaza in patru limbi


(franceza, engleza, portugheza, spaniola)

2003: Crearea societatii Cyberlex (Portugalia)


Premiul Fundatiei Marchizul de Pombal pentru Inovatie si
Tehnologie.
Program pe termen lung de colaborare stiintifica cu societatea
Acetic.
Fundamentul teoretic

ACD este o teorie care se bazeaza pe:


• decuparea textului in propozitii;
• clasificarea semantica a cuvintelor utile;
• identificarea de clase paradigmatice de substantive (referinte
nodale);
• obtinerea unui model propozitional simplificat din punct de vedere
formal (structura fundamentala de semnificare).

Rezumand, este vorba de extragerea din text a unei serii de variabile,


tratate apoi statistic, pentru a obtine rezultate obiective de analiza
(identificabile sau nu la o lectura mai profunda a textului).
Functionarea interna

• Lanturi de caractere >> ANALIZA MORFOLOGICA


• Forme lexicale >> ANALIZA LEXICALA
• Fraze >> ANALIZA SINTACTICA
• Cuvinte, propozitii >> ANALIZA SEMANTICA
• Sensuri >> ANALIZA COGNITIVO-DISCURSIVA
• SFS >> STATISTICI
Categorii gramaticale

• SUBSTANTIVE (comune si proprii)


• ADJECTIVE (subiective, obiective, numerice)
• VERBE (factive, stative, declarative, performative)
• PRONUME (personale; altele)
• MODALIZARI (timp, loc, mod, afirmatie, indoiala, negatie,
intensitate)
• CONECTORI (conditie, cauza, scop, aditie, disjunctie, opozitie,
comparatie, timp, loc)
Retele Semantice

• REFERINTE UTILIZATE («Bucuresti, Cluj, Iasi»)


• UNIVERSUL DE REFERINTA 2 («Romania»)
• UNIVERSUL DE REFERINTA 1 («Geografie»)
Structura Fundamentala de Semnificare

• Relatii (inter-referentiale)
• Episoade si rafale
• Fraze remarcabile (triaj)
• Stil
• Statistici
Caracteristici

• Metode confirmate, bazate pe cercetarea universitara.


• O preocupare permanenta pentru obiectivitate: Tropes isi «justifica» analizele,
prezentand indicatorii luati in considerare in diagnosicul sau.
• O ergonomie simpla, pentru un software interactiv, destinatat analistilor de orice nivel,
mai ales celor obisnuiti cu suportul hartie.
• O logica de inteligenta artificiala capabila sa rezolve ambiguitatile (lexicale si
semantice) si sa clasifice majoritatea cuvintelor unei limbi.
• Dictionare enciclopedice pragmatice: suporta peste 500.000 de clasificari semantice,
inclusiv marci si nume de firme...
• Un motor de analiza lingvistica foarte rapid, capabil sa trateze (in fiecare zi) mii de
documente intr-un computer obisnuit.
Procesul de analiza

•Relatii inter-referentiale
•ACD: Episoade si Rafale
• Fraze remarcabile (triaj)
•Stil
•Statistici
Functionarea Tropes-Zoom

•Relatii inter-referentiale
•ACD: Episoade si Rafale
• Fraze remarcabile (triaj)
•Stil
•Statistici
Aplicatii

Gestiunea Informatiei si a Cunoasterii


Indexarea si clasificarea bazelor documentare. Crearea de
thesauri.
Marketing, sondaje si chestionare
Analiza calitativa/cantitativa a datelor textuale. Studiul
concurentei. Analiza presei.
Comunicarea in Relatii Publice, Marketing
Studiul imaginii de marca al unei firme. Analiza mesajelor
strategice. Analiza mailing-ului.
Alte domenii
Inteligenta economica. Informatica decizionala. Studii
sociologice. Analiza discursului politic. Invatamant.
Coordonatele noastre

Dan Caragea
UEFISCSU
dan.caragea@uefiscsu.ro
Bel Llodrà Riera, Hyperlinks

S-ar putea să vă placă și