Sunteți pe pagina 1din 15

METODOLOGIA ANALIZEI AUTOMATE A DISCURSULUI (PROCESUL BOLOGNA)

DESPRE CORPUS

Spre deosebire de unele abordri de data minig care au la baza extragerea informaiei dintr-o baz
nestructurat de texte, studierea Procesului Bologna de ctre grupul nostru de lucru se face plecnd, n
primul rnd, de la stabilirea corpusului documentar. Ne propunem astfel o structur de corpusuri pe mai
multe paliere i care vor putea fi analizate fie individual, fie zonal (pe niveluri), fie global (reunite). Motivele
unui asemenea demers in de pertinena informaiei pe care dorim s o extragem n funcie de orientrile
interpretative prezentate n cele ce urmeaz.

I. Un prim corpus numit de noi i corpusul central este reprezentat, aadar, de documentele
Procesului Bologna:
A) n centrul sferei documentare am situat, dup cum rezult din bibliografia consultat,
Declaraia de la Bologna (1999), Conferinele ministeriale (2001, Praga 2012,
Bucureti), precum i cele trei forumuri (2009-2012). Acestea trebuie studiate att
pentru degajarea orientrilor fundamentale, ct i pentru punerea n eviden a unei
cronologii conceptuale care s poat reflecta istoricul acestui proces i ordinea de
intrare a conceptelor n scen.
B) Un al doilea corpus, reprezentat de rapoartele naionale, este organizat pe ri i
poate permite analize comparative, dar i analize globale avnd la baz glosarul
degajat din documentele fundamentale.
C) O alt categorie de documente o constituie seminariile (recente) analizate pe baza
documentaiei de arhiv virtual.
D) Vom lua n consideraie documentele rezultate din ntlnirile BFUG (Bologna Follow-
up Group). Vor analizate documentele grupurilor de lucru (WG) i care apar
organizate tematic (Social Dimension, Mobility, Lifelong learning, Employability,
Qualification frameworks/ Degree structures, Education, research and innovation,
International openness, Data Collection / Reporting on the Bologna Process
Implementation, Financing and Governance of Higher Education, Quality assurance,
Recognition, Transparency tools, Student Centred Learning)1.
E) O serie de satelii provin din documentele semnate de membri consultativi
(Consiliul Europei, EUA, EURASHE, ESU, UNESCO, Education International, ENQA i
BUSINESSEUROPE) referitoare la Procesul Bologna.
Trebuie subliniat faptul c structurarea documentaiei din corpusul central s-a fcut
n acord cu viziunea oficial de pe pagina EHEA (European Higher Education Area) 2,
entitate creat n 2010, ca emanaie a acestui proces.
II. n afara corpusului central prezentat mai sus, managementul proiectului a decis explorarea
altor corpusuri care se refer cu precdere la acest proces, sau la situaia nvmntului

1
Vezi Work Programme pe http://www.ehea.info/.
2
Pe pagina BOLOGNA PROCESS EUROPEAN HIGHER EDUCATION AREA (http://www.ehea.info/) gsim o
structur de arhiv a documentaiei fundamentale: Main documents (Ministerial conferences, Bologna Policy Forums),
National reports, Recent seminars, BFUG Meeting documents.

2
superior din EHEA (de exemplu, documente OCDE). Se ncearc, n acest fel, dincolo de
lrgirea bibliografiei, nelegerea impactului pe care Procesul Bologna l are asupra
nvmntului superior n prezent, dar mai ales n viitor, precum i nelegerea cadrului
european lrgit de dezbatere. Menionm c EHEA este format actualmente din 47 de
state.
III. Vor mai fi luate n consideraie, documente elaborate de alte state neeuropene pentru a
pune n eviden perspective contrastive i difereniatoare care pot preocupa societatea
global. Atenia se ndreapt asupra celor 19 state non-EHEA, ale cror abordri reprezint
un reper bibliografic i de studiu permanent.

Odat structurat corpusul, dup un model arborescent, att elaborarea dicionarului (care emerge din
corpus), ct i analizele pot urma diferite linii de cercetare la nivel de microunivers sau de microunivers
discursiv. Aa cum am artat, acestea pot fi comparative i longitudinale.

O astfel de viziune este n acord cu perspectiva actual din discursologie, n care abordrile analitice trebuie
s urmeze o evoluie ascendent, de la text (discursul textual) la baze textuale tematice (discursul
domeniului). Pentru o corect interpretare, vom ine seama, pe de o parte, de apartenena textelor la
acelai grup tematic omogen, precum i de data elaborrii documentului. n anumite cazuri, se pot cerceta
diversele grade de similaritate, adic de convergen tematic. Vom degaja, de asemenea, hri ale
cunoaterii i grafice obinute pe baza tratamentelor statistice.

Pentru crearea unei biblioteci eseniale pentru zonele a II-a i a III-a, referitoare la nvmntul superior n
EHEA i n statele avansate din afara Europei este necesar consultarea unor entiti specializate, dar i a
unor reviste de prestigiu internaional. Documentele vor fi descrcate ntr-un spaiu rezervat i ulterior
filtrate, catalogate i folosite pentru viitoare consultri, analize etc.

3
Este necesar ca, o dat grupate, s se procedeze la o atent examinare a tuturor textelor, indiferent de
zona de provenien. Este vorba de verificarea integritii fiierelor, a acurateei conversiei caracterelor de
ctre programele informatice de indexare semantic i de analiz care alctuiesc setul de instrumente
informaionale (Tropes i Zoom/Owledge). Documentele sunt, n marea lor majoritate, n format PDF, ceea
ce impune compararea conversiei att cu IFILTER-ul produs de Adobe, dar i de Foxit, n multe cazuri mai
performant.

Un alt concept metodologic este acela de puritate a textelor (eliminarea sau mcar diminuarea
zgomotului informaional). Astfel, este de dorit ca o serie de metadate editoriale, abundente pe coperte i
n primele pagini, bibliografia, indicii de autori i tematici s fie provizoriu eliminate atunci cnd dorim s
obinem, prin analize, statistici conceptuale riguroase. n accepia noastr, discursul nu poate fi corect pus
n eviden dect dac ne mrginim la analiza textului propriu-zis (eliminnd datele bibliografice, editoriale,
i care in de tradiia tipografic). Muli analiti merg mai departe atunci fac analize lexicometrice privind
ocurena absolut, prefernd s substituie procedeele anaforice prin conceptele la care se refer, pentru ca
numrtoarea automat s nu fie viciat. Desigur, acest grad extrem de acuratee, valabil pentru volumetrii
rezonabile, nu este aplicabil n cazul nostru, ntruct volumul de informaii este suficient de mare pentru a
garanta fiabilitatea calculelor statistice.

DESPRE ANALIZA AUTOMATA A DISCURSULUI BOLOGNA


(asistat de Tropes, Zoom/Owledge)

nelegerea complexitii analizei discursului bazat pe programul Tropes, principalul nostru instrument de
lucru i care a fost adaptat acestui proiect, presupune cunoaterea ntregului su univers operaional.
Rezultatele unor analize pot prea, la prima vedere, dispensabile, dar nlnuirea acestora, aa cum putem
vedea din schema de mai jos, formeaz o succesiune logic, necesar i armonioas, conceput pentru a
controla toate informaiile pe care le-am putea extrage dintr-un text, indiferent de dimensiunea acestuia.

4
Analiza morfosintactic. Dup conversia textului, Tropes identific categoria morfologic a tuturor
cuvintelor din text, tratnd n mod convenabil omonimele morfologice de tipul may, verb, i may,
substantiv referitor la o lun a anului (se estimeaz la 2% rata medie de eroare).

Gramatica programului cuprinde urmtoarele clase morfologice:


Substantive (fiind pri de vorbire purttoare de informaie pertinent, acestea apar att n
meniul Substantive, ct i grupate n clase semantice de termeni echivaleni numite Referine,
dup cum vom vedea mai detaliat, n cele ce urmeaz).
Verbe, mprite n factive, care exprim aciuni, stative, care exprim stri sau posesia, i
reflexive, care exprim gnduri despre lume, sentimente.
Conectori (conjuncii, locuiuni conjuncionale, pronume relative), care introduc condiia, cauza,
scopul, adunarea, disjuncia, opoziia, comparaia, timpul i locul. Trebuie remarcat faptul c
unele din aceste categorii reunesc i ale categorii de conectori i au la baz o clasificare proprie,
justificat de autori3.
Modalizri, clasificate ca exprimnd: timpul, locul, modul, afirmaia, ndoiala, negaia i
intensitatea. Aici sunt incluse n special adverbele i locuiunile adverbiale.
Adjective, mprite n subiective, care exprim proprieti percepute subiectiv, cum ar fi
mare, important etc., obiective, care exprim proprieti percepute obiectiv, cum ar fi:
instituional, educativ etc., i adjective numerale.
Pronume personale.

O ultim categorie, cea a determinanilor (articole, prepoziii, unele pronume), nu are statut morfologic
independent, dar o putem detecta prin plimbarea mouse-ului pe textul analizat.

3
Ghiglione, R.; Landr, A.; Bromberg; M.; Molette, P.: L'analyse automatique des contenus, Paris, Dunod, 1998.

5
Tropes prezint toate aceste clasificri, indicnd numrul de ocurene i procentajul n raport cu categoria
principal. Am ales, spre exemplificare, un text aleatoriu (Creativity in Higher Education) unde verbele
stative, de exemplu, reprezint 28,1%, iar adverbele de timp 12,9%. n paranteze apare numrul de
ocurene, adic numrul de forme grupate n aceeai clas, inventariate de program. n ferestrele din
dreapta, marcate cromatic, pot fi observate civa din termenii astfel identificai.

Analiza morfosintactic ne intereseaz n msura n care dorm o corect detectare a formelor compuse
(substantive compuse, sintagme, nume de instituii, de programe etc.), precum i a acronimelor. Extractorul
terminologic ne va ghida n acest sens, pentru ca ntregul vocabular de interes s poat fi detectat i,
ulterior, clasificat semantic.

Analiza lexico-semantic. O dat gsit unitatea semnificativ de baz (adic propoziia), Tropes va clasifica
referinele (substantivele) n clase semantice, pe trei niveluri. Prin referine nelegem substantivele
purttoare de informaie pertinent. n aceasta etap, cea mai complex n tratamentul informaiei,
programul se sprijin pe reele semantice proprii i pe dezvoltri speciale (clasificrile noastre, numite
scenariu). Tropes este pregtit s trateze ambiguitile semantice cunoscute, calculnd probabilitatea de
ocuren a unui anumit sens ntr-un context particular. De exemplu, Tropes distinge mouse, roztor, de
mouse, hardware. Acest tratament nu este ntotdeauna uor, pentru c, n realitatea textual, este firesc
ca diferite contexte opuse s se activeze n acelai timp. Rata medie de eroare nu depete 5%.

References References fields 2 References fields 1

6
Aa cum putem vedea n exemplul de mai sus, n analiza semantic referinele se grupeaz ulterior n dou
cmpuri, ceea ce ne permite nelegerea temelor abordate. Aceasta funcie este deosebit de important n
indexarea documentar (detectarea automat a descriptorilor, a temelor). De exemplu, dac un text
menioneaz United Kingdom, Britan i England, Tropes deduce c n text se vorbete despre United
Kingdom, care este o ara din Europa. n esen, este vorba de contragerea semantic aplicat de
program. Sunt calculate astfel numrul de ocurene, iar vizualizarea se poate face att alfabetic, ct i n
ordinea descresctoare a ocurenelor (ca n exemplul de mai sus). Cuvintele tematice cele mai des
menionate vor ocupa primele locuri.

Pe lng aceasta clasificare, Tropes pune n eviden, n mod automat, referinele care apar deseori
relaionate. n exemplul nostru, creativity i higher education apar cel mai frecvent relaionate, ceea ce
indic insistena autorului asupra acestor dou concepte pe care le regsim i n titlu.

Tropes analizeaz relaiile fiecrei referine utilizate artnd modul cum reelele apar ntreesute n fiecare
text. n acest caz textul vorbete despre creativitate. Tropes arat, rapid i fiabil, relaiile conceptului

7
central cu toate referinele despre care autorul pomenete. Un grafic n stea este afiat pentru a nlesni
percepia legturilor. Aceeai informaie poate fi vizualizat i ntr-un grafic de sfere (pe modelul sistemului
solar). n mod interactiv, utilizatorul poate cerceta i alte configuraii relaionale, selecionnd oricare din
aceste obiecte (concepte).

S ne imaginam un analist care i pune urmtoarea ntrebare: Cum anume relaioneaz autorul
creativitatea cu literatura? Tropes rspunde afind o fraz precum aceasta:

8
Trebuie s subliniem c utilizatorul programului are deplina libertate de a folosi propriile sale clasificri, aa
cum am procedat i noi, construind un scenariu propriu i modificndu-l constant n funcie de obiectivele
cercetrii. n exemplul urmtor, vom folosi un thesaurus dezvoltat n acest proiect (a se vedea raportul
referitor la setul de instrumente) pentru a avea acces la arborescena conceptual.

Este posibil ca exportnd datele n Excel s putem crea grafice pe baza analizei semantice:

9
Astfel, cele patru analize prevzute n cadrul proiectului vor pune n eviden datele de natur conceptual
tratate din perspectiv statistic. Tratamentul va fi realizat att cu Excel, ct i cu programe specifice, cum
este Gephi.

Al doilea program, legat de Tropes, numit Zoom ne permite indexarea semantic a unui corpus textual. Aa
cum am menionat atunci cnd ne-am referit la corpusul selecionat pentru analize, baza textual pe care o
avem n vedere este vast. Prin urmare, dup dezvoltarea instrumentelor lingvistice necesare proiectului cu
ajutorul programului Tropes, cnd dicionarele sunt definitiv reglate n funcie de obiectivele analizelor pe
care dorim s le elaboram, vom recurge la indexarea semantic cu Zoom, pentru a nelege, de ast dat,
care texte, considerate global, sunt pertinente din perspectiva analizelor dorite. De asemenea, n aceast
etap se pot ridica diverse chestiuni legate de similaritatea textual, de natur mai ales comparativ.

10
Programul prezint marile teme abordate de diversele corpusuri. Numerele din paranteze indic cte texte
din acest corpus abordeaz o anumit tem. Putem observa c 120 de texte vorbesc despre sntate,
dintr-un total de 141. Aceast funcie permite filtrarea textelor care ne intereseaz cu adevrat, putnd
merge pn la detaliu, prin nmulirea criteriilor.

n exemplul urmtor, putem observa c numai 53 texte vorbesc de creativitate din totalul textelor luate
n consideraie.

11
Aa cum se poate remarca, textul cel mai important este cel ales de noi. Acesta ocup primul loc, cu 179 de
ocurene. Pe locul al doilea, se afl un alt text, cu numai 12 ocurene. Astfel, cercettorul nu va continua
analiza, restul fiind dispensabil. Aceasta funcie de filtrare este preioas mai ales cnd numrul de texte de
analizat este foarte mare i cnd dorim s scoatem n eviden textele cu adevrat semnificative (top 10,
s spunem)

n Zoom putem cuta folosind un simplu concept sau o ntreag clas semantic. Programul dispune i de
alte funcii importante pentru analist, cum ar fi cutarea unor texte similare cu un anumit text,
funcionalitate care ne intereseaz n mod particular. Desigur, putem produce statistici plecnd de la
rezultatele obinute.

Abstract reasoning

Theories 35

Social theories 2

Reasoning 9

Problem solving 30

Originality 5

Imagination 10

Fundamental concepts 12

Creativity 53

Abstract reasoning 1

0 10 20 30 40 50 60

Zoom poate fi substituit de un alt program (aflat nc n prototip), Owledge, care ne poate duce mai departe
spre clusterizarea corpusului, pentru a observa aglomerri conceptuale, relaii frecvente n ntregul univers
textual.

Owledge nu ofer date interesante din punct de vedere statistic dac corpusul este prea mic sau dac este
excesiv de omogen. Altfel spus, prin Owledge putem surprinde ceea ce nu este banal, repetitiv, n
configuraiile conceptuale. n bun parte, acest software servete descoperirii, adic ne ajut s revelm
legturi conceptule la care poate nu ne-am gndit.

n exemplul de mai jos, am folosit un corpus suficient de mare. Este vorba de o biblioteca despre
nvmntul superior, din care face parte i textul analizat, aflat n faza de filtrare pentru zonele a II-a i a
III-a ale cercetrii noastre. Am ales conceptele creativity i higher education pentru o clusterizarea
informaiei n jurul acestei idei. De ast dat, nu ne intereseaz conceptele din text, ci informaia din
corpus. Rezult un grafic interesant, din care prezentm mai jos o bun parte:

12
Desigur, cercettorul va asocia i alte concepte care l intereseaz, dac dorete aprofundarea pe mai
departe a analizei. Aceasta l va conduce la o nou filtrare a textelor, pn se vor depista acele texte care s
satisfac toate criteriile de cutare.

Vom ncheia aici prezentarea tipurilor de analiz n funcie de programele care ne stau la dispoziie, pentru
a ne ocupa ulterior de chestiunile metodologice propriu-zise.

13
REPERE METODOLOGICE PRIVIND ANALIZA AUTOMAT A DISCURSULUI I INTERPRETAREA ACESTEIA

Dac referitor la corpus socotim c au fost precizate condiiile care ne permit selectarea, structurarea i
tratamentul necesar att elaborrii dicionarului de lucru (a se vedea raportul referitor la setul de
instrumente), ct i analizelor, n privina acestora din urm se mai impun o serie de specificri de natura
metodologic.

Aa cum am artat n seciunea anterioar, prin analizele automate ncercm, n primul rnd, s stabilim
frecvena termenilor(referinelor) n diversele corpusuri pentru a putea evidenia conceptele cheie. Acest
lucru este posibil n msura n care dicionarele reflect n mod corect realitatea textual, altfel spus,
nregistreaz toate cuvintele i sintagmele care formeaz fluxul discursului.

Dup degajarea celor mai importante concepte, fie la nivelul unui singur corpus, fie la nivelul marelui
corpus, este firesc s ncercm s precizm relaiile dintre aceste concepte. Relaiile de care vorbim sunt
abstracte, scoase din context, i sunt puse n eviden de program la nivel de macrounivers. Vor fi, n felul
acesta, observate relaiile cele mai frecvente, dar i configuraia spaial, precum i tendinele de
aglomerare.

Putem afirma, c o dat stabilite conceptele i relaiile dintre acestea, calculate ocurena i frecvena
legturilor, am putea pune n lumin ntregul schelet discursiv. Firete, atunci cnd vorbim de ocurene i
de frecven relaiilor avem n vedere, de la analiz la analiz, un anume prag de detectare a relaiilor
pentru a evita nespecificitatea. ntregul demers este, aadar, un drum spre esena discursului. Vrem s tim
astfel ce se spune i, mai ales, cum se spune atunci cnd se vorbete de nvmntul superior, bunoar.

Este bine de subliniat faptul c anumite corpusuri sunt exhaustive, ca n cazul conferinelor ministeriale (8)
sau al forumurilor de politic Bologna (3). Aceasta nsemn c centrul sferei de documente este
inchestionabil i poate fi tratat adecvat de analist. La fel de limpede stm i n cazul rapoartelor naionale.
n 2001, 33 de state formau ceea ce ulterior de va numi spaiul Bologna. n 2003, la Berlin, se ajunge la 40
de state membru, pentru ca la Londra, n 2007, s avem 46 de state, iar la Budapesta i Viena, 47. Aceasta
este amplitudinea EHEA, desigur peste limitele geografice europene, ultimul stat admis fiind Kazahstanul.
Principala sarcin a analizei este, din punctul nostru de vedere, ordinea intrrii conceptelor n scen i
protagonismul actorilor. n concret, dorim s tim cnd s-a vorbit pentru prima dat oficial de nvarea
de-a lungul ntregii viei, de exemplu, i ce state au aplicat primele programe n aceast direcie.

Nendoios, zonele a II-a i a III-a nu pot fi, din perspectiv textual, la fel de complet determinate. Este cu
neputin s cercetm tot ce s-a scris n Europa sau n afara ei asupra procesului Bologna. Este cu neputin
s producem analize inteligibile cnd volumul de date excede limitele umane. Este important de reinut
ns c, n aceste cazuri, fiabilitatea este judecat n limita coninutului corpusului declarat i acest lucru
trebui precizat clar la fiecare analiz.

O alt direcie a analizelor o reprezint dimensiune tematic, abordat de BFUG. Considerm c acest tip
de analiz va scoate n eviden o serie de concepte pe care se ntemeiaz o anumit tematic. De exemplu,
ne putem ntreba, atunci cnd vorbim despre dimensiunea social, la ce se face n mod expres referin? Ce
concepte presupune construirea acestei dimensiuni? De aceea, de ast dat, avem mai curnd de-a face
cu hri conceptuale (knowledge maps) pentru o mai limpede i mai sugestiv reprezentare a gndirii.

14
Din unghiul de vedere al resurselor discursive (text i imagine) vom include, n analize, nu doar
interpretarea analistului, dar i extrase semnificative din textele cele mai semnificative pentru o just
echilibrare a discursului textual cu cel imagistic.

n sfrit, cercettorii vor avea la dispoziie att corpusurile, ct i instrumentele folosite n cazul n care
altcineva ar dori reproducerea sau continuarea acestor analize n viitor. n ceea ce ne privete, ne vom
limita doar la cele propuse n cadrul proiectului, revenind metodologic ori de cte ori pot surveni dificulti
particulare. Rapoartele acestor analize i rezolvarea problematicii ntlnite completeaz, n parte, prezenta
ncercare de metodologie general.

15
BIBLIOGRAFIE

CARAGEA, Dan, Analiza automat a discursului, in Dumitrache, Ioan i Iovu, Horia (coord.), Manual de
autorat tiinific, Editura Politehnica Press, Bucureti, 2011.
GARRIC, Nathalie ; LEGLISE, Isabelle, La place du logiciel, du corpus, de l'analyste : l'exemple d'une analyse
de discours patronal deux voix, in G. WILLIAMS, coord., Linguistique de corpus, Presses Universitaires
de Rennes, Rennes, 2005, pp. 101-113.
GHIGLIONE, Rodolphe; LANDR, Agns; BROMBERG, Marcel; MOLETTE, Pierre, L'analyse automatique des
contenus, Dunod, Paris, 1998.
LANGLIE, Nicholas, Educational Technology Leaders: Competencies for a Conceptual Age, ISTE, 30th
annual NECC, 2009.
MARCHAND, Pascal ; MOLETTE, Pierre, Convergences et spcificits de la statistique lexicale et de
l'indexation syntaxico-smantique automatique, communication aux 4me JADT, Nice, 1998.
MARCHAND, Pascal, Automatique (Analyse), in Patrick CHARAUDEAU ; Dominique MAINGUENEAU (dir.),
Dictionnaire danalyse du discours, Seuil, Paris, 2002.
MARCHAND, Pascal, L'Analyse du Discours Assiste par Ordinateur, Armand Colin, Paris, 1998.
MOLETTE, Pierre, De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de
classification smantique gnraliste, confrence au colloque international "Psychologie Sociale et
Communication", Tarbes, 2009.
VAN DIJK, Teun A., Discourse and Context. A sociocognitive approach, University Press, Cambridge, 2008.

16

S-ar putea să vă placă și