Documente Academic
Documente Profesional
Documente Cultură
Cristina Varga
(Universitatea Babes-Bolyai, Cluj napoca)
Introducere
Exist o mare varietate de instrumente informatice ce intervin n
cercetarea lingvistic n general i n cercetarea terminologic n special. Acest
din urm domeniu este unul dintre domeniile predilecte ale lingvisticii aplicate,
printre altele, i pentru faptul c rezultatele cercetrii terminologice se
materializeaz n instrumente de lucru pe teren lingvistic cu o larg utilizare 1 .
Elementele fundamentale care stau la baza cercetrii n domeniul terminologiei
sunt: crearea, manipularea, explorarea i gestionarea de corpusuri de texte.
Analiza i explorarea unui corpus de texte se face, prin fora lucrurilor,
utiliznd instrumente electronice, deoarece acestea ofer avantajele vitezei de
lucru, exactitii i eficienei, rezultatele procesului de cercetare putnd fi
utilizate n varii domenii precum: terminologia (detectarea i extracia
termenilor, selectarea unui context valid pentru un termen); predarea limbilor
strine, traducere i interpretare, lexicologie / lexicografie (general sau
specializat), lingvistic general, lingvistic contrastiv, redactare de
texte, analiza discursului, n procesul didactic (n cadrul cursurilor de
formare de traductori, interprei i terminologi). n toate aceste domenii
cercetarea tiinific apeleaz la instrumente electronice capabile s
recunoasc, s extrag, s compare segmente lingvistice, care apoi sunt
interpretate de ctre specialistul n domeniu n funcie de finalitatea cercetrii.
Alegerea instrumentelor de lucru, din multitudinea de alternative existente,
trebuie s aib n vedere deci finalitatea cercetrii i gradul de eficacitate pe
care l are acesta ntr-un context clar determinat.
Acest articol i propune s prezinte cteva instrumente electronice
complexe, capabile s gestioneze i s manipuleze corpusuri. Este vorba
despre instrumente destinate activitii de cercetare, cu distribuie gratuit n
Internet, suficient de complexe ca s permit dezvoltarea unui proiect de
investigaie lingvistic sau terminologic. Sunt create n mediul de cercetare
academic i fac obiectul de studiu al unor cursuri de specialitate n diverse
universiti europene. Cunoaterea lor i pe teren romnesc, cunoaterea
facilitilor pe care le ofer precum i a limitelor lor putnd constitui att o
ilustrare a direciilor de evoluie a instrumentelor electronice n cadrul cercetrii
lingvistice ct i un model ilustrativ pentru cei care, implicai fiind n proiecte de
cercetare lingvistic pe teren romnesc, ar dori s dezvolte instrumente de
explorare i exploatare de corpusuri de texte dedicate limbii romne.
De cele mai multe ori, analiza i exploatarea de corpusuri de texte au ca rezultat elaborarea a diverse
tipuri de materiale lingvistice (dicionare generale, dicionare-tezaur, glosare specializate, etc.).
Pentru a putea lucra cu Corpografo este necesar nscrierea n lista de utilizatori ai acestui program i
obinerea unei chei de acces.
3
n cazul fiecrui instrument vorbim despre un complex de aplicaii unificate ntr-un pachet de programe,
ceea ce individualizeaz profilul fiecrui instrument.
4
Fiecare dintre aceste programe reprezint orientrile cercetrilor lingvistice din alt ar. Astfel, SCP
este produs de un grup de cercettori din SUA, Corpografo reprezint un proiect n desfurare a unui
grup de cercetare din Portugalia, iar Lexico3 este dezvoltat de ctre cercettori de la Universit Paris 3
Sorbonne Nouvelle, Frana.
5
Este cazul Universitii Pompeu Fabra, Barcelona, unde acest program se studiaz n cadrul a dou
specializri.
6
De remarcat faptul c este utilzat i n centre de cercetare terminologic de prestigiu cum ar fi de
exemplu IULA (Institut Universitari de Lingstica Aplicada), Barcelona.
Limitele programului sunt vizibile n momentul n care limba textelor dintrun anumit corpus presupune existena n texte a unor caractere speciale, cum
este cazul limbii romne. SCP permite utilizarea unui set restrns de caractere
(ANSI / ASCII) dei numrul limbilor cu care se poate lucra este destul de mare.
Din pcate aceast list nu cuprinde i limba romn iar fonturile nu sunt
adaptate pentru limb noastr. Acest fapt are ca rezultat dificulti n explorarea
unui corpus n limba romn, totui, acest lucru nu este imposibil.
Corpografo
Situndu-se la un nivel superior n ceea ce privete complexitatea i
funciile pe care le ofer, Corpografo este prezentat ca instrument de analiz i
exploatare de corpus textual pentru elaborare de instrumente lingvistice n
format digital. Scopul cu care a fost construit este crearea de surse lingvistice
complexe cum ar fi: dicionare generale, dicionare-tezaur, glosare specializate,
6
Pentru mai multe detalii asupra rolului fiecrui membru al echipei n cadrul proiectului, vezi
www.linguateca.pt/corpografo
Tip de concordan n care contextul se limiteaz la fraza n care apare cuvntul cutat.
Tip de concordan n care care se poate defini numrul de cuvinte care s constituie contextul de stnga
i dreapta al termenului cutat.
10
Tip de concordan n care se permite definirea contextului n funcie de numrul de cuvinte sau de
caractere.
9
10
Lexico3
Ultimul dintre instrumentele electronice care marcheaz evoluia actual
n lingvistica aplicat, i pe care ne-am propus s l prezentm este Lexico3,
un complex de programe de statistic textual, dup cum l prezint autorii si.
Elaborat de ctre o echip a Universitii Paris 3 Sorbonne Nouvelle, din care
fac parte Cdric Lamalle, William Martinez, Serge Fleury i Andr Salem. Este
un instrument complex, cu distribuie gratuit n scopul cercetrii i testrii, care
poate fi descrcat de la URL http://lexico3.no-ip.org/.
Cu o interfa transparent i uor de manevrat, modul de lucru cu
Lexico3 se reduce la introducerea unui corpus de texte n format .TXT ntr-o
baz, dup care se poate trece direct, fr alte etape intermediare, la
explorarea textului prin utilizarea a diverse instrumente de investigare, analiz
i statistic pe care Lexico3 le pune la dispoziia utilizatorului. Avantajele certe
pe care le permite programul n aceast prim etap de ncrcare a corpusului
este faptul c permite o etichetare a corpusului, precum i faptul c utilizatorului
i se cere confirmarea utilizrii unui inventar de delimitatori textuali cum ar fi:
.,:;!?/_-\"'()[]{}$ i care nu vor fi analizai ca i componente ale textului ci vor
avea un rol important n fragmentarea acestuia. List care poate fi modificat de
ctre acesta, n funcie de tipul de text pe care dorete s l supun analizei
statistice.
12
13
Concluzii
Prezentarea acestor instrumente electronice de explorare i exploatare a
unui corpus de texte poate forma cercettorului o idee general asupra
tendinelor actuale de evoluie a instrumentelor electronice cu aplicaie n
domeniul lingvistic. Se remarc astfel o trecere de la instrumentele simple care
rezolvau o problem la nivel punctual 11 la crearea de instrumente complexe, cu
aplicaie multidisciplinar, care unific mai multe programe ntr-o suit ce
prezint avantajul fiabilitii i flexibilitii. De asemenea, la nivel lingvistic se
constat tendina de a elabora instrumente independente de limb 12 astfel
acelai instrument putnd fi folosit pentru analiza oricrui text. Aa cum se vede
din prezentarea de fa, aceast tendin are anumite limite iar limba romn
prezint o problematic complex n contextul lingvisticii aplicate. Exist astfel
diverse probleme la nivelul utilizrii acestor instrumente de analiz i
recuperare a informaiei pe teren lingvistic romnesc. Totui, este de remarcat
faptul c nu este imposibil de a utiliza aceste instrumente cu rezultate bune, n
momentul n care se contientizeaz care sunt aceste probleme.
De asemenea, se constat o tendin de a oferi acces direct utilizatorului
unui instrument electronic de analiz textual, dar un acces controlat. Astfel,
Corpografo nu este doar un instrument pus la dispoziia comunitii tiinifice
pentru analiz i cercetare lingvistic. Prin permiterea unui acces on-line la
Corpografo se pot obine informaii asupra interesului comunitii tiinifice
asupra acestui instrument de lucru, asupra opiunilor celor mai des utilizate i a
scopului n care acest instrument este utilizat, a limbilor de lucru, a domeniilor
de interes pentru analiz lingvistic, astfel acest instrument se convertete ntrun instrument de msur a necesitilor existente n domeniul cercetrii
terminologice n special. De asemenea posibilitatea pe care acesta o ofer de a
intra n contact direct cu cercettorii care au proiectat instrumentul, asigur de
asemenea feed-back-ul necesar pentru a dezvolta i mbunti acest
instrument electronic.
Lipsa unui asemenea instrument de analiz textual i de explorare de
corpus, dedicat limbii romne sau a soluiilor de incorporare a acesteia n cadrul
altor instrumente de lucru deja existente, ne poate da o idee despre tendinele
actuale n cercetarea lingvistic la nivel mondial i, de asemenea, limitele i
carenele cercetrii n acest domeniu la nivel local pentru limba romn. Lipsa
unor astfel de instrumente st, n mod cert, la baza lipsei din peisajul lingvistic
romnesc a unor surse lingvistice de o calitate comparabil cu cea a celor ce
descriu alte limbi, materiale cum ar fi: dicionare generale, dicionare
specializate, dicionare-tezaur, glosare de termeni, corectoare automate, etc.
Considerm c o mbuntire a acestui aspect al cercetrii lingvistice i o
extindere a utilizrii instrumentelor de analiz i recuperare a informaiei bazat
pe corpus poate avea ca rezultat o mai bun gestionare a informaiei lingvistice
i, n consecin o mai bun calitate n ceea ce privete elaborarea de resurse
i instrumente lingvistice ce descriu limba romn.
11
15
Bibliografie
1.
2.
3.
4.
5.
16