Sunteți pe pagina 1din 16

Instrumente informatice implicate n cercetarea terminologic

Cristina Varga
(Universitatea Babes-Bolyai, Cluj napoca)

Introducere
Exist o mare varietate de instrumente informatice ce intervin n
cercetarea lingvistic n general i n cercetarea terminologic n special. Acest
din urm domeniu este unul dintre domeniile predilecte ale lingvisticii aplicate,
printre altele, i pentru faptul c rezultatele cercetrii terminologice se
materializeaz n instrumente de lucru pe teren lingvistic cu o larg utilizare 1 .
Elementele fundamentale care stau la baza cercetrii n domeniul terminologiei
sunt: crearea, manipularea, explorarea i gestionarea de corpusuri de texte.
Analiza i explorarea unui corpus de texte se face, prin fora lucrurilor,
utiliznd instrumente electronice, deoarece acestea ofer avantajele vitezei de
lucru, exactitii i eficienei, rezultatele procesului de cercetare putnd fi
utilizate n varii domenii precum: terminologia (detectarea i extracia
termenilor, selectarea unui context valid pentru un termen); predarea limbilor
strine, traducere i interpretare, lexicologie / lexicografie (general sau
specializat), lingvistic general, lingvistic contrastiv, redactare de
texte, analiza discursului, n procesul didactic (n cadrul cursurilor de
formare de traductori, interprei i terminologi). n toate aceste domenii
cercetarea tiinific apeleaz la instrumente electronice capabile s
recunoasc, s extrag, s compare segmente lingvistice, care apoi sunt
interpretate de ctre specialistul n domeniu n funcie de finalitatea cercetrii.
Alegerea instrumentelor de lucru, din multitudinea de alternative existente,
trebuie s aib n vedere deci finalitatea cercetrii i gradul de eficacitate pe
care l are acesta ntr-un context clar determinat.
Acest articol i propune s prezinte cteva instrumente electronice
complexe, capabile s gestioneze i s manipuleze corpusuri. Este vorba
despre instrumente destinate activitii de cercetare, cu distribuie gratuit n
Internet, suficient de complexe ca s permit dezvoltarea unui proiect de
investigaie lingvistic sau terminologic. Sunt create n mediul de cercetare
academic i fac obiectul de studiu al unor cursuri de specialitate n diverse
universiti europene. Cunoaterea lor i pe teren romnesc, cunoaterea
facilitilor pe care le ofer precum i a limitelor lor putnd constitui att o
ilustrare a direciilor de evoluie a instrumentelor electronice n cadrul cercetrii
lingvistice ct i un model ilustrativ pentru cei care, implicai fiind n proiecte de
cercetare lingvistic pe teren romnesc, ar dori s dezvolte instrumente de
explorare i exploatare de corpusuri de texte dedicate limbii romne.

Instrumente electronice de investigaie lingvistic


Ne propunem ca n acest articol s prezentm trei instrumente
electronice cu aplicaii n domeniul cercetrii terminologice, programe a cror
utilitate, mai ales n ceea ce privete cercetarea terminologic, nu a fost nc
suficient pus n eviden pe teren romnesc.
1

De cele mai multe ori, analiza i exploatarea de corpusuri de texte au ca rezultat elaborarea a diverse
tipuri de materiale lingvistice (dicionare generale, dicionare-tezaur, glosare specializate, etc.).

Acestea sunt: SCP (Simple Concordance Program), Lexico3 i


Corpografo. Sunt programe cu distribuie gratuit n scopul cercetrii, dou
dintre acestea se instaleaz local pe staii de lucru, n timp ce al treilea,
Corpografo este un program cu acces on-line 2 . Toate sunt caracterizate printro interfa grafic accesibil, uor de neles i de utilizat. De asemenea,
prezint un grad de complexitate 3 corespunztor necesitilor din domeniul
cercetrii academice. Fiind de producie diferit 4 , fiecare dintre acestea prezint
elemente specifice ce ilustreaz liniile de dezvoltare ale cercetrii lingvistice n
centrul academic de provenien. Analiza lor contrastiv ne-a permis s facem
o ierarhizare a acestor programe n funcie de gradul de complexitate i de
facilitile pe care le ofer n domeniul cercetrii lingvistice, ierarhizare care va
face ca prezentarea lor s debuteze cu cel mai simplu dintre ele i s continue
treptat cu cele care au un grad mai mare de complexitate.

SCP (Simple Concordance Program)


Program de analiz de texte i recuperare de informaie dintr-un corpus
textual, cu distribuie gratuit, creat de Alan Reed i ajuns actualmente la
versiunea 4.09. Se poate obine de la URL: http://www.textworld.com/.
Simple Concordance Program (SCP) este cel mai simplu dintre cele
trei instrumente electornice care fac obiectul acestui articol. nainte de a pune n
eviden utilitatea sa n contextul cercetrii lingvistice, este de remarcat faptul
c SCP s-a dovedit a fi un instrument foarte bun n procesul didactic. Foarte
uor de utilizat i cuprinznd principalele programe i funcii de analiz i
explorare de corpus, n unele instituii academice a fost inclus n programul de
studii pentru discipline ca: Informatica pentru traductori sau Lingvistica de
corpus 5 . Acest program s-a transformat ntr-un instrument de lucru excelent
pentru studenii 6 care se iniiaz n cercetarea terminologic.
Funciile sale de baz se refer la recuperarea i extragerea de informaii
(ocurene, cuvinte cheie, termeni, etc.) dintr-un corpus de texte propus de
utilizator i care trebuie prezentat n format .TXT. Prezentarea unitilor lexicale
care fac obiectul cercetrii se poate face n context (la nivel de fraz KWIC
sau la nivel de linie - LINE). Sunt permise de asemenea afiarea listei unitilor
lexicale care compun textul n diverse moduri: ordine alfabetic, n funcie de
frecvena cuvintelor sau n ordinea apariiei lor n text. Programul beneficiaz,
de asemenea de funcii ce permit crearea unui profil de frecven al unei uniti
lexicale sau prezentarea proprietilor statistice ale corpusului analizat.

Pentru a putea lucra cu Corpografo este necesar nscrierea n lista de utilizatori ai acestui program i
obinerea unei chei de acces.
3
n cazul fiecrui instrument vorbim despre un complex de aplicaii unificate ntr-un pachet de programe,
ceea ce individualizeaz profilul fiecrui instrument.
4
Fiecare dintre aceste programe reprezint orientrile cercetrilor lingvistice din alt ar. Astfel, SCP
este produs de un grup de cercettori din SUA, Corpografo reprezint un proiect n desfurare a unui
grup de cercetare din Portugalia, iar Lexico3 este dezvoltat de ctre cercettori de la Universit Paris 3
Sorbonne Nouvelle, Frana.
5
Este cazul Universitii Pompeu Fabra, Barcelona, unde acest program se studiaz n cadrul a dou
specializri.
6
De remarcat faptul c este utilzat i n centre de cercetare terminologic de prestigiu cum ar fi de
exemplu IULA (Institut Universitari de Lingstica Aplicada), Barcelona.

Fiecare sesiune de lucru debuteaz cu crearea unui proiect SCP sau cu


modificarea unuia existent, proiect n care se poate ncrca un corpus de texte.
Exist situaii n care pot apare mesaje de eroare, este cazul n care lungimea
unei linii a corpusului de texte depete limita de 25.000 de caractere.
Semnele care depesc aceast limit vor fi ignorate. Programul semnaleaz
utilizatorului care sunt liniile n cauz i, de asemenea, se menioneaz numrul
de caractere ignorate n fiecare dintre cazuri, astfel acesta va putea aprecia ct
din informaia pe care o analizeaz este ignorat.

Extragerea informaiei din corpus se poate face utiliznd o list de


cuvinte cheie, sau cutnd ocurene n funcie de prefix, sufix, ntregul cuvnt
sau o parte oarecare a acestuia. Toate instanele elementului cutat vor fi
afiate n context, incluznd, la cererea utilizatorului descriptori statistici
Descriptorii statistici se ntlnesc nu doar la nivel de text ci i la nivelul ntregului
proiect. Acetia descriu proiectul din punctul de vedere al unitilor lexicale ce
compun textul (frecvena unitilor lexicale, numr acestora n text, vocabular
cumulativ, statistici de vocabular/ocurene), sau la nivel global cu referire la
ntregul proiect, dar i la nivelul caracterelor ce compun textul (frecven
majuscule, minuscule i simboluri).
Foarte interesant din acest punct de vedere este posibilitatea de a
explora corpusul pe baza unor liste de cuvinte ce pot fi personalizate de ctre
utilizator. Aceste liste de cuvinte sunt create pornind de la inventarul corpusului
cu care se lucreaz n acel moment. Opiunea keywords permite att selecia
manual a cuvintelor cheie ct i utilizarea unor formalime care automatizeaz
acest proces. Aceste liste se pot crea pe baza frecvenei unitilor lexicale (se
poate stabili ntre anumite limite prin utilizarea operatorilor <, > sau =), n funcie
de structura cuvntului (prefixe, sufixe, sau indiferent de poziia unui element n
cuvntul cutat) sau dup criteriul de lungime a cuvntului (stabilit ntre anumite
limite prin utilizarea operatorilor <, > sau =). Programul permite att
manipularea listelor de cuvinte precum i importarea sau exportarea acestora n
format TXT.
Prezentarea elementelor lexicale recuperate din text se poate face sub
forma de index sau de concordan de tip LINE sau KWIC, pentru aceast
ultim opiune putndu-se selecta posibilitatea prezentrii elementelor n funcie
de contextul de stnga sau de dreapta al cuvntului.
4

Limitele programului sunt vizibile n momentul n care limba textelor dintrun anumit corpus presupune existena n texte a unor caractere speciale, cum
este cazul limbii romne. SCP permite utilizarea unui set restrns de caractere
(ANSI / ASCII) dei numrul limbilor cu care se poate lucra este destul de mare.
Din pcate aceast list nu cuprinde i limba romn iar fonturile nu sunt
adaptate pentru limb noastr. Acest fapt are ca rezultat dificulti n explorarea
unui corpus n limba romn, totui, acest lucru nu este imposibil.

Corpografo
Situndu-se la un nivel superior n ceea ce privete complexitatea i
funciile pe care le ofer, Corpografo este prezentat ca instrument de analiz i
exploatare de corpus textual pentru elaborare de instrumente lingvistice n
format digital. Scopul cu care a fost construit este crearea de surse lingvistice
complexe cum ar fi: dicionare generale, dicionare-tezaur, glosare specializate,
6

corectoare ortografice, aplicaii de recuperare a informaiilor sau de traducere


automat.
Proiect portughez creat de o echip format din: Lus Sarmento, Ana
Sofia Pinto, Lus Miguel Cabral, Dbora Oliveira, Belinda Maia, Diana Santos 7 .
Este vorba despre un proiect lingvistic cu acces gratuit on-line, ns necesitnd
obinerea unei chei pentru fiecare utilizator i avnd de ntmpinat toate
dificultile accesului on-line la o baz de date aflat la mare distan,
Corpografo poate fi accesat la URL: www.linguateca.pt/corpografo. Cu o
interfa uor de utilizat, care ns prezint dificultatea unui meniu de comenzi
n portughez, este un proiect n curs de dezvoltare ce dorete s integreze
ntr-un mediu electronic unic diverse instrumente de analiz textual ce sunt
considerate n mod obinuit ca entiti individuale. Este destinat cercettorilor,
studenilor, traductorilor, etc.
Foarte bine organizat din punctul de vedere al sarcinilor pe care le poate
ndeplini, Corpografo permite crearea i gestionarea de corpusuri
personalizate, analiza, cutarea i extracia terminologic pe baza acestor
corpusuri. Interfaa acestuia prezint patru meniuri de lucru reprezentate prin
categoriile: Gestor, Pesquisa, Centro de Conhecimento i Centro de
Comunicaao. Fiecare dintre aceste categorii corespunde unei etape de lucru
n cercetarea terminologic a unui corpus. Le vom prezenta pe fiecare pe scurt
n cele ce urmeaz.

Gestor reprezint un spaiu virtual de stocare a fiierelor care contribuie


la formarea unui corpus ce st la baza cercetrii terminologice. Crearea
corpusului corespunde unei prime etape a cercetrii, de modul n care se
realizeaz aceast etap de investigare depinznd calitatea i eficiena
interogrilor ulterioare a corpusului creat. Astfel, o mare atenie trebuie
acordat, n utilizarea Corpografo, unei etape premergtoare de pregtire a
textelor nainte de explorarea corpusului.
De asemenea, o mare importan este acordat organizrii informaiei n
cadrul corpusului. Pentru o mai bun gestionare i un control efectiv al
informaiei coninute ntr-un corpus, exist posibilitatea de a clasifica fiierele
din interiorul acestuia n funcie de tematica pe care o trateaz textul, iar n
cadrul acestei categorii exist descriptori ca: mediul, domeniul i subdomeniul
de specializare. Se poate meniona sursa textului (prin menionarea
organizaiei, instituiei sau a editurii) precum i autorul, n cazul n care aceste
informaii sunt repetitive, exist, posibilitatea de a relaiona ntre ele textele care
au aceeai surs sau aparin aceluiai autor. Alte informaii care nsoesc textul
sunt: numele fiierului, titlul documentului, limba textului, reguli de acces public,
data de introducere i de modificare, precum i o descriere a textului.
7

Pentru mai multe detalii asupra rolului fiecrui membru al echipei n cadrul proiectului, vezi
www.linguateca.pt/corpografo

Pentru realizarea operaiunii de pregtire a textului, este necesar


accesarea opiunii de editare a textelor din meniul Texto. Se consider
necesar eliminarea tuturor elementelor irelevante din text, cum ar fi: caractere
speciale, referine bibliografice, erori de ortografie, titluri, subtitluri, note
bibliografice existente n text, precum i formulele ce pot aprea. O opiune
important pentru o prim luare de contact cu textul este Ver dicionrio, ceea
ce permite obinerea unei liste generale a atomilor unui text. O alt opiune util
este cea de comparare a dou texte.

Odat ncheiat etapa de introducere, descriere i pregtire a


materialului lingvistic se trece la crearea corpusului, dup care se poate ncepe
explorarea acestuia.
Funciile destinate explorrii corpusului sunt grupate n meniul Pesquisa
(cutare). Pesquisa corespunde etapei de cercetare lingvistic propriu-zis, iar
instrumentele pe care le pune la dispoziie permit cutarea, studierea i
extragerea de informaii dintr-un corpus. O opiune important se consider a fi
cutarea de secvene de cuvine consecutive de diverse lungimi ce se pot stabili
de ctre utilizator (N-gramas) i care apar frecvent ntr-un text. Aceasta permite
observarea unor structuri i combinaii sistematice de cuvinte, foarte util n
identificarea termenilor de specialitate.
Foarte important la nivelul explorrii textului este opiunea de realizare a
diverse tipuri de concordane: concordana la nivel de fraz 8 , concordan
Janela 9 i concordan KWIC 10 . n afar de aceste posibiliti de explorare de
corpus, Corpografo prezint avantajul de a putea efectua cutri i n funcie
de expresii regulare, care, de asemenea, pot constitui baza de pornire n
crearea de concordane.

Tip de concordan n care contextul se limiteaz la fraza n care apare cuvntul cutat.
Tip de concordan n care care se poate defini numrul de cuvinte care s constituie contextul de stnga
i dreapta al termenului cutat.
10
Tip de concordan n care se permite definirea contextului n funcie de numrul de cuvinte sau de
caractere.
9

Centro de Conhecimento reprezint spaiul n care se pot sistematiza i


organiza informaiile obinute n urma explorrii unui corpus. Este vorba despre
informaii de tip lexical, morfologic, sintactic i semantic, ce pot permite crearea
de materiale lingvistice cum ar fi: liste de cuvinte, glosare, reguli de cutare,
tipare, relaii semantice, etc. Cu ajutorul Corpografo se poate crea o
reprezentare formal a conceptelor i informaiilor lingvistice asupra unui
domeniu specializat. Acest aspect are aplicaii importante n cercetarea
terminologic, formalizarea cunotinelor dintr-un domeniu specializat fiind un
element fundamental. La nivel tehnic aceast seciune a Corpografo permite
gestionarea de baze de date terminologice. Se insist asupra faptului c
Corpografo nu doar permite gestionarea unor simple liste de cuvinte ci
utilizatorul are posibilitatea de a stabili relaii ntre termeni, ceea ce i permite
crearea de reele conceptuale multidimensionale, Corpografo dovedindu-se a fi
un instrument foarte flexibil din acest punct de vedere.

Centro de Conhecimento permite de asemenea gestionarea i editarea


bazelor de date terminologice, cutarea i stabilirea de realii ntre termeni. n
ceea ce privete cutarea termenilor ntr-un corpus, utilizatorul are posibilitatea
de a stabili lungimea unei secvene textuale, trecerea de la forma flexionat a
acesteia la forma normalizat, de asemenea se pot omite termenii care deja
sunt introdui n baza de date. Dup introducerea tuturor termenilor selectai de
ctre utilizator n baza de date, acetia vor fi descrii, n baza de date existnd
descriptori pentru limb, descriere morfologic, autor, referin bibliografic, de
asemenea este posibil cutarea unei definiii a unitii lexicale n cauz n
corpusul de texte ce se exploreaz, cutarea de eventuale relaii semantice
ntre termenii bazei de date, cutarea de echivalente de traducere, asocierea
de elemente multimedia pentru termenul respectiv, consultarea de statistici cu
referire la un anumit termen existent n corpus.
Ultimul meniu, Centro de Comunicaao, se refer la partea de
documentaie asupra Corpografo i la posibilitatea de a contacta
administratorul Corpografo pentru schimb de mesaje.

Din punctul de vedere al limbii romne, Corpografo prezint limite,


deoarece limba romn nu face parte dintre limbile propuse pentru studiu i nu
are implementate caracterele speciale din limba romn. Totui utilizarea
textelor n limba romn este posibil, dezavantajul fiind afiarea caracterelor
speciale sub form de coduri .HTML. n cazul n care ar exista un interes pentru
acest instrument, contactarea membrilor proiectului i propunerea implementrii
caracterelor speciale pentru limba romn i a limbii romne ca limb de lucru
n acest program, ar fi cea mai simpl soluie. Avantajul cert pe care l ofer fa
de celelalte instrumente electronice de explorare de corpus ce fac obiectul
acestui articol, este faptul c este foarte flexibil n ceea ce privete formatul
fiierelor care pot s compun corpusul. Corpografo acceptnd simultan fiiere
.DOC, .RTF, .PDF, .TXT, .PS, .HTML ceea ce reprezint de departe cea mai
larg gam de formate de documente text acceptate pn n prezent de un
asemenea instrument electronic de acest tip.

10

Lexico3
Ultimul dintre instrumentele electronice care marcheaz evoluia actual
n lingvistica aplicat, i pe care ne-am propus s l prezentm este Lexico3,
un complex de programe de statistic textual, dup cum l prezint autorii si.
Elaborat de ctre o echip a Universitii Paris 3 Sorbonne Nouvelle, din care
fac parte Cdric Lamalle, William Martinez, Serge Fleury i Andr Salem. Este
un instrument complex, cu distribuie gratuit n scopul cercetrii i testrii, care
poate fi descrcat de la URL http://lexico3.no-ip.org/.
Cu o interfa transparent i uor de manevrat, modul de lucru cu
Lexico3 se reduce la introducerea unui corpus de texte n format .TXT ntr-o
baz, dup care se poate trece direct, fr alte etape intermediare, la
explorarea textului prin utilizarea a diverse instrumente de investigare, analiz
i statistic pe care Lexico3 le pune la dispoziia utilizatorului. Avantajele certe
pe care le permite programul n aceast prim etap de ncrcare a corpusului
este faptul c permite o etichetare a corpusului, precum i faptul c utilizatorului
i se cere confirmarea utilizrii unui inventar de delimitatori textuali cum ar fi:
.,:;!?/_-\"'()[]{}$ i care nu vor fi analizai ca i componente ale textului ci vor
avea un rol important n fragmentarea acestuia. List care poate fi modificat de
ctre acesta, n funcie de tipul de text pe care dorete s l supun analizei
statistice.

n ceea ce privete etichetarea corpusului, ea poate fi de orice tip, de la


cea mai simpl la cea mai complex, n funcie de ceea ce dorete utilizatorul,
etichetele sunt similare cu cele XML, pot fi definite cu cea mai mare libertate,
urmnd ca apoi s i se menioneze programului care sunt etichetele importante
i ce rol au n text. De exemplu, corpusul de texte demonstrativ al Lexico3 se
refer la presa din timpul Revoluiei Franceze i prezint urmtoarea etichetare:
<mois=01><quinzaine=11> <semaine=111> <Sda=1793> <numero=260>
<edito=0> <Epg=1><Sat=0>, destul de transparent n prima parte, mai puin
transparent n ceea ce privete ultimele patru elemente de etichetare.
Utilitatea acestei etichetri se remarc n momentul n care pentru o ilustrare
grafic a distribuiei unei ocurene ntr-un text se cere delimitarea textului. Ca
11

delimitatori se pot folosi att semnele de punctuaie ct i etichetele care au


rolul de descriptori ntr-un text.
Prima operaiune care se poate efectua dup introducerea corpusului n
baz este consultarea dicionarului, lucru ce permite identificarea unitilor
lexicale care constituie textul i frecvena acestora n text.

Pasul urmtor este crearea unei concordane. Spre deosebire de


instrumentele prezentare anterior, interfaa grafic a Lexico3 permite
deplasarea elementelor lexicale cu ajutorul mouse-ului, deoarece are
implementat funcia drag and drop. Concordana pe care o poate realiza este
una simpl, singurul element deosebit fiind faptul c se poate stabili de ctre
utilizator dimensiunea contextului iar ordonarea ocurenelor se poate face n
ordinea apariiei n text sau n ordine alfabetic n funcie de contextul de stnga
sau de dreapta.

12

Exist de asemenea o opiune ce permite utilizatorului s afieze toate


formele unei uniti lexicale prezente n text, acest lucru putnd permite
identificarea de cmpuri lexicale, familii de cuvinte sau forme n flexiune,
mpreun cu frecvena apariiei lor n text.

Dac este vorba despre un corpus etichetat, se poate obine o


reprezentare grafic a segmentelor care compun textul, aa cum au fost ele
marcate de ctre utilizator. Astfel, se poate vedea, de exemplu, distribuia
anumitor elemente lexicale, lucru destul de important n cazul analizei unui
discurs sau a comparrii a dou texte. De asemenea pentru a putea studia
distribuia i uzul unei uniti/segment lexical repetitiv, n partea inferioar a
ecranului, se poate afia contextul de utilizare.

13

O alt opiune foarte util se refer la crearea unei liste a segmentelor


care se repet ntr-un text. Sunt posibile, de asemenea, analiza elementelor
specifice unui fragment al corpusului sau o analiz factorial a
corespondenelor n text.

Rezultatele analizei se pot pstra ntr-un raport care poate fi citit cu


Netscape sau Internet Explorer.
Limitele Lexico3 se refer la aceeai problem a acceptrii limbii
romne ca limb de lucru. Dar putnd procesa fiiere n format .TXT, Lexico3
prezint avantajul de a putea lucra cu fiiere text ce conin caractere UTF-8.
Afiarea lor pe ecran las mult de dorit ns informaiile sunt accesibile
utilizatorului. O alt limit a programului, care ns poate fi datorat faptului c
pe Internet este doar o versiune demo, este limitarea corpusului de texte la 200
de pagini, ceea ce reprezint un eantion suficient pentru a studia posibilitile
de lucru pe care le ofer programul Lexico3 dar care n contextul real al
cercetrii lingvistice i al analizei de corpus este insuficient.
14

Concluzii
Prezentarea acestor instrumente electronice de explorare i exploatare a
unui corpus de texte poate forma cercettorului o idee general asupra
tendinelor actuale de evoluie a instrumentelor electronice cu aplicaie n
domeniul lingvistic. Se remarc astfel o trecere de la instrumentele simple care
rezolvau o problem la nivel punctual 11 la crearea de instrumente complexe, cu
aplicaie multidisciplinar, care unific mai multe programe ntr-o suit ce
prezint avantajul fiabilitii i flexibilitii. De asemenea, la nivel lingvistic se
constat tendina de a elabora instrumente independente de limb 12 astfel
acelai instrument putnd fi folosit pentru analiza oricrui text. Aa cum se vede
din prezentarea de fa, aceast tendin are anumite limite iar limba romn
prezint o problematic complex n contextul lingvisticii aplicate. Exist astfel
diverse probleme la nivelul utilizrii acestor instrumente de analiz i
recuperare a informaiei pe teren lingvistic romnesc. Totui, este de remarcat
faptul c nu este imposibil de a utiliza aceste instrumente cu rezultate bune, n
momentul n care se contientizeaz care sunt aceste probleme.
De asemenea, se constat o tendin de a oferi acces direct utilizatorului
unui instrument electronic de analiz textual, dar un acces controlat. Astfel,
Corpografo nu este doar un instrument pus la dispoziia comunitii tiinifice
pentru analiz i cercetare lingvistic. Prin permiterea unui acces on-line la
Corpografo se pot obine informaii asupra interesului comunitii tiinifice
asupra acestui instrument de lucru, asupra opiunilor celor mai des utilizate i a
scopului n care acest instrument este utilizat, a limbilor de lucru, a domeniilor
de interes pentru analiz lingvistic, astfel acest instrument se convertete ntrun instrument de msur a necesitilor existente n domeniul cercetrii
terminologice n special. De asemenea posibilitatea pe care acesta o ofer de a
intra n contact direct cu cercettorii care au proiectat instrumentul, asigur de
asemenea feed-back-ul necesar pentru a dezvolta i mbunti acest
instrument electronic.
Lipsa unui asemenea instrument de analiz textual i de explorare de
corpus, dedicat limbii romne sau a soluiilor de incorporare a acesteia n cadrul
altor instrumente de lucru deja existente, ne poate da o idee despre tendinele
actuale n cercetarea lingvistic la nivel mondial i, de asemenea, limitele i
carenele cercetrii n acest domeniu la nivel local pentru limba romn. Lipsa
unor astfel de instrumente st, n mod cert, la baza lipsei din peisajul lingvistic
romnesc a unor surse lingvistice de o calitate comparabil cu cea a celor ce
descriu alte limbi, materiale cum ar fi: dicionare generale, dicionare
specializate, dicionare-tezaur, glosare de termeni, corectoare automate, etc.
Considerm c o mbuntire a acestui aspect al cercetrii lingvistice i o
extindere a utilizrii instrumentelor de analiz i recuperare a informaiei bazat
pe corpus poate avea ca rezultat o mai bun gestionare a informaiei lingvistice
i, n consecin o mai bun calitate n ceea ce privete elaborarea de resurse
i instrumente lingvistice ce descriu limba romn.

11

De exemplu nu se poate afirma c Corpografo sau Lexico3 sunt concordancier-e. Sunt i


concordanciere-e dar mai au i alte funcionaliti care le fac s ias din aceast clasificare foarte ngust.
12 Exist instrumente lingvistice cu mai mare tradiie care sunt dedicate doar unei limbi (ex: The British
National Corpus -http://www.natcorp.ox.ac.uk/) sau unui text (ex: concordana textelor biblice sau cea a
Constituiei europene).

15

Bibliografie
1.
2.
3.
4.
5.

Simple Concordance Program, http://www.textworld.com/


Corpografo, www.linguateca.pt/corpografo
Lexico3, http://lexico3.no-ip.org/
The British National Corpus, http://www.natcorp.ox.ac.uk
Concordance biblique, http://www.lueur.org/bible/bible_rechercher.php,
pagina web a Bisericii baptiste protestante din Angers.
6. Andr Salem, Approches quantitatives des corpus textuels, conferin
IULA, Barcelona, 2006.
7. Luigi Sansonetti, Exploration textuelle dinteractions verbales entre un
adulte et un enfant avec Lexico3,
8. Andrea Kuncova, Aude Mansondieu, Outils de statistique textuelle.
Manuel dutilisation abrg (Dix premiers pas avec Lexico3), SYLEDCLA2T, Universit de la Sorbonne Nouvelle Paris 3
9. Belinda Maia, Lus Sarmento, Gestor de Corpora Um ambiente Web
integrado
para.
Lingustica
baseada
em
Corpora,
www.linguateca.pt/corpografo
10. Belinda Maia, Lus Sarmento, Diana Santos, The Corpgrafo a Webbased environment for corpora research, www.linguateca.pt/corpografo
11. Lus Sarmento (2004), Relatrio Tcnico sobre o Corpgrafo,
http://poloclup.linguateca.pt/docs/cg/.

16

S-ar putea să vă placă și