Sunteți pe pagina 1din 9

73

Limbajele documentare:
tipologie i performane

Lector univ. dr. Rodica Mandeal


Abstract: The work highlights the centrality of language in the retrieval
process. The major functions of the controlled vocabulary and both general
basic characteristics and performancies of precoordinate and postcoordinate
vocabularies are reviewed.

Key words: Language in Retrieval; Controlled Vocabular; Natural Language;
Characteristics; Performancies.


Limbajele documentare permit reprezentarea coninutului
documentelor n scopul regsirii documentelor pertinente ca rspuns la
ntrebri (cereri de informare) care se refer la acest coninut. Deci, un
limbaj documentar nu poate fi utilizat la regsirea documentelor dup alte
criterii utilizate n cercetarea documentar autorul documentului, limba n
care este editat textul, data publicrii etc.
Exist dou mari tipuri de limbaje documentare:
- limbajele sistematice, clasificatorii, utilizate n general pentru a
reprezenta coninutul documentului ntr-o manier sintetic;
- limbajele analitice sau de indexare, denumite i limbaje
combinatorii, care permit reprezentarea coninutului
documentelor i a cererilor de o manier analitic.

Modelul clasificrilor ierarhice
n secolul al XIX-lea bibliotecile constituiau principalele resurse ale
cunoaterii. Documentul carte este n acelai timp o unitate fizic, dar i o
unitate intelectual. Aceast caracteristic a permis regruparea fizic a
crilor n funcie de coninutul lor. Pentru a sluji acest obiectiv au fost
concepute clasificrile documentare.
Toate marile sisteme de clasificare universale (Dewey, CZU-
Clasificarea Zecimal Universal, LC- Clasificarea Library of Congres) sunt
limbaje documentare artificiale, care conin strns legate 2 subsisteme: o list
ierarhizat a tuturor subiectelor previzibile i o codificare a fiecrui subiect.
74
Acest model organizeaz subiectele previzibile plecnd de la general
la particular. Codurile alocate permit cititorilor s aib acces direct la
rafturile cu cri corespunznd centrului lor de interes (funcie de
armonizare) i de asemenea s lrgeasc cadrul investigaiei( funcie zoom).
Modelul clasificrilor ierarhice impune multe constrngeri, datorit:
rigiditii n structur (termenii prestabilii);
srciei indexrii (indexare sumar);
insuficienei relaiilor semantice;
dificultii n asimilarea conceptelor noi aprute n diferite domenii.
Totui ele sunt solid implantate de un secol n bibliotecile din lumea
ntreaga (de ex. Clasificarea Dewey este prezent n 200.000 de biblioteci
din 135 de ri). Este pcat c aceste mari sisteme de clasificare nu s-au
contopit, pentru a rezulta o norm universal recunoscut, cum a fost ambiia
iniial
1
. Evoluia lor n ultima jumtate a secolului a depins mult de factorii
locali i economici; actualizarea clasificrilor cere reeditri frecvente, deci
n fiecare din limbile internaionale i mijloace financiare importante.

Modelul limbajele documentare cu structur analitic.
Spre mijlocul secolului XX, diseminarea cunoaterii tiinifice i
tehnice a cunoscut o mutaie numit adesea ,,explozia informaiei: cartea nu
dispare, dar nu mai este sursa, instrumentul, privilegiat de informaii, ci
articolul din periodic sau raportul de cercetare. Organizarea documentelor
fizice (revistele) nu mai putea coincide cu ce al documentelor intelectuale
(articolele).
Acestei situaii nou create
2
i corespunde un nou model de indexare,
numit ,,indexare coordonat: un subiect nu mai este formulat global (ca n
cazul clasificrilor ierarhice), ci compus printr-o suit de concepte
elementare.
Deci, elementul de baz nu mai este subiectul, ci conceptul. Distincia
dintre cei doi termen este mai dificil fiindc noiunile sunt difuze:
- un subiect poate fi considerat ca o reprezentare mental compus
din mai multe concepte.
- conceptul este o noiune elementar existent n universul mintal
i n vocabularul unui grup social la un moment dat. Deci,
fiecare concept exprim un aspect anumit, particular.
Limbajul documentar ideal devine n aceast situaie un repertoriu de
concepte aplicat unui domeniu al cunoaterii i prevzut, n unele cazuri, cu
reguli de sintax.

1
motivaia demersului lui Paul Otlet i Henry La Fontaine de creare a CZU.
2
care a dus la diminuarea interesului pentru limbajele de clasificare

75
Avantajele acestui model sunt considerabile:
- plecnd de la un numr limitat de concepte se pot combina un
numr nelimitat de subiecte;
- formula de indexare
3
poate comporta un numr variabil de
concepte n funcie de politicile de indexare aplicate i de
documentul prelucrat;
- nu mai este necesar alocarea unor coduri artificial; limbajul,
apropiat de cel natural este utilizabil att de indexator, ct i de cel
care face cercetarea
4
;
- n cazul regsirii, compararea formulei de indexare cu ecuaia de
cutare devine mult mai simpl: nu mai este necesar ca ele s fie
riguros identice
5
. n sfrit acest tip de cutare este bine adaptat
logicii booleene pe principiul creia funcioneaz calculatoarele.
Dezavantajul acestor limbaje cvasinaturale n raport cu clasificrile
ierarhice deriv din faptul c ele sunt tributare particularitilor lingvistice.
Apariia limbajelor documentare analitice este rezultatul evoluiei
rapide a metodelor de nmagazinare (stocare) i regsire din domeniile
informrii documentare.
A trebuit s treac civa ani, de la elaborarea primelor limbaje
analitice, la nceputul anilor 60, pentru a se nelege c cele dou mari tipuri
de limbaje controlate aveau fiecare misiunea lor:
- limbajele clasificatorii n bibliotecile enciclopedice pentru
clasificarea monografiilor, respectiv pentru reprezentarea sintetic
a subiectului acestora n cataloage; n bibliotecile specializate i
centrele de documentare pentru organizarea documentelor (articole
revist, rapoarte de cercetare, comunicri la congrese) n rubricile
buletinelor analitice i de semnalare;
- limbajele analitice, tezaurele n special, n centrele de documentare
i ulterior la productorii bazelor de date bibliografice, pentru
indexarea documentelor, adic pentru reprezentarea analitic a
conceptelor acestora, n vederea nmagazinrii i regsirii
informaiei.
Apariia limbajelor analitica, a tezaurelor n mod special, a fost deci
justificat de circumstanele n care acestea erau i sunt utilizate: indexarea,
mai analitic impune utilizarea unor limbaje specializate, n timp ce
clasificarea, mai sintetic, poate exploata limbaje universale, ca CZU, de
exemplu. Din acelai motiv, limbajele analitice au fost obligate s evolueze

3
termenii de indexare atribuii documentului
4
indiferent dac este un utilizator intermediar documentaristul- sau unul final.
5
Este suficient ca un termen din ecuaia de cutare s fie prezent n formula de indexare pentru ca
documentul s fie considerat pertinent.
76
rapid pentru a se adapta dezvoltrii terminologiei tiinifice i tehnologice,
dar i progreselor telematicii care au condus la facilitarea accesului la
sistemele documentare specializate nu numai documentaritilor, ci i
utilizatorilor finali.
Spre sfritul anilor 60 o nou controvers se semnaleaz n lumea
documentrii
6
: de ce s se aloce resurse considerabile pentru construirea
unui tezaur i pentru indexarea documentelor, cnd este suficient s se
nregistreze n memoria calculatorului titlurile i rezumatele documentelor
(mai trziu textul complet), iar regsirea acestora s se fac dup cuvintele
cheie pe care le conin (exprimate n limbaj natural).
i n acest caz au fost necesari civa ani pentru a se nelege c
limbajul controlat (tezaurul) i limbajul liber (listele de cuvinte-cheie)
aparin de fapt, aceleai clase limbajele de indexare i joac un rol
complementar i nu antagonic:
- tezaurele, graie conciziei i absenei ambiguitii termenilor,
permit desfurarea unor cercetri documentare cu un maximum de
precizie, uneori n detrimentul exhaustivitii;
- limbajul liber din titluri, rezumate sau texte, de o mare bogie
semantic asigur o mai bun exhaustivitate cercetrii, n
detrimentul preciziei.
ncepnd cu anii 80 asistm la o evoluie aparent paradoxal.
Pe de o parte acordarea unei importane mai mici preciziei cercetrilor
documentare, datorate dezvoltrii considerabile a centrelor care vnd servicii
on-line. Principala preocupare a acestor centre este rentabilizarea
investiiilor fcute n bazele de date i n echipamentele informatice i de
comunicaii prin vnzarea unui numr maxim de ore de cercetare i de
referine furnizate ca rspuns la cererile de informare. Deci principalul
imperativ este exhaustivitatea cercetrii, respectiv cercetarea n limbaj liber,
neglijndu-se ntr-un fel precizia (respectiv consultarea on-line a tezaurelor
cu care au fost indexate respectivele baze de date).
Pe de alt parte se construiesc mai mult dect oricnd tezaure n toate
organizaiile (ntreprinderi sau administraie) care dezvolt, n aceast
perioad, un numr considerabil de baze de date documentare interne,
aproape toate indexate cu limbaje controlate.
n sfrit, n prezent, una dintre tendinele care marcheaz sistemele de
regsire a informaiei este utilizarea sistemelor expert.
n privina limbajelor de indexare, se pare c sistemele expert aduc
mai degrab o evoluie dect o mutaie: tezaurele constituie una din
componentele sistemului de stocare i cercetare documentar i anume baza
de cunotine. Aceasta conine lista conceptelor prezente n documente i n

6
n discuie intr centrele de documentare i productorii bazelor de date.

77
cereri, sub o form standardizat i ansamblul relaiilor semantice dintre
aceste concepte.
O a doua component, aceea a motoarelor de cercetare, exploateaz
tezaurul, pentru a transforma cererile de informare, exprimate n limbaj
natural n ecuaii de cercetare, exprimate n limbaj controlat, ducnd n final
la regsirea documentelor pertinente.
1.Tipologia limbajelor documentare analitice.
Limbajele de indexare, numite i limbaje combinatorii sau analitice,
permit reprezentarea coninutului documentelor i al cererilor de informare fie
la nivelul conceptelor acestora, fie al cuvintelor coninute n titlul, rezumatul
i eventual textul documentelor sau enunate n cererile de informare.
Indexarea care utilizeaz un limbaj combinatoriu se numete indexare
coordonat, deoarece conceptele i/sau cuvintele care reprezint coninutul
documentelor pot fi liber combinate ntre ele n timpul cercetrii
documentare pentru a reprezenta coninutul cererilor i deci regsirea acestor
documente.
n funcie de nivelul de standardizare a terminologiei folosite,
limbajele de indexare se clasific n:
- limbaje libere, constituite ca urmare a indexrii documentelor n
limbaj natural;
- limbaje controlate, construite nainte de indexarea documentelor,
reprezentate de listele de autoritate (de vedete de subiect) i de
tezaure de descriptori.

1.1. Lista cuvintelor-cheie

Este constituit dintr-o colecie neordonat de cuvinte-cheie: cuvinte
semnificative (non-vide) extrase automat, cu ajutorul calculatorului, din
titlul, rezumatul sau textul complet al documentelor.
Cuvintele-cheie sunt cuvinte simple (uniterm), acceptate n toate
formele gramaticale (substantiv, verb, adjectiv, plural, singular, masculin,
feminin) i ortografice, care definesc cu semnificaie precis i sunt
exprimate n limbile n care au fost editate documentele.
n funcie de mrimea domeniului acoperit, o list de cuvinte-cheie
poate conine de la cteva zeci de mii la sute de mii de cuvinte.

1.2. Lista descriptorilor liberi

Este constituit dintr-o colecie neordonat de concepte coninute n
documente i evideniate prin analiz intelectual, exprimate prin cuvinte
sau expresii preluate din documente sau propuse de documentariti, fr a li
se verifica existena ntr-o list prestabilit.
78
Lista descriptorilor liberi este prima form de control al limbajului de
indexare, deoarece accept numai substantivele (nu formele verbale sau
adjectivale), la singular, cuvintele sunt exprimate n aceeai limb, indiferent
de cea a documentului. n afara acestor reguli ns, sinonimiile sunt
prezente, ca de altfel i variantele ortografice.
n ceea ce privete volumul, o list de descriptori liberi poate conine
cteva zeci de mii de cuvinte.

1.3 Lista de vedete de subiect

Este constituit dintr-o colecie neordonat de concepte, utilizate
pentru a reprezenta n mod univoc coninutul documentelor i al cererilor de
informare i exprimate prin cuvinte sau expresii preluate din limbajul natural
ntr-o form canonic: substantiv la singular.
Lista de vedete de subiect este un limbaj controlat. Numrul de
cuvinte sau expresii este limitat i numai termenii figurnd pe aceast list
pot fi utilizai la indexarea documentelor sau la formularea strategiei de
cutare
7
. Dar ntre aceti termeni nu exist relaii semantice.
n ceea ce privete volumul, o list de vedete de subiect poate conine
de la cteva sute la cteva mii de vedete de subiect.

1.4.Tezaurul de descriptori

Este o list structurat de concepte numite descriptori, utilizate pentru
a reprezenta n mod univoc coninutul documentelor i al cererilor.
Ca i lista de vedete de subiect, tezaurul de descriptori este un limbaj
controlat: conceptele sunt exprimate prin cuvinte ntr-o form gramatical
standardizat iar numrul de termeni este limitat. n plus, termenii sunt legai
prin relaii de echivalen semantic
8
, de ierarhie i de asociere.
Un tezaur monolingv conine n general cteva mii de descriptori i de
la cteva sute la cteva mii de non-descriptori.

2. Influena limbajelor documentare asupra eficienei sistemului de
regsire
n funcie de modul n care sunt reprezentate conceptele (prin termeni
compui sau cuvinte simple), se disting dou tipuri de limbaje controlate:
- limbaj precoordonat (de exemplu listele de vedete de subiecte);
- limbajul postcoordonat (cel mai reprezentativ fiind tezaurul).

7
De fapt, ecuaia de cutare
8
de echivalen intralingvistic n cazul tezaurelor monolingve, la care se adaug relaiile de
echivalen interlingvistic, n cazul tezaurelor multilingve

79
n primul caz, conceptele sunt reprezentate prin termeni mai mult sau
mai puin compleci. Avantajul utilizrii unui astfel de limbaj const n
faptul c nc din etapa indexrii conceptele sunt combinate logic: termenii
sunt coordonai (combinai) ntr-o manier explicit, ceea ce reduce
posibilitatea apariiei relaiilor ambigue ntre acetia.
Dezavantajul limbajului precoordonat const n inflexibilitatea
termenilor, datorat structurii lor liniare.
ntr-un sistem postcoordonat, la indexare, documentului i sunt alocai
termeni simpli, fiind obligatorie combinarea lor logic la stabilirea strategiei,
n faza de cercetare.
Avantajul limbajului postcoordonat const n flexibilitatea termenilor
care permit o mare profunzime de indexare, precum i desfurarea unor
cercetri generice i multidimensionale.
n funcie de tipul de limbaj controlat folosit n procesul de indexare a
documentelor, indexarea este denumit indexare precoordonat i, respectiv,
indexare postcoordonat.
Civa indicatori pot sprijini o comparare a performanelor limbajelor
de indexare utilizate n sistemele documentare actuale.
2.1.Univocitatea semantic
Este un indicator legat de prezena sau absena sinonimiei i polisemiei.
Un concept poate fi exprimat, n limbaj natural, printr-o serie de
sinonime. Pentru regsirea a maximum de documente pertinente, strategia de
cutare trebuie s regrupeze toate posibilele sinonime care se refer la acest
concept.
n cazul polisemiei un cuvnt poate exprima, n limbaj natural, mai
multe concepte. Atunci cnd strategia de cercetare se formuleaz cu astfel de
cuvinte, purttoare de mai multe semnificaii, unele documente regsite nu
vor fi pertinente.
n plus, pentru acelai domeniu, coninutul semantic al limbajului
natural poate fi foarte diferit, de la o limb la alta. Engleza i franceza, de
exemplu, numr n majoritate, cuvinte simple, care pot fi ambigue;
germana, care are n majoritate cuvinte compuse, este mai univoc.
Analiznd din punctul de vedere al univocitii semantice cele patru
tipuri de limbaje de indexare este evident c lista cuvintelor-cheie are cel
mai sczut nivel al acestui indicator, ea caracterizndu-se printr-o foarte
mare ambiguitate semantic.
Lista de descriptori liberi nregistreaz mai puine sinonimii graie
eliminrii diversitilor de forme gramaticale. Si polisemia este considerabil
redus datorit utilizrii expresiilor, mai semnificative dect cuvintele
uniterm.
80
n cazul listei de vedete de subiect, n principiu se asigur univocitatea
semantic: fiecare concept este exprimat printr-o vedet de subiect. n
practic, absena structurii semantice face dificil eliminarea complet a
sinonimiilor i polisemiilor.
Prin concepia sa o list controlat de termeni i prezena unei
structuri semantice tezaurul este limbajul de indexare cel mai precis. Cu
toate acestea se ntlnesc uneori polisemii, acceptate pentru descriptori care
se situeaz n general la periferia domeniului acoperit de tezaur i
cvasisinonimii, adic includerea ca descriptori a unor termeni care ar fi
trebuit s nu fie acceptai i care poate fi explicat printr-o rigoare mai
sczut la construcia tezaurului.
2.2. Actualitatea terminologiei
Comparnd acest indicator, limbajele libere sunt mult mai
performante dect cele controlate: ele sunt actualizate o dat cu terminologia
utilizat n documente. Limbajele controlate, constituite ca liste limitate de
termeni, stabilite a priori, sunt actualizate cu o anumit ntrziere.
2.3. Faciliti oferite la indexarea documentelor

Limbajele libere permit o economie important de resurse umane i
nmagazinarea mai rapid a descrierilor documentelor sau a documentelor
integrale n bazele de date, deoarece utilizarea lor elimin faza de analiz
conceptual a documentelor i cea de traducere a conceptelor din limbajul
natural, etape obligatorii pentru limbajele controlate.
2.4. Faciliti oferite la formularea strategiei de cercetare
Formularea strategiei de cercetare n limbajul liber impune
identificarea tuturor cuvintelor sau expresiilor sinonime pentru reprezentarea
conceptelor din cererea de informare. Absena unei structuri a limbajului nu
permit sistemului s asiste utilizatorul n aceast etap. De asemenea,
prezena polisemiei i a falselor coordonri poate duce la regsirea unor
documente nepertinente cererii.
Limbajele controlate elimin majoritatea acestor inconveniente.
Tezaurele, sunt din acest punct de vedere cele mai performante, deoarece
permit pe de o parte identificarea uoar a descriptorilor ce exprim
conceptele cererii i pe de alt parte, extinderea cercetrii la alte concepte,
mai specifice sau asociate celor din cererea de informare
9
.



9
Aceast ,,mbogire a coninutului cererii permite utilizatorului s cerceteze literatura din
diferitele puncte de vedere ale autorilor care au tratat subiectul cererii de informare.

81
BIBLIOGRAFIE SELECTIV
BANCIU, Doina; MANDEAL, Rodica Sisteme de informare Sisteme de regsire a
informaiei. n: Studii de bibliologie i tiina informrii, vol. 3, 1997, pag. 17-24
BATES, M.J. How to Use Controlled Vocabularies More Effectively in Online
Searching. n: Online, 11, 1988, p.45-56
BECKER, J.; HAYES, R.M. Information Storage and Retrieval. New York: Elsevier
Science Publisher, 1990
BLAIR, D. Language and Representation in Information Retrieval. New York: Elsevier
Science Publisher, 1990
BUCKLAND, M. Relatedness, Relevance and Responsiveness in Retrieval Systems.
n: Information Processing and Management, 19(3), 1983, p. 237-241
GUINCHAT, C.; MENOU, M. Introduction generale aux sciences et techniques de
linformation et de la documentation. Paris: UNESCO, 1990
LANCASTER, F.W. ELLIKER, S.; CONNELL, T.M. Subject Analysis. n: Annual
Review of Information Science and Technologies, 24, 1989, p.35-84
MANDEAL, Rodica Utilizatorul i cutarea informaiei. n: Buletinul ABIR, vol. 13,
2002, nr. 2, p. 8-15

S-ar putea să vă placă și