Sunteți pe pagina 1din 105

1

CAP.7. BAZA DE DATE -


RESURSA ELECTRONICA DE INFORMARE
Curs:
Tehnologia informatiei
n cercetare
Mat. Gabriela MAILAT
Prof.dr.ing. Elena HELEREA
2
CUPRINS
Baze de date. Definitie. Clasificare
Modalitti de acces n bazele de date tiintifice
Sisteme de regsire a informatiei
Exemple de sisteme de regsire a informatiei
Sistemul de regsire a informatiei: Operatiile de stocare i
regsire
Indexarea documentelor
Standardizare i sisteme
Afiarea rezultatelor
Linii directoare pentru afiaj
3
Baze de date. Definiie. Clasificare
Baza de date este unul dintre instrumentele
fundamentale utilizat pentru organizarea
informatiei. Baza de date reprezint o
colectie de date organizate pentru a facilita
cutarea i regsirea rapid prin intermediul
calculatorului.
4
Reprezint structuri pe care sunt construite
majoritatea sistemelor informatice.
Bazele de date sunt structurate astfel nct
s faciliteze stocarea, regsirea, modificarea
i tergerea datelor n concordant cu diferite
operatii de procesare a datelor.
Baze de date. Definiie. Clasificare
5
O baz de date reprezint o serie de nregistrri,
fiecare dintre acestea fiind o entitate specific, toate
construite n acelai mod (cu atribute comune) i
interconectate.
nregistrrile sunt componentele elementare ale
unei baze de date i pot contine informatii numerice,
text sau reprezentri grafice.
O nregistrare cuprinde cmpuri de date sau
elemente de date (numele autorului, titlu etc.) care
descriu principalele atribute ale unei entitti.
Baze de date. Definiie. Clasificare
6
Bazele de date pot fi stocate pe diferite suporturi,
offline sau online i pot fi accesate prin intermediul
retelelor de informare locale, la distant sau prin
Internet.
Patru criterii importante caracterizeaz calitatea
unei baze de date:
volumul informatiei i acoperirea domeniilor de interes
tiintific,
facilittile de interogare,
timpii de acces,
grafica ecranului.
Baze de date. Definiie. Clasificare
7
n procesul de prelucrare i de regsire a
informatiilor o baz de date poate fi folosit pentru:
generarea de indexuri tiprite;
realizarea de cercetri retrospective;
realizarea bibliografiilor;
diseminarea selectiv a informatiei.
Baze de date. Definiie. Clasificare
8
O cercetare retrospectiv (cercetare la comand)
se realizeaz ntr-un corp de literatur retrospectiv
pentru a gsi titluri privind un subiect general sau
specific, la cererea utilizatorului.
Un serviciu curent de diseminare selectiv a
informaiei are n vedere numai literatura publicat
recent.
Baze de date. Definiie. Clasificare
9
n serviciul de diseminare selectiv a
informatiei, interesul utilizatorului pentru un
subiect este convertit n strategie de cutare,
numit n mod frecvent profilul utilizatorului.
Acest profil se pstreaz ntr-un fiier care se
completeaz pe msur ce apar date
suplimentare.
Baze de date. Definiie. Clasificare
10
Pornind de la structura lor, bazele de date pot fi
clasificate n:
baze de date ierarhizate i
baze de date relaionale.
Baze de date. Definiie. Clasificare
11
Bazele de date ierarhizate utilizeaz n mod
traditional structura arborescent pentru retinerea
informatiei. Ele constau dintr-un fiier format din mai
multe nregistrri, care la rndul lor sunt constituite
din numeroase cmpuri de date. Aceste baze de
date sunt mai degrab inflexibile i folosesc mult
spatiu ntruct datele sunt adesea repetitive.
Baze de date. Definiie. Clasificare
12
Baze de date relaionale permit divizarea
nregistrrilor n mai multe prti care sunt pstrate n
diferite fiiere. Aceste prti sunt legate ntre ele
pentru a forma nregistrri individuale. Fiecare
informatie individual este stocat ntr-un singur loc
dar ea poate fi utilizat n mai multe nregistrri. De
ex. numele unui autor poate fi stocat ntr-un fiier
pentru nume, dar fiecare nregistrare a fiecrei
lucrri a respectivului autor este afiat mpreun cu
numele autorului pe ecran.
Baze de date. Definiie. Clasificare
13
Bazele de date ndeplinesc numeroase functiuni:
pot pstra date administrative, colectii de imagini sau
date numerice brute;
pot fi depozite de articole cu text integral;
pot tine evidenta inventarului i a mprumuturilor.
Dup funcia ndeplinit, bazele de date tiintifice
pot fi mprtite n dou categorii:
1. Baze de date bibliografice (de referint)
2. Baze de date tip surs.
Baze de date. Definiie. Clasificare
14
1. Primele (bibliografice) contin:
informatii despre literatura original,
adic date bibliografice i suplimentare
referitoare la crti, articole din periodice,
documente guvernamentale, rapoarte,
lucrri de la conferinte, dizertatii, brevete.
Baze de date. Definiie. Clasificare
15
date bibliografice (autor, titlu etc.),
clasificri, cuvinte cheie, precum i alte
informatii suplimentare pertinente i o
scurt descriere a continutului publicatiilor.
Baze de date. Definiie. Clasificare
16
n cadrul acestor baze de date bibliografice exist
legturi (link-uri) sau trimiteri (pointer) spre surse
care se afl n afara respectivei baze de date. De
exemplu, indexul unei reviste (periodic) contine
informatii despre locatia i continutul unor articole
(lucrri tiintifice) care sunt stocate n alt parte.
Baze de date. Definiie. Clasificare
17
Una dintre cele mai cunoscute baze de date de
acest tip este METADEX, pentru domeniul tiintei
materialelor, care poate fi accesat prin Internet la
pagina WEB a retelelor DIALOG sau STN, cele mai
mari retele de informare online din domeniul tiintific.
Baze de date. Definiie. Clasificare
18
2. Bazele de date tip surs pot fi:
a. full-text care contin textul integral sau
fragmente din documente, ca: articole, crti,
poeme, eseuri;
b. numerice care furnizeaz statistici, date
financiare, rezultate ale diverselor studii,
proprietti fizice sau chimice ale substantelor.
Baze de date. Definiie. Clasificare
19
Exemplu de baz de date numeric n domeniul
atomic i molecular
i. AMDIS (Atomic and Molecular Data Interactive
System) http://dpc.nifs.ac.jp/amdata/amdis.html
n cadrul bazei de date AMDIS, sectiunile
transversale teoretice i experimentale (obtinute cu
tehnici de fascicul) pentru procesele de excitare i
ionizare ale atomilor, ionilor i a unor molecule prin
impact electronic sunt stocate mpreun cu
referintele.
Baze de date. Definiie. Clasificare
20
ii. CHART (Charge Transfer between Atoms and Ions)
http://dpc.nifs.ac.jp/amdata/chartlist.html
Sectiunea transversal experimental pentru transferul
de sarcin al ionilor n coliziune cu tinte de hidrogen
atomic i molecular sunt stocate mpreun cu
referintele.
Baze de date. Definiie. Clasificare
21
c. hibride (mixte) furnizeaz diverse tipuri de
nregistrri reprezentnd o combinatie ntre bazele de
date full-text i cele numerice;
d. faptice spre deosebire de cele bibliografice contin
informatia primar.
n Germania, GENESIS-Online este o valoroas baz
de date care ofer date statistice.
https://www-genesis.destatis.de/genesis/online/logon
Baze de date. Definiie. Clasificare
22
Alt exemplu l constituie EUROSTAT, care ofer date
statistice privind Comunitatea European.
http://www.esds.ac.uk/international/support/user_gui
des/eurostat/cronos.asp
http://epp.eurostat.ec.europa.eu/portal/page/portal/e
urostat/home/
Baze de date. Definiie. Clasificare
23
e. pentru brevete
Aproape jumtate din cererile de brevetare din
lume sunt respinse de ctre birourile de brevetare
deoarece conceptul presupusei inventii nu mai este
nou.
Pentru a evita riscul unei investitii de milioane n
cercetare i dezvoltare, trebuie mai nti consultat
o astfel de baz de date care contine brevetele
existente pn la acea dat.
Baze de date. Definiie. Clasificare
24
f. pentru rapoarte i proiecte de cercetare etc.
furnizeaz informatii asupra proiectelor de
cercetare i dezvoltare. Un exemplu este NTIS
(National Technical Information Service)
http://www.ntis.gov/.
Cutarea se efectueaz n baza de date NTIS
http://www.ntis.gov/products/ntrl.aspx.
Baze de date. Definiie. Clasificare
25
Modaliti de acces n
bazele de date tiinifice
Accesul la informatiile continute se poate face prin
intermediul productorului bazei de date sau prin
distribuitorii de servicii online. Pentru fiecare
calculator conectat, distribuitorul de servicii online
atribuie un cont, identificat prin nume i o parol
care asigur confidentialitatea accesului la cont.
26
Modaliti de acces n bazele de date tiinifice
Contul se afl localizat pe un calculator host
(gazd) situat n Centrul Informatic i se gsete
la operator. Calculatorul host asigur (prin
produsele soft implementate i canalele de
comunicatie la care este conectat) toate
activittile n retea ale utilizatorului, inclusiv
protocoalele Internet.
27
Accesul la bazele de date prin reele automatizate
Figura reprezint schema de principiu a modului de acces la
baze de date prin retele de informare online.
28
Sisteme de regsire a informaiei
n cele ce urmeaz se vor defini acele elemente care
s-i familiarizeze pe potentialii utilizatori cu
terminologia i conceptele de baz ale procesului de
regsire a informatiei. Din cele prezentate n
continuare va rezulta c regsirea informaiei nu
implic numai procese specifice sistemului ci, mai
mult, procese care includ chiar utilizatorul.
29
Sistem de regsire a informaiei
Fiecare sistem de regsire a informatiei asigur
accesul la un set de documente. Un document
reprezint un obiect care este regsit de un sistem
de regsire a informatiei. Acesta poate consta din
continutul complet al informatiei cerute, n care caz
este considerat un document full-text, de exemplu o
pagin WEB sau un articol din revist.
30
Sistem de regsire a informaiei
n cadrul sistemelor de regsire a informatiei
bibliografice, adeseori documentul full-text nu
este disponibil, astfel nct se utilizeaz un
rezumat numit document surogat (condensat)
care este stocat n locul documentului full-text.
Acesta cuprinde date cu rol de identificare cum
ar fi informatii asupra citrilor bibliografice i
rezumate care ajut la identificarea
documentului.
31
Sistem de regsire a informaiei
Documentele pot fi de lungimi diferite, de
exemplu de la scurte pasaje de text pn la
opere monografice complete, sau pot avea alte
formate media cum ar fi imagini video sau
sunete.
32
Sistem de regsire a informaiei
Exist dou metode de cutare:
i. interogarea i
ii. baleierea informatiei, ambele putnd fi n
continuare subdivizate.
i. Interogarea poate fi:
a. identificarea (punerea n corespondent) pe
baz de fraz sau
b. identificarea prin cuvinte cheie.
33
Sistem de regsire a informaiei
Identificarea pe baz de fraz const n potrivirea
unui ir format din caractere de cutare cu textul
exact din nregistrrile aflate n sistem (sau, mai
precis, cu indecii generati de sistem). Acest tip de
interogare solicit cuvintelor din ir s se regseasc
n aceeai ordine ca n interogarea de cutare. Nu
permite termenilor sau irurilor s se regseasc n
cmpuri diferite.
34
Sistem de regsire a informaiei
Identificarea prin cuvinte cheie permite termenilor s
fie dispersati. Cutarea pe baz de cuvinte cheie
implic punerea n corespondent a unor cuvinte
separate cu indecii sistemului, recurgnd adesea la
operatori booleeni sau la formulri de proximitate
pentru a-i combina. Cuvintele cheie pot fi potrivite
unor termeni care apar n mai mult de un singur
cmp sau index.
35
Sistem de regsire a informaiei
ii. Baleierea informaiei, la rndul ei, poate fi
divizat n dou categorii:
a. Baleierea linear pre-secvential permite
utilizatorilor s scaneze liste de termeni,
antete/titluri sau scurte titluri pentru a regsi
teme sau articole de interes. Aceasta este o
abordare structurat, recurgnd la organizarea
intern a datelor de ctre sistem.
36
Sistem de regsire a informaiei
b. Cel de-al doilea tip de baleiere propus de
Hildreth este neliniar i multidirectional. Acesta
este tipul de baleiere nestructurat. Permite
utilizarea legturilor/ link-urilor hypertext pentru
a naviga ntre diferite articole.
37
Sistem de regsire a informaiei
Interogarea este preferabil n cazul n care utilizatorii
tiu exact ceea ce-i doresc, n timp ce baleierea
constituie o alternativ n cazul regsirii a sute de
nregistrri ca rspuns la o interogare.
38
Sistem de regsire a informaiei
De exemplu, dac un utilizator caut un document
dup criteriul autor, numele fiind Popescu, ns nu
cunoate dect initiala R. a prenumelui, o
interogare bazat pe baleiere l va plasa pe cel care
caut ntr-un index al tuturor numelor de persoane
cu numele de familie Popescu, n punctul din care
vor ncepe prenumele cu initiala R. De la acel
punct, utilizatorul poate scana nume fie nainte, fie
dup numele introdus.
39
Sistem de regsire a informaiei
Dac aceast list contine, aditional numelui, date
i nregistrri asociate cu numele respectiv, atunci
utilizatorul poate determina mai uor care nume l
reprezint pe R. Popescu cutat. O optiune de
baleiere pe subiect va oferi utilizatorului o list de
subiecte apropiate cuvntului care a fost introdus n
scopul cutrii.
40
Sistem de regsire a informaiei
n cazul n care utilizatorul nu este sigur asupra a
ceea ce dorete sau atunci cnd utilizatorul nu
cunoate irul exact utilizat n sistem pentru a
descrie ceea ce caut, baleierea poate fi o metod
mai adecvat pentru a satisface nevoia
informational a utilizatorului.
41
Sistem de regsire a informaiei
Procesul de interogare a bazelor de date i
limbajele de comand utilizate includ:
Alegerea bazei de date potrivite. Dac
serviciul online ofer acces la mai multe
baze de date este necesar alegerea bazei
de date dorite pentru interogare;
Selectarea termenilor de cutare, fie
individual, fie n combinatii cu altii, utiliznd
operatori booleeni;
42
Sistem de regsire a informaiei
Cutarea pe cmpuri specifice ale
nregistrrii (autor, titlu etc.);
Utilizarea trunchierii termenilor de cutare;
Cutarea pe baz de fraz sau expresie;
Cutarea termenilor care apar n aceeai
propozitie sau acelai cmp;
Cutarea termenilor utiliznd un sistem de
clasificare sau un tezaur;
43
Sistem de regsire a informaiei
Generarea seturilor de cutare i utilizarea
ulterioar a informatiilor regsite;
Salvarea listelor generate n procesul de
cutare;
Printarea referintelor gsite;
ncrcarea referintelor pe sistemul propriu;
Abandonarea sesiunii de cutare.
44
Sistem de regsire a informaiei
O baz de date este interogat prin
instructiuni sau comenzi concepute pentru a
localiza toate nregistrrile care contin
anumiti termeni, combinatii de termeni sau
diferite valori.
45
Sistem de regsire a informaiei
De exemplu la cutarea termenului wood
sistemul de regsire va afia numrul de
nregistrri n care este prezent cuvntul wood.
Dac ne gndim la o nregistrare bibliografic
termenul cutat poate aprea n titlu, n rezumat,
n titlul publicatiei etc. Dac se prefer,
cercetarea poate fi fcut numai pe un singur
cmp, cum ar fi titlul, crescnd astfel gradul de
relevant al rezultatelor.
46
Sistem de regsire a informaiei
Termenii pot fi asociati cu indeci pentru
documente sau pentru interogri. n timpul
procesrii interogrii, termenii din cutare
(interogare) sunt asociati cu termenii indecilor,
care se mai numesc i cuvinte cheie care
definesc termenii cutabili din baza de date.
47
Sistem de regsire a informaiei
Interogrile pot avea diferite forme:
Interogrile de tip boolean combin termenii cu
operatorii care definesc contextul termenilor.
Cnd se impune cutarea printr-o combinatie de
termeni, criteriile de cutare sunt stabilite cu ajutorul
operatorilor booleni AND (I), OR (SAU), NOT
(FARA), care se folosesc pentru a pune ntr-o
legtur logic diferiti termeni. Logica boolean
rezult din aplicarea algebrei lui G. Boole i permite
operarea/ stabilirea a trei tipuri de relatii ntre
descriptori.
48
Sistem de regsire a informaiei
Relaia de intersecie (produs logic): se utilizeaz
operatorul I (AND) pentru a lega doi descriptori; se
impune ca ambii termeni s existe n nregistrrile
regsite. Cei doi descriptori trebuie s fie prezenti la
indexarea documentului, pentru ca documentul
respectiv s fie considerat pertinent.
49
Sistem de regsire a informaiei
AND
composite
boards
wooden
fibres
Cu alte cuvinte, va restrnge cutarea la un numr mai
mic de nregistrri dect dac s-ar cuta pentru fiecare
termen separat.
50
Sistem de regsire a informaiei
Relaia de uniune (sum logic): folosirea SAU
(OR) presupune ca fie primul, fie al doilea, fie ambii
descriptori s fie prezenti n nregistrrile regsite,
mrind astfel numrul documentelor pertinente
regsite.
composites
wood
OR
51
Sistem de regsire a informaiei
Relaia de excludere (diferena logic): folosirea
operatorului FARA (NOT) implic excluderea din setul de
rezultate a tuturor nregistrrilor care contin termenul
cruia i se aplic operatorul, dac dorim ca documentul
s fie pertinent.
52
Sistem de regsire a informaiei
NO
PAL PAP
Rezultatul acestor operatii de coordonare a
descriptorilor este ecuaia de cercetare. Exist alte
cteva proceduri care permit s se formuleze sau s
se completeze ecuatia de cercetare.
53
Sistem de regsire a informaiei
Interogrile n limbaj natural se bazeaz pe
structura lingvistic i pozitia cuvintelor pentru
identificarea contextului.
Anumite sisteme permit introducerea de iruri de
termeni, caz n care distanta dintre termeni detemin
relatia dintre acetia. n cazul utilizrii interogrilor n
limbaj natural, utilizatorii nu trebuie s fie familiarizati
cu limbajele artificiale de interogare care definesc
operatiuni de interogare valide.
54
Sistem de regsire a informaiei
Sistemele de regsire a informatiilor pot contine
functiunea de cutare liber a textului sau pot s se
bazeze pe un vocabular controlat.
Cutarea tip text liber nu limiteaz termenii cutabili
la un set predefinit de termeni. Vocabularul controlat
care este implementat de regul ca subject heading
sau descriptori, limiteaz cutarea la un set de
termeni necunoscuti care au fost indexati.
55
Sistem de regsire a informaiei
Indicatorul de proximitate (alturare).
Folosirea lui impune ca primul descriptor s
fie n imediata apropiere a celui de-al doilea.
Prin acest indicator se definete apropierea
descriptorilor n textul documentului; se
utilizeaz foarte mult n cutarea tip text liber
(sau se aplic rezumatelor care ncorporeaz
descriptori).
56
Sistem de regsire a informaiei
Cel care interogheaz baza indic dac cei
doi descriptori trebuie s fie succesivi (1), s
se gseasc n aceeai fraz (2) sau s nu
fie desprtiti ntre ei n text dect de un
numr determinat de cuvinte (3).
57
Sistem de regsire a informaiei
Indicatorul de ponderare: se aloc, att la
indexarea documentelor, ct i la cutare,
fiecrui descriptor, n functie de importanta
conceptului reflectat n document sau n
cerere (3,2,1).
58
Sistem de regsire a informaiei
Trunchierea: permite cutarea unui cuvnt sau
descriptor, datorit unui grup de litere (rdcin
sau radical), fr s tinem seama de prefixe sau
sufixe (de exemplu: document, documentare,
documentarist); dac cercetarea se face cu
descriptorul-document, se vor gsi toate
documentele care au fost indexate cu descriptori
care au acelai radical.
59
Sistem de regsire a informaiei
Extensia/expandarea: permite completarea ecuatiei
de cutare printr-o comand de adugare a unui
termen generic (TG), specific (TS) sau asociat (TA),
iar calculatorul va conduce la termenii
corespunztori din tezaur pentru descriptorul n
cauz.
Comparatia numeric: permite desfurarea unor
cercetri n functie de criterii cantitative.
Exemplu: > 1976 (literatura publicat dup 1976).
60
Exemple de sisteme de regsire
a informaiei
Sistemele de regsire a informatiei pot fi
clasificate dup:
coninut sau
prin modelele utilizate pentru reprezenta-
rea i extragerea continutului.
61
Exemple de sisteme de regsire a informaiei
Datorit creterii capacittii de stocare precum i
a reducerii costurilor se tinde din ce n ce mai
mult spre reprezentarea i stocarea
documentelor, full-text (complet) inclusiv ale
componentelor non-textuale cum ar fi graficele.
Printre aplicatiile sistemelor de regsire a
informatiei se numr i bazele de date
bibliografice.
62
Exemple de sisteme de regsire a informaiei
Multe sisteme de asistent (help) on-line
asociate cu aplicatii software permit de
asemenea cutri simple, bazate pe
continutul help-ului.
Internetul a contribuit la mbunttirea
sistemelor de regsire a informatiilor.
63
Exemple de sisteme de regsire a informaiei
Motoarele de cutare sunt de fapt sisteme
de regsire a informatiei care pot fi folosite
pentru indexarea continutului distribuit al
WEB-ului i altor prti ale internetului, sau
pot fi folosite numai pentru indexarea
continutului local.
64
Exemple de sisteme de regsire a informaiei
Aceste servicii de cutare asigur accesul la
un mare volum de documente full-text.
Sistemele de regsire a informatiei sunt
sisteme read-only n care utilizatorii
efectueaz o simpl cutare, neputnd
modifica continutul bazei de date.
65
Exemple de sisteme de regsire a informaiei
Procesul de regsire a informatiei implic un dialog
ntre utilizator i sistemul de regsire a informatiei.
Caracteristicile principale ale stocrii informatiei i
ale procesului de regsire sunt prezentate n
schema de mai jos :
Apelarea la serviciile unui sistem de regsire a
informatiei este determinat de nevoia de informare
a utilizatorului.
66
Exemple de sisteme de regsire a informaiei
Utilizatorul tie c baza de date la care
sistemul de regsire asigur accesul poate
contine resursele care l intereseaz.
Deoarece utilizatorul cunoate att domeniul
asupra cruia vrea s se informeze ct i
modul de utilizare a sistemului de regsire a
informatiei, el formuleaz o prim interogare
pe care o transmite sistemului.
67
Exemple de sisteme de regsire a informaiei
Caracteristicile principale ale stocrii
informatiei i ale procesului de regsire sunt
prezentate n schema de mai jos :
68
Procesul de stocare i regsire a informaiei
69
Exemple de sisteme de regsire a informaiei
Interactiunea cu sistemul de regsire a
informatiei este asigurat prin intermediul
interfetei cu utilizatorul. n urma parcurgerii
unor articole eligibile, utilizatorul i poate
rafina (detalia) cererea de informatii precum
i modul de interogare a sistemului
70
Exemple de sisteme de regsire a informaiei
Aceasta este cunoscut sub denumirea de
relevance feedback. Procesul se repet
pn cnd necesarul de informatie a fost
satisfcut ntr-o msur suficient sau pn
cnd utilizatorul realizeaz c sistemul nu i
poate ndeplini cerintele, moment n care
procesul de cutare nceteaz.
71
Exemple de sisteme de regsire a informaiei
Functiunile sistemului sunt invizibile pentru utilizator,
dar sunt importante ntruct de ele depinde
capacitatea sistemului de a ndeplini cererea de
informatie.
Nu este posibil includerea ntr-un singur sistem a
ntregului volum de resurse existent n lume.
Sistemul procedeaz la includere selectiv, adic sunt
atrase informatiile care sunt de cea mai mare
important pentru scopul sistemului de regsire.
Sistemul trebuie s gseasc o modalitate de
reprezentare eficient a continutului informatiei.
72
Sistemul de regsire a informaiei:
Operaiile de stocare i regsire
Subiectele discutate au examinat sistemul
de regsire a informatiei dintr-o perspectiv
descriptiv, de ansamblu, fr a analiza
detaliile procesului de regsire propriu-zis.
Procesul fizic de cutare i regsire poate
genera o sarcin de calcul semnificativ n
functie de modelul de regsire a informatiei
implementat.
73
Sistemul de regsire a informaiei:
Operaiile de stocare i regsire
Stocarea i regsirea eficient a
documentelor ca i mecanismele asociate
prezint interes pentru cercetare.
Pot fi folosite diferite tehnici n procesele de
stocare i regsire.
Procesele discutate n cele ce urmeaz tin
de sisteme de tip Boolean, ce folosesc
termeni scrii ntre ghilimele i constituie
metoda de baz utilizat de majoritatea
sistemelor.
74
Stocarea i indexarea documentelor
Documentele stocate ntr-un sistem trebuie mai nti
procesate pentru a se asigura suficiente puncte de
acces n vederea simplificrii regsirii.
ntr-un mediu de fiiere inversate termenii sunt
folositi pentru regsirea documentelor n
conformitate cu parametrii interogrii.
Termenii care pot fi utilizati la cutarea ntr-un sistem
se gsesc pe o list, ntr-un fiier de termeni sau de
indeci, care contorizeaz numrul documentelor din
cadrul setului de documente indexate ce contin un
anumit termen.
75
Stocarea i indexarea documentelor
La introducerea termenului se stabilete o legtur
ctre o locatie dintr-un fiier de postri. O postare
reprezint un termen indexat ntr-un document.
Dup ce s-a stabilit c un document contine un
anumit termen, documentul respectiv poate fi
regsit. Relatiile ntre termeni, postri i documente
sunt prezentate n figura de mai jos.
76
Stocarea i indexarea documentelor
Reprezentarea fiierelor unui sistem de regsire a informaiei
77
Stocarea i indexarea documentelor
La integrarea unor noi documente ntr-un
sistem de regsire a informatiei trebuie mai
nti identificati prin analiz sintactic
termenii de cutare din ele. Procesul de
analiz sintactic va identifica notiunea
termen prin caractere de delimitare valide.
78
Stocarea i indexarea documentelor
De exemplu, un termen valid poate ncepe cu un
caracter alfanumeric i va fi delimitat de caractere
nonalfanumerice.
Termenii propui pentru cutare sunt mai nti
comparati cu o list de cuvinte omise (stopwords),
care identific acele cuvinte care nu trebuie
indexate.
Cuvintele omise pot fi the, to, a, for sau alte
cuvinte frecvent utilizate i care apar pe mai multe
documente dintr-un domeniu.
79
Stocarea i indexarea documentelor
n numeroase sisteme, exist instructiuni pentru
omiterea articolelor initiale la introducerea unui
ir pentru cutare. Utilizatorii manifest tendinta
de a urma aceast recomandare dac
instructiunea se observ uor i dac poate fi
vzut din csuta de cutare.
Dac o cutare include totui articolul initial,
poate rezulta una din urmtoarele situatii:
80
Stocarea i indexarea documentelor
Sistemul returneaz un mesaj c utilizatorul nu a
primit rezultate i nu mai sunt incluse deloc alte
informatii.
Sistemul avanseaz utilizatorului un mesaj de a
ndeprta articolul initial i de a ncerca din nou.
Sistemul trateaz un articol initial de o manier
diferit, depinznd de tipul de cutare, pe baz de
cuvnt cheie, baleiere sau echivalent/potrivire
exact.
Sistemul pur i simplu elimin articolul, fr
ntiintarea utilizatorului i efectueaz cutarea.
81
Stocarea i indexarea documentelor
Ultima posibilitate din list poate fi bun pentru
anumiti utilizatori, ns exist, binenteles, momente
cnd articolul (sau ceea ce pare a fi un articol un
cuvnt strin, poate) este necesar pentru o cutare
de succes (ex. o carte intitulat A is for Apple).
Exist anumiti algoritmi pentru identificarea
variantelor morfologice ale termenilor indexati.
82
Stocarea i indexarea documentelor
Variantele acestea pot fi apoi condensate ntr-o
rdcin comun. Excluderea cuvintelor omise
din indexul de termeni poate reduce
dimensiunea fiierului de postri, n timp ce
anumiti algoritmi pot reduce fiierul de termeni.
Termenul ales este apoi cutat n fiierul de
termeni.
83
Stocarea i indexarea documentelor
Dac el nu exist n fiier, se creeaz o nou
nregistrare, numrul de aparitii sau numrul de
rezultate este setat la cifra 1 i se adaug o nou
nregistrare n fiierul de postri, legndu-se
termenul de documentul aflat n fiierul de
documente.
Dac termenul exist deja n fiierul de termeni,
numrul de aparitii este incrementat i noua intrare
este adugat la fiierul de postri.
84
Stocarea i indexarea documentelor
Dac este posibil cutarea dup cmpuri, se poate
aduga un identificator de cmp la fiierul de
termeni.
Dac termenul apare n mai multe cmpuri pot fi
adugate intrri suplimentare pentru acelai termen,
fiecrui cmp corespunzndu-i o unic aparitie.
Dac exist posibilitatea cutrii prin proximitate
(alturare) trebuie de asemenea reprezentate
locatiile multiple ale unui anumit termen n interiorul
unui cmp.
85
Stocarea i indexarea documentelor
n acest caz se vor efectua mai multe intrri de
postare pentru fiecare aparitie a termenului.
Valoarea offset-ului (decalajului) de la nceputul
cmpului stabilete locatia n care termenul este
pozitionat n interiorul cmpului, de ex. un termen
aflat la nceputul cmpului va avea un offset egal cu
0. Termenul urmtor va avea un offset egal cu 1
.a.m.d. Aceasta poate conduce la creterea
semnificativ a dimensiunii fiierului de postri din
cmpurile de indexare ale sistemelor datorit unor
iruri lungi de texte.
86
Stocarea i indexarea documentelor
Frecventa aparitiei unui termen ntr-un cmp sau
ntr-un document servete la calculul ponderii
termenului, oferind indicatii asupra importantei sale
n cuprinsul documentului.
Strategia de indexare a unui document poate fi
extrem de simpl prin includerea tuturor termenilor
posibili care se identific cu uurint la procesarea
initial a documentului.
Proiectantii de sisteme de regsire a informatiei au
creat rutine de indexare automat care identific
termenii adecvati.
87
Standardizare i sisteme
Nu exist standarde reale, numai linii directoare
generale i sugestii.
Din cauza naturii competitive a comerciantilor de pe
pietele OPAC-urilor, o interfat standard nu este
susceptibil de a aprea curnd.
Sunt dezvoltate noi trsturi i fiecare comerciant
plaseaz diferite niveluri de important pe diferite
aspecte ale propriului design de sistem.
Unele au diferite scheme de organizare intern;
altele au diferite capacitti de cutare.
88
Standardizare i sisteme
Comerciantii ncearc s dezvolte cea mai
atrgtoare interfat, caracteristici de cutare i
module, n scopul de a ctiga un procent ct mai
mare de piat.
Aceast competitie contribuie la lipsa de
standardizare din proiectul sistemului ns, nc o
dat, poate contribui la inovatiile i progresul pe
termen lung.
89
Standardizare i sisteme
Aceasta ar putea reprezenta o chestiune de gsire a
echilibrului potrivit ntre standardizare i fortele de pe
piat.
Indexurile online, de asemenea, sunt caracterizate
de o mare varietate i de putin standardizare.
Aceasta este o continuare a unei lungi istorii de lips
a standardzrii n indexurile tiprite.
90
Standardizare i sisteme
Cteva arii n care a fost recomandat
standardizarea includ:
Afiarea rezultatelor
interogrile de cutare fundamentale
tratamentul articolelor initiale
utilizarea operatorilor Booleni, proximitatea i
trunchierea
punctuatia
91
Standardizare i sisteme
Afiarea
Una dintre ariile cheie n care standardizarea este
cea mai evident este n afirile sistemului.
Afirile pot fi divizate n dou categorii:
1) afiarea seturilor de rezultate regsite i
2) afiarea metadatelor din nregistrrile surogat,
ambele ncorpornd probleme legate de formatul de
ieire a informatieie pe ecran i de design.
92
Afiarea rezultatelor
1) Afiarea rezultatelor regsite
Prima preocupare n problema afirii este dac
rezultatele cutrii apar ca
list de nregistrri individuale
sau
list antete/titluri afiate mai nti, nainte de
prezentarea pentru vizualizare a nregistrrilor
propriu-zise.
93
Afiarea rezultatelor
Exemplu
Unele sisteme, ca rspuns la o cutare pentru un
autor cu numele de familie Benson, afieaz toti
Benson-ii din sistem, grupati dup initialele
prenumelui.
Se poate naviga prin aceast list i se poate regsi
titlul/antetul adecvat nainte de a avea lista cu lucrri
de cercetat amnuntit.
Alte sisteme returneaz rezultate care sunt liste de
lucrri legate de fiecare Benson nainte de a ti cti
Benson exist. Se solicit paginarea prin lista att a
autorilor ct i a titlurilor nainte de a baleia lista de
nume.
94
Afiarea rezultatelor
Cea de-a doua preocupare n afiarea rezultatelor
este ordinea n care sunt prezentate acestea.
Pe msur ce sistemele deveneau mai sofisticate, a
fost acordat utilizatorului mai mult control asupra
afirii.
n anumite sisteme, utilizatorii pot specifica un cmp
(cel mai adesea dintr-o list scurt, predefinit de
optiuni) care s fie utilizat pentru aranjarea
rezultatelor afiate ale cutrii.
95
Afiarea rezultatelor
De exemplu, dac se alege sortarea
rezultatelor dup autor, atunci intrarea
principal este afiat n lista sortat, ns
este posibil ca intrarea principal s nu fie
autorul de care este interesat utilizatorul (ex.
nu acel Benson care este un al doilea sau alt
autor al unui pachet informational).
96
Afiarea rezultatelor
Exist adesea trei niveluri de afiare ntr-un catalog
online:
o versiune de una sau dou linii
o afiare scurt
i o afiare integral/ complet.
Dei complet rareori nseamn c toate informatiile
dintr-o nregistrare codat sunt afiate, anumite
sisteme permit afiarea ntregii nregistrri MARC.
97
Afiarea rezultatelor
Afiarea implicit, atunci cnd o singur
nregistrare este regsit ca rspuns la o
interogare sau dup ce un utilizator a selectat o
nregistrare dintr-o list pentru a fi vizualizat,
este de obicei vizualizarea scurt.
Cantitatea i tipurile de informatii omise dintr-o
nregistrare integral pentru a crea un afiaj
scurt difer de la sistem la sistem.
98
Afiarea rezultatelor
Allyson Carlyle i Traci Timmons au examinat atent
122 de cataloage bazate pe Web i au concluzionat
c urmtoarele cmpuri: autor personal, titlu i
publicatie sunt ntotdeauna afiate n nregistrri
singulare implicite, ns alte cmpuri sunt afiate mai
putin frecvent, iar cele care sunt afiate sunt tratate
inconsistent (ex. cmpuri de titlu includeau uneori
declaratii de responsabilitate sau nu).
99
Afiarea rezultatelor
Thomas remarc faptul c utilizatorii gsesc
numai cteva cmpuri utile; astfel c ar
trebui s existe linii directoare pentru
selectarea cmpurilor cele mai necesare de
afiat.
10
0
Afiarea rezultatelor
2) Etichetarea metadatelor n nregistrri variaz
de asemenea de la sistem la sistem, i exist
diferente n terminologia utilizat pentru
etichetare.
nregistrrile pentru (publicatii) seriale sufer
de probleme de etichetare mai mult dect
nregistrrile pentru monografii. Informatiile
referitoare la fond(uri) pot crea confuzie
utilizatorului, chiar i cu cele mai explicite
etichete disponibile.
10
1
Afiarea rezultatelor
Este pus n discutie nsi nevoia de metadate de
etichetare. Etichetele pot crea confuzie i nu
acoper n mod necesar totul ntr-un cmp.
Dac, n loc de etichetarea fiecrui cmp, afiajele
ar recurge la formatul ISBD (cu punctuatia sa
standardizat i ordinea stabilit a informatiilor),
etichetele care creeaz confuzie ar putea fi
eliminate.
Aditional, formatul ISBD ar permite mai multor
informatii referitor la un pachet informational s fie
afiate pe un ecran.
10
2
Afiarea rezultatelor
Cnd este utilizat un format ISBD, numai 30% din
nregistrri au nevoie de un al doilea ecran pentru
afiarea ntregii nregistrri. Cu etichetele, 80% din
nregistrri au nevoie de un al doilea ecran pentru
afiarea ntregii nregistrri. (Aceasta se ntmpla
nainte de WebPAC-uri, n care nregistrri lungi
necesit mai degrab derularea/ defilarea dect
deplasarea la un al doilea ecran.
Utilizatorii tind s priveasc la ceea ce li se ofer la
prima vedere, nainte de derulare/defilare sau de
trecerea la cel de-al doilea ecran).
10
3
Linii directoare pentru afiaj
Aceste abordri diferite la ambele tipuri de afiaj
(i.e. afiarea rezultatelor regsite i afiarea
nregistrrilor) au determinat crearea de linii
directoare pentru standardizarea afiajelor.
O sarcin de fort a Federatiei Internationale a
Asociatiilor i Institutiilor Biblioteconomice (IFLA) din
1999 a emis linii directoare pentru a sprijini
bibliotecile n proiectarea sau reproiectarea OPAC-
urilor.
10
4
Linii directoare pentru afiaj
Aceste linii directoare constau din 37 principii
bazate pe obiectivele catalogului i pe tipurile de
cutri pe care le deruleaz utilizatorii.
Principiile directoare recomand un set standard de
afiaje implicite, definite ca i caracteristici care ar
trebui oferite utilizatorilor care nu au selectat alte
optiuni, incluznd utilizatorii care doresc s
demareze cutarea imediat, fr prea mult
instruire.
10
5
Linii directoare pentru afiaj
Dac asemenea afiaje implicite ar fi implementate
pe scar larg, utilizatorii ar obtine beneficii prin
posibilitatea de a transfera abilittile de utilizare a
catalogului dobndite ntr-o bibliotec la numeroase
alte biblioteci.
Strdaniile IFLA i ale numeroi cercettori au fost
concentrate pe nevoia utilizatorilor pentru
instrumente puternice, ns uor de utilizat.

S-ar putea să vă placă și