RESURSA ELECTRONICA DE INFORMARE Curs: Tehnologia informatiei n cercetare Mat. Gabriela MAILAT Prof.dr.ing. Elena HELEREA 2 CUPRINS Baze de date. Definitie. Clasificare Modalitti de acces n bazele de date tiintifice Sisteme de regsire a informatiei Exemple de sisteme de regsire a informatiei Sistemul de regsire a informatiei: Operatiile de stocare i regsire Indexarea documentelor Standardizare i sisteme Afiarea rezultatelor Linii directoare pentru afiaj 3 Baze de date. Definiie. Clasificare Baza de date este unul dintre instrumentele fundamentale utilizat pentru organizarea informatiei. Baza de date reprezint o colectie de date organizate pentru a facilita cutarea i regsirea rapid prin intermediul calculatorului. 4 Reprezint structuri pe care sunt construite majoritatea sistemelor informatice. Bazele de date sunt structurate astfel nct s faciliteze stocarea, regsirea, modificarea i tergerea datelor n concordant cu diferite operatii de procesare a datelor. Baze de date. Definiie. Clasificare 5 O baz de date reprezint o serie de nregistrri, fiecare dintre acestea fiind o entitate specific, toate construite n acelai mod (cu atribute comune) i interconectate. nregistrrile sunt componentele elementare ale unei baze de date i pot contine informatii numerice, text sau reprezentri grafice. O nregistrare cuprinde cmpuri de date sau elemente de date (numele autorului, titlu etc.) care descriu principalele atribute ale unei entitti. Baze de date. Definiie. Clasificare 6 Bazele de date pot fi stocate pe diferite suporturi, offline sau online i pot fi accesate prin intermediul retelelor de informare locale, la distant sau prin Internet. Patru criterii importante caracterizeaz calitatea unei baze de date: volumul informatiei i acoperirea domeniilor de interes tiintific, facilittile de interogare, timpii de acces, grafica ecranului. Baze de date. Definiie. Clasificare 7 n procesul de prelucrare i de regsire a informatiilor o baz de date poate fi folosit pentru: generarea de indexuri tiprite; realizarea de cercetri retrospective; realizarea bibliografiilor; diseminarea selectiv a informatiei. Baze de date. Definiie. Clasificare 8 O cercetare retrospectiv (cercetare la comand) se realizeaz ntr-un corp de literatur retrospectiv pentru a gsi titluri privind un subiect general sau specific, la cererea utilizatorului. Un serviciu curent de diseminare selectiv a informaiei are n vedere numai literatura publicat recent. Baze de date. Definiie. Clasificare 9 n serviciul de diseminare selectiv a informatiei, interesul utilizatorului pentru un subiect este convertit n strategie de cutare, numit n mod frecvent profilul utilizatorului. Acest profil se pstreaz ntr-un fiier care se completeaz pe msur ce apar date suplimentare. Baze de date. Definiie. Clasificare 10 Pornind de la structura lor, bazele de date pot fi clasificate n: baze de date ierarhizate i baze de date relaionale. Baze de date. Definiie. Clasificare 11 Bazele de date ierarhizate utilizeaz n mod traditional structura arborescent pentru retinerea informatiei. Ele constau dintr-un fiier format din mai multe nregistrri, care la rndul lor sunt constituite din numeroase cmpuri de date. Aceste baze de date sunt mai degrab inflexibile i folosesc mult spatiu ntruct datele sunt adesea repetitive. Baze de date. Definiie. Clasificare 12 Baze de date relaionale permit divizarea nregistrrilor n mai multe prti care sunt pstrate n diferite fiiere. Aceste prti sunt legate ntre ele pentru a forma nregistrri individuale. Fiecare informatie individual este stocat ntr-un singur loc dar ea poate fi utilizat n mai multe nregistrri. De ex. numele unui autor poate fi stocat ntr-un fiier pentru nume, dar fiecare nregistrare a fiecrei lucrri a respectivului autor este afiat mpreun cu numele autorului pe ecran. Baze de date. Definiie. Clasificare 13 Bazele de date ndeplinesc numeroase functiuni: pot pstra date administrative, colectii de imagini sau date numerice brute; pot fi depozite de articole cu text integral; pot tine evidenta inventarului i a mprumuturilor. Dup funcia ndeplinit, bazele de date tiintifice pot fi mprtite n dou categorii: 1. Baze de date bibliografice (de referint) 2. Baze de date tip surs. Baze de date. Definiie. Clasificare 14 1. Primele (bibliografice) contin: informatii despre literatura original, adic date bibliografice i suplimentare referitoare la crti, articole din periodice, documente guvernamentale, rapoarte, lucrri de la conferinte, dizertatii, brevete. Baze de date. Definiie. Clasificare 15 date bibliografice (autor, titlu etc.), clasificri, cuvinte cheie, precum i alte informatii suplimentare pertinente i o scurt descriere a continutului publicatiilor. Baze de date. Definiie. Clasificare 16 n cadrul acestor baze de date bibliografice exist legturi (link-uri) sau trimiteri (pointer) spre surse care se afl n afara respectivei baze de date. De exemplu, indexul unei reviste (periodic) contine informatii despre locatia i continutul unor articole (lucrri tiintifice) care sunt stocate n alt parte. Baze de date. Definiie. Clasificare 17 Una dintre cele mai cunoscute baze de date de acest tip este METADEX, pentru domeniul tiintei materialelor, care poate fi accesat prin Internet la pagina WEB a retelelor DIALOG sau STN, cele mai mari retele de informare online din domeniul tiintific. Baze de date. Definiie. Clasificare 18 2. Bazele de date tip surs pot fi: a. full-text care contin textul integral sau fragmente din documente, ca: articole, crti, poeme, eseuri; b. numerice care furnizeaz statistici, date financiare, rezultate ale diverselor studii, proprietti fizice sau chimice ale substantelor. Baze de date. Definiie. Clasificare 19 Exemplu de baz de date numeric n domeniul atomic i molecular i. AMDIS (Atomic and Molecular Data Interactive System) http://dpc.nifs.ac.jp/amdata/amdis.html n cadrul bazei de date AMDIS, sectiunile transversale teoretice i experimentale (obtinute cu tehnici de fascicul) pentru procesele de excitare i ionizare ale atomilor, ionilor i a unor molecule prin impact electronic sunt stocate mpreun cu referintele. Baze de date. Definiie. Clasificare 20 ii. CHART (Charge Transfer between Atoms and Ions) http://dpc.nifs.ac.jp/amdata/chartlist.html Sectiunea transversal experimental pentru transferul de sarcin al ionilor n coliziune cu tinte de hidrogen atomic i molecular sunt stocate mpreun cu referintele. Baze de date. Definiie. Clasificare 21 c. hibride (mixte) furnizeaz diverse tipuri de nregistrri reprezentnd o combinatie ntre bazele de date full-text i cele numerice; d. faptice spre deosebire de cele bibliografice contin informatia primar. n Germania, GENESIS-Online este o valoroas baz de date care ofer date statistice. https://www-genesis.destatis.de/genesis/online/logon Baze de date. Definiie. Clasificare 22 Alt exemplu l constituie EUROSTAT, care ofer date statistice privind Comunitatea European. http://www.esds.ac.uk/international/support/user_gui des/eurostat/cronos.asp http://epp.eurostat.ec.europa.eu/portal/page/portal/e urostat/home/ Baze de date. Definiie. Clasificare 23 e. pentru brevete Aproape jumtate din cererile de brevetare din lume sunt respinse de ctre birourile de brevetare deoarece conceptul presupusei inventii nu mai este nou. Pentru a evita riscul unei investitii de milioane n cercetare i dezvoltare, trebuie mai nti consultat o astfel de baz de date care contine brevetele existente pn la acea dat. Baze de date. Definiie. Clasificare 24 f. pentru rapoarte i proiecte de cercetare etc. furnizeaz informatii asupra proiectelor de cercetare i dezvoltare. Un exemplu este NTIS (National Technical Information Service) http://www.ntis.gov/. Cutarea se efectueaz n baza de date NTIS http://www.ntis.gov/products/ntrl.aspx. Baze de date. Definiie. Clasificare 25 Modaliti de acces n bazele de date tiinifice Accesul la informatiile continute se poate face prin intermediul productorului bazei de date sau prin distribuitorii de servicii online. Pentru fiecare calculator conectat, distribuitorul de servicii online atribuie un cont, identificat prin nume i o parol care asigur confidentialitatea accesului la cont. 26 Modaliti de acces n bazele de date tiinifice Contul se afl localizat pe un calculator host (gazd) situat n Centrul Informatic i se gsete la operator. Calculatorul host asigur (prin produsele soft implementate i canalele de comunicatie la care este conectat) toate activittile n retea ale utilizatorului, inclusiv protocoalele Internet. 27 Accesul la bazele de date prin reele automatizate Figura reprezint schema de principiu a modului de acces la baze de date prin retele de informare online. 28 Sisteme de regsire a informaiei n cele ce urmeaz se vor defini acele elemente care s-i familiarizeze pe potentialii utilizatori cu terminologia i conceptele de baz ale procesului de regsire a informatiei. Din cele prezentate n continuare va rezulta c regsirea informaiei nu implic numai procese specifice sistemului ci, mai mult, procese care includ chiar utilizatorul. 29 Sistem de regsire a informaiei Fiecare sistem de regsire a informatiei asigur accesul la un set de documente. Un document reprezint un obiect care este regsit de un sistem de regsire a informatiei. Acesta poate consta din continutul complet al informatiei cerute, n care caz este considerat un document full-text, de exemplu o pagin WEB sau un articol din revist. 30 Sistem de regsire a informaiei n cadrul sistemelor de regsire a informatiei bibliografice, adeseori documentul full-text nu este disponibil, astfel nct se utilizeaz un rezumat numit document surogat (condensat) care este stocat n locul documentului full-text. Acesta cuprinde date cu rol de identificare cum ar fi informatii asupra citrilor bibliografice i rezumate care ajut la identificarea documentului. 31 Sistem de regsire a informaiei Documentele pot fi de lungimi diferite, de exemplu de la scurte pasaje de text pn la opere monografice complete, sau pot avea alte formate media cum ar fi imagini video sau sunete. 32 Sistem de regsire a informaiei Exist dou metode de cutare: i. interogarea i ii. baleierea informatiei, ambele putnd fi n continuare subdivizate. i. Interogarea poate fi: a. identificarea (punerea n corespondent) pe baz de fraz sau b. identificarea prin cuvinte cheie. 33 Sistem de regsire a informaiei Identificarea pe baz de fraz const n potrivirea unui ir format din caractere de cutare cu textul exact din nregistrrile aflate n sistem (sau, mai precis, cu indecii generati de sistem). Acest tip de interogare solicit cuvintelor din ir s se regseasc n aceeai ordine ca n interogarea de cutare. Nu permite termenilor sau irurilor s se regseasc n cmpuri diferite. 34 Sistem de regsire a informaiei Identificarea prin cuvinte cheie permite termenilor s fie dispersati. Cutarea pe baz de cuvinte cheie implic punerea n corespondent a unor cuvinte separate cu indecii sistemului, recurgnd adesea la operatori booleeni sau la formulri de proximitate pentru a-i combina. Cuvintele cheie pot fi potrivite unor termeni care apar n mai mult de un singur cmp sau index. 35 Sistem de regsire a informaiei ii. Baleierea informaiei, la rndul ei, poate fi divizat n dou categorii: a. Baleierea linear pre-secvential permite utilizatorilor s scaneze liste de termeni, antete/titluri sau scurte titluri pentru a regsi teme sau articole de interes. Aceasta este o abordare structurat, recurgnd la organizarea intern a datelor de ctre sistem. 36 Sistem de regsire a informaiei b. Cel de-al doilea tip de baleiere propus de Hildreth este neliniar i multidirectional. Acesta este tipul de baleiere nestructurat. Permite utilizarea legturilor/ link-urilor hypertext pentru a naviga ntre diferite articole. 37 Sistem de regsire a informaiei Interogarea este preferabil n cazul n care utilizatorii tiu exact ceea ce-i doresc, n timp ce baleierea constituie o alternativ n cazul regsirii a sute de nregistrri ca rspuns la o interogare. 38 Sistem de regsire a informaiei De exemplu, dac un utilizator caut un document dup criteriul autor, numele fiind Popescu, ns nu cunoate dect initiala R. a prenumelui, o interogare bazat pe baleiere l va plasa pe cel care caut ntr-un index al tuturor numelor de persoane cu numele de familie Popescu, n punctul din care vor ncepe prenumele cu initiala R. De la acel punct, utilizatorul poate scana nume fie nainte, fie dup numele introdus. 39 Sistem de regsire a informaiei Dac aceast list contine, aditional numelui, date i nregistrri asociate cu numele respectiv, atunci utilizatorul poate determina mai uor care nume l reprezint pe R. Popescu cutat. O optiune de baleiere pe subiect va oferi utilizatorului o list de subiecte apropiate cuvntului care a fost introdus n scopul cutrii. 40 Sistem de regsire a informaiei n cazul n care utilizatorul nu este sigur asupra a ceea ce dorete sau atunci cnd utilizatorul nu cunoate irul exact utilizat n sistem pentru a descrie ceea ce caut, baleierea poate fi o metod mai adecvat pentru a satisface nevoia informational a utilizatorului. 41 Sistem de regsire a informaiei Procesul de interogare a bazelor de date i limbajele de comand utilizate includ: Alegerea bazei de date potrivite. Dac serviciul online ofer acces la mai multe baze de date este necesar alegerea bazei de date dorite pentru interogare; Selectarea termenilor de cutare, fie individual, fie n combinatii cu altii, utiliznd operatori booleeni; 42 Sistem de regsire a informaiei Cutarea pe cmpuri specifice ale nregistrrii (autor, titlu etc.); Utilizarea trunchierii termenilor de cutare; Cutarea pe baz de fraz sau expresie; Cutarea termenilor care apar n aceeai propozitie sau acelai cmp; Cutarea termenilor utiliznd un sistem de clasificare sau un tezaur; 43 Sistem de regsire a informaiei Generarea seturilor de cutare i utilizarea ulterioar a informatiilor regsite; Salvarea listelor generate n procesul de cutare; Printarea referintelor gsite; ncrcarea referintelor pe sistemul propriu; Abandonarea sesiunii de cutare. 44 Sistem de regsire a informaiei O baz de date este interogat prin instructiuni sau comenzi concepute pentru a localiza toate nregistrrile care contin anumiti termeni, combinatii de termeni sau diferite valori. 45 Sistem de regsire a informaiei De exemplu la cutarea termenului wood sistemul de regsire va afia numrul de nregistrri n care este prezent cuvntul wood. Dac ne gndim la o nregistrare bibliografic termenul cutat poate aprea n titlu, n rezumat, n titlul publicatiei etc. Dac se prefer, cercetarea poate fi fcut numai pe un singur cmp, cum ar fi titlul, crescnd astfel gradul de relevant al rezultatelor. 46 Sistem de regsire a informaiei Termenii pot fi asociati cu indeci pentru documente sau pentru interogri. n timpul procesrii interogrii, termenii din cutare (interogare) sunt asociati cu termenii indecilor, care se mai numesc i cuvinte cheie care definesc termenii cutabili din baza de date. 47 Sistem de regsire a informaiei Interogrile pot avea diferite forme: Interogrile de tip boolean combin termenii cu operatorii care definesc contextul termenilor. Cnd se impune cutarea printr-o combinatie de termeni, criteriile de cutare sunt stabilite cu ajutorul operatorilor booleni AND (I), OR (SAU), NOT (FARA), care se folosesc pentru a pune ntr-o legtur logic diferiti termeni. Logica boolean rezult din aplicarea algebrei lui G. Boole i permite operarea/ stabilirea a trei tipuri de relatii ntre descriptori. 48 Sistem de regsire a informaiei Relaia de intersecie (produs logic): se utilizeaz operatorul I (AND) pentru a lega doi descriptori; se impune ca ambii termeni s existe n nregistrrile regsite. Cei doi descriptori trebuie s fie prezenti la indexarea documentului, pentru ca documentul respectiv s fie considerat pertinent. 49 Sistem de regsire a informaiei AND composite boards wooden fibres Cu alte cuvinte, va restrnge cutarea la un numr mai mic de nregistrri dect dac s-ar cuta pentru fiecare termen separat. 50 Sistem de regsire a informaiei Relaia de uniune (sum logic): folosirea SAU (OR) presupune ca fie primul, fie al doilea, fie ambii descriptori s fie prezenti n nregistrrile regsite, mrind astfel numrul documentelor pertinente regsite. composites wood OR 51 Sistem de regsire a informaiei Relaia de excludere (diferena logic): folosirea operatorului FARA (NOT) implic excluderea din setul de rezultate a tuturor nregistrrilor care contin termenul cruia i se aplic operatorul, dac dorim ca documentul s fie pertinent. 52 Sistem de regsire a informaiei NO PAL PAP Rezultatul acestor operatii de coordonare a descriptorilor este ecuaia de cercetare. Exist alte cteva proceduri care permit s se formuleze sau s se completeze ecuatia de cercetare. 53 Sistem de regsire a informaiei Interogrile n limbaj natural se bazeaz pe structura lingvistic i pozitia cuvintelor pentru identificarea contextului. Anumite sisteme permit introducerea de iruri de termeni, caz n care distanta dintre termeni detemin relatia dintre acetia. n cazul utilizrii interogrilor n limbaj natural, utilizatorii nu trebuie s fie familiarizati cu limbajele artificiale de interogare care definesc operatiuni de interogare valide. 54 Sistem de regsire a informaiei Sistemele de regsire a informatiilor pot contine functiunea de cutare liber a textului sau pot s se bazeze pe un vocabular controlat. Cutarea tip text liber nu limiteaz termenii cutabili la un set predefinit de termeni. Vocabularul controlat care este implementat de regul ca subject heading sau descriptori, limiteaz cutarea la un set de termeni necunoscuti care au fost indexati. 55 Sistem de regsire a informaiei Indicatorul de proximitate (alturare). Folosirea lui impune ca primul descriptor s fie n imediata apropiere a celui de-al doilea. Prin acest indicator se definete apropierea descriptorilor n textul documentului; se utilizeaz foarte mult n cutarea tip text liber (sau se aplic rezumatelor care ncorporeaz descriptori). 56 Sistem de regsire a informaiei Cel care interogheaz baza indic dac cei doi descriptori trebuie s fie succesivi (1), s se gseasc n aceeai fraz (2) sau s nu fie desprtiti ntre ei n text dect de un numr determinat de cuvinte (3). 57 Sistem de regsire a informaiei Indicatorul de ponderare: se aloc, att la indexarea documentelor, ct i la cutare, fiecrui descriptor, n functie de importanta conceptului reflectat n document sau n cerere (3,2,1). 58 Sistem de regsire a informaiei Trunchierea: permite cutarea unui cuvnt sau descriptor, datorit unui grup de litere (rdcin sau radical), fr s tinem seama de prefixe sau sufixe (de exemplu: document, documentare, documentarist); dac cercetarea se face cu descriptorul-document, se vor gsi toate documentele care au fost indexate cu descriptori care au acelai radical. 59 Sistem de regsire a informaiei Extensia/expandarea: permite completarea ecuatiei de cutare printr-o comand de adugare a unui termen generic (TG), specific (TS) sau asociat (TA), iar calculatorul va conduce la termenii corespunztori din tezaur pentru descriptorul n cauz. Comparatia numeric: permite desfurarea unor cercetri n functie de criterii cantitative. Exemplu: > 1976 (literatura publicat dup 1976). 60 Exemple de sisteme de regsire a informaiei Sistemele de regsire a informatiei pot fi clasificate dup: coninut sau prin modelele utilizate pentru reprezenta- rea i extragerea continutului. 61 Exemple de sisteme de regsire a informaiei Datorit creterii capacittii de stocare precum i a reducerii costurilor se tinde din ce n ce mai mult spre reprezentarea i stocarea documentelor, full-text (complet) inclusiv ale componentelor non-textuale cum ar fi graficele. Printre aplicatiile sistemelor de regsire a informatiei se numr i bazele de date bibliografice. 62 Exemple de sisteme de regsire a informaiei Multe sisteme de asistent (help) on-line asociate cu aplicatii software permit de asemenea cutri simple, bazate pe continutul help-ului. Internetul a contribuit la mbunttirea sistemelor de regsire a informatiilor. 63 Exemple de sisteme de regsire a informaiei Motoarele de cutare sunt de fapt sisteme de regsire a informatiei care pot fi folosite pentru indexarea continutului distribuit al WEB-ului i altor prti ale internetului, sau pot fi folosite numai pentru indexarea continutului local. 64 Exemple de sisteme de regsire a informaiei Aceste servicii de cutare asigur accesul la un mare volum de documente full-text. Sistemele de regsire a informatiei sunt sisteme read-only n care utilizatorii efectueaz o simpl cutare, neputnd modifica continutul bazei de date. 65 Exemple de sisteme de regsire a informaiei Procesul de regsire a informatiei implic un dialog ntre utilizator i sistemul de regsire a informatiei. Caracteristicile principale ale stocrii informatiei i ale procesului de regsire sunt prezentate n schema de mai jos : Apelarea la serviciile unui sistem de regsire a informatiei este determinat de nevoia de informare a utilizatorului. 66 Exemple de sisteme de regsire a informaiei Utilizatorul tie c baza de date la care sistemul de regsire asigur accesul poate contine resursele care l intereseaz. Deoarece utilizatorul cunoate att domeniul asupra cruia vrea s se informeze ct i modul de utilizare a sistemului de regsire a informatiei, el formuleaz o prim interogare pe care o transmite sistemului. 67 Exemple de sisteme de regsire a informaiei Caracteristicile principale ale stocrii informatiei i ale procesului de regsire sunt prezentate n schema de mai jos : 68 Procesul de stocare i regsire a informaiei 69 Exemple de sisteme de regsire a informaiei Interactiunea cu sistemul de regsire a informatiei este asigurat prin intermediul interfetei cu utilizatorul. n urma parcurgerii unor articole eligibile, utilizatorul i poate rafina (detalia) cererea de informatii precum i modul de interogare a sistemului 70 Exemple de sisteme de regsire a informaiei Aceasta este cunoscut sub denumirea de relevance feedback. Procesul se repet pn cnd necesarul de informatie a fost satisfcut ntr-o msur suficient sau pn cnd utilizatorul realizeaz c sistemul nu i poate ndeplini cerintele, moment n care procesul de cutare nceteaz. 71 Exemple de sisteme de regsire a informaiei Functiunile sistemului sunt invizibile pentru utilizator, dar sunt importante ntruct de ele depinde capacitatea sistemului de a ndeplini cererea de informatie. Nu este posibil includerea ntr-un singur sistem a ntregului volum de resurse existent n lume. Sistemul procedeaz la includere selectiv, adic sunt atrase informatiile care sunt de cea mai mare important pentru scopul sistemului de regsire. Sistemul trebuie s gseasc o modalitate de reprezentare eficient a continutului informatiei. 72 Sistemul de regsire a informaiei: Operaiile de stocare i regsire Subiectele discutate au examinat sistemul de regsire a informatiei dintr-o perspectiv descriptiv, de ansamblu, fr a analiza detaliile procesului de regsire propriu-zis. Procesul fizic de cutare i regsire poate genera o sarcin de calcul semnificativ n functie de modelul de regsire a informatiei implementat. 73 Sistemul de regsire a informaiei: Operaiile de stocare i regsire Stocarea i regsirea eficient a documentelor ca i mecanismele asociate prezint interes pentru cercetare. Pot fi folosite diferite tehnici n procesele de stocare i regsire. Procesele discutate n cele ce urmeaz tin de sisteme de tip Boolean, ce folosesc termeni scrii ntre ghilimele i constituie metoda de baz utilizat de majoritatea sistemelor. 74 Stocarea i indexarea documentelor Documentele stocate ntr-un sistem trebuie mai nti procesate pentru a se asigura suficiente puncte de acces n vederea simplificrii regsirii. ntr-un mediu de fiiere inversate termenii sunt folositi pentru regsirea documentelor n conformitate cu parametrii interogrii. Termenii care pot fi utilizati la cutarea ntr-un sistem se gsesc pe o list, ntr-un fiier de termeni sau de indeci, care contorizeaz numrul documentelor din cadrul setului de documente indexate ce contin un anumit termen. 75 Stocarea i indexarea documentelor La introducerea termenului se stabilete o legtur ctre o locatie dintr-un fiier de postri. O postare reprezint un termen indexat ntr-un document. Dup ce s-a stabilit c un document contine un anumit termen, documentul respectiv poate fi regsit. Relatiile ntre termeni, postri i documente sunt prezentate n figura de mai jos. 76 Stocarea i indexarea documentelor Reprezentarea fiierelor unui sistem de regsire a informaiei 77 Stocarea i indexarea documentelor La integrarea unor noi documente ntr-un sistem de regsire a informatiei trebuie mai nti identificati prin analiz sintactic termenii de cutare din ele. Procesul de analiz sintactic va identifica notiunea termen prin caractere de delimitare valide. 78 Stocarea i indexarea documentelor De exemplu, un termen valid poate ncepe cu un caracter alfanumeric i va fi delimitat de caractere nonalfanumerice. Termenii propui pentru cutare sunt mai nti comparati cu o list de cuvinte omise (stopwords), care identific acele cuvinte care nu trebuie indexate. Cuvintele omise pot fi the, to, a, for sau alte cuvinte frecvent utilizate i care apar pe mai multe documente dintr-un domeniu. 79 Stocarea i indexarea documentelor n numeroase sisteme, exist instructiuni pentru omiterea articolelor initiale la introducerea unui ir pentru cutare. Utilizatorii manifest tendinta de a urma aceast recomandare dac instructiunea se observ uor i dac poate fi vzut din csuta de cutare. Dac o cutare include totui articolul initial, poate rezulta una din urmtoarele situatii: 80 Stocarea i indexarea documentelor Sistemul returneaz un mesaj c utilizatorul nu a primit rezultate i nu mai sunt incluse deloc alte informatii. Sistemul avanseaz utilizatorului un mesaj de a ndeprta articolul initial i de a ncerca din nou. Sistemul trateaz un articol initial de o manier diferit, depinznd de tipul de cutare, pe baz de cuvnt cheie, baleiere sau echivalent/potrivire exact. Sistemul pur i simplu elimin articolul, fr ntiintarea utilizatorului i efectueaz cutarea. 81 Stocarea i indexarea documentelor Ultima posibilitate din list poate fi bun pentru anumiti utilizatori, ns exist, binenteles, momente cnd articolul (sau ceea ce pare a fi un articol un cuvnt strin, poate) este necesar pentru o cutare de succes (ex. o carte intitulat A is for Apple). Exist anumiti algoritmi pentru identificarea variantelor morfologice ale termenilor indexati. 82 Stocarea i indexarea documentelor Variantele acestea pot fi apoi condensate ntr-o rdcin comun. Excluderea cuvintelor omise din indexul de termeni poate reduce dimensiunea fiierului de postri, n timp ce anumiti algoritmi pot reduce fiierul de termeni. Termenul ales este apoi cutat n fiierul de termeni. 83 Stocarea i indexarea documentelor Dac el nu exist n fiier, se creeaz o nou nregistrare, numrul de aparitii sau numrul de rezultate este setat la cifra 1 i se adaug o nou nregistrare n fiierul de postri, legndu-se termenul de documentul aflat n fiierul de documente. Dac termenul exist deja n fiierul de termeni, numrul de aparitii este incrementat i noua intrare este adugat la fiierul de postri. 84 Stocarea i indexarea documentelor Dac este posibil cutarea dup cmpuri, se poate aduga un identificator de cmp la fiierul de termeni. Dac termenul apare n mai multe cmpuri pot fi adugate intrri suplimentare pentru acelai termen, fiecrui cmp corespunzndu-i o unic aparitie. Dac exist posibilitatea cutrii prin proximitate (alturare) trebuie de asemenea reprezentate locatiile multiple ale unui anumit termen n interiorul unui cmp. 85 Stocarea i indexarea documentelor n acest caz se vor efectua mai multe intrri de postare pentru fiecare aparitie a termenului. Valoarea offset-ului (decalajului) de la nceputul cmpului stabilete locatia n care termenul este pozitionat n interiorul cmpului, de ex. un termen aflat la nceputul cmpului va avea un offset egal cu 0. Termenul urmtor va avea un offset egal cu 1 .a.m.d. Aceasta poate conduce la creterea semnificativ a dimensiunii fiierului de postri din cmpurile de indexare ale sistemelor datorit unor iruri lungi de texte. 86 Stocarea i indexarea documentelor Frecventa aparitiei unui termen ntr-un cmp sau ntr-un document servete la calculul ponderii termenului, oferind indicatii asupra importantei sale n cuprinsul documentului. Strategia de indexare a unui document poate fi extrem de simpl prin includerea tuturor termenilor posibili care se identific cu uurint la procesarea initial a documentului. Proiectantii de sisteme de regsire a informatiei au creat rutine de indexare automat care identific termenii adecvati. 87 Standardizare i sisteme Nu exist standarde reale, numai linii directoare generale i sugestii. Din cauza naturii competitive a comerciantilor de pe pietele OPAC-urilor, o interfat standard nu este susceptibil de a aprea curnd. Sunt dezvoltate noi trsturi i fiecare comerciant plaseaz diferite niveluri de important pe diferite aspecte ale propriului design de sistem. Unele au diferite scheme de organizare intern; altele au diferite capacitti de cutare. 88 Standardizare i sisteme Comerciantii ncearc s dezvolte cea mai atrgtoare interfat, caracteristici de cutare i module, n scopul de a ctiga un procent ct mai mare de piat. Aceast competitie contribuie la lipsa de standardizare din proiectul sistemului ns, nc o dat, poate contribui la inovatiile i progresul pe termen lung. 89 Standardizare i sisteme Aceasta ar putea reprezenta o chestiune de gsire a echilibrului potrivit ntre standardizare i fortele de pe piat. Indexurile online, de asemenea, sunt caracterizate de o mare varietate i de putin standardizare. Aceasta este o continuare a unei lungi istorii de lips a standardzrii n indexurile tiprite. 90 Standardizare i sisteme Cteva arii n care a fost recomandat standardizarea includ: Afiarea rezultatelor interogrile de cutare fundamentale tratamentul articolelor initiale utilizarea operatorilor Booleni, proximitatea i trunchierea punctuatia 91 Standardizare i sisteme Afiarea Una dintre ariile cheie n care standardizarea este cea mai evident este n afirile sistemului. Afirile pot fi divizate n dou categorii: 1) afiarea seturilor de rezultate regsite i 2) afiarea metadatelor din nregistrrile surogat, ambele ncorpornd probleme legate de formatul de ieire a informatieie pe ecran i de design. 92 Afiarea rezultatelor 1) Afiarea rezultatelor regsite Prima preocupare n problema afirii este dac rezultatele cutrii apar ca list de nregistrri individuale sau list antete/titluri afiate mai nti, nainte de prezentarea pentru vizualizare a nregistrrilor propriu-zise. 93 Afiarea rezultatelor Exemplu Unele sisteme, ca rspuns la o cutare pentru un autor cu numele de familie Benson, afieaz toti Benson-ii din sistem, grupati dup initialele prenumelui. Se poate naviga prin aceast list i se poate regsi titlul/antetul adecvat nainte de a avea lista cu lucrri de cercetat amnuntit. Alte sisteme returneaz rezultate care sunt liste de lucrri legate de fiecare Benson nainte de a ti cti Benson exist. Se solicit paginarea prin lista att a autorilor ct i a titlurilor nainte de a baleia lista de nume. 94 Afiarea rezultatelor Cea de-a doua preocupare n afiarea rezultatelor este ordinea n care sunt prezentate acestea. Pe msur ce sistemele deveneau mai sofisticate, a fost acordat utilizatorului mai mult control asupra afirii. n anumite sisteme, utilizatorii pot specifica un cmp (cel mai adesea dintr-o list scurt, predefinit de optiuni) care s fie utilizat pentru aranjarea rezultatelor afiate ale cutrii. 95 Afiarea rezultatelor De exemplu, dac se alege sortarea rezultatelor dup autor, atunci intrarea principal este afiat n lista sortat, ns este posibil ca intrarea principal s nu fie autorul de care este interesat utilizatorul (ex. nu acel Benson care este un al doilea sau alt autor al unui pachet informational). 96 Afiarea rezultatelor Exist adesea trei niveluri de afiare ntr-un catalog online: o versiune de una sau dou linii o afiare scurt i o afiare integral/ complet. Dei complet rareori nseamn c toate informatiile dintr-o nregistrare codat sunt afiate, anumite sisteme permit afiarea ntregii nregistrri MARC. 97 Afiarea rezultatelor Afiarea implicit, atunci cnd o singur nregistrare este regsit ca rspuns la o interogare sau dup ce un utilizator a selectat o nregistrare dintr-o list pentru a fi vizualizat, este de obicei vizualizarea scurt. Cantitatea i tipurile de informatii omise dintr-o nregistrare integral pentru a crea un afiaj scurt difer de la sistem la sistem. 98 Afiarea rezultatelor Allyson Carlyle i Traci Timmons au examinat atent 122 de cataloage bazate pe Web i au concluzionat c urmtoarele cmpuri: autor personal, titlu i publicatie sunt ntotdeauna afiate n nregistrri singulare implicite, ns alte cmpuri sunt afiate mai putin frecvent, iar cele care sunt afiate sunt tratate inconsistent (ex. cmpuri de titlu includeau uneori declaratii de responsabilitate sau nu). 99 Afiarea rezultatelor Thomas remarc faptul c utilizatorii gsesc numai cteva cmpuri utile; astfel c ar trebui s existe linii directoare pentru selectarea cmpurilor cele mai necesare de afiat. 10 0 Afiarea rezultatelor 2) Etichetarea metadatelor n nregistrri variaz de asemenea de la sistem la sistem, i exist diferente n terminologia utilizat pentru etichetare. nregistrrile pentru (publicatii) seriale sufer de probleme de etichetare mai mult dect nregistrrile pentru monografii. Informatiile referitoare la fond(uri) pot crea confuzie utilizatorului, chiar i cu cele mai explicite etichete disponibile. 10 1 Afiarea rezultatelor Este pus n discutie nsi nevoia de metadate de etichetare. Etichetele pot crea confuzie i nu acoper n mod necesar totul ntr-un cmp. Dac, n loc de etichetarea fiecrui cmp, afiajele ar recurge la formatul ISBD (cu punctuatia sa standardizat i ordinea stabilit a informatiilor), etichetele care creeaz confuzie ar putea fi eliminate. Aditional, formatul ISBD ar permite mai multor informatii referitor la un pachet informational s fie afiate pe un ecran. 10 2 Afiarea rezultatelor Cnd este utilizat un format ISBD, numai 30% din nregistrri au nevoie de un al doilea ecran pentru afiarea ntregii nregistrri. Cu etichetele, 80% din nregistrri au nevoie de un al doilea ecran pentru afiarea ntregii nregistrri. (Aceasta se ntmpla nainte de WebPAC-uri, n care nregistrri lungi necesit mai degrab derularea/ defilarea dect deplasarea la un al doilea ecran. Utilizatorii tind s priveasc la ceea ce li se ofer la prima vedere, nainte de derulare/defilare sau de trecerea la cel de-al doilea ecran). 10 3 Linii directoare pentru afiaj Aceste abordri diferite la ambele tipuri de afiaj (i.e. afiarea rezultatelor regsite i afiarea nregistrrilor) au determinat crearea de linii directoare pentru standardizarea afiajelor. O sarcin de fort a Federatiei Internationale a Asociatiilor i Institutiilor Biblioteconomice (IFLA) din 1999 a emis linii directoare pentru a sprijini bibliotecile n proiectarea sau reproiectarea OPAC- urilor. 10 4 Linii directoare pentru afiaj Aceste linii directoare constau din 37 principii bazate pe obiectivele catalogului i pe tipurile de cutri pe care le deruleaz utilizatorii. Principiile directoare recomand un set standard de afiaje implicite, definite ca i caracteristici care ar trebui oferite utilizatorilor care nu au selectat alte optiuni, incluznd utilizatorii care doresc s demareze cutarea imediat, fr prea mult instruire. 10 5 Linii directoare pentru afiaj Dac asemenea afiaje implicite ar fi implementate pe scar larg, utilizatorii ar obtine beneficii prin posibilitatea de a transfera abilittile de utilizare a catalogului dobndite ntr-o bibliotec la numeroase alte biblioteci. Strdaniile IFLA i ale numeroi cercettori au fost concentrate pe nevoia utilizatorilor pentru instrumente puternice, ns uor de utilizat.
Înţeleg CA În Cazul În Care Această Declaraţie Nu Este Conformă Cu Realitatea Sunt Pasibil de Încălcarea Prevederilor Legislaţiei Penale Privind Falsul În Declaraţii
Subsemnatul Declar Că Informaţiile Furnizate Sunt Complete Şi Corecte În Fiecare Detaliu Şi Înţeleg CA Autoritatea Contractantă Are Dreptul de A Solicita