Documente Academic
Documente Profesional
Documente Cultură
7
U.S._French care studiază dinamica oceanului şi efectele asupra
climei globale)
Ozon (Imagini şi animaţie de la TOMS - Total Ozone Mapping
Spectrometers, instrumente de la NASA care au adus primele
imagini din spaţiu asupra găurii din ozon de deasupra Antarcticii.
The Goddard Space Flight Center dispun de o arhivă TOMS încă
din 1978; Colecţia de imagini ale pământului culese de astronautul
Kathryn Sullivan;Arhiva de imagini de la Advanced Very High-
Resolution Radiometer care arată schimbările vegetaţiei pe toată
suprafaţa pământului)
Sistemul Solar (Imagini ale sistemului nostru solar care provin de
la echipajele internaţionale care observă planeta Soare; Imagini ale
cometei Hale-Bopp;Imagini ale soarelui de la misiunea NASA-
ESA SOHO;O colecţie a celor mai bune imagini care provin de la
programul NASA de explorare a planetei şi care sunt utilizate în
scop educativ;Atlas de imagini ale planetei Marte )
Spaţiul cosmic (Colecţia de imagini digitale de la Johnson Space
Center, Kennedy Space Center sau provenite de la misiunea STS-
71 din iunie 1995).
Există o serie de colecţii imagistice care sunt puse la dispoziţie de
alte instituţii, în afară de NASA, ca de exemplu:
Colecţia de 3 gigaocteţi de imagini astronomice care provine din
Franţa
Colecţia extinsă de imagini provenite de la misiunile planetare
oferită de Center for Earth and Planetary Studies
Baza de date cu aproximativ 1.8 milioane de imagini lunare
Imagini ale pământului şi cicloanelor provenite de la Defense
Meteorological Mapping Programm
Imagini ale schimbării mediului de la U.S. Geological Survey
Imagini astronomice provenite de la Universitatea Oregon
Imagini ale planetei Venus
Imagini legate de vreme provenite de la diverşi sateliţi
geostaţionari
Tot NASA dispune de o galerie multimedia care este formată din
următoarele componente:
Galeria fotografică care conţine imagini statice
Galeria video - secvenţe video digitale şi animaţii legate de
explorarea spaţiului cosmic
Galeria audio - cu ajutorul Internet Multicasting Services, NASA
oferă o selecţie de "povestiri din spaţiu"; este vorba de programe
radio din 1994 şi 1995 cu subiecte ca: ştiinţa pământului,
8
explorarea planetelor, astronomie, aeronautică, zboruri în spaţiu.
Galeria de arte
Sigur că pe primul loc în preocupările cercetătorilor se află planeta
pe care trăim, studierea fenomenelor care se petrec pe pământ [101]. De
aceea, colecţiile de imagini asupra pământului sunt considerate adevărate
comori. Tot NASA deţine o bază de date cu fotografii ale pământului luate
din spaţiu, bază de date cu peste 400.000 de articole. Această bază de date a
fost creată de specialiştii NASA pentru a ilustra caracteristici ale planetei
noastre şi procesele care au loc. Fiecare imagine este disponibilă în trei
rezoluţii . Şi această colecţie de imagini este accesibilă de pe Internet şi
există o serie de criterii de căutare care pot fi combinate. Câteva dintre
aceste criterii de căutare sunt: nume de oraşe, interacţiune pământ-om,
trăsături distinctive, regiuni geografice, habitate de vreme, latitudine,
longitudine.
Sistemul de observare a pământului (Earth Observing System)
reprezintă piesa de bază a ceea ce se numeşte "Proiectul de ştiinţă a
pământului" ( Earth Science Enterprise) de la NASA [101]. Sistemul de
observare a pământului conţine o componentă ştiinţifică şi un sistem de date
care se ocupă cu observarea pe termen lung a suprafeţei pământului,
biosferei, atmosferei şi oceanelor, considerând pământul un adevărat sistem
integrat şi care studiat ca atare aduce beneficii tuturor pământenilor.
Aşa cum aminteam mai sus, şi în domeniul medical se acumulează
cantităţi impresionante de informaţii multimedia [96], [97], [98], [99].
De exemplu, National Center for Biotechnology Information
(NCBI) a fost creat în anul 1988 ca o resursă la nivel naţional pentru
biologia moleculară [96]. NCBI se ocupă în mod constant de menţinerea
unor baze de date publice, conduce cercetările în biologia computaţională,
dezvoltă produse software pentru analizarea datelor legate de genomul
uman şi propagă informaţia biomedicală, toate acestea în scopul unei mai
bune înţelegeri a proceselor moleculare care afectează sănătatea oamenilor.
Înţelegerea limbajului mut dar elegant al celulelor vii reprezintă scopul
biologiei moleculare moderne. De la alfabetul format din numai patru litere
reprezentând subunităţile chimice ale ADN-ului pleacă un proces care se
sintetizează în cea mai complexă expresie care este fiinţa umană.
Dezlegarea şi utilizarea acestui nou "alfabet" pentru a putea crea noi
"cuvinte şi fraze" reprezintă un ţel important al biologiei moleculare.
Volumul incredibil de date moleculare, modelele lor criptice şi subtile au
condus la necesitatea absolută de creare a unor baze de date şi instrumente
de analiză. O mare provocare o constituie găsirea unor modalităţi noi de
abordare şi acces la acest volum complex de date.
NCBI a fost creat ca o divizie a NLM (National Library of
9
Medicine) şi NIH (National Institute of Health). NLM a fost aleasă pentru
experienţa pe care o deţine în crearea şi întreţinerea bazelor de date
biomedicale.
NCBI se ocupă de crearea unor sisteme automate pentru
memorarea şi analiza cunoştinţelor din biologia moleculară, biochimie şi
genetică. În acest scop, dezvoltă, distribuie şi coordonează accesul la o mare
varietate de baze de date şi software pentru comunităţile ştiinţifice şi
medicale, dezvoltă şi promovează standarde pentru baze de date, pentru
depozitarea şi schimbul de date.
GenBank este baza de date de la NIH ce conţine secvenţe genetice.
În luna aprilie 2002 baza de date conţinea aproximativ 19,073,000,000 baze
în 16,770,000 de secvenţe. Creşterea mărimii acestei baze de date este
exponenţială. În ceea ce priveşte operaţia de căutare în această bază de date,
au fost puse la punct mai multe sisteme de căutare. Unul dintre acestea se
numeşte Entrez şi permite căutarea în mai multe baze de date aflate în
conexiune. Sistemul de regăsire Entrez pune la dispoziţie căutări de
similitudine precalculate pentru marea majoritate a înregistrărilor din bazele
de date, producând o listă de secvenţe înrudite.
Există, de asemenea, o serie de servicii de căutare reunite sub
numele BLAST. De exemplu, serviciul de căutare intitulat Nucleotide
BLAST permite introducerea unor secvenţe nucleotide pe care le compară
cu alte secvenţe de acelaşi tip din baza de date NCBI. La rândul său,
serviciul Nucleotide BLAST poate fi de tip standard, sau MEGABLAST .
Acest din urmă tip de căutare utilizează un algoritm "greedy", care
realizează alinierea secvenţelor de nucleotide care diferă puţin, şi este de 10
ori mai rapid decât alte programe de detectare a similitudinii secvenţelor.
Poate fi utilizat pentru a compara două seturi de secvenţe nucleotide de
dimensiuni mari. O altă variantă a acestui serviciu este utilizată în căutarea
cu exactitate a unor secvenţe scurte. Probabilitatea de a avea nevoie să
facem interogări după secvenţe scurte este ridicată.
Un alt serviciu de căutare asemănător cu cel amintit anterior este
Protein BLAST care permite căutarea secvenţelor de proteine, cu diverse
implementări: standard, PSI-BLAST ( realizează o căutare iterativă, în care
secvenţele regăsite la o iteraţie sunt utilizate pentru a construi un model
pentru noul pas de iterare), PHI-BLAST sau căutarea exactă a unor secvenţe
scurte. Exemplele de servicii de căutare pot continua cu cel numit
Translating BLAST, sau Specialized BLAST. Acesta din urmă, cu
variantele sale pare extrem de complex. Astfel, varianta numită "genom
uman" permite determinarea posibilei localizări cromozomiale a unei
secvenţe. Compararea se face cu informaţia din baza de date de la Genome
Sequencing Centers. O altă variantă numită "P.falciparum" permite
compararea între genomi microbiali terminaţi şi neterminaţi, iar cea numită
10
IgBLAST facilitează analiza secvenţelor imunoglobuline în baza de date
GenBank.
Crearea unor depozite pentru această cantitate, mereu în creştere,
de informaţie multimedia, este necesară, dar de mic folos în lipsa unor
posibilităţi de regăsire rapidă a informaţiei care să satisfacă cerinţele
utilizatorilor. O situaţie similară a apărut cu mulţi ani în urmă în cazul
tipurilor de date numerice şi alfanumerice şi a condus la apariţia sistemelor
de gestiune a bazelor de date computerizate. În aceste sisteme, mari cantităţi
de date sunt organizate în câmpuri, iar câmpurile cheie sunt utilizate pentru
a indexa tabelele din baza de date, făcând operaţia de căutare foarte
eficientă. Totuşi, aceste sisteme sunt limitate datorită faptului că lucrează
bine numai cu datele numerice şi şirurile alfanumerice relativ scurte.
Spre deosebire de datele alfanumerice, datele multimedia nu au
structură semantică. Pentru un calculator, o imagine este numai o secvenţă
de numere binare sau un tablou bi-dimensional [28],[77]. Recunoaşterea
imaginilor şi a obiectelor cu ajutorul calculatorului, în astfel de aplicaţii este
o problemă dificilă. Acest lucru se datorează faptului că informaţia
conţinută în datele multimedia nu este structurată şi deci nu este posibilă
utilizarea câtorva atribute care să descrie conţinutul acesteia. În concluzie,
nu se poate utiliza direct un sistem de gestiune a bazelor de date pentru a
administra informaţia multimedia, sistemele de gestiune a bazelor de date
multimedia trebuie să deţină o serie de proprietăţi suplimentare faţă de cele
tradiţionale, toate acestea fiind supuse studiului într-o multitudine de
publicaţii [44], [45], [61], [62], [63], [64], [65], [66], [67], [68], [69], [81].
De aici apare marea necesitate a unor metode alternative pentru regăsirea,
dintr-o bază de date multimedia de dimensiuni mari, cu rapiditate şi
acurateţe, a informaţiei multimedia care să satisfacă interogarea
utilizatorului [22], [19]. Aceste tehnici sunt foarte necesare în toate
domeniile unde se foloseşte informaţia multimedia, în special informaţia
vizuală. Iată câteva exemple de posibile utilizări ale sistemelor de regăsire
multimedia:
medicina: să presupunem că medicul înregistrează o nouă imagine şi
doreşte să regăsească, dintr-o bază de date, acele imagini
corespunzătoare pacienţilor cu acelaşi diagnostic [95], [49], [47], [46],
[22].
securitate: un poliţist dispune de imaginea unei feţe umane, ca de
exemplu un portret robot şi doreşte să regăsească toate imaginile,
împreună cu informaţia ataşată lor, corespunzătoare persoanelor care
seamănă cu figura din imaginea interogare [86], [80], [48], [51], [22].
educaţie: un student scanează imaginea unui animal şi doreşte să
regăsească toate informaţiile ( sunet, imagine, text ) despre acest animal
11
dintr-o bază de date cu scop educaţional; un alt exemplu este acela al
unui student care dispune de sunetul scos de un animal şi doreşte să
regăsească imagini şi informaţie descriptivă despre animalul care
scoate un astfel de sunet [22].
presă: să presupunem că un reporter scrie un articol despre o anume
persoană, şi doreşte să regăsească toate imaginile şi informaţiile
asociate persoanei, informaţii care au apărut în ziare şi la televizor în
ultimii 20 de ani [22].
divertisment, artă: cineva anume doreşte să regăsească dintr-o mare
bază de date video, toate clipurile video asemănătoare cu unul anume,
pe care îl vizionează la un moment dat [56], [59], [52], [42].
înregistrare firme: să presupunem existenţa unui funcţionar care
utilizează o aplicaţie care trebuie să determine dacă a fost înregistrată
deja o firmă cu aceeaşi siglă, pentru a se evita utilizarea unor sigle
foarte asemănătoare. Pentru aceasta, funcţionarul are nevoie de o bază
de date care memorează imagini cu siglele firmelor, şi de aplicaţia care
să-i afişeze toate siglele asemănătoare cu cea nouă [54].
Se poate observa că în sistemele de regăsire a informaţiei
multimedia, există diverse tipuri de interogări. De exemplu, o interogare
poate fi formulată cu ajutorul unor cuvinte cheie, a unui desen, imagine sau
sunet,iar căutarea se aplică asupra informaţiilor de diverse tipuri de media.
O altă observaţie importantă este aceea că regăsirea se bazează pe
similitudinea dintre articolul interogare şi articolele memorate, şi nu pe o
potrivire exactă între acestea.
În multe aplicaţii, toate tipurile de media, şi anume: text, video,
imagini, sunete sunt utilizate împreună, cu anumite legături între ele, pentru
a descrie un anume conţinut, de aceea, pentru a regăsi informaţia relevantă
este necesară o combinaţie de tehnici, iar legăturile existente pot fi utilizate
la indexarea şi regăsirea informaţiei relevante.
Există, în prezent, o serie de sisteme de gestiune a bazelor de date
care sunt capabile să gestioneze diverse tipuri de media. Totuşi, multe dintre
aceste sisteme permit indexarea şi regăsirea informaţiei numai pe baza
informaţiei structurate, adică utilizează tehnicile tradiţionale. Aceste sisteme
nu pot fi utilizate în cazul indexării şi regăsirii informaţiei multimedia. De
aceea, cercetătorii şi-au îndreptat eforturile către crearea unor noi sisteme
care să satisfacă cerinţele ridicate de informaţia multimedia.
Căutarea vizuală bazată pe conţinut a fost investigată recent în
cadrul câtorva proiecte importante, şi anume: proiectul QBIC al firmei IBM
[9], [23], [19], [2], [24], sistemul Photobook de la MIT [19], MARS
(Multimedia Analysis and Retrieval System) dezvoltat la Universitatea din
Illinois [13], [19], sistemul Chabot de regăsire imagini [5], Virage, un
12
sistem comercial de regăsire virtuală [19], [24], precum şi sistemele
WebSeek, VisualSEEk şi SaFe realizate la Universitatea Columbia [3],
[7], [10], [15], [17], [19], [2]. Aceste sisteme utilizează abordări bazate pe
caracteristici pentru indexarea informaţiei vizuale. Sistemul QBIC a
investigat caracteristicile culoare, textură şi formă. Sistemul Photobook a
investigat textura, forma şi caracteristici ale feţelor umane. QBIC s-a axat
pe găsirea unor strategii pentru indexarea caracteristicilor. Pe de altă parte,
Photobook a investigat noi metode pentru reprezentarea caracteristicilor
imaginii care să permită discriminarea imaginilor dar să conserve informaţia
lor semantică. Sistemul WebSEEk constă din trei componente: un sistem
pentru catalogarea imaginilor, un sistem de analiză care extrage şi
indexează caracteristicile vizuale ale imaginilor şi sistemul de interogare
care cuprinde motorul de interogare, instrumentele de căutare şi cele de
afişare a rezultatelor interogării. Sistemul VisualSEEk furnizează câteva
metode de căutare a imaginilor care implică interogarea după caracteristica
culoare şi aranjament spaţial. Sistemul SaFe este un sistem complet de
interogare care utilizează aranjamentul spaţial al regiunilor şi caracteristicile
acestora.
Atunci când baza de date este de dimensiuni mari, iar reprezentarea
caracteristicilor imaginii este complexă, căutarea exhaustivă în baza de date
şi calculul similitudinii imaginilor este un proces care necesită timp.
Recent, au fost propuse tehnici care să mărească viteza de regăsire a
imaginilor. De exemplu, Swain şi Ballard, Stricker şi Orenga şi sistemul
QBIC precalculează şi utilizează numai caracteristici simple şi exacte ale
imaginilor. Petrakis şi Faloutsos şi sistemul QBIC utilizează o combinaţie
de tehnici de reducere a datelor şi structuri de indexare eficiente, ca de
exemplu arbori R, pentru a creşte viteza de regăsire a imaginilor. QBIC a
investigat, de asemenea, tehnici eficiente de prefiltrare pentru a reduce
volumul de calcul la momentul investigării interogării. De asemenea,
sistemele de la Universitatea Columbia utilizează două tehnici noi pentru
reducerea calculelor efectuate la realizarea interogărilor, şi anume: limitarea
setului binar şi distanţa optimizată.
Imaginile, problema căutării vizuale pe bază de conţinut, problema
legăturilor spaţiale între obiectele sau regiunile conţinute într-o imagine,
precum şi diverse alte aspecte a reprezentat,de asemenea, obiectul studiului
şi altor autori [75], [78], [79], [87], [91], [92], [93], [94], [29], [55], [74],
[58].
13
1.2 Model general de regăsire a informaţiei
Calcul de
similitudine
Regăsirea informaţiei
similare
16
ponderarea distanţelor între regiuni. În cazul acestui tip de interogare se
impune rezolvarea următoarei probleme [17]:
Dându-se o colecţie C de N imagini şi o funcţie de disimilitudine
a caracteristicilor vf, să se găsească cele mai bune k imagini T C care
au cel puţin R regiuni, astfel încât v f (QR,TR ) <= f, unde QR este
imaginea interogare cu R regiuni, iar f este o limită pentru similitudinea
caracteristicilor
Interogarea regiune bazată pe conţinut poate fi îmbunătăţită prin
adăugarea de informaţii spaţiale la interogare. Ca urmare, măsura totală a
disimilitudinii ia în considerare atât valorile caracteristicilor (culoare sau
textură), cât şi valorile spaţiale ale regiunilor.
A
A
C
B C
B
17
Există două tipuri de indexare spaţială, şi anume: relativă şi
absolută. În cazul indexării spaţiale relative, imaginile sunt comparate pe
baza locaţiilor relative ale simbolurilor. De exemplu, o interogare spaţială
relativă poate cere regăsirea tuturor imaginilor în care simbolul A se află în
stânga simbolului B. În cazul indexării spaţiale absolute, compararea se face
având în vedere poziţiile fixe ale simbolurilor în imagine. De exemplu, o
interogare spaţială absolută poate cere regăsirea tuturor imaginilor în care
simbolul A se află în colţul dreapta sus, iar simbolul B în partea de jos a
unei imagini. În figura 1-2 a) apare un exemplu de imagine interogare. În
figura 1-2 b) apare o imagine care satisface cerinţele spaţiale relative ale
simbolurilor din interogare. Simbolurile din imaginea din figura 1-2 c) sunt
apropiate de poziţiile absolute specificate în imaginea interogare.
Cel mai puternic tip de sistem de regăsire imagini este acela care să
permită interogări în care se specifică atât caracteristici vizuale cât şi
proprietăţi spaţiale pentru imaginile dorite. O astfel de interogare oferă
utilizatorului posibilitatea de a controla selectarea regiunilor şi atributelor
care sunt cele mai importante în determinarea similitudinii.
Interogarea vizuală şi spaţială absolută integrează interogarea
spaţială absolută şi interogarea regiune bazată pe conţinut [17],[10],[3].
Interogarea vizuală şi spaţială relativă integrează interogarea
spaţială relativă şi interogarea regiune bazată pe conţinut [17],[10],[3].
18
Interogarea imaginilor care integrează atât aspectul spaţial cât şi
pe cel al caracteristicilor este foarte complexă pentru că implică combinarea
tehnicilor separate de interogare a imaginilor. Componenta de caracteristici
a interogării implică stabilirea similitudinii de caracteristici a regiunilor.
Componenta spaţială a interogării implică evaluarea similitudinii localizării
spaţiale a regiunilor.
19