Sunteți pe pagina 1din 7

Imagini Curs 1/2012

Curs 1
1. Introducere
Imaginile sunt i un concept cu caracter informaional. Oamenii primesc pe cale vizual cea mai mare parte din informaia pe care sistemul lor senzorial o achiziioneaz. Oamenii preistorici au pictat, mult nainte de a scrie, transmind n acest mod informaii selectate. Probabil c am putea identifica aceste picturi din peteri ca primele imagini artificiale cu aplicabilitate grafic. Multe mii de ani imaginile artificiale au fost create de oameni prin metode grafice i au fost interpretate n mod natural tot de ctre oameni. Apariia i ulterior dezvoltarea calculatoarelor a oferit posibilitatea ca imaginile artificiale s fie create i memorate sub form numeric. Noul domeniu este grafica pe calculator i el este astzi foarte cunoscut i utilizat. Informaia, sub form de imagine de sintez, furnizat de o aplicaie de grafic pe calculator este legat de lumea nconjurtoare numai n msura n care se dorete ca aceast realitate s fie mai mult sau mai puin copiat. Decodificarea informaiei transmise prin aceste imagini este fcut de oamenii care le privesc i care sunt utilizatorii finali ai aplicaiei. Din acest punct de vedere, imaginile au o rezoluie din ce n ce mai bun pentru a putea reprezenta ct mai bine detaliile. Numrul de culori este deasemenea din ce n ce mai mare pentru ca fidelitatea reprezentrilor s fie susinut i din acest punct de vedere. Se creaz n acest mod o realitate virtual aflat sub controlul total al programatorului care a proiectat-o. Dac ar fi necesar atunci s-ar putea oferi un text explicativ care s descrie toate obiectele incluse n scena virtual reprezentat printr-o astfel de imagine pentru c totul este cunoscut aprioric de ctre programator. Dezvoltarea tehnicii a creat, chiar naintea calculatoarelor, senzori care s ofere semnale electrice dependente de interaciunea dintre lumin i o scen cu obiecte. A aprut astfel posibilitatea de a produce imagini artificiale care ulterior s fie afiate pe dispozitive speciale i s fie privite de oameni. Coninutul acestor imagini achiziionate este puternic i direct legat de scena pe care o reprezint. Calitatea imaginilor de acest tip nu este, n majoritatea cazurilor, satisfctoare i ca urmare semnalele corespunztoare trebuie prelucrate pentru a elimina zgomotele sau pentru a amplifica alte caracteristici utile, de exemplu contrastul. Cele dou etape, achiziia i prelucrarea imaginilor, i pstreaz scopurile generale, dar i adapteaz tehnicile i metodele, i atunci cnd sistemul este completat cu un calculator i formatul imaginii este unul numeric. Imaginile achiziionate pot fi afiate, ca i imaginile de sintez, pentru a fi privite i analizate de un observator uman. Dac se dorete s se determine ce conine imaginea achiziionat fr a face apel la un observator uman atunci apare o problem nou, interpretarea sau nelegerea imaginilor folosind tehnici de inteligen artificial. Rezolvarea acestei probleme presupune adugarea unei noi etape dup achiziia i prelucrarea imaginii. Noua etap realizeaz o decodificare a informaiei coninute ntr-o imagine i poate fi asociat termenului generic de recunoatere a imaginilor. Pe lng fotografie i cinematografie, din punct de vedere istoric, primele aplicaii care au necesitat achiziia i prelucrarea imaginilor au fost aplicaiile militare, spaiale i medicale. Cele trei etape amintite anterior, achiziia, prelucrarea i recunoaterea imaginilor, se constituie n problemele principale ale domeniului vederii artificiale. O tendin natural ar fi aceea de a lucra cu imagini cu o ct mai bun rezoluie spaial i cu ct mai multe culori. n multe cazuri, echipamentele disponibile azi nu pot s-i ndeplineasc sarcinile att de repede pe ct este necesar i atunci vom constata c n aplicaiile de vedere artificial imaginile au o rezoluie redus i sunt reprezentate cu nivele de gri. Privind numai imaginile folosite, s-ar putea trage concluzia c vederea artificial este mai puin spectaculoas dect grafica pe calculator. Totui, identificarea i localizarea automate ale unui obiect, care pe baza acestor informaii va fi manipulat corespunztor de un robot, este un exemplu de aplicaie care ne poate trezi interesul.
1/7

Imagini Curs 1/2012

Dei lucreaz cu imagini i folosesc multe tehnici i metode comune, cele dou domenii amintite mai sus, grafica pe calculator i vederea artificial, pstreaz o complementaritate care le difereniaz principial. Sistemele de vedere artificial au fost dezvoltate avnd ca model inevitabil sistemele biologice i n special sistemul uman. O astfel de abordare este limitat din start de dou aspecte. n primul rnd, sistemul uman dispune de un avantaj net n ceea ce privete modul de prelucrare a informaiei pentru c se bazeaz pe un numr impresionant de uniti de prelucrare (nu de calcul), neuronii, care proceseaz n paralel informaia codificat ntr-o manier mult mai complex dect aceea numeric i binar. Sistemele artificiale sunt obligate s folosesc formatul numeric pentru informaie pentru c echipamentele care sunt disponibile sunt calculatoarele numerice. n al doilea rnd, tentativa de a copia propriul nostru mod de gndire este limitat de capacitatea nostr discutabil de autocunoatere. Noi oamenii, recunoatem cu uurin un obiect, chiar dac este parial ascuns de alte obiecte, dar nu putem s explicm cum am realizat aceast recunoatere i ca urmare nu putem s copiem metoda ntr-un algoritm sau ntr-o tehnic de inteligen artificial. Mai mult, datorit capacitii de nvare, de generalizare i a intuiiei oamenii pot recunoate i obiecte pe care nu le-au mai vzut. De exemplu, oricine se poate pronuna n legtur cu un fruct chiar dac el este exotic, spre exemplu avogado, i nu l va confunda niciodat cu un bec chiar dac nu l-a mai vazut niciodat! Pentru sistemele de vedere artificiale recunoaterea se reduce, n cele mai multe aplicaii actuale, la o clasificare adic la identificarea unui obiect iniial necunoscut prin detectarea asemnrii cu unul din obiectele nvate iniial.

2. Achiziia imaginii
2.1 Introducere
Indiferent de domeniul de aplicaie, utilizarea calculatoarelor impune un format numeric pentru informaia prelucrat. Vederea artificial respect aceast regul i lucreaz cu imagini numerice. Pentru a obine imaginea numeric (digital image) este nevoie de dou elemente: senzorul i covertorul (digitizer). Senzorul este un element fizic care percepe o radiaie electromagnetic ntr-o anumit band de frecven (ultraviolete, infrarou, vizibil, raze X). Ieirea senzorului este o mrime electric, n general o tensiune, proporional cu energia radiaiei electromagnetice primit de senzor. n funcie de aplicaie, banda de frecven i senzorul aferent sunt diferite. Convertorul este un dispozitiv electronic care primete mrimea electric furnizat de senzor i o transform ntr-un format numeric. Pentru aplicaiile de vedere artificial, cel mai frecvent, senzorii sunt identificai cu numele generic de camere de luat vederi. Realitatea observat se prezint atunci sub forma unei scene tridimensionale care este iluminat natural sau artificial. Lumina reflectat este absorbit de senzor a crui suprafa activ este bidimensional. Desigur, se pot imagina i alte situaii particulare, dar cazul prezentat mai sus este cel mai frecvent i el are avantajul c poate fi pus uor n coresponden, i deci neles, cu vederea uman. Cele mai cunoscute camere de luat vederi au fost, n ordinea apariiei i utilizrii istorice, camerele vidicon i camerele matriceale (solid state). Lumina este focalizat pe suprafaa senzorului prin intermediul unui sistem de lentile la nivelul cruia are loc o transformare optic care depinde de natura i caracteristicile lentilei, respectiv ale
2/7

Imagini Curs 1/2012

luminii i sursei de lumin. O condiie pentru obinerea unei imagini ideale este ca planul de focalizare s coincid cu planul senzorului. Camerele vidicon (numai sunt utilizate azi, dar au stat la baza dezvoltrii unor standarde care nc mai produc efecte i astzi), au fost proiectate pe baza principiului fotoconductivitii. Pe suprafaa tubului vidicon se creaz o distribuie de zone cu conductivitate variabil n funcie de intensitatea luminii cu care aceste zone vin n contact. Un fascicol controlat de electroni care baleiaz suprafaa tubului va genera un semnal electric variabil n timp n funcie de intensitatea luminoas a zonelor din scena real. Controlul modalitii de baleiere permite pstrarea unei corespondene cunoscute ntre poziia geometric a zonei de pe suprafaa tubului (x,y) i valoarea semnalului electric la un anumit moment de timp t. Pe lng aceast coresponden spaiu timp, apare i o a doua coresponden ntre nivelul intensitii luminoase corespunztoare zonei (x,y) i mrimea semnalului electric u(t). Camerele matriceale sunt formate din elemente fotosensibile, senzori individuali. Fiecare element fotosensibil poate fi privit ca o capacitate individual care acumuleaz o sarcin mai mare sau mai mic n funcie de intensitatea luminoas primit. Citirea sarcinilor nu se poate face n acelai timp pentru toate elementele (este evident c nu putem avea practic, din punct de vedere tehnologic, un circuit electronic cu sute de mii sau milioane de pini) i ca urmare un proces de baleiere rmne necesar. Aici, baleierea este de fapt un transfer al sarcinilor ctre dispozitivul care face efectiv citirea. Rezultatul va fi tot o mrime electric variabil n timp u(t). Corespondena dintre poziia (x,y) a senzorului individual n matrice i momentul de timp t la care se consider valoarea u(t) este determinant pentru geometria imaginii. Corespondena dintre intensitatea luminoas corespunztoare poziiei (x,y) i valoarea mrimii electrice u(t) este responsabil pentru generarea unui nivel de gri sau a unei culori corecte. Fie un punct P(X, Y, Z) din scena tridimensional. Lumina provenit de la o surs este parial absorbit i parial reflectat de acest punct. Lumina reflectat din punctul P este focalizat de sistemul de lentile al camerei pe suprafaa senzorului, n punctul P'(x,y). Corespondena dubl P P' constituie problema transformrii geometrice. Este intuitiv clar c pentru un sistem de lentile cunoscut i un punct P dat se poate determina n mod unic punctul P' corespunztor de pe suprafaa senzorului. Invers problema este mai complicat, dac se d un punct P' de pe suprafaa senzorului atunci exist o infinitate de puncte P din scena tridimensional al cror corespondent poate fi P'. Toate aceste puncte P sunt aezate pe dreapta care pleac din P' i trece prin centrul lentilei. n urma conversiei analog numerice se va obine o matrice cu elemente numerice I(i,j) numite pixeli (picture element). Aceast conversie analog numeric presupune dou procese. Eantionarea, sau discretizarea spaial, este procesul care pune n eviden corespondena dintre momentul t la care se face conversia i poziia (i,j) corespunztoare din imagine. Cuantificarea, sau discretizarea n amplitudine, este procesul care asociaz fiecrui nivel al mrimii continue u(t) o valoare numeric I(i,j) pe care o numim nivel de gri sau culoare.

2.2 Sistemul de vedere uman


n foarte multe domenii de aplicaii este prezent o tendin inevitabil, aceea de a folosi ca model sistemele biologice, n special sistemele umane. Aplicaiile robotice i de vedere artificial, prin natura lor, sunt ntr-o msur i mai mare afectate de aceast tendin. Despre avantajele unei astfel de abordri nu este necesar s insistm. Putem s subliniem ns limitele proiectelor bazate pe astfel de modele. O prim limitare pare mai degrab una de ordin filozofic i este legat limitele autocunoaterii n general. Putem s analizm n detaliu o multitudine de procese fizice i chimice
3/7

Imagini Curs 1/2012

care au loc la nivelul diferitelor sisteme de locomoie i percepie umane. Problemele se complic n momentul n care dorim s ne folosim propriul creier pentru a afla cum folosim noi nine informaiile disponibile pentru a lua deciziile necesare. Este o problem extrem de complicat s ne explicm cum reuim ntr-un timp foarte scurt s apreciem dac ceea ce vedem este un scaun sau un fotoliu. Dac printr-un miracol am intra n posesia schemei utilizate atunci ne-am lovi de o a doua limitare. Cu siguran respectiva schem nu se bazeaz pe folosirea informaiei numerice aa cum suntem noi obligai s facem ca utilizatori de calculatoare. Este instructiv s contientizm faptul c ncercm s copiem abilitile sistemelor biologice bazndu-ne pe posibilitatea oferit de sitemele de calcul de a aduna i deplasa cifre binare, 1 i 0. Sistemul vedere uman are trei componente principale: - senzorul (ochiul), - calea de transmisie (nervul optic) i - unitatea de prelucrare (creierul). Principial funcionarea poate fi descris simplu. Lumina este focalizat cu ajutorul unei lentile pe senzorul propriu-zis (retina). Printr-un proces bioelectrochimic se genereaz semnal electric ca rspuns la stimulul luminos. Semnalul este trimis pe nervul optic pn la creier unde se creaz forme neurologice pe care noi le percepem ca imagini i le interpretm punndu-le n legtur cu lumea exterioar. Lumina pe care o poate percepe ochiul uman ocup o mic parte a spectrului undelor electromagnetice (figura 2.1) i corespunde doar frecvenelor cuprinse ntre aproximativ 400 nm i 800 nm. Lentila este format din ap (65 %), grsimi (6%) i proteine (ntr-un procent mai mare dect oricare alt esut). Ea este colorat uor n galben i absoarbe sub 10 % din spectrul vizibil al luminii. Razele infraroii i cele ultraviolete sunt absorbite de proteinele din structura lentilei. [m]
1014 1011 106 103 1 10-1 10-2 10-4 10-6 10-8 10
-10

[nm] infrarou 770 rou 622 portocaliu 597 galben 577 verde 492 albastru 455 violet 390 ultraviolet 300

Oscilaii electrice lungi Unde radio Microunde Infrarou Spectru vizibil Ultraviolete Raze X Raze gamma Radiaii cosmice

Spectrul radiaiei electromagnetice

Spectrul vizibil

Figura 2.1 Poziia spectrului vizibil n cadrul spectrului radiaiei electromagnetice


4/7

Imagini Curs 1/2012

Din punct de vedere senzorial, la nivelul retinei, exist o ierarhizare concretizat n specializarea elementelor individuale senzoriale. Conurile sunt specializate n vederea diurn, sunt sensibile i difereniate pe culori, ofer o foarte mare rezoluie (sensibilitate la detalii) i sunt concentrate n zona central a retinei. Bastonaele sunt specializate n vederea n penumbr, sunt sensibile la strlucire nu la culoare, sunt distribuite pe toat retina, sunt utilizate n special pentru vederea periferic i ofer o rezoluie mai redus. Bastonaele (75 - 150 milioane) sunt mult mai numeroase dect conurile (6 7 milioane), dar au conexiuni pe grupe de senzori i nu individuale ca acestea din urm. Acest tip diferit de conectare este o justificare a rezoluiilor diferite oferite de cele dou grupe de senzori. n apropierea locului de conectare a nervului optic la retin exist o zon lipsit de senzori, zona oarb. Creierul este capabil s completeze cu informaie, prin extrapolare, poriunea corespunztoare din imagine astfel nct noi aflm despre aceast problem din cri i nu o sesizm direct. Modalitatea a fost mprumutat la fabricarea senzorilor electronici cnd pentru a nu arunca un senzor care are milioane de celule individuale se completeaz informaia aferent celor ctorva celule individuale defecte cu informaia memorat n celule adiionale de memorie. Zona cu cea mai mare sensibilitate de pe retin este zona central unde sunt concentrate cele mai multe conuri. Aceast zon (fovea) are o form aproximativ circular cu o raz mai mic de 1 mm (aproximativ 0,75 mm). Pentru a putea face o comparaie cu senzorii electronici, o putem echivala cu o zon dreptunghiular de 1,53 mm x 1,15 mm care pstreaz raportul de 4/3 ntre dimensiuni. Dac acceptm c densitatea conurilor n aceast zon este de aproximativ 150.000 de elemente pe mm2, atunci obinem un senzor echivalent de 265.000 de elemente. Dac lum n considerare un senzor comun CCD care are o rezoluie de 756 x 581 vom gsi un numr mai mare de celule individuale, distribuite i pe o suprafa mai mare. Cum la nivelul tehnologic din mileniul trei exist senzori cu mai multe milioane de celule individuale putem concluziona c ochiul omenesc nu depete aceti senzori nici ca numr absolut de celule nici ca densitate pe unitatea de suprafa. Distana dintre centrul focal al lentilei i retin variaz ntre 14 mm i 17 mm, dup cum se focalizez asupra unor obiecte mai apropiate sau mai deprtate ceea ce conduce la deformarea lentilei. Ca urmare un om de 1,80 m privit de la 10 m distan va crea o imagine de aproximativ 2,5 mm (figura 2.2).

1,8 m

16 mm

10 m

Figura 2.2 Influena distanei focale asupra formrii imaginii Sistemul vizual uman reuete s ofere o capacitate foarte mare de adaptare relativ la limitele inferioar i superioar acceptabile pentru intensitatea luminii incidente pe ochi (aceste limite se afl ntr-un raport de 1010). Acest lucru este justificat de caracteristica logaritmic a ochiului (strlucirea subiectiv este o funcie logaritmic de intensitatea luminii incidente pe ochi), dar
5/7

Imagini Curs 1/2012

trebuie fcut precizarea c sistemul are nevoie de un timp de adaptare la trecerea de la un nivel de iluminare la un altul mult diferit. Sistemul vizual uman poate sesiza numai aproximativ 20 de schimbri n stralucirea unei zone mici dintr-o imagine, iar pentru ntreaga imagine sunt necesare n jur de 100 de nivele de gri pentru ca aceasta s fie apreciat ca realist. Capacitatea sistemului vizual uman de a distinge detalii (rezoluia spaial) este limitat de mrimea celelor individuale, a conurilor i bastonaelor. Este evident c nu se pot sesiza detalii mai mici dect dimensiunea unei astfel de celule. Obiectele mai mici pot genera o imagine de aceeai mrime dac sunt privite de la o distan mai mic. Rezoluia spaial depinde de condiiile de iluminare, crete cu nivelul strlucirii i este mai mare pentru imaginile monocrome. Rezoluia spaial (care poate fi definit i drept capacitatea de a separa doi pixeli vecini dintr-o imagine) este un concept legat frecvena spaial. Dac privim o imagine format din benzi verticale negre pe fond alb (figura 2.3) atunci se pune problema cte astfel de schimbri de strlucire putem sesiza. Este clar c este important s precizm i distana de la care privim. Pentru a elimina efectul distanei putem calcula aceast frecven relativ la 1 grad spaial din cmpul de vedere (mrimea pumnului privit de la o distan egal cu lungimea braului ntins este de aproximativ 1 grad spaial). n aceste condiii se poate aprecia c frecvena de tiere pentru sistemul vizual uman este n jur de 50 de ciclii (un ciclu este o schimbare complet n semnal) pe grad.

f=8

Figura 2.3 Imagine de test pentru rezoluia spaial Pentru aprecierea percepiei imaginilor n micare se definete rspunsul temporal al sistemului vizual uman care este capacitatea sistemului de a rspunde la informaia vizual primit ca funcie de timp. Ca o msur a performanelor, putem preciza c pentru o imagine afiat pe un monitor sistemul vizual uman nu poate percepe contient plpiri (flicker) dac frecvena de afiare a cadrelor este mai mare de 60 Hz. Dac, ntre anumite limite, fiziologia i aprecierea performanelor sistemului senzorial de vedere uman sunt accesibile, mai dificil se arat posibilitatea de nelegere a modului cum aceast informaie este prelucrat i utilizat de sistemul de prelucrare, care are ca element central creierul uman. Pe baza informaiei vizuale, care reprezint mai mult de 80% din totalul intrrilor senzoriale, omul reuete, ntr-o prim etap, s identifice i s localizeze obiectele din mediul nconjurtor. Desigur, nelegerea scenelor privite este o operaie mult mai complex i o putem defini ca totalitatea operaiilor care mai pot fi fcute dup simpla clasificare a obiectelor. Putem remarca faptul c sistemul de vedere este integrat n sistemul global care este omul. n sprijinul acestei afirmaii putem face o observaie interesant. Pentru orice sistem de vedere este important s poat localiza obiectele din spaiul aplicaiei pe baza informaiei din imaginile
6/7

Imagini Curs 1/2012

achiziionate. Pentru vederea artificial, realizarea acestei corespondene ntre coordonatele globale i coordonatele imagine se bazeaz pe o etap iniial care se numete calibrarea camerelor de luat vederi. Calibrarea camerelor produce o matrice de transformare a coordonatelor. Aceast matrice este valabil atta timp ct poziia i orientarea camerelor sunt fixe n raport cu anumite repere de referin. Este evident c n creierul omului astfel de corespondene nu pot fi realizate matriceal! Totui plasarea celor doi senzori, care sunt ochii, ntr-o poziie relativ fix n raport cu scheletul nostru, i deci i cu sistemele noastre de locomoie i manipulare, este o condiie care susine abilitatea noastr de a localiza i manipula corect obiectele. Pentru configuraia fix care este proprie fiecrui individ, corespondena imagine mediu nconjurtor este nvat i permite o foarte bun vitez de reacie. Dac ncercai s manipulai obiecte pe baza unor imagini dintr-o oglind sau achiziionate cu o camer TV i afiate pe un monitor, vei avea dificulti i performane modeste. O nou coresponden imagine mediu nconjurtor trebuie construit i aceast sarcin necesit un timp de adaptare. Acesta este motivul pentru care nu ne ateptm la performane remarcabile de la un sistem de vedere plasat n vrful unor antene care se orienteaz permanent, ca n filmele SF! Nici melcul nu este un vitezist! Pentru sistemul de vedere uman putem face o apreciere general a performanelor pe care acesta le ofer: - Msurarea distanelor este fcut calitativ, rezultnd mai degrab informaii de tipul mai aproape, mai departe, mai scurt sau mai lung dect dimensiuni exprimate n uniti de msur. Va putei convinge ncercnd s apreciai dimensiunile obiectelor din jurul dumneavoastr, n centimetrii. n mod normal vei avea aproximri de circa 10%. Nu avem n vedere iluziile optice care pot fii induse prin diferite mici trucuri. - Sesiziarea detaliiilor tridimensionale (relief) este foarte bun. - Aprecierea direcei (orientarea muchiilor) este bun i se face tot calitativ i nu cantitaiv. - Achiziia i prelucrarea imaginilor n micare se face cu o vitez mai mare de 10 imagini ntr-o secund. Este o vitez apreciat ca timp real relativ la aciunile (de exemplu deplasare, manipulare, supraveghere) pe care le poate ntreprinde o persoan. - Sesizarea contururilor obiectelor se face cu foarte bun precizie. - Rezoluia (sesizarea detaliilor) este foarte bun i este superioar rezoluiei ateptate n raport cu numrul celulelor vizuale individuale. - Culoarea este perceput n banda de lungimi de und 400 nm 800 nm.

7/7

S-ar putea să vă placă și