Sunteți pe pagina 1din 27

1


Metode de evaluare a calității imaginilor și a secvențelor
video

Ființa umană se bazează extrem de mult pe informația vizuală despre mediul înconjurător, iar
evoluția a ales ca o mare parte din resursele noastre neurologice să revină percepției vizuale. Prin
urmare, construirea unor metrici de evaluare a calității perceptuale pornind de la tentativa de a
modela funcționarea sistemului vizual uman este o abordare atât logică, cât și extrem de dificilă.
Asemenea metrici pot optimiza performanțele sistemelor digitale de achiziție, afișare, memorare și
transmisie a informației vizuale. Spre exemplu, din ce în ce mai mulți algoritmi de codare video folosesc
cunoștințe despre sistemul vizual uman pentru a putea preântâmpina apariția artefactelor vizuale
tipice anumitor sisteme; procedeul poartă numele de codare perceptuală și are la bază modele ale
unor mecanisme ale vederii umane. Aplicații de autentificare sau watermarking pot să beneficieze de
pe urma integrării unor asemenea metrici, fie pentru evaluarea algoritmilor de watermarking în sine,
fie pentru ascunderea mai eficientă a watermark-ului în imagini. În toate aceste aplicații sunt utile
cunoștințele despre limitările sistemului vizual uman, întrucât exploatarea lor maximizează în final
calitatea perceptuală.
Necesitatea de a avea modele exacte ale vizualizării a crescut pe măsură ce hotarul dintre
procesarea analogică şi cea digitală a informaţiei vizuale se apropie din ce în ce mai mult de
consumator. Ascensiunea sistemelor digitale pentru imagine a dat la iveală limitările tehnicilor folosite
în mod tradiţional la evaluarea şi controlul calităţii. Pentru sistemele analogice convenţionale au fost
bine puse la punct standardele de performanţă. Acestea se bazează pe semnale specifice de test şi pe
anumite metode măsură pentru determinarea parametrilor de semnal care pot fi legaţi de calitatea
percepţiei, avînd totuşi un nivel relativ mare de acurateţe. Cu toate că aceşti parametri sunt folositori
şi astăzi, legătura dintre ei şi calitatea percepută a devenit mai slabă. În urma compresiei, sistemele
digitale pentru imagini prezintă artefacte care se disting în mod fundamental de cele din sistemele
analogice. Cantitatea şi vizibilitatea acestor distorsiuni depind mult de chiar conţinutul în sine al
imaginii. În aceste condiţii, măsurătorile tradiţionale nu pot fi considerate adecvate pentru evaluarea
acestor artefacte, iar cercetătorii au fost nevoiţi să recurgă la experimente subiective de vizualizare
pentru a obţine clasificări ale calităţii imaginilor digitale pe care să se poată bizui. Deşi aceste teste ne
conduc cît se poate de aproape de adevăr în ceea ce priveşte calitatea percepută, ele sunt complexe
si mari consumatoare de timp, aşadar scumpe și greu de realizat.
Cu aceste probleme odată formulate, studiul modelelor de vizualizare şi de măsurare a calităţii
vizualizate s-a intensificat în ultimii ani. Abordările bazate pe SVU le înlocuiesc treptat pe cele clasice
în care determinarea calităţii se făcea cu măsurători MSE sau PSNR. Îmbunătăţirea calitativă care poate
fi obţinută folosind abordări bazate pe SVU este semnificativă şi se poate atribui unei largi game de
aplicaţii de procesare de imagini. Cu toate acestea, sistemul vizual uman este extrem de complex şi
multe din proprietăţile lui nu sunt pe deplin înţelese nici astazi. În vreme ce anumite aspecte şi-au găsit
deja locul în sistemele digitale de imagine, iar soluţii găsite ad-hoc în urma experienţei în domeniu au
condus la rezultate satisfăcătoare pînă la un anumit punct, progresele semnificative faţă de starea
curentă a lucrurilor necesită o înţelegere profundă a vederii umane în vederea proiectării unor modele
de încredere.

1.1 Calitatea semnalelor video


Informația digitală parcurge o lungă listă de etape de procesare dintre care amintim achiziția
datelor, analiza acestora, compresia, memorarea, transmisia și reproducerea, oricare dintre ele putând
să determine apariția unor distorsiuni și degradări specifice care înrăutățesc calitatea video. De
exemplu, algoritmii de compresie sunt folosiți în mod curent pentru a reduce lățimea de bandă
necesară pentru memorarea și transmiterea datelor în format digital, iar această operație presupune
pierdere de informație și implicit pierderea unor detalii legate de stimulii vizuali. Un alt exemplu este
cel al aplicațiilor de tip watermarking în care anumite date, de dorit imperceptibile pentru observatori,
sunt inserate în imagini pentru autentificare. Adăugarea acestor date nu se poate realiza decât
alterând mai mult sau mai puțin informația vizuală. În general, toate echipamentele din domeniul
multimedia proiectate în vederea procesării fluxurilor de date video contribuie într-o măsură oarecare
la distorsionarea acestora.
Noțiunea de calitate video nu este însă doar un termen abstract, având un rol important în
diverse aplicații. Dar ce se înțelege prin calitate? De exemplu, în cazul video-conferințelor, noțiunea de
calitate se referă în general la calitatea serviciului (QoS – Quality of Service) care presupune o imagine
bună, sunet bun, etc. Dificultatea apare atunci când trebuie cuantificat sau evaluat sensul cuvântului
bun.
O modalitate evidentă de determinare a calității unor secvențe video este măsurarea acesteia
în cadrul experimentelor psihofizice cu subiecți umani. Oricum asemenea date sunt destinate a fi
reproduse în fața unor oameni. Totuși, aceste experimente nu sunt numai mari consumatoare de timp
și de resurse, dar nici nu pot fi încorporate în sistemele cu ajustare automată proprie a calității
semnalului în funcție de valoarea calității măsurată la destinație și trimisă înapoi ca feedback.
Scopul studiilor efectuate în acest domeniu de cercetare este așadar acela de a dezvolta
metode obiective de măsurare a calității semnalelor video, metode care să poată evalua automat
nivelul calității perceput de observatori. O asemenea metrică care evaluează obiectiv calitatea poate
fi utilă într-o gamă largă de aplicații, pornind de la achiziția imaginilor, compresia lor, comunicații,
analiza datelor și watermarking. În primul rând pot fi folosite pentru monitorizarea și ajustarea
dinamică a calității vizuale. În al doilea rând pot fi utile în procesul de optimizare a algoritmilor și
setarea parametrilor din sistemele de procesare a datelor video. A treia posibilitate este utilizarea
acestor metode de măsură chiar în sistemele și algoritmii de evaluare a performanțelor.
În practică au fost realizate însă și experimente psihofizice cu subiecți umani, în primul rând
pentru a obține un set de valori concludente pentru un set prestabilit de secvențe video. Aceste valori
sunt luate ca referință atunci când se testează rezultatele unei noi metrici obiective, oferind astfel
posibilitatea comparării performanțelor diverselor metrici. Organizația care a condus testări cu
observatori și care a stabilit un standard în materie de condiții de vizualizare, selecție secvențe de test,
alegerea subiecților umani și metodologia evaluărilor se numește VQEG – Video Quality Experts Group.

1.2 Noțiuni generale


1.2.1 Lumina
Numim lumină (în general) radiația electromagnetică având o lungime de undă care se
încadrează în domeniul vizibil pentru ochiul uman (380 – 400 nm până la 760 – 780 nm). Din punct de
vedere al teoriei undă-particulă, lumina poate fi privită ca fiind compusă din mici ”pachete” numite
fotoni care prezintă proprietăți de undă cât și de particulă.

2
Principalele fenomene optice de interes sunt: reflexia, refracția și difracția.
Principiul fizic al refracției presupune schimbarea direcţiei razelor de lumină la suprafața de
separație a două medii transparente, însă cu indici de refracţie diferiţi. Indicele de refracţie n al unui
material se definește ca raportul dintre viteza luminii în vid c0 şi viteza luminii în acel material c: 𝑛 =
𝑐0 /𝑐. Unghiul de refracţie depinde atât de raportul indicilor de refracţie ai celor două medii, cât și de
unghiul φ dintre lumina incidentă și normala la suprafaţă: 𝑛1 sin 𝜑1 = 𝑛2 sin 𝜑2 .

1.2.2 Percepția

1.2.3 Focus / Focalizare/Adâncimea câmpului vizual


În optică, termenul de focalizare se referă la punctul imagine în care converg razele de lumină
ce vin de la punctul unui obiect. De cele mai multe ori focalizarea nu este perfectă și în loc de un punct
imagine se obține de fapt un disc (blur circle), situație datorată diverselor aberații ale sistemului optic
folosit.
Un obiect este focalizat atunci cînd toate razele de lumină provenind de la punctele lui converg
într-o singură imagine (sau obiect imagine). Dacă lumina nu converge corect, atunci se spune că
obiectul nu este bine focalizat (vezi imaginea de test).

Noțiunea de adâncime a câmpului vizual (sau depth of field - DOF) se referă la zona de claritate
dintr-o imagine. Altfel spus, este acea porțiune a imaginii focalizată corect. O lentilă poate să focalizeze
cu precizie la o anumită distanță, iar scăderea în claritate are loc gradual de fiecare parte a distanței
de focalizare. Astfel, în zona de adâncime a câmpului vizual, variațiile locale ale clarității sunt
imperceptibile în condiții normale de vizualizare (capul pisicii din dreapta imaginii este aparent
focalizat corect în întregime; nu par să existe diferențe în claritatea din zona boticului și cea din zona
ochilor deși evident cele două zone nu se găsesc în același plan).

3
1.2.4 Acuitate vizuală
Acuitatea vizuală reprezintă în esență claritatea vederii și în mod special claritatea vizualizării
diverselor forme. Această claritate a formelor depinde de calitatea procesului de focalizare a imaginilor
pe retină precum și de sensibilitatea facultății cerebrale de interpretare. Altfel spus, acuitatea vizuală
este o măsură cantitativă a abilității de identificare a simbolurilor negre pe un fundal alb, atunci cînd
vizualizarea se face de la o distanță standardizată iar dimensiunea simbolurilor variază progresiv. Este
de altfel cea mai obișnuită metodă de determinare clinică a stării funcției vizuale.
Acuitatea vizuală dinamică definește abilitatea ochiului uman de a discerne între detaliile fine
ale unui obiect în mișcare.
În cadrul procesului de măsurare a acuității vizuale trebuie luate în considerare o serie de factori
care influențează rezultatul conducând la o valoare falsă. Acești factori, printre care putem aminti
dimensiunea pupilei, luminanța corespunzătoare fundalului, durata prezentării simbolurilor, de tipul
simbolurilor folosite, fac din această măsurătoare o determinare subiectivă.

1.2.5 Unghiul de vizualizare și frecvența spațială


În contextul modelării sistemului vizual uman pentru determinarea calității video, printre
parametrii specifici sunt dimensiunea și rezoluția imaginii proiectate pe retină. De-a lungul timpului s-
a constatat faptul că este utilă punerea în relație a parametrilor de vizualizare cu cei legați de sistemul
vizual uman. Spre exemplu, se preferă de multe ori specificarea distanței la care se face vizualizarea în
multipli de dimensiunea ecranului, întrucât s-a presupus multă vreme că raportul dintre distanța de
vizualizare preferată și dimensiunea ecranului rămâne contant.
Parametrul denumit unghi de vizualizare este unghiul subântins în centrul ochiului de către
un stimul vizual. Altfel spus, este unghiul dintre razele de lumină care ajung la ochi pornind de la cele
două capete ale obiectului vizualizat. Se măsoară în grade și se poate determina cu relația:

𝑆
𝑉 = 2 ∗ 𝑎𝑟𝑐𝑡𝑎𝑛 ( ) (0.1)
2𝐷

unde S reprezintă dimensiunea frontală a obiectului, iar D este distanța de la ochi la obiect, ambele
exprimate în metri. Astfel, dacă cineva privește un obiect de 1cm de la o distanță de 1m și apoi un alt
obiect de 2cm de la o distanță de 2m, ambele vor subântinde același unghi de vizualizare și imaginile
lor pe retină vor avea aceeași dimensiune. Așadar, atunci când se discută calitatea unei imagini sau a
unui semnal video, ceea ce contează mai mult nu este dimensiunea imaginii sau a ecranului și nici
distanța de vizualizare, ci unghiul sub care se face vizualizarea.

4
Frecvența spațială este o caracteristică/proprietate a oricărei structuri care este periodică în
spațiu. Frecvența spațială constituie o măsură pentru cât de des se repetă structura per unitate de
distanță. În studiul percepției vizuale, stimulul sinusoidal este adeseori folosit în testarea sistemului
vizual. Pentru asemenea stimuli, frecvența spațială este determinată ca numărul de cicli (perioade ale
sinusoidei) raportat la unghiul de vizualizare.
Frecvența spațială este așadar o măsură pentru cât de des se repetă componentele sinusoidale
ale unei structuri raportat la o unitate a unghiului de vizualizare (componentele sinusoidale fiind cele
determinate cu transformata Fourier).

Rezoluția ecranului sau frecvența spațială maximă fmax se măsoară în cicli per grad al unghiului
de vizualizare și se calculează ținând cont de numărul L de linii de scanare a ecranului:
𝐿
𝑓𝑚𝑎𝑥 =
2𝑉
Diverse frecvențe spațiale prezente în același stimul vizual indică diverse informații despre
aparența stimulului respectiv. Frecvențele spațiale înalte (nr. mare de perioade pt. un unghi de
vizualizare specificat) reprezintă modificări bruște din imagine, cum ar fi muchiile, iar în general acestea
corespund informației structurale și detaliilor fine. Frecvențele spațiale joase (nr. mic de perioade pt.
același unghi de vizualizare), de cealaltă parte, corespund informațiilor globale legate de formă
(orientarea generală și proporțiile). Pentru majoritatea adulților, pragul de discriminare a frecvențelor
spațiale este de aproximativ 7%.

5
În testările audio: semnale sinusoidale cu diverse frecvențe și tării sonore sunt necesare pt a
testa canalele (benzile) auditive implicate în auz.
În testările vizuale: stimuli sinusoidali cu diverse frecvențe spațiale și nivele de contrast sunt
necesari în testarea canalelor vizuale implicate în sistemul vizual.

Tărie sonoră <=> Contrast


Frecvența sunetului <=> Frecvența spațială
Audiogramă <=> Funcția de sensibilitate la contrast

1.3 Sistemul vizual uman


Vederea este de altfel poate cel mai important dintre simțurile omului, estimându-se că până
la 80-90% din neuronii creierului sunt dedicaţi vederii (8), sistemul vizual uman fiind evident de o
complexitate enormă. Acest sistem poate fi împărţit în două mari componente: ochiul, cel care
captează lumina şi o convertește în semnale ce pot fi interpretate de către sistemul nervos, şi căile
vizuale din creier de-a lungul cărora semnalele sunt transmise şi procesate.

1.4 Ochiul – principii fizice și elemente de optică

Cerința de proiectare imperativă pentru orice sistem care operează cu imagini sau semnale
video în format digital (stocare, redare, codare, transmisie, etc.) este aceea de a oferi în final o
imagine/semnal video acceptabil și chiar plăcut pentru observatori – ochiul uman fiind invariabil
observatorul final. Pentru a îndeplini această cerință de proiectare trebuie așadar să cunoaștem
răspunsul sistemului vizual uman (HVS). HVS este în esență sistemul care permite unui observator
uman să vadă, să interpreteze și să răspundă la stimulii vizuali.

6
O secțiune transversală prin ochiul uman, mult simplificată, este prezentată în figura
anterioară. Imaginea este focalizată pe retină de către lentilă sau cristalin care își modifică forma cu
ajutorul unui aparat muscular pentru a putea focaliza corespunzător atât obiectele apropiate cât și pe
cele depărtate. Irisul controlează apertura lentilei/cristalinului, așadar controlează cantitatea de
lumină care intră în ochi. Retina constituie o structură complexă de celule cu conuri (fotoreceptori
sensibili la culoare pentru nivele ridicate de lumină) și celule cu bastonașe (fotoreceptori sensibili la
luminanță pentru nivele scăzute de lumină). Cele mai sensibile celule cu conuri sunt situate în regiunea
centrală (fovea) ceea ce înseamnă că percepția culorilor la o rezoluție mare este realizată numai pentru
o zonă mică din centrul câmpului vizual. Nervii conectați la retină părăsesc globul ocular formând
nervul optic. Creierul uman procesează și interpretează informația vizuală bazându-se parțial pe
informația concretă primită de la retină și parțial pe informații și răspunsuri învățate anterior (cum
sunt de pildă formele obiectelor cunoscute).
Ochiul poate fi considerat echivalentul unui aparat de fotografiat, întrucât este format dintr-
un sistem de lentile cu apertură variabilă, care focalizează imaginile pe retina sensibilă la lumină. La
baza funcționării lui se regăsește principiul fizic al refracției, adică schimbarea direcţiei razelor de
lumină la suprafața de separație a două medii transparente, însă cu indici de refracţie diferiţi.
Lentilele folosesc refracţia pentru a determina lumina să fie convergentă sau divergentă, în
funcție de forma lor. Razele de lumină paralele sunt deviate spre exterior atunci când trec prin lentile
concave și spre interior atunci când trec prin lentile convexe. Această proprietate a unei lentile convexe
de concentrare a luminii este cea care determină formarea imaginii pe retină, însă imaginea produsă
este inversată (rotită la 180o față de axa optică). Practic, obiectele situate la distanța ds față de lentilă
sunt focalizate în spatele ei conform relației:

1 1 1
= + (1.1)
𝑓 𝑑𝑠 𝑑𝑖

unde di reprezintă distanța de la lentilă la imagine, iar f este distanța focală a lentilei. Un obiect situat
la o distanță infinit de mare de lentilă va fi focalizat la 𝑑𝑖 = 𝑓. Inversul distanței focale, 1/f se numește
putere optică a lentilei și se măsoară în dioptrii.

Un alt parametru specific sistemelor optice, deci și ochiului uman, este apertura variabilă care
face posibilă adaptarea la diferite nivele de intensitate luminoasă. Dimensiunea aperturii limitează
cantitatea de lumină care pătrunde în sistemul optic influențând astfel adâncimea câmpului vizual,
adică distanța până la care obiectele pot fi văzute cu claritate; o apertură mică produce imagini cu
adâncime de câmp mare, şi invers.
Tot apertura este responsabilă de apariția difracției. Atunci când o rază de lumină întâlnește
un obstacol se împrăștie, iar imaginea rezultată devine neclară sau cețoasă. Cât de neclară, depinde
de dimensiunea aperturii față de lungimea de undă a razei de lumină.

7
În Figura 1 este prezentată o secțiune transversală prin ochi din care se observă cu ușurință
faptul că ochiul uman este format din cornee, umoare apoasă, lentilă și umoare vitroasă. Fiecare
componentă are un indice de refracție propriu, iar puterea optică totală este de aproximativ 60 de
dioptrii. Lentila are o importanță deosebită deoarece curbura ei se poate mări prin contracția
musculaturii atașate de ea, mărind astfel puterea optică corespunzătoare. Procesul poartă numele de
acomodare și face posibilă focalizarea obiectelor situate la diferite distanțe de ochi.

Figura 1. Ochiul – secțiune transversală

Deschiderea circulară din mijlocul irisului este pupila sau apertura ochiului, prin ea pătrunzând
razele de lumină. Există și pentru pupilă un set de mușchi care o deschid mai mult sau mai puțin, în
funcție de intensitatea luminii ambiante, controlând astfel cantitatea de lumină care intră în lentilă
pentru o adaptare optimă la mediul înconjurător.
Se poate măsura calitatea optică aferentă ochiului uman, determinând cu exactitate zona de
pe retină unde este proiectat un stimul vizual de test. Această reflexie va fi o imagine distorsionată a
stimulului original, distorsiunea cea mai frecventă fiind încețoșarea. Folosind drept stimul vizual de
test un punct sau o linie subțire, imaginea rezultată pe retină este denumită funcție de împrăștiere a
punctului sau funcție de împrăștiere a liniei. Transformata Fourier a acestei funcții este funcția de
transfer modulatorie a ochiului (fct. de transfer a modulației).

Figura 1 Funcția de împrăștiere a punctului în funcție de unghiul de vizualizare, pt o pupilă de 3mm diametru

Corneea la rândul ei nu este perfect simetrică și în consecință, caracteristicile optice oculare


depind de orientare (de direcția pe care se dorește focalizarea). Este practic imposibilă focalizarea
simultană, perfectă, pe toate direcțiile (astigmatism), funcția de împrăștiere a punctului nefiind nici ea
simetric circulară (de exp: un stimul care conține mai multe direcții de orientare este focalizat corect
în plan orizontal însă este încețoșat în plan vertical). În plus, proprietățile optice ale ochiului depind
destul de mult de lungimile de undă ale luminii incidente și în mod special indicii de refracție variază

8
cu lungimea de undă. Denumirea de aberație cromatică se referă așadar tocmai la faptul că este
imposibilă focalizarea simultană a tuturor lungimilor de undă. Aberația cromatică poate fi pusă în
evidență și cuantificată determinând funcția de transfer modulatorie a ochiului pentru diferite lungimi
de undă, ca în Figură 2 unde diametrul pupilei este de 3mm și este focalizată lungimea de 580nm (9).
Este evident că imaginea formată pe retină conține puține detalii spațiale la lungimi de undă depărtate
de cea focalizată.

Figură 2 Funcția de transfer modulatorie a ochiului pt diametrul pupilei de 3mm și lungimea de undă focalizată 580nm

1.4.1 Mișcările ochiului


Ochiul este prins în cutia craniană prin 3 perechi de muşchi responsabile cu rotirea în jurul
celor 3 axe. Se remarcă o serie de mişcări distincte ale ochiului, cele de fixare fiind probabil cele mai
importante. Mecanismul voluntar de fixare ne permite să ne direcţionăm ochii spre un anumit punct
de interes. Acest lucru este posibil prin sacade, mişcări de mare viteză ce îndreaptă simultan ambii
ochii spre noua poziţie. Sacadele apar câte 2-3 pe secundă şi sunt de asemenea utile la scanarea
întregului peisaj prin fixarea pe rând a câte unui punct de interes. Nu suntem conştienți de aceste
mişcări deoarece imaginea este suprimată în timpul sacadelor.
Mecanismul involuntar de fixare oprește și blochează ochiul asupra obiectului de interes, în
momentul în care acesta a fost reperat. În acest caz sunt implicate micro-sacadele, mișcări foarte
rapide, de tip tremor sau modificare ușoară a poziției oculare. Practic, acestea sunt similare unei
vibrații continue a ochiului cu o frecvență de 30-70Hz. Microsacadele servesc la updatarea imaginii
proiectată pe retină, mai exact pe celulele cu conuri și cu bastonașe. Fără microsacade, fixarea vizuală
continuă a unui punct de interes ar determina colaps-ul vederii după cîteva secunde (întrucât celulele
fotosensibile răspund numai la schimbări de luminanță). Acelaşi mecanism compensează de asemenea
mişcările capului şi vibraţiile.
În plus, ochiul poate să urmărească un obiect care trece prin faţă, iar aceste mișcări de
urmărire pot să se adapteze la traiectoriile obiectelor cu mare acurateţe. Urmărirea se realizează
satisfăcător chiar şi pentru viteze mari, însă este îngreunată de acceleraţiile mari sau mişcările
imprevizibile.

1.4.2 Retina
Ochiul proiectează imaginile din exterior pe retină sau ţesutul neural din fundul ochiului.
Elementele funcționale ale retinei sunt ilustrate în Figura 2. Lumina care ajunge la retină trebuie să
traverseze mai multe straturi de neuroni înainte să ajungă stratul de receptori fotosensibili şi să fie în
final absorbită de stratul cu pigmenţi. Practic, retina transformă energia electromagnetică a luminii în
semnale electro-chimice folosite de către sistemul nervos.

9
Figura 2 Retina – lumina trebuie să parcurgă mai multe straturi de neuroni pînă să ajungă la cei foto-sensibili
(care absorb o parte din ea) și la stratul de pigment (care aboarbe restul). Răspunsul dat de fotoreceptori va
fi însă trimis creierului prin axonii primului strat de celule ganglionare.

Fotoreceptorii
Fotoreceptorii sunt neuroni specializaţi care folosesc substanțe fotochimice sensibile la lumină
pentru a converti energia luminoasă incidentă în semnale care pot fi interpretate de creier. Exista 2
tipuri diferite de fotoreceptori – celule cu bastonaşe şi conuri. Numele este derivat din aspectul fizic
ale segmentelor lor exterioare sensibile la lumină. Bastonaşele sunt responsabile pentru vederea la
intensităţi mici de lumină și în general nu reacționează la informația de culoare, în timp ce conurile
sunt responsabile pentru vederea la intensităţi mai mari de lumină, ele sunt sensibile la culoare precum
și la detaliile spațiale fine (bastonașele sunt mai senzitive decât conurile). Mărimea şi spaţierea
fotoreceptorilor determină rezoluţia spaţială maximă a sistemului vizual uman. În retină există cu
aproximație 120 milioane de bastonașe și 6 milioane de conuri.

Există 3 tipuri de conuri: conuri sensibile la lungimile de undă scurte (conuri de tip S) (albastru),
sensibile la lungimi de undă medii (tip M) (verde) și cele sensibile la lungimi de undă mari (tip L) (galben-
roșu). Lungimea de undă variază în zona vizibilă a spectrului, aproximativ 400nm – 700nm. Fiecare tip
de con este practic ”orb la culoare”, adică informația privitoare la lungimea de undă a luminii absorbite
este pierdută. Conurile doar absorb anumiți fotoni și folosesc energia acestora pentru a genera
semnale către sistemul nervos (anunțând prezența luminii în câmpul vizual). Percepția culorilor are
loc ulterior în sistemul vizual, în primul rînd ținând cont de sensibilitățile spectrale diferențiate între
tipurile de conuri, și în al doilea rând comparând semnalele generate de fiecare tip de con. Fiind doar
3 tipuri de conuri, stimulul de culoare poate fi specificat prin 3 numere care indică gradul de absorbție
a luminii în cele 3 tipuri de celule fotoreceptoare cu conuri. Acest fenomen stă la baza principiului
tricromatic, conform căruia orice culoare poate fi obținută dintr-un amestec de 3 culori primare
corespunzător alese.

10
Figura 3 Spectrul normat de absorbție al celor 3 tipuri de conuri (S, M, L) și al bastonașelor (B).

Vârfurile curbelor de senzitivitate sunt atinse cu aproximație la 440nm, 540nm și 570nm. Se


observă ușor că spectrele de absorbție ale conurilor de tip M și L sunt extrem de asemănătoare, în timp
ce conurile S au o cu totul altă curbă de absorbție. Suprapunerile dintre cele 3 curbe spectrale sunt
esențiale în vederea discriminării cu finețe între nuanțe.

Neuronii retinali procesează semnalele fotoreceptorilor. Legăturile anatomice şi neurale


specilizate din retină se combină pentru a comunica creierului diferite tipuri de informații despre
stimulii vizuali. După cum e arătat în Figura 2, o varietate de neuroni pot fi găsiţi în retină:
• Celule orizontale care conectează nodurile sinaptice ale conurilor şi bastonaşelor învecinate.
Ele au un efect inhibitor asupra celulelor bipolare.
• Celulele bipolare conectează celulele orizontale, bastonaşele şi conurile cu celulele
ganglionare. Celulele bipolare pot avea un efect excitator sau inhibitor.
• Celulele amacrine transmit semnale de la celulele bipolare la celulele ganglionare sau lateral
între diferiţi neuroni. Aproximativ 30 de tipuri de celule amacrine cu funcții diferite au fost
identificate.
• Celule ganglionare colectează informaţia de la celule bipolare și amacrine. Sunt circa 1.6
milioane de celule ganglionare în retină. Axonii lor formează nervul optic care iese din ochi
prin discul optic (sau pata oarbă) şi care duce semnalul mai departe către alte centre de
procesare din creier.
O mică parte din aceste celule ganglionare din retină sunt foto-sensibile; puțin cunoscute; 2
roluri cunoscute: în reglarea ritmului noapte-zi al organismului și în reglarea aperturii pupilei.

Interconexiunile dintre aceste celule dau naștere unui concept important în percepţia vizuală,
câmpul receptor. Câmpul receptor al unui neuron este definit ca porțiunea/zona din retină în care
lumina incidentă influenţează răspunsul acelui neuron. Nu este limitat însă la celulele din retină,
întrucât mulţi neuroni în etape ulterioare din calea de procesare vizuală pot de asemenea să fie descrişi
de câmpurile lor receptoare.
Celulele ganglionare din retină au o caracteristică a câmpurilor receptoare aproape circulară.
Lumina care cade exact în centrul câmpului receptor al unei celule ganglionare poate să excite sau sa
inhibe celula. În vecinătatea care înconjoară regiunea, lumina are efectul opus (center-surround). Între
centru şi margine există și o mică zonă în care răspunsul este mixt. Circa jumătate din ganglionii retinali
au câmpuri receptoare cu zona de excitație în centru şi cealaltă jumătate cu zona de excitație la
marginea cîmpului receptor. Această organizare a câmpurilor receptoare se datorează în principal
inhibiţiei laterale manifestată de celulele orizontale. Drept consecinţă, semnalele excitatoare şi
inhibitoare se neutralizează unul pe celălalt atunci când stimulul vizual este uniform, însă în cazurile în
care un contur se suprapune peste un asemenea câmp receptor, răspunsul celulei va fi amplificat. Altfel
spus, neuronii retinali implementează un mecanism de percepţie a contrastului.

11
Celulele ganglionare pot fi clasificate la rândul lor în 3 categorii:
• Celule de tip P care constituie majoritatea (aproape 80% ) celulelor ganglionare. Acestea au
câmpuri receptoare foarte mici, primind impulsuri de la o zonă foarte mică din retină (de la un
singur con de exemplu), şi pot astfel să codeze informația vizuală corespunzătoare detaliilor
fine (câmp receptor circular de tip on sau off în centru, și opusul pe margine). Codează
informaţia cromatică, fiind diferențiate pe culori (celulele P răspund la schimbarea de culoare
și la schimbările majore de contrast).
• Celulele tip M constituie aproximativ 5-10% din celulele ganglionare. Câmpurile lor receptoare
sunt de câteva ori mai mari decât cele ale celulelor P (tot center-surround). Ele au deasemenea
axoni mai groși, ceea ce înseamnă că semnalul lor de răspuns circulă cu viteză mai mare.
Celulele M răspund la mişcare sau la mici diferențe ale nivelului de lumină, dar sunt insensibile
la culoare. Ele sunt responsabile cu alertarea și ajustarea rapidă a sistemului vizual
corespunzator schimbărilor imaginii.
• Celule tip K (bistratificate) constituie aproximativ 5-10% din celulele ganglionare. Au
dimensiuni foarte mici (recent descoperite) și câmpuri receptoare foarte mari (only center, no
surround) on – pentru conurile senzitive la albastru și off – pt. conurile senzitive la roșu și
verde. Insuficient cunoscute!

Aceste 3 tipuri de celule ganglionare reprezintă originea a 3 căi vizuale separate în creier, aşa
numitele căi magnocelulară, parvocelulară și koniocelulară.
Așadar retina este mai mult decât un dispozitiv de convertire a luminii în semnale neuronale;
informaţia vizuală este minuțios procesată aici, înainte de a fi transmisă mai departe altor zone din
creier.

1.5 Căile de procesare a informației vizuale


Al doilea element al sistemului vizual uman după ochi este nervul optic, acesta preluând
informația vizuală de la celulele ganglionare ale retinei pentru a le transmite diverselor zone de
procesare din creier, pe așa numitele căi vizuale. Nervii optici de la cei doi ochi se întâlnesc în zona
numită chiasm optic, unde fibrele sunt rearanjate formând tracturi optice. În urma acestor
rearanjamente precum și a faptului că imaginea formată pe retină este inversată, câmpul vizual stâng
este procesat de emisfera cerebrală dreaptă, iar câmpul vizual drept este procesat în emisfera stângă.
Majoritatea fibrelor (axonilor) de la fiecare tract optic vor realiza sinapse în nucleul / corpul geniculat
lateral, de unde alte fibre vor trece prin radiație optică în cortexul vizual (vezi Figura 3). Prin toate
aceste căi vizuale, informaţia de vecinătate corespunzătoare diverselor zone ale retinei este păstrată,
stimulul aplicat unei mici părți a retinei este procesat de o zonă dedicată a nucleului geniculat lateral
şi a cortexului vizual primar. Proprietatea aceasta poartă numele de mapare retino-optică.

12
Figura 3 Căi vizuale în creierul uman (secţiune transversală). Semnalele trec de la ochi prin nervul optic. Se
întâlnesc la chiasmul optic, unde fibrele de la jumătatea nazală a fiecărei retine traversează pe partea opusă
pentru a se alătura fibrelor de la jumătatea temporală a celeilalte retine. De acolo, tractul optic duce
semnalul la nucleul lateral geniculat şi la cortexul vizual primar.

Există o serie de destinaţii suplimentare la nivelul creierului pentru informaţia vizuală, în afară
de căile vizuale prezentate anterior. Aceste zone din creier sunt responsabile în principal cu gesturile
comportamentale de tip reflex, constituind reacții de răspuns la imaginile vizualizate.
Corpul geniculat lateral constituie o parte a thalamusului și cuprinde 6 straturi de neuroni;
dintre acestea, 2 straturi corespund stratului magnocelular și primesc semnal aproape numai de la
celule ganglionare de tip M. Celelalte 4 straturi, straturile parvocelulare, primesc impulsuri cu
precădere de la celulele ganglionare de tip P. După cum am menţionat anterior, celule M si P răspund
la stimuli diferiţi, cum ar fi mişcarea – la M şi detaliile spaţiale și culoarea – la P și K. Această funcţionare
specializată continuă în nucleul geniculat lateral şi în cortexul vizual, ceea ce sugerează existenţa a
două căi separate în sistemul vizual, căile magnocelulară si parvocelulară.
Celulele din straturile magnocelulare sunt insensibile la culoare şi au câmpuri receptoare
foarte mari; percepția adâncimii și a mişcării.
Între cele 6 straturi există celule mai mici care primesc informații de la celulele ganglionare K
din retină; culoare.
Celulele din straturile parvocelulare au câmpuri receptoare mici; culoare, schimbări majore de
contrast = muchii. Ele sunt excitate dacă o anumită culoare luminează centrul respectivului câmp
receptor şi inhibate dacă luminează marginile câmpului. Doar două perechi de culori sunt analizate și
anume roşu-verde şi albastru-galben. Aceste culori opuse formează principiul percepţiei culorilor în
sistemul vizual uman.

Nucleul geniculat lateral nu serveşte numai ca o staţie releu a semnalelor provenind de la


retină, ci şi controlează câtă informaţie este lăsată să treacă către cortexul vizual.
Cortexul vizual primar (zona Brodmann 17 sau cortexul striat) este localizat în lobul occipital
și reprezintă cea mai mare parte a sistemului vizual uman, primind semnalul care vine de la corpul
geniculat lateral. În afară de cortexul vizual primar mai există aproximativ alte 20 de zone cerebrale
care primesc semnale vizuale, însă se ştie foarte puţin despre funcţiile acestor zone.
Există o varietate extraordinară de celule în cortexul vizual. O proprietate specifică acestor
celule este sensibilitatea selectivă la diferite tipuri de stimuli vizuali. De exemplu, o celulă poate fi
excitată de stimuli cu o anume orientare sau de o anumită nuanță, existând celule dedicate diverselor
frecvențe spațiale, culori, viteze, etc. Aceasta selectivitate neuronală este considerată inima
arhitecturii multi-canal a sistemului vizual uman.
Studiile fundamentale legate de câmpurile receptoare corticale au fost realizate de către Hubel
și Wiesel, ei identificând în cortexul vizual primar mai multe tipuri de neuroni cu funcții distincte. Astfel,
categoria celulelor simple cuprinde celule cu un comportament aproximativ liniar, al căror răspuns la
forme complicate poate fi estimat cunoscând răspunsurile la stimuli de dimensiunea unui punct.
Celulele simple pot fi caracterizate printr-o anumită frecvență spațială, orientare și fază. Privită ca un
filtru orientat trece-bandă, o celulă simplă reacționează la stimuli cu frecvențe spațiale într-un anumit
domeniu și cu anumite orientări.

13
Figura 4 Câmpul receptor al unei celule simple din cortexul vizual primar. Zonele luminoase și întunecoase
reprezintă regiunile de excitație respectiv de inhibiție.

Celulele complexe prezintă și ele o selectivitate după orientare și răspund la stimulii cu


orientarea potrivită peste tot în câmpul receptor, neavând regiuni inhibitorii. O parte din celulele
complexe răspund numai la stimulii cu orientare potrivită care se deplasează în câmpul lor receptor
într-o anumită direcție, fiind probabil responsabile cu percepția mișcării. Alte celule complexe răspund
numai la stimuli de anumite dimensiuni, sau la forme de genul colțurilor și curburilor.
Cortexul vizual primar este de altfel singurul care conține neuroni cu câmpuri receptoare
binoculare, adică ale căror câmpuri receptoare sunt sensibile la stimuli de la ambii ochi, punând bazele
percepției adîncimii.

1.6 Sensibilitatea la lumină și la contrast


Sistemul vizual uman este capabil să se adapteze la o gamă variată de intensităţi de lumină,
dispunând de trei mecanisme de adaptare la luminanţă (13):
• variaţia mecanică a aperturii pupilei. Discutată anterior, aceasta este controlată de iris.
Diametrul pupilei poate varia de la 1,5 la 8 mm, ceea ce corespunde la 30 de unităti diferenţă
a cantităţii de lumină ce pătrunde în ochi. Acest mecanism de adaptare răspunde în câteva
secunde.
• procesul chimic din fotoreceptori, prezent atât la celulele cu bastonaşe cât şi la cele cu conuri.
La lumină puternică, concentraţia de substanțe fotochimice din receptori descreşte, astfel
reducându-le sensibilitatea. Pe de altă parte, când intensitatea luminii este redusă, secreţia de
substanțe fotochimice în receptori creşte, crescând astfel și sensibiltatea. Cu toate că această
adaptare chimică este foarte puternică, se produce lent; de exemplu pentru negru durează
aproximativ o oră.
• adaptarea la nivel neural. Acest mecanism implică neuronii din toate straturile retinei și
presupune creșterea sau scăderea amplitudinii semnalului de ieșire care va fi transmis mai
departe pe calea vizuală corespunzătoare. Adaptarea neurală este mai puțin puternică, dar
mai rapidă decât cea chimică.
Sistemul vizual uman reacționează mult mai slab la valori absolute de luminanță spre deosebire
de excitația produsă de variațiile locale ale luminanței față de valorile din vecinătate. Proprietatea
aceasta poartă numele de legea Weber-Fechner, iar variațiile locale de luminanță pot fi cuantificate
prin determinarea contrastului. Contrastul după Weber este dat de relația:

14
∆𝐿
𝐶𝑊 = (1.2)
𝐿
Pragul de detecție al contrastului sau contrastul minim necesar pentru ca un observator să
sesizeze o schimbare de intensitate este prezentat în Figura 5 în funcție de nivelul luminanței din
fundal. Caracteristica este constantă pe un domeniu destul de larg de intensități, de la lumina slabă
până la lumina zilei, datorită capacității de adaptare a sistemului vizual uman. Este același domeniu
întâlnit în general în diferitele aplicații de procesare de imagini. În aceste condiții, legea Weber-Fechner
este o aproximare a percepției senzoriale reale.

Figura 5 Pragul de detecție a contrastului rămâne aproape constant pe un domeniu larg de intensități
Variația exactă a pragului de detecție a contrastului depinde în mare măsură de caracteristicile
stimulului vizual precum culoarea, frecvența spațială și temporală. Aceste dependențe pot fi
cuantificate determinând funcția de sensibilitate la contrast (CSF – Contrast Sensitivity Function).
Sensibilitatea la contrast se definește ca inversul pragului de detecție a contrastului. În vederea
determinării CSF, se introduce noțiunea de contrast Michelson pentru un stimul periodic (de obicei
sinusoidal) cu frecvență variabilă:

𝐿𝑚𝑎𝑥 − 𝐿𝑚𝑖𝑛
𝐶𝑀 = (1.3)
𝐿𝑚𝑎𝑥 + 𝐿𝑚𝑖𝑛

unde Lmin și Lmax sunt valorile extreme ale luminanței pentru stimulul considerat.
În Figura 6 este prezentată forma (anvelopa) funcției spațiale de sensibilitate la contrast.
Luminanța pixelilor este modulată sinusoidal de-a lungul axei orizontale. Frecvența modulației crește
exponențial de la stânga la dreapta, în timp ce contrastul descrește exponențial de la 100% jos până la
0,5% sus. Valorile luminanței minimă și maximă rămân constante de-a lungul oricărei linii orizontale
prin imagine. Astfel, dacă detecția contrastului ar depinde strict de contrastul din imagine, dungile
alternante luminoase și întunecate ar trebui să aibe aceeași înălțime în toată imaginea. Ele apar însă
mai înalte în mijlocul imaginii decât spre margine, iar această formă de U întors a anvelopei vizibilității
constituie chiar funcția spațială de sensibilitate la contrast pentru stimul sinusoidal. Punctul de maxim
al acestei anvelope depinde de distanța de vizualizare.

15
Figura 6 Diagrama sensibilității la contrast conform Campbell-Robson. Funcția spațială de
sensibilitate la contrast se regăsește în anvelopa texturii modulate vizibile.

Sensibilitatea la contrast (senzitivitate, CSF) se definește ca inversul pragului de detecție a


contrastului. CSF este așadar un grafic al inversului pragului de contrast (ordonată) necesar pentru a
sesiza/detecta un stimul sinusoidal de frecvență spațială variabilă (abscisă); frecvența fiind exprimată
în cicli/grad al unghiului vizual. Contrastul este determinat aici cu legea lui Michelson, unde Lmax și Lmin
sunt valorile maximă și minimă a luminanței din modelul sinusoidal.

Figura 4 CSF reprezentată ca anvelopa unor multiple canale selective în frecvență spațială

Forma exactă a funcției CSF depinde de mai mulți factori și nu poate fi determinată cu
exactitate. Asemenea factori sunt: nivelul mediu de luminanță, localizarea spațială pe retină,
dimensiunea fizică, orientarea, frecvența temporală, caracteristicile individuale și patologice ale
observatorului.

16
În figura anterioară sunt prezentate aproximări spațio-temporale ale funcției de sensibilitate
la contrast. Sensibilitatea la contrast acromatică este în general mai mare/bună decât cea cromatică,
mai ales pentru frecvențele spațio-temporale înalte. Funcțiile CSF cromatice sunt 2 pentru cele 2
canale cromatice (roșu-verde și albastru-galben), însă ele sunt extrem de asemănătoare ca formă și am
ales doar una dintre ele. În general, întreaga gamă de culori este percepută numai la frecvențe joase.
Pe măsură ce frecvențele spațio-temporale cresc, sensibilitatea la contrast pentru canalul de albastru-
galben descrește rapid, urmată apoi îndeaproape de declinul sensibilității pt. canalul de roșu-verde,
astfel încât percepția ajunge să fie acromatică.

1.7 Percepția vizuală a culorii

Colorimetria se referă la studiul cantitativ al percepției culorilor. Același termen este însă utilizat
adeseori în contextul determinării absorbției spectrale a unei soluții, proces realizat cu ajutorul unui
colorimetru.
În general lumina poate fi descrisă exact și complet prin distribuția ei spectrală de putere.
Percepția vizuală a culorii constituie capacitatea umană de a distinge obiectele în funcție de lungimea
de undă a luminii pe care acestea o reflectă sau o emit. Sistemul vizual uman diferențiază culorile
comparând răspunsurile la stimuli luminoși ale celulelor fotoreceptoare – conuri din ochi.

Sistemul vizual uman are însă un mod mult mai compact de reprezentare și percepție a
culorilor. În urma experimentelor cu observatori s-a putut stabili faptul că există raze de lumină diferite
care produc însă aceeași senzație de culoare. Razele respective au distribuții spectrale complet diferite
pe care observatorul uman nu le poate totuși distinge. Explicația acestui experiment constă în faptul
că cele două raze de lumină distincte produc aceeași rată de absorbție în celulele de tip conuri (de unde
aceeași senzație de culoare).
Așa cum a demonstrat Newton, culoarea este așadar o proprietate devoltată de mintea umană
și nu o proprietate a obiectelor în sine. Culorile rezultă în urma coexistenței simultane a trei factori: o
sursă de lumină, un obiect și sistemul vizual. Cu toate că produsul dintre radiația spectrală a sursei și
cea a unui obiect reflectant este cel care dă distribuția spectrală de putere a stimulului perceput vizual,
semnalul de culoare poate fi considerat mai degrabă produsul acestei mărimi cu senzitivitatea
spectrală specifică celor trei tipuri de celule conuri receptoare. Semnalul de culoare va consta astfel
din trei numere care exprimă nivelul de absorbție al celor trei tipuri de conuri corespunzător fiecărui
pixel din imagine. Din păcate încă nu s-a ajuns la o definiție standardizată a semnalelor specifice
celulelor receptoare de tip conuri, însă principiile de bază de aditivitate a culorilor au condus la o
descriere a semnalului de culoare care poate fi considerată liniară în raport cu aceste semnale specifice
celulelor conuri.

Unul dintre principiile de bază ale colorimetriei, teoria tricromatică, stabilește faptul că orice
culoare poate fi obținută din amestecul a trei culori primare alese în mod corespunzător. Astfel, se
poate scrie ecuația de obținere a unei culori de test C1:

17
𝐶1 = 𝑟1 𝑅 + 𝑔1 𝐺 + 𝑏1 𝐵 (1.4)
unde R(roșu), G(verde) și B(albastru) sunt culorile primare, iar r1, g1 și b1 sunt scalarii de
ajustare a intensității acestora. Principiul de amestec al culorilor primare în cantități diferite pentru a
rezulta o altă culoare se supune legilor de la algebră de aditivitate și proporționalitate, încât culorile
rezultante se pot aduna și multiplica cu o constantă.

Hering a fost primul care a pus în evidență faptul că anumite perechi de nuanțe creează o
singură senzație de culoare. Astfel, galben amestecat cu roșu este perceput ca portocaliu, însă un
amestec de verde și roșu va da totuși senzația de amestec a două culori distincte. A luat astfel naștere
teoria culorilor opuse conform căreia roșu și verde, precum și albastru și galben sunt perechi de nuanțe
opuse codate ca semnale diferență de culoare pe două căi vizuale distincte. În Figura 7 sunt prezentate
senzitivitățile diferențelor de culoare.
Ideea de canale oponente indică un nivel superior de procesare vizuală a elementelor legate
de aparența sau aspectul culorilor. Teoria culorilor opuse este susținută în primul rând de opoziția
dintre conurile L – M, precum și de opoziția dintre conurile S și suma conurilor L și M ( S – (L+M) ). De
asemenea, experimente fiziologice au demonstrat existența semnalelor diferență de culoare sau
semnale opuse în cadrul căilor vizuale. S-a observat că celulele conuri pot să aiba un efect excitator
sau inhibitor asupra celulelor ganglionare din retină și asupra celulelor din corpul geniculat lateral. De
exemplu, neuronii excitați de conurile L ”roșii” sunt de regulă inhibați de conurile M ”verzi”, iar
neuronii excitați de conurile S ”albastre” sunt adeseori inhibați de o combinație de semnale de la conuri
L și M.
Astfel, câmpurile receptoare ale acestor neuroni sugerează o legătură între semnalele
neuronale și culorile perceptual opuse.
Decorelarea semnalelor emise de conuri prin reprezentarea culorii sub formă de semnale
opuse constituie o îmbunătățire a eficienței codării informației în cadrul SVU.
Experimentul de anulare a unei nuanțe: observatorul poate să anuleze senzația de roșu a unei
lumini de test prin adăugarea a unei anumite cantități de lumină verde.

Figura 7 Senzitivitățile spectrale normalizate ale celor 3 componente: alb-negru, roșu-verde și


albastru-galben dintr-un spațiu de culori opuse

18
Canalul W-B, care codează informația de luminanță, este determinat cu precădere de către
lungimile de undă medii și lungi. Canalul R-G realizează discriminarea dintre lungimile de undă medii și
lungi, în timp ce B-Y realizează discriminarea dintre lungimile de undă scurte și medii.

1.8 Mascarea și adaptarea


1.8.1 Mascarea spațială
Mascarea și adaptarea sunt fenomene extrem de interesante și de importante pentru
aplicațiile de procesare de imagini, ele constituind motivul fundamental care a stat la baza dezvoltării
modelului arhitectural de tip multi-canal pentru sistemul vizual uman.
Mascarea apare atunci cînd un stimul (de sine stătător vizibil) nu este detectat de către
observator datorită prezenței altui stimul vizual. Mascarea spațială poate fi cuantificată măsurând
pragul de detecție al stimulului de test sau țintă atunci când el apare simultan cu un stimul mască al
cărui contrast variază într-un domeniu dat. În Figura 8 sunt prezentate două curbe obținute într-un
asemenea experiment, pe axa absciselor fiind trecut contrastul stimulului mască, iar pe ordonată –
valoarea pragului de detecție a contrastului corespunzător stimulului de test. În absența stimulului
mască, stimulul de test este detectat la o valoare a contrastului notată CTo. Când contrastul stimulului
mască depășește valoare CMo, pragul de detecție crește și el. În cazul A, unde graficul crește progresiv,
este prezentată situația clasică de mascare când stimulii au caracteristici diferite. În cazul B se observă
o anomalie și anume faptul că stimulul de test devine mai ușor vizibil pe măsură ce contrastul stimulului
de mascare crește, nedepășind însă un anumit domeniu. Efectul poartă numele de evidențiere și
corespunde situației în care cei doi stimuli au proprietăți extrem de asemănătoare.
Mascarea spațială are loc atunci când stimulii implicați au fie frecvențe spațiale diferite, fie
orientări diferite, fie unul este colorat și celălalt acromatic. Cea mai puternică mascare se întâlnește
însă între stimuli asemănători ca frecvență, orientare sau culoare.

Figura 8 Curbele de mascare pentru stimulul țintă T și stimulul de mascare M. Curba A corespunde
efectului de mascare, iar B – efectului de evidențiere.

În cadrul mai larg al procesării de imagini este utilă înțelegerea acestui fenomen pentru a putea
acționa în consecință atunci când zgomotul de codare sau datorat transmisiei pe un canal de date este
mascat sau dimpotrivă, evidențiat de către elemente conținute de imaginea originală. Mascarea
spațială explică de ce aceeași distorsiune este mai vizibilă în anumite zone și aproape invizibilă în altele.

1.8.2 Non-independența în domeniul frecvențelor spațiale și al orientării


În general se pleacă de la premiza greșită cum că stimulii vizuali având frecvențe spațiale
distincte sau orientări distincte sunt percepuți în mod independent unul față de altul. Există însă dovezi
experimentale concrete care demonstrează faptul că între stimuli având frecvențe spațiale distincte

19
sau orientări distincte au loc interacțiuni de natură neliniară. Acest fenomen presupune modificări
importante ale arhitecturii de tip multi-canal a SVU, așa cum este el în general modelat numeric.

Figura 10.
În figura 10.A se observă în partea de sus un model de tip sinusoidal obținut pentru frecvența
spațială f, iar jos un model rezultat ca sumă de sinusoide cu frecvențele 4f, 5f și 6f. Se remarcă faptul
că modelul A-jos pare a fi având aceeași periodicitate spațială f ca și cel de sus, cu toate că nu conține
nici o componentă de frecvență f. Practic, deși mecanismul cortical care ar trebui să răspundă la un
stimul de frecvență f nu este excitat, totuși mecanismul corespunzător stimulilor de frecvență 5f va
reacționa și va oferi un răspuns care conține cumva și semnalul de frecvență f ce lipsește în realitate.
În figura 10.B se calculează suma dintre modelele de tip sinusoide orientate la 67,5o și -67,5o.
Rezultatul este un model ce pare a avea însă componente cu orientările verticală și orizontală.

1.8.3 Mascarea temporală


Mascarea temporală reprezintă creșterea pragurilor de vizibilitate datorită unor discontinuități
temporare ale intensității, de exemplu întreruperea apărută într-o secvență de film în urma tăierii unui
cadru. După o tranziție bruscă de la întunecat la luminos și invers, pragurile de vizibilitate cresc pentru
câteva sute de milisecunde. Neașteptat și interesant este faptul că asemenea creșteri ale pragului de
vizibilitate nu au loc numai după o discontinuitate bruscă a luminanței, ci și înainte să apară aceasta
(16). Această mascare apriori se explică prin latența semnalelor neurale din sistemul vizual care variază
în funcție de intensitatea luminii.

1.8.4 Adaptarea
Adaptarea la stimuli vizuali de un anumit tip poate conduce de asemenea la ajustări ale
senzitivității sistemului vizual uman. De exemplu, dacă ne obișnuim cu stimuli de o anumită frecvență
spațială, atunci senzitivitatea la contrast va scădea corepunzător pentru frecvențele spațiale învecinate
(17). Fenomenul este numit pattern adaptation.
Similar cu organizarea în cazul frecvențelor spațiale, răspunsul SVU la orientare depinde de
răspunsurile tuturor canalelor selective în orientare și care sunt menite să proceseze fiecare informația
cu o anumită orientare. Adaptarea la o anumită orientare particulară va ”obosi” acele canale setate pe
orientări cât mai apropiate de prima, iar răspunsul la stimulii succesivi va fi afectat în consecință.

20
Adaptarea la o anumită frecvență spațială (din dreptul săgeții) determină o scădere
temporară a senzitivității la contrast în zona frecvenței de adaptare.

1.9 Arhitectura multi-canal


Măsurătorile efectuate pentru determinarea câmpurilor receptoare ale neuronilor din nucleul
lateral geniculat și din cortexul vizual primar au arătat că multe celule sunt dedicate unor anumite
tipuri de informații vizuale, cum ar fi o anumită culoare, frecvență sau orientare spațială. Acești neuroni
sunt excitați numai de stimulii respectivi. În plus, experimente asupra fenomenelor de mascare,
adaptare și discriminarea stimulilor au demonstrat că diversele caracteristici ale informației vizuale
sunt procesate pe canale diferite din sistemul vizual uman. Aceste rezultate au condus la modelarea
multi-canal a sistemului vizual.

1.9.1 Mecanisme spațiale


Aşa cum s-a discutat anterior, numeroşi neuroni din cortexul vizual primar au câmpuri
receptoare care sunt excitate numai de o anumită frecvenţă spaţială şi orientare, încât reprezintă în
esenţă filtre orientate trece-bandă. Cu un număr suficient de celule setate într-un mod caracteristic,
pot fi acoperite toate orientările si frecvenţele din domeniul de senzitivitate a sistemului vizual.
Totuşi s-au purtat diverse dezbateri asupra modului de setare a celulelor, adică asupra lăţimii
de bandă, şi diferite experimente au condus la diferite rezultate. Pentru caile vizuale acromatice, cele
mai multe dintre studii ne dau estimate de aproximativ 1-2 octave pentru lărgimea de bandă a
frecvenței spaţiale și 20-60 de grade pentru orientarea benzii. Aceste rezultate sunt confirmate de
experimente psiho-fizice din studiile de discriminare și interacţiune a fenomenelor. Este interesant
faptul că aceste proprietăţi ale celulelor pot fii relaţionate şi chiar derivate din statisticile imaginilor
naturale. Mai puţine date empirice există despre căile cromatice. Se bănuiește că au lărgimi de banda
în domeniul frecvenţelor spaţiale asemănătoare, însă orientarea benzilor s-a dovedit recent a fii
semnificativ mai mare, între 60 și 130 de grade.

1.9.2 Mecanisme temporale


Mecanismele temporale au fost de asemenea studiate, însă nu s-a ajuns la un consens asupra
caracteristicilor lor spre deosebire de mecanismele spaţiale. În timp ce unele studii au concluzionat că
există un număr mare de celule neuronale cu lărgimi de bandă reglate îngust, altele au arătat că există
doar un singur mecanism cu o caracteristică de tip trece-jos si altul de tip trece bandă, numite în
general canalul de bază şi respectiv cel de tranziție. Răspunsurile în frecvență ale canalelor
corespunzătoare sunt prezentate în figura urmatoare.

21
Figura 5. Răspunsurile în frecvență ale canalelor de bază, respectiv de tranziție.

1.10 Clasificarea metodelor de evaluare a calității imaginilor și semnalelor


video

Înafară de cele două metrici bazate pe valoarea pixelilor din imagini, MSE și PSNR, în încercarea
de a dezvolta o nouă metodă de evaluare a calității video s-a pornit fie pe calea modelării sistemului
vizual uman (abordarea psiho-fizică), fie pe calea analizării anumitor caracteristici ale imaginilor, cum
sunt de exemplu artefactele de compresie (abordarea inginerească).
Abordarea psiho-fizică presupune modelarea anumitor trăsături, aspecte, mecanisme ale
sistemului vizual uman care intervin în decizia legată de calitatea imaginii. Asemenea mecanisme sunt
percepția culorii, senzitivitatea la contrast și mascarea anumitor texturi. Teoretic aceste metrici au un
caracter puternic generalizat și pot fi folosite într-o gamă largă de aplicații video. Au fost de asemenea
gândite metrici care au la bază cunoștințe din neurobiologie, însă acestea sunt mult mai puțin utile în
aplicațiile reale datorită complexității deosebite la care se ajunge în implementare.
Așa numita abordare inginerească se rezumă la extragerea unor elemente specifice de tipul
contururilor sau al artefactelor de compresie și analiza lor, pentru a putea da un estimat privind
calitatea imaginii respective. Asemenea metrici se folosesc adeseori de caracteristicile și mecanismele
prezente în sistemul vizual uman, însă ele nu-și propun să modeleze vederea umană ci să analizeze
imaginile.
Indiferent însă de calea pe care se pornește pentru a proiecta o metrică de evaluare a calității,
va fi necesară o etapă de reglare a valorilor anumitor parametri pentru a putea obține rezultate
similare cu cele de la testările subiective (cu observatori).
Metricile se mai pot clasifica considerând criteriul „câtă informație legată de secvența de
referință (cea originală, neafectată de distorsiuni) este necesară pentru evaluare”:
• metrici cu referință completă (FR – full reference metrics) sau metricile de evaluare a fidelității
realizează o comparație cadru cu cadru între secvența video luată ca referință și cea supusă
testării. Fiind necesară întreaga secvență de referință și sub formă necomprimată în general,
aceste metrici au așadar o restricție severă în utilizarea în aplicații practice.
• metrici fără referință (NR – no reference metrics) sunt metode care dispun doar de secvența
care trebuie testată și nu dețin nici o informație despre referință. Cu asemenea metode este
posibilă măsurarea calității video în orice sistem de compresie și transmisiune, de exemplu la
punctul de recepție al semnalului de televiziune. Dificultatea în acest caz constă în a face
distincția între distorsiuni și conținutul propriu-zis al imaginii, distincție pe care omul o face
ușor pe baza experienței acumulate.

22
• metrici cu referință redusă (RR – reduced reference metrics) se află undeva la mijloc între cele
două tipuri descrise anterior. Inițial se extrag o serie de informații/caracteristici din secvența
de referință și apoi se realizează comparația cu secvența de test numai pe baza acestora. Este
o soluție de compromis deoarece nu se ajunge nici la complexitatea metricilor FR, dar nici la
erorile grave la care se poate ajunge cu metricile NR când anumite texturi sunt interpretate ca
fiind distorsiuni. Această tehnică de evaluare a calității secvențelor video se bazează așadar pe
extragerea unor elemente care ocupă o bandă îngustă și care vor putea fi transmise odată cu
secvența originală pe lanțul de comunicație. Sunt metode ce prezintă avantaje reale în cazul
aplicațiilor de monitorizare a calității între două puncte în timp real, întrucât informația
suplimentară extrasă din referință se transmite cu ușurință prin rețelele de telecomunicații
uzuale și omniprezente astazi.
Metricile bazate pe valoarea pixelilor și cele care se încadrează în abordarea psihofizică aparțin
de obicei clasei FR, în timp ce metricile NR și RR urmează exclusiv abordarea așa numită inginerească.
Un aspect deosebit de important de care trebuie să se țină cont la metricile FR este alinierea
spațio-temporală perfectă între secvența de referință și cea de test, pentru ca operația de comparare
a unui pixel dintr-o imagine să se realizeze exact cu pixelul corespunzător din cealaltă imagine.
Dificultatea în aplicațiile practice apare la alinierea temporală, întrucât codoarele pot să mai sară peste
anumite cadre sau să varieze rata cadrelor în fluxul video codat, astfel transmisia se face adeseori cu
întârzieri suplimentare. Pe lângă acest dezavantaj, metricile FR necesită o calibrare specifică altfel nu
răspund bine la schimbările de luminanță, crominanță sau contrast. La metricile RR restricțiile sunt mai
puțin severe, căci doar trăsăturile analizate trebuie să fie aliniate. Problemele de aliniere nu se aplică
însă deloc metricilor NR.

1.11 Metode bazate pe valoarea pixelilor din imagine

Eroarea pătratică medie (MSE – Mean Square Error), raportul semnal/zgomot (SNR – Signal to
Noise Ratio) şi raportul semnal/zgomot de vârf (PSNR – Peak Signal to Noise Ratio) sunt metricile
clasice folosite în procesarea de imagini şi semnal video, având la bază calculul diferenţelor dintre două
imagini luate pixel cu pixel. MSE reprezintă media pătratului diferenţelor dintre nivelele de gri ale
pixelilor din două imagini, I şi I’:
1
𝑀𝑆𝐸 = ∑ ∑ ∑[𝐼(𝑡, 𝑥, 𝑦) − 𝐼 ′ (𝑡, 𝑥, 𝑦)]2 (2.1)
𝑇𝑋𝑌
𝑡 𝑥 𝑦

unde imaginile respective au dimensiunile XxY şi secvenţa video are T cadre. Uneori se
foloseşte rădăcina erorii medii pătratice care se defineşte
𝑅𝑀𝑆𝐸 = √𝑀𝑆𝐸. (2.2)
Raportul semnal/zgomot de vârf se măsoară în decibeli şi la rândul său se determină conform
relaţiei:
m2 m (2.3)
𝑃𝑆𝑁𝑅 = 10log10 = 20log10
MSE MSE
unde m reprezintă valoarea maximă pe care o poate lua un pixel din imaginea respectivă, de
exemplu 255 pentru imagini pe 8 biţi.
În mod similar, raportul semnal/zgomot se calculează între imaginea originală și cea trecută
printr-un sistem de test și distorsionată. Există mai multe posibilități de calcul a raportului SNR, cea
folosită în această lucrare fiind dată de relația:
1 (2.4)
𝑃𝐼 ∑𝑥 ∑𝑦 𝐼(𝑥, 𝑦)2
𝑆𝑁𝑅 = 10𝑙𝑜𝑔10 = 10𝑙𝑜𝑔10 𝑋𝑌
𝑀𝑆𝐸 𝑀𝑆𝐸

23
SNR constituie așadar o raportare a puterii semnalului original sau a imaginii de referință la
eroarea pătratică medie.
Se remarcă aşadar faptul că aceşti doi parametri, MSE şi PSNR, sunt definiţi astfel numai pentru
informaţia de luminanţă. Pentru imaginile color nu s-a ajuns la nici o înţelegere privitor la calculul lor.
În esenţă, MSE determină cât de diferite sunt două imagini, în vreme ce PSNR măsoară fidelitatea unei
imagini sau cât de bine se aseamănă ea cu o imagine de referinţă, de obicei imaginea originală
neafectată de distorsiuni.
Aceşti doi parametri sunt atât de larg răspândiţi şi folosiţi în primul rând datorită uşurinţei şi
rapidităţii cu care ei pot fi calculaţi. În plus, minimizarea parametrului MSE conduce la o altă problemă
bine cunoscută şi studiată din punct de vedere matematic, optimizarea celor mai mici pătrate în sensul
energiei minime.
Cu toate acestea, tocmai datorită faptului că la bază rămâne comparaţia pixel cu pixel dintre
două imagini, MSE şi PSNR redau numai în măsură limitată şi cu aproximaţie calitatea video percepută
de sistemul vizual uman. Există situaţii în care adăugarea de zgomot la o imagine conduce la
îmbunătăţirea calităţii subiective percepute, însă acest lucru conduce de fapt la o înrăutăţire
(reducere) a valorii PSNR. Un asemenea exemplu îl constituie operaţia de dithering asupra imaginilor
color şterse în urma cuantizării culorilor, operaţie prin care se adaugă zgomot imaginii. În plus,
particularităţi specifice sistemului vizual uman precum mascarea nu sunt luate deloc în considerare de
aceste metrici bazate pe valoarea pixelilor din imagini. Mascarea se referă la faptul că vizibilitatea
distorsiunilor depinde de fundalul imaginii şi de conţinutul acesteia per ansamblu, fiind mult mai uşor
de reperat o distorsiune situată pe un fundal relativ uniform decât în situaţia în care fundalul este o
textură încărcată, cu multă activitate, ca în Fig. 2.1.

Fig. 2.1 - Aceeași cantitate de zgomot a fost adăugată ambelor imagini, astfel încât PSNR-ul lor este același. În
imaginea din stânga, zgomotul a fost suprapus peste jumătatea inferioară a pozei, iar în dreapta a fost adăugat în
jumătatea superioară. Zgomotul nu e sesizabil în stânga datorită stimulilor de frecvență spațială înaltă, dar și datorită
mascării generate de textura bogată din josul imaginii. Cerul neted determină un fenomen de mascare mult mai slab, iar
zgomotul se observă imediat acolo. Evident, PSNR-ul nu ține seama de aceste caracteristici.

O serie de alţi parametri bazaţi pe valoarea pixelilor au fost studiaţi în lucrarea [73] şi s-a ajuns
la concluzia că pentru anumite tehnici de compresie şi tipuri de distorsiuni, asemenea parametri pot
estima cu succes evaluările subiective din testele cu observatori. Este vorba însă despre metode care
nu se pot extinde la alte tehnici de compresie a semnalelor video sau alte tipuri de distorsiuni. A fost
astfel necesară extinderea metricilor de evaluare obiectivă a calităţii video la modele de calcul în care
se ţine cont de caracteristicile sistemului vizual uman şi ale percepţiei vizuale.

24
1.12 Metode bazate pe modelarea sistemului vizual uman

Diversele tentative de modelare a sistemului vizual uman au în comun câteva etape de


procesare a informației vizuale, așa cum s-a descoperit că este ea prelucrată de creier. O schemă
fundamentală care se potrivește majorității metricilor ce simulează vederea umană este prezentată în
Fig. 2. [59].

Transformarea Funcția de
Descompunere Contrast local
spațiului sensibilitate la Mascare
perceptuală și Adaptare
culorilor contrast

Fig. 2.2 - Schema bloc a modelului generalizat al sistemul vizual uman

Transformarea spațiului culorilor. Prima etapă a modelării sistemului vizual uman constă în
prelucrarea informației de culoare pentru a trece într-un spațiu al culorilor opuse. În urma acestei
transformări, informația conținută în imagine este reprezentată prin trei semnale: unul acromatic și
două cromatice, calculate ca diferențe de culoare. În această etapă trebuie de asemenea rezolvat
fenomenul de mascare datorat luminanței sau neliniaritatea în percepția luminanței specifică
sistemului vizual uman. Un spațiu al culorilor complex precum CIE L*a*b* include această neliniaritate,
însă ea trebuie adăugată în cazul spațiilor de culoare liniare, mai simple.
Descompunerea perceptuală sau multi-canal. Se cunoaște faptul că sistemul vizual uman
prelucrează informația vizuală pe mai multe canale, fiecare canal fiind specializat pe o anumită bandă
de frecvențe spațiale și o anumită orientare. Măsurarea câmpului receptor pentru neuronii din
cortexul vizual primar a evidențiat faptul că aceste canale prezintă cu o bună aproximație o structură
bazată pe octave. Asemenea caracteristici pot fi bine simulate cu un banc de filtre sau cu o
descompunere wavelet. Un exemplu de banc de filtre este transformata cortex, o piramidă multi-
rezoluție flexibilă, ale cărei filtre pot fi ajustate într-un domeniu larg. Transformatele wavelet au însă
avantajul de a putea fi implementate astfel încât să eficientizeze la maximum efortul de calcul. Se
bănuiește că există canale dedicate pentru diversele viteze de deplasare ale obiectelor precum și
pentru frecvențele temporale.
Contrastul și adaptarea. Reacția sistemului vizual uman este cu mult mai slabă la valori
absolute ale luminanței decât reacția la variațiile locale de luminanță raportate la fundalul imaginii.
Contrastul este măsura acestor variații relative. În cazul texturilor simple este destul de ușor de definit
și determinat contrastul, însă devine extrem de dificil de modelat felul în care este perceput contrastul
unor imagini complexe deoarece totul depinde foarte mult de conținutul acestor imagini. În plus,
mecanismul de adaptare la un anumit nivel al luminanței sau la culoare poate influența considerabil
percepția cotrastului.
Sesibilitatea la contrast. În modelarea sistemului vizual uman trebuie luată în considerare
descreșterea sensibilității odată cu creșterea frecvenței spațiale. Fenomenul devine evident atunci
când se construiește funcția de sensibilitate la contrast. O modelare corectă a acestei funcții este însă
deosebit de dificilă în cazul imaginilor color. În mod uzual se face distincția între sensibilitatea la
contrast și la texturi, încât o funcție de sensibilitate la contrast trebuie determinată și implementată
pentru fiecare canal de culoare în parte. Sensibilitatea la contrast specific umană depinde de asemenea
de frecvența temporală a stimulilor vizuali. Asemenea funcției de sensibilitate la contrast pentru
frecvențe spațiale, funcția corespunzătoare frecvențelor temporale are o alură predominant trece-jos
și ușor trece-bandă. Efectele frecvențelor spațiale și temporale se pot observa din funcția de
sensibilitate la contrast spațio-temporală, cea mai folosită de altfel în modelele sistemului vizual uman
destinate aplicațiilor video.
Fenomenul de mascare. Prin mascare se înțelege fenomenul în care un stimul vizibil nu mai
poate fi detectat de observator datorită prezenței unui alt stimul. Se poate petrece și fenomenul opus
denumit evidențiere: un stimul care nu este detectat în mod normal de observatori devine vizibil

25
datorită prezenței altui stimul. În cadrul prelucrărilor de imagini interesează situația în care zgomotul
de codare și diversele distorsiuni sunt mascate sau din contră, evidențiate de către conținutul imaginii
originale. Mascarea explică de ce aceeași distorsiune poate fi extrem de supărătoare în anumite zone
ale imaginii și practic invizibilă în altele. Mascarea poate avea loc datorită contrastului, a contururilor
sau chiar a unor texturi. Există și fenomenul de mascare temporală care constă în creșterea bruscă a
pragurilor de vizibilitate datorită unor discontinuități temporale de luminanță, cum ar fi pauzele prea
mari între scene succesive. De remarcat faptul că mascarea temporală are loc nu numai după anumite
discontinuități, ci și înaintea lor.
Integrarea. Se bănuiește că informația vizuală prelucrată pe diferitele canale din cortexul
vizual primar este apoi integrată în zonele cerebrale următoare. Acest proces poate fi simulat prin
sumarea vectorială a datelor provenind de la bancul de filtre sau prin sumarea conform legilor
probabilistice. Totuși, trebuie menționat faptul că se cunosc foarte puține aspecte despre acest proces
cerebral de integrare a datelor și nu există nici un experiment care să confirme că asemenea operații
de sumare modelează corect procesul de integrare din sistemul vizual uman. Adeseori această sumare
se realizează pe toate dimensiunile pentru a obține o singură valoare pentru distorsiunile din imagine,
însă nu este absolut necesar. De exemplu se poate omite etapa de integrare pixel cu pixel pentru a
rezulta câte o hartă a distorsiunilor pentru fiecare cadru.

1.13 Evaluarea calității imaginilor pe baza similarității structurale – SSIM

Principiul de la baza metodei de evaluare a calității imaginii pe baza similarității structurale


este acela că sistemul vizual uman este adaptat pentru a extrage informația structurală din câmpul
vizual, deci măsurarea similarității structurale ar trebui să reprezinte o bună aproximare a imaginii
calității perceptuale. Intrebarea firească în continuare este ce tip de informații reflectă structura
obiectelor reprezentate într-o imagine. Este dificil de determinat un set relativ mic de caracteristici
care să descrie complet informația structurală dintr-o imagine. Problema se poate aborda și dintr-un
alt punct de vedere, și anume care este informația care nu este importantă pentru reprezentarea
structurii obiectelor. Un răspuns relativ simplu vine din modul în care se produce imaginea. Luminanța
suprafeței unui obiect reprezintă produsul dintre iluminare și reflectanță, însă structura obiectelor din
imagine este independentă de iluminare. De aceea se dorește separarea influenței iluminării de
informațiile esențiale pentru reprezentarea structurii obiectelor.
Principalul efect generat de schimbarea de iluminare este reprezentat de variația luminanței
medii și a contrastului din imagine. Este de preferat astfel măsurarea lor local, pe regiuni din imagine.
Algoritmul SSIM este prezentat schematizat în figura următoare:

Se presupune că x și y sunt două semnale imagine nenule. Scopul sistemului este de a oferi o
măsură a similarității dintre cele două imagini. Aceasta măsură se poate considera relevantă pentru
calitatea uneia dintre imagini, dacă cealaltă este luată ca referință (original). Pentru aceasta sunt
necesari trei parametrii: unul de luminanță, altul de contrast și al treilea de structură.
Într-o primă etapă sunt comparate luminanțele fiecărei imagini. Presupunând ca cele două
semnale sunt discrete, atunci intensitatea medie va fi descrisa de formula:

26
𝑁
1
𝜇𝑥 = 𝑥̅ = ∑ 𝑥𝑖
𝑁
𝑖=1
Funcția de comparare a luminanței l(x,y) va depinde așadar de variabilele µx si µy:
𝑙(𝑥, 𝑦) = 𝑙(𝜇𝑥 , 𝜇𝑦 )
După extragerea luminanței medii din semnal, se estimează contrastul prin deviația standard:
𝑁 1⁄2
1
𝜎𝑥 = ( ∑(𝑥𝑖 − 𝜇𝑥 )2 )
𝑁−1
𝑖=1
Compararea contrastului se realizează cu funcția 𝑐(𝑥, 𝑦) = 𝑐(𝜎𝑥 , 𝜎𝑦 ), în vreme ce compararea
structurilor se realizează cu funcția:
𝑥 − 𝜇𝑥 𝑦 − 𝜇𝑦
𝑠(𝑥, 𝑦) = 𝑠 ( , )
𝜎𝑥 𝜎𝑦
În final, cele trei funcții sunt reunite astfel încât să rezulte o măsură a similarității:
𝑆(𝑥, 𝑦) = 𝑓(𝑙(𝑥, 𝑦), 𝑐(𝑥, 𝑦), 𝑠(𝑥, 𝑦))
Funcțiile de comparație sunt relativ independente una față de alta, în sensul că modificari ale
luminanței sau ale contrastului nu au un impact foarte mare asupra structurii imaginilor. Funcțiile vor
fi definite în continuare, ținând cont de faptul că se dorește ca funcția de similaritate S(x,y) sa
îndeplinească urmatoarele condiții:
1. Simetrică: S(x,y)=S(y,x)
2. Marginită: S(x,y)<=1
3. Cu maxim unic: S(x,y)=1 dacă și numai dacă x=y.
Funcția de comparare a luminanței se definește astfel:
2𝜇𝑥 𝜇𝑦 + 𝐶1
𝑙(𝑥, 𝑦) = 2
𝜇𝑥 + 𝜇𝑦2 + 𝐶1
unde constanta C1 este introdusă pentru a evita împărțirea la zero când 𝜇𝑥2 + 𝜇𝑦2 tinde la zero,
𝐶1 = (𝐾1 𝐿)2. L reprezintă gama dinamică a valorilor pixelilor (255 pentru imagini pe 8 biți), iar 𝐾1 ≪
1. Compararea contrastului se realizează cu funcția:
2𝜎𝑥 𝜎𝑦 + 𝐶2
𝑐(𝑥, 𝑦) = 2 𝐶2 = (𝐾2 𝐿)2
𝜎𝑥 + 𝜎𝑦2 + 𝐶2
unde 𝐾2 ≪ 1. Pentru compararea structurii se dă relația:
𝜎𝑥𝑦 + 𝐶3
𝑠(𝑥, 𝑦) =
𝜎𝑥 𝜎𝑦 + 𝐶3
1 𝑁
unde 𝜎𝑥𝑦 = 𝑁−1 ∑𝑖=1(𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 ).
Combinand cele trei functii se obține scorul de similaritate SSIM pentru imaginile x și y:
𝑆𝑆𝐼𝑀(𝑥, 𝑦) = [𝑙(𝑥, 𝑦)]𝛼 ∙ [𝑐(𝑥, 𝑦)]𝛽 ∙ [𝑠(𝑥, 𝑦)]𝛾
unde parametrii 𝛼, 𝛽, 𝛾 sunt utilizați pentru a ajusta importanța relativă a fiecărei componente
în parte. În mod uzual se aleg 𝛼 = 𝛽 = 𝛾 = 1 și 𝐶3 = 𝐶2 /2, astfel încât scorul SSIM devine:
(2𝜇𝑥 𝜇𝑦 + 𝐶1 )(2𝜎𝑥𝑦 + 𝐶2 )
𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 2
(𝜇𝑥 + 𝜇𝑦2 + 𝐶1 )(𝜎𝑥2 + 𝜎𝑦2 + 𝐶2 )

27