Documente Academic
Documente Profesional
Documente Cultură
–
Metode de evaluare a calității imaginilor și a secvențelor
video
Ființa umană se bazează extrem de mult pe informația vizuală despre mediul înconjurător, iar
evoluția a ales ca o mare parte din resursele noastre neurologice să revină percepției vizuale. Prin
urmare, construirea unor metrici de evaluare a calității perceptuale pornind de la tentativa de a
modela funcționarea sistemului vizual uman este o abordare atât logică, cât și extrem de dificilă.
Asemenea metrici pot optimiza performanțele sistemelor digitale de achiziție, afișare, memorare și
transmisie a informației vizuale. Spre exemplu, din ce în ce mai mulți algoritmi de codare video folosesc
cunoștințe despre sistemul vizual uman pentru a putea preântâmpina apariția artefactelor vizuale
tipice anumitor sisteme; procedeul poartă numele de codare perceptuală și are la bază modele ale
unor mecanisme ale vederii umane. Aplicații de autentificare sau watermarking pot să beneficieze de
pe urma integrării unor asemenea metrici, fie pentru evaluarea algoritmilor de watermarking în sine,
fie pentru ascunderea mai eficientă a watermark-ului în imagini. În toate aceste aplicații sunt utile
cunoștințele despre limitările sistemului vizual uman, întrucât exploatarea lor maximizează în final
calitatea perceptuală.
Necesitatea de a avea modele exacte ale vizualizării a crescut pe măsură ce hotarul dintre
procesarea analogică şi cea digitală a informaţiei vizuale se apropie din ce în ce mai mult de
consumator. Ascensiunea sistemelor digitale pentru imagine a dat la iveală limitările tehnicilor folosite
în mod tradiţional la evaluarea şi controlul calităţii. Pentru sistemele analogice convenţionale au fost
bine puse la punct standardele de performanţă. Acestea se bazează pe semnale specifice de test şi pe
anumite metode măsură pentru determinarea parametrilor de semnal care pot fi legaţi de calitatea
percepţiei, avînd totuşi un nivel relativ mare de acurateţe. Cu toate că aceşti parametri sunt folositori
şi astăzi, legătura dintre ei şi calitatea percepută a devenit mai slabă. În urma compresiei, sistemele
digitale pentru imagini prezintă artefacte care se disting în mod fundamental de cele din sistemele
analogice. Cantitatea şi vizibilitatea acestor distorsiuni depind mult de chiar conţinutul în sine al
imaginii. În aceste condiţii, măsurătorile tradiţionale nu pot fi considerate adecvate pentru evaluarea
acestor artefacte, iar cercetătorii au fost nevoiţi să recurgă la experimente subiective de vizualizare
pentru a obţine clasificări ale calităţii imaginilor digitale pe care să se poată bizui. Deşi aceste teste ne
conduc cît se poate de aproape de adevăr în ceea ce priveşte calitatea percepută, ele sunt complexe
si mari consumatoare de timp, aşadar scumpe și greu de realizat.
Cu aceste probleme odată formulate, studiul modelelor de vizualizare şi de măsurare a calităţii
vizualizate s-a intensificat în ultimii ani. Abordările bazate pe SVU le înlocuiesc treptat pe cele clasice
în care determinarea calităţii se făcea cu măsurători MSE sau PSNR. Îmbunătăţirea calitativă care poate
fi obţinută folosind abordări bazate pe SVU este semnificativă şi se poate atribui unei largi game de
aplicaţii de procesare de imagini. Cu toate acestea, sistemul vizual uman este extrem de complex şi
multe din proprietăţile lui nu sunt pe deplin înţelese nici astazi. În vreme ce anumite aspecte şi-au găsit
deja locul în sistemele digitale de imagine, iar soluţii găsite ad-hoc în urma experienţei în domeniu au
condus la rezultate satisfăcătoare pînă la un anumit punct, progresele semnificative faţă de starea
curentă a lucrurilor necesită o înţelegere profundă a vederii umane în vederea proiectării unor modele
de încredere.
2
Principalele fenomene optice de interes sunt: reflexia, refracția și difracția.
Principiul fizic al refracției presupune schimbarea direcţiei razelor de lumină la suprafața de
separație a două medii transparente, însă cu indici de refracţie diferiţi. Indicele de refracţie n al unui
material se definește ca raportul dintre viteza luminii în vid c0 şi viteza luminii în acel material c: 𝑛 =
𝑐0 /𝑐. Unghiul de refracţie depinde atât de raportul indicilor de refracţie ai celor două medii, cât și de
unghiul φ dintre lumina incidentă și normala la suprafaţă: 𝑛1 sin 𝜑1 = 𝑛2 sin 𝜑2 .
1.2.2 Percepția
Noțiunea de adâncime a câmpului vizual (sau depth of field - DOF) se referă la zona de claritate
dintr-o imagine. Altfel spus, este acea porțiune a imaginii focalizată corect. O lentilă poate să focalizeze
cu precizie la o anumită distanță, iar scăderea în claritate are loc gradual de fiecare parte a distanței
de focalizare. Astfel, în zona de adâncime a câmpului vizual, variațiile locale ale clarității sunt
imperceptibile în condiții normale de vizualizare (capul pisicii din dreapta imaginii este aparent
focalizat corect în întregime; nu par să existe diferențe în claritatea din zona boticului și cea din zona
ochilor deși evident cele două zone nu se găsesc în același plan).
3
1.2.4 Acuitate vizuală
Acuitatea vizuală reprezintă în esență claritatea vederii și în mod special claritatea vizualizării
diverselor forme. Această claritate a formelor depinde de calitatea procesului de focalizare a imaginilor
pe retină precum și de sensibilitatea facultății cerebrale de interpretare. Altfel spus, acuitatea vizuală
este o măsură cantitativă a abilității de identificare a simbolurilor negre pe un fundal alb, atunci cînd
vizualizarea se face de la o distanță standardizată iar dimensiunea simbolurilor variază progresiv. Este
de altfel cea mai obișnuită metodă de determinare clinică a stării funcției vizuale.
Acuitatea vizuală dinamică definește abilitatea ochiului uman de a discerne între detaliile fine
ale unui obiect în mișcare.
În cadrul procesului de măsurare a acuității vizuale trebuie luate în considerare o serie de factori
care influențează rezultatul conducând la o valoare falsă. Acești factori, printre care putem aminti
dimensiunea pupilei, luminanța corespunzătoare fundalului, durata prezentării simbolurilor, de tipul
simbolurilor folosite, fac din această măsurătoare o determinare subiectivă.
𝑆
𝑉 = 2 ∗ 𝑎𝑟𝑐𝑡𝑎𝑛 ( ) (0.1)
2𝐷
unde S reprezintă dimensiunea frontală a obiectului, iar D este distanța de la ochi la obiect, ambele
exprimate în metri. Astfel, dacă cineva privește un obiect de 1cm de la o distanță de 1m și apoi un alt
obiect de 2cm de la o distanță de 2m, ambele vor subântinde același unghi de vizualizare și imaginile
lor pe retină vor avea aceeași dimensiune. Așadar, atunci când se discută calitatea unei imagini sau a
unui semnal video, ceea ce contează mai mult nu este dimensiunea imaginii sau a ecranului și nici
distanța de vizualizare, ci unghiul sub care se face vizualizarea.
4
Frecvența spațială este o caracteristică/proprietate a oricărei structuri care este periodică în
spațiu. Frecvența spațială constituie o măsură pentru cât de des se repetă structura per unitate de
distanță. În studiul percepției vizuale, stimulul sinusoidal este adeseori folosit în testarea sistemului
vizual. Pentru asemenea stimuli, frecvența spațială este determinată ca numărul de cicli (perioade ale
sinusoidei) raportat la unghiul de vizualizare.
Frecvența spațială este așadar o măsură pentru cât de des se repetă componentele sinusoidale
ale unei structuri raportat la o unitate a unghiului de vizualizare (componentele sinusoidale fiind cele
determinate cu transformata Fourier).
Rezoluția ecranului sau frecvența spațială maximă fmax se măsoară în cicli per grad al unghiului
de vizualizare și se calculează ținând cont de numărul L de linii de scanare a ecranului:
𝐿
𝑓𝑚𝑎𝑥 =
2𝑉
Diverse frecvențe spațiale prezente în același stimul vizual indică diverse informații despre
aparența stimulului respectiv. Frecvențele spațiale înalte (nr. mare de perioade pt. un unghi de
vizualizare specificat) reprezintă modificări bruște din imagine, cum ar fi muchiile, iar în general acestea
corespund informației structurale și detaliilor fine. Frecvențele spațiale joase (nr. mic de perioade pt.
același unghi de vizualizare), de cealaltă parte, corespund informațiilor globale legate de formă
(orientarea generală și proporțiile). Pentru majoritatea adulților, pragul de discriminare a frecvențelor
spațiale este de aproximativ 7%.
5
În testările audio: semnale sinusoidale cu diverse frecvențe și tării sonore sunt necesare pt a
testa canalele (benzile) auditive implicate în auz.
În testările vizuale: stimuli sinusoidali cu diverse frecvențe spațiale și nivele de contrast sunt
necesari în testarea canalelor vizuale implicate în sistemul vizual.
Cerința de proiectare imperativă pentru orice sistem care operează cu imagini sau semnale
video în format digital (stocare, redare, codare, transmisie, etc.) este aceea de a oferi în final o
imagine/semnal video acceptabil și chiar plăcut pentru observatori – ochiul uman fiind invariabil
observatorul final. Pentru a îndeplini această cerință de proiectare trebuie așadar să cunoaștem
răspunsul sistemului vizual uman (HVS). HVS este în esență sistemul care permite unui observator
uman să vadă, să interpreteze și să răspundă la stimulii vizuali.
6
O secțiune transversală prin ochiul uman, mult simplificată, este prezentată în figura
anterioară. Imaginea este focalizată pe retină de către lentilă sau cristalin care își modifică forma cu
ajutorul unui aparat muscular pentru a putea focaliza corespunzător atât obiectele apropiate cât și pe
cele depărtate. Irisul controlează apertura lentilei/cristalinului, așadar controlează cantitatea de
lumină care intră în ochi. Retina constituie o structură complexă de celule cu conuri (fotoreceptori
sensibili la culoare pentru nivele ridicate de lumină) și celule cu bastonașe (fotoreceptori sensibili la
luminanță pentru nivele scăzute de lumină). Cele mai sensibile celule cu conuri sunt situate în regiunea
centrală (fovea) ceea ce înseamnă că percepția culorilor la o rezoluție mare este realizată numai pentru
o zonă mică din centrul câmpului vizual. Nervii conectați la retină părăsesc globul ocular formând
nervul optic. Creierul uman procesează și interpretează informația vizuală bazându-se parțial pe
informația concretă primită de la retină și parțial pe informații și răspunsuri învățate anterior (cum
sunt de pildă formele obiectelor cunoscute).
Ochiul poate fi considerat echivalentul unui aparat de fotografiat, întrucât este format dintr-
un sistem de lentile cu apertură variabilă, care focalizează imaginile pe retina sensibilă la lumină. La
baza funcționării lui se regăsește principiul fizic al refracției, adică schimbarea direcţiei razelor de
lumină la suprafața de separație a două medii transparente, însă cu indici de refracţie diferiţi.
Lentilele folosesc refracţia pentru a determina lumina să fie convergentă sau divergentă, în
funcție de forma lor. Razele de lumină paralele sunt deviate spre exterior atunci când trec prin lentile
concave și spre interior atunci când trec prin lentile convexe. Această proprietate a unei lentile convexe
de concentrare a luminii este cea care determină formarea imaginii pe retină, însă imaginea produsă
este inversată (rotită la 180o față de axa optică). Practic, obiectele situate la distanța ds față de lentilă
sunt focalizate în spatele ei conform relației:
1 1 1
= + (1.1)
𝑓 𝑑𝑠 𝑑𝑖
unde di reprezintă distanța de la lentilă la imagine, iar f este distanța focală a lentilei. Un obiect situat
la o distanță infinit de mare de lentilă va fi focalizat la 𝑑𝑖 = 𝑓. Inversul distanței focale, 1/f se numește
putere optică a lentilei și se măsoară în dioptrii.
Un alt parametru specific sistemelor optice, deci și ochiului uman, este apertura variabilă care
face posibilă adaptarea la diferite nivele de intensitate luminoasă. Dimensiunea aperturii limitează
cantitatea de lumină care pătrunde în sistemul optic influențând astfel adâncimea câmpului vizual,
adică distanța până la care obiectele pot fi văzute cu claritate; o apertură mică produce imagini cu
adâncime de câmp mare, şi invers.
Tot apertura este responsabilă de apariția difracției. Atunci când o rază de lumină întâlnește
un obstacol se împrăștie, iar imaginea rezultată devine neclară sau cețoasă. Cât de neclară, depinde
de dimensiunea aperturii față de lungimea de undă a razei de lumină.
7
În Figura 1 este prezentată o secțiune transversală prin ochi din care se observă cu ușurință
faptul că ochiul uman este format din cornee, umoare apoasă, lentilă și umoare vitroasă. Fiecare
componentă are un indice de refracție propriu, iar puterea optică totală este de aproximativ 60 de
dioptrii. Lentila are o importanță deosebită deoarece curbura ei se poate mări prin contracția
musculaturii atașate de ea, mărind astfel puterea optică corespunzătoare. Procesul poartă numele de
acomodare și face posibilă focalizarea obiectelor situate la diferite distanțe de ochi.
Deschiderea circulară din mijlocul irisului este pupila sau apertura ochiului, prin ea pătrunzând
razele de lumină. Există și pentru pupilă un set de mușchi care o deschid mai mult sau mai puțin, în
funcție de intensitatea luminii ambiante, controlând astfel cantitatea de lumină care intră în lentilă
pentru o adaptare optimă la mediul înconjurător.
Se poate măsura calitatea optică aferentă ochiului uman, determinând cu exactitate zona de
pe retină unde este proiectat un stimul vizual de test. Această reflexie va fi o imagine distorsionată a
stimulului original, distorsiunea cea mai frecventă fiind încețoșarea. Folosind drept stimul vizual de
test un punct sau o linie subțire, imaginea rezultată pe retină este denumită funcție de împrăștiere a
punctului sau funcție de împrăștiere a liniei. Transformata Fourier a acestei funcții este funcția de
transfer modulatorie a ochiului (fct. de transfer a modulației).
Figura 1 Funcția de împrăștiere a punctului în funcție de unghiul de vizualizare, pt o pupilă de 3mm diametru
8
cu lungimea de undă. Denumirea de aberație cromatică se referă așadar tocmai la faptul că este
imposibilă focalizarea simultană a tuturor lungimilor de undă. Aberația cromatică poate fi pusă în
evidență și cuantificată determinând funcția de transfer modulatorie a ochiului pentru diferite lungimi
de undă, ca în Figură 2 unde diametrul pupilei este de 3mm și este focalizată lungimea de 580nm (9).
Este evident că imaginea formată pe retină conține puține detalii spațiale la lungimi de undă depărtate
de cea focalizată.
Figură 2 Funcția de transfer modulatorie a ochiului pt diametrul pupilei de 3mm și lungimea de undă focalizată 580nm
1.4.2 Retina
Ochiul proiectează imaginile din exterior pe retină sau ţesutul neural din fundul ochiului.
Elementele funcționale ale retinei sunt ilustrate în Figura 2. Lumina care ajunge la retină trebuie să
traverseze mai multe straturi de neuroni înainte să ajungă stratul de receptori fotosensibili şi să fie în
final absorbită de stratul cu pigmenţi. Practic, retina transformă energia electromagnetică a luminii în
semnale electro-chimice folosite de către sistemul nervos.
9
Figura 2 Retina – lumina trebuie să parcurgă mai multe straturi de neuroni pînă să ajungă la cei foto-sensibili
(care absorb o parte din ea) și la stratul de pigment (care aboarbe restul). Răspunsul dat de fotoreceptori va
fi însă trimis creierului prin axonii primului strat de celule ganglionare.
Fotoreceptorii
Fotoreceptorii sunt neuroni specializaţi care folosesc substanțe fotochimice sensibile la lumină
pentru a converti energia luminoasă incidentă în semnale care pot fi interpretate de creier. Exista 2
tipuri diferite de fotoreceptori – celule cu bastonaşe şi conuri. Numele este derivat din aspectul fizic
ale segmentelor lor exterioare sensibile la lumină. Bastonaşele sunt responsabile pentru vederea la
intensităţi mici de lumină și în general nu reacționează la informația de culoare, în timp ce conurile
sunt responsabile pentru vederea la intensităţi mai mari de lumină, ele sunt sensibile la culoare precum
și la detaliile spațiale fine (bastonașele sunt mai senzitive decât conurile). Mărimea şi spaţierea
fotoreceptorilor determină rezoluţia spaţială maximă a sistemului vizual uman. În retină există cu
aproximație 120 milioane de bastonașe și 6 milioane de conuri.
Există 3 tipuri de conuri: conuri sensibile la lungimile de undă scurte (conuri de tip S) (albastru),
sensibile la lungimi de undă medii (tip M) (verde) și cele sensibile la lungimi de undă mari (tip L) (galben-
roșu). Lungimea de undă variază în zona vizibilă a spectrului, aproximativ 400nm – 700nm. Fiecare tip
de con este practic ”orb la culoare”, adică informația privitoare la lungimea de undă a luminii absorbite
este pierdută. Conurile doar absorb anumiți fotoni și folosesc energia acestora pentru a genera
semnale către sistemul nervos (anunțând prezența luminii în câmpul vizual). Percepția culorilor are
loc ulterior în sistemul vizual, în primul rînd ținând cont de sensibilitățile spectrale diferențiate între
tipurile de conuri, și în al doilea rând comparând semnalele generate de fiecare tip de con. Fiind doar
3 tipuri de conuri, stimulul de culoare poate fi specificat prin 3 numere care indică gradul de absorbție
a luminii în cele 3 tipuri de celule fotoreceptoare cu conuri. Acest fenomen stă la baza principiului
tricromatic, conform căruia orice culoare poate fi obținută dintr-un amestec de 3 culori primare
corespunzător alese.
10
Figura 3 Spectrul normat de absorbție al celor 3 tipuri de conuri (S, M, L) și al bastonașelor (B).
Interconexiunile dintre aceste celule dau naștere unui concept important în percepţia vizuală,
câmpul receptor. Câmpul receptor al unui neuron este definit ca porțiunea/zona din retină în care
lumina incidentă influenţează răspunsul acelui neuron. Nu este limitat însă la celulele din retină,
întrucât mulţi neuroni în etape ulterioare din calea de procesare vizuală pot de asemenea să fie descrişi
de câmpurile lor receptoare.
Celulele ganglionare din retină au o caracteristică a câmpurilor receptoare aproape circulară.
Lumina care cade exact în centrul câmpului receptor al unei celule ganglionare poate să excite sau sa
inhibe celula. În vecinătatea care înconjoară regiunea, lumina are efectul opus (center-surround). Între
centru şi margine există și o mică zonă în care răspunsul este mixt. Circa jumătate din ganglionii retinali
au câmpuri receptoare cu zona de excitație în centru şi cealaltă jumătate cu zona de excitație la
marginea cîmpului receptor. Această organizare a câmpurilor receptoare se datorează în principal
inhibiţiei laterale manifestată de celulele orizontale. Drept consecinţă, semnalele excitatoare şi
inhibitoare se neutralizează unul pe celălalt atunci când stimulul vizual este uniform, însă în cazurile în
care un contur se suprapune peste un asemenea câmp receptor, răspunsul celulei va fi amplificat. Altfel
spus, neuronii retinali implementează un mecanism de percepţie a contrastului.
11
Celulele ganglionare pot fi clasificate la rândul lor în 3 categorii:
• Celule de tip P care constituie majoritatea (aproape 80% ) celulelor ganglionare. Acestea au
câmpuri receptoare foarte mici, primind impulsuri de la o zonă foarte mică din retină (de la un
singur con de exemplu), şi pot astfel să codeze informația vizuală corespunzătoare detaliilor
fine (câmp receptor circular de tip on sau off în centru, și opusul pe margine). Codează
informaţia cromatică, fiind diferențiate pe culori (celulele P răspund la schimbarea de culoare
și la schimbările majore de contrast).
• Celulele tip M constituie aproximativ 5-10% din celulele ganglionare. Câmpurile lor receptoare
sunt de câteva ori mai mari decât cele ale celulelor P (tot center-surround). Ele au deasemenea
axoni mai groși, ceea ce înseamnă că semnalul lor de răspuns circulă cu viteză mai mare.
Celulele M răspund la mişcare sau la mici diferențe ale nivelului de lumină, dar sunt insensibile
la culoare. Ele sunt responsabile cu alertarea și ajustarea rapidă a sistemului vizual
corespunzator schimbărilor imaginii.
• Celule tip K (bistratificate) constituie aproximativ 5-10% din celulele ganglionare. Au
dimensiuni foarte mici (recent descoperite) și câmpuri receptoare foarte mari (only center, no
surround) on – pentru conurile senzitive la albastru și off – pt. conurile senzitive la roșu și
verde. Insuficient cunoscute!
Aceste 3 tipuri de celule ganglionare reprezintă originea a 3 căi vizuale separate în creier, aşa
numitele căi magnocelulară, parvocelulară și koniocelulară.
Așadar retina este mai mult decât un dispozitiv de convertire a luminii în semnale neuronale;
informaţia vizuală este minuțios procesată aici, înainte de a fi transmisă mai departe altor zone din
creier.
12
Figura 3 Căi vizuale în creierul uman (secţiune transversală). Semnalele trec de la ochi prin nervul optic. Se
întâlnesc la chiasmul optic, unde fibrele de la jumătatea nazală a fiecărei retine traversează pe partea opusă
pentru a se alătura fibrelor de la jumătatea temporală a celeilalte retine. De acolo, tractul optic duce
semnalul la nucleul lateral geniculat şi la cortexul vizual primar.
Există o serie de destinaţii suplimentare la nivelul creierului pentru informaţia vizuală, în afară
de căile vizuale prezentate anterior. Aceste zone din creier sunt responsabile în principal cu gesturile
comportamentale de tip reflex, constituind reacții de răspuns la imaginile vizualizate.
Corpul geniculat lateral constituie o parte a thalamusului și cuprinde 6 straturi de neuroni;
dintre acestea, 2 straturi corespund stratului magnocelular și primesc semnal aproape numai de la
celule ganglionare de tip M. Celelalte 4 straturi, straturile parvocelulare, primesc impulsuri cu
precădere de la celulele ganglionare de tip P. După cum am menţionat anterior, celule M si P răspund
la stimuli diferiţi, cum ar fi mişcarea – la M şi detaliile spaţiale și culoarea – la P și K. Această funcţionare
specializată continuă în nucleul geniculat lateral şi în cortexul vizual, ceea ce sugerează existenţa a
două căi separate în sistemul vizual, căile magnocelulară si parvocelulară.
Celulele din straturile magnocelulare sunt insensibile la culoare şi au câmpuri receptoare
foarte mari; percepția adâncimii și a mişcării.
Între cele 6 straturi există celule mai mici care primesc informații de la celulele ganglionare K
din retină; culoare.
Celulele din straturile parvocelulare au câmpuri receptoare mici; culoare, schimbări majore de
contrast = muchii. Ele sunt excitate dacă o anumită culoare luminează centrul respectivului câmp
receptor şi inhibate dacă luminează marginile câmpului. Doar două perechi de culori sunt analizate și
anume roşu-verde şi albastru-galben. Aceste culori opuse formează principiul percepţiei culorilor în
sistemul vizual uman.
13
Figura 4 Câmpul receptor al unei celule simple din cortexul vizual primar. Zonele luminoase și întunecoase
reprezintă regiunile de excitație respectiv de inhibiție.
14
∆𝐿
𝐶𝑊 = (1.2)
𝐿
Pragul de detecție al contrastului sau contrastul minim necesar pentru ca un observator să
sesizeze o schimbare de intensitate este prezentat în Figura 5 în funcție de nivelul luminanței din
fundal. Caracteristica este constantă pe un domeniu destul de larg de intensități, de la lumina slabă
până la lumina zilei, datorită capacității de adaptare a sistemului vizual uman. Este același domeniu
întâlnit în general în diferitele aplicații de procesare de imagini. În aceste condiții, legea Weber-Fechner
este o aproximare a percepției senzoriale reale.
Figura 5 Pragul de detecție a contrastului rămâne aproape constant pe un domeniu larg de intensități
Variația exactă a pragului de detecție a contrastului depinde în mare măsură de caracteristicile
stimulului vizual precum culoarea, frecvența spațială și temporală. Aceste dependențe pot fi
cuantificate determinând funcția de sensibilitate la contrast (CSF – Contrast Sensitivity Function).
Sensibilitatea la contrast se definește ca inversul pragului de detecție a contrastului. În vederea
determinării CSF, se introduce noțiunea de contrast Michelson pentru un stimul periodic (de obicei
sinusoidal) cu frecvență variabilă:
𝐿𝑚𝑎𝑥 − 𝐿𝑚𝑖𝑛
𝐶𝑀 = (1.3)
𝐿𝑚𝑎𝑥 + 𝐿𝑚𝑖𝑛
unde Lmin și Lmax sunt valorile extreme ale luminanței pentru stimulul considerat.
În Figura 6 este prezentată forma (anvelopa) funcției spațiale de sensibilitate la contrast.
Luminanța pixelilor este modulată sinusoidal de-a lungul axei orizontale. Frecvența modulației crește
exponențial de la stânga la dreapta, în timp ce contrastul descrește exponențial de la 100% jos până la
0,5% sus. Valorile luminanței minimă și maximă rămân constante de-a lungul oricărei linii orizontale
prin imagine. Astfel, dacă detecția contrastului ar depinde strict de contrastul din imagine, dungile
alternante luminoase și întunecate ar trebui să aibe aceeași înălțime în toată imaginea. Ele apar însă
mai înalte în mijlocul imaginii decât spre margine, iar această formă de U întors a anvelopei vizibilității
constituie chiar funcția spațială de sensibilitate la contrast pentru stimul sinusoidal. Punctul de maxim
al acestei anvelope depinde de distanța de vizualizare.
15
Figura 6 Diagrama sensibilității la contrast conform Campbell-Robson. Funcția spațială de
sensibilitate la contrast se regăsește în anvelopa texturii modulate vizibile.
Figura 4 CSF reprezentată ca anvelopa unor multiple canale selective în frecvență spațială
Forma exactă a funcției CSF depinde de mai mulți factori și nu poate fi determinată cu
exactitate. Asemenea factori sunt: nivelul mediu de luminanță, localizarea spațială pe retină,
dimensiunea fizică, orientarea, frecvența temporală, caracteristicile individuale și patologice ale
observatorului.
16
În figura anterioară sunt prezentate aproximări spațio-temporale ale funcției de sensibilitate
la contrast. Sensibilitatea la contrast acromatică este în general mai mare/bună decât cea cromatică,
mai ales pentru frecvențele spațio-temporale înalte. Funcțiile CSF cromatice sunt 2 pentru cele 2
canale cromatice (roșu-verde și albastru-galben), însă ele sunt extrem de asemănătoare ca formă și am
ales doar una dintre ele. În general, întreaga gamă de culori este percepută numai la frecvențe joase.
Pe măsură ce frecvențele spațio-temporale cresc, sensibilitatea la contrast pentru canalul de albastru-
galben descrește rapid, urmată apoi îndeaproape de declinul sensibilității pt. canalul de roșu-verde,
astfel încât percepția ajunge să fie acromatică.
Colorimetria se referă la studiul cantitativ al percepției culorilor. Același termen este însă utilizat
adeseori în contextul determinării absorbției spectrale a unei soluții, proces realizat cu ajutorul unui
colorimetru.
În general lumina poate fi descrisă exact și complet prin distribuția ei spectrală de putere.
Percepția vizuală a culorii constituie capacitatea umană de a distinge obiectele în funcție de lungimea
de undă a luminii pe care acestea o reflectă sau o emit. Sistemul vizual uman diferențiază culorile
comparând răspunsurile la stimuli luminoși ale celulelor fotoreceptoare – conuri din ochi.
Sistemul vizual uman are însă un mod mult mai compact de reprezentare și percepție a
culorilor. În urma experimentelor cu observatori s-a putut stabili faptul că există raze de lumină diferite
care produc însă aceeași senzație de culoare. Razele respective au distribuții spectrale complet diferite
pe care observatorul uman nu le poate totuși distinge. Explicația acestui experiment constă în faptul
că cele două raze de lumină distincte produc aceeași rată de absorbție în celulele de tip conuri (de unde
aceeași senzație de culoare).
Așa cum a demonstrat Newton, culoarea este așadar o proprietate devoltată de mintea umană
și nu o proprietate a obiectelor în sine. Culorile rezultă în urma coexistenței simultane a trei factori: o
sursă de lumină, un obiect și sistemul vizual. Cu toate că produsul dintre radiația spectrală a sursei și
cea a unui obiect reflectant este cel care dă distribuția spectrală de putere a stimulului perceput vizual,
semnalul de culoare poate fi considerat mai degrabă produsul acestei mărimi cu senzitivitatea
spectrală specifică celor trei tipuri de celule conuri receptoare. Semnalul de culoare va consta astfel
din trei numere care exprimă nivelul de absorbție al celor trei tipuri de conuri corespunzător fiecărui
pixel din imagine. Din păcate încă nu s-a ajuns la o definiție standardizată a semnalelor specifice
celulelor receptoare de tip conuri, însă principiile de bază de aditivitate a culorilor au condus la o
descriere a semnalului de culoare care poate fi considerată liniară în raport cu aceste semnale specifice
celulelor conuri.
Unul dintre principiile de bază ale colorimetriei, teoria tricromatică, stabilește faptul că orice
culoare poate fi obținută din amestecul a trei culori primare alese în mod corespunzător. Astfel, se
poate scrie ecuația de obținere a unei culori de test C1:
17
𝐶1 = 𝑟1 𝑅 + 𝑔1 𝐺 + 𝑏1 𝐵 (1.4)
unde R(roșu), G(verde) și B(albastru) sunt culorile primare, iar r1, g1 și b1 sunt scalarii de
ajustare a intensității acestora. Principiul de amestec al culorilor primare în cantități diferite pentru a
rezulta o altă culoare se supune legilor de la algebră de aditivitate și proporționalitate, încât culorile
rezultante se pot aduna și multiplica cu o constantă.
Hering a fost primul care a pus în evidență faptul că anumite perechi de nuanțe creează o
singură senzație de culoare. Astfel, galben amestecat cu roșu este perceput ca portocaliu, însă un
amestec de verde și roșu va da totuși senzația de amestec a două culori distincte. A luat astfel naștere
teoria culorilor opuse conform căreia roșu și verde, precum și albastru și galben sunt perechi de nuanțe
opuse codate ca semnale diferență de culoare pe două căi vizuale distincte. În Figura 7 sunt prezentate
senzitivitățile diferențelor de culoare.
Ideea de canale oponente indică un nivel superior de procesare vizuală a elementelor legate
de aparența sau aspectul culorilor. Teoria culorilor opuse este susținută în primul rând de opoziția
dintre conurile L – M, precum și de opoziția dintre conurile S și suma conurilor L și M ( S – (L+M) ). De
asemenea, experimente fiziologice au demonstrat existența semnalelor diferență de culoare sau
semnale opuse în cadrul căilor vizuale. S-a observat că celulele conuri pot să aiba un efect excitator
sau inhibitor asupra celulelor ganglionare din retină și asupra celulelor din corpul geniculat lateral. De
exemplu, neuronii excitați de conurile L ”roșii” sunt de regulă inhibați de conurile M ”verzi”, iar
neuronii excitați de conurile S ”albastre” sunt adeseori inhibați de o combinație de semnale de la conuri
L și M.
Astfel, câmpurile receptoare ale acestor neuroni sugerează o legătură între semnalele
neuronale și culorile perceptual opuse.
Decorelarea semnalelor emise de conuri prin reprezentarea culorii sub formă de semnale
opuse constituie o îmbunătățire a eficienței codării informației în cadrul SVU.
Experimentul de anulare a unei nuanțe: observatorul poate să anuleze senzația de roșu a unei
lumini de test prin adăugarea a unei anumite cantități de lumină verde.
18
Canalul W-B, care codează informația de luminanță, este determinat cu precădere de către
lungimile de undă medii și lungi. Canalul R-G realizează discriminarea dintre lungimile de undă medii și
lungi, în timp ce B-Y realizează discriminarea dintre lungimile de undă scurte și medii.
Figura 8 Curbele de mascare pentru stimulul țintă T și stimulul de mascare M. Curba A corespunde
efectului de mascare, iar B – efectului de evidențiere.
În cadrul mai larg al procesării de imagini este utilă înțelegerea acestui fenomen pentru a putea
acționa în consecință atunci când zgomotul de codare sau datorat transmisiei pe un canal de date este
mascat sau dimpotrivă, evidențiat de către elemente conținute de imaginea originală. Mascarea
spațială explică de ce aceeași distorsiune este mai vizibilă în anumite zone și aproape invizibilă în altele.
19
sau orientări distincte au loc interacțiuni de natură neliniară. Acest fenomen presupune modificări
importante ale arhitecturii de tip multi-canal a SVU, așa cum este el în general modelat numeric.
Figura 10.
În figura 10.A se observă în partea de sus un model de tip sinusoidal obținut pentru frecvența
spațială f, iar jos un model rezultat ca sumă de sinusoide cu frecvențele 4f, 5f și 6f. Se remarcă faptul
că modelul A-jos pare a fi având aceeași periodicitate spațială f ca și cel de sus, cu toate că nu conține
nici o componentă de frecvență f. Practic, deși mecanismul cortical care ar trebui să răspundă la un
stimul de frecvență f nu este excitat, totuși mecanismul corespunzător stimulilor de frecvență 5f va
reacționa și va oferi un răspuns care conține cumva și semnalul de frecvență f ce lipsește în realitate.
În figura 10.B se calculează suma dintre modelele de tip sinusoide orientate la 67,5o și -67,5o.
Rezultatul este un model ce pare a avea însă componente cu orientările verticală și orizontală.
1.8.4 Adaptarea
Adaptarea la stimuli vizuali de un anumit tip poate conduce de asemenea la ajustări ale
senzitivității sistemului vizual uman. De exemplu, dacă ne obișnuim cu stimuli de o anumită frecvență
spațială, atunci senzitivitatea la contrast va scădea corepunzător pentru frecvențele spațiale învecinate
(17). Fenomenul este numit pattern adaptation.
Similar cu organizarea în cazul frecvențelor spațiale, răspunsul SVU la orientare depinde de
răspunsurile tuturor canalelor selective în orientare și care sunt menite să proceseze fiecare informația
cu o anumită orientare. Adaptarea la o anumită orientare particulară va ”obosi” acele canale setate pe
orientări cât mai apropiate de prima, iar răspunsul la stimulii succesivi va fi afectat în consecință.
20
Adaptarea la o anumită frecvență spațială (din dreptul săgeții) determină o scădere
temporară a senzitivității la contrast în zona frecvenței de adaptare.
21
Figura 5. Răspunsurile în frecvență ale canalelor de bază, respectiv de tranziție.
Înafară de cele două metrici bazate pe valoarea pixelilor din imagini, MSE și PSNR, în încercarea
de a dezvolta o nouă metodă de evaluare a calității video s-a pornit fie pe calea modelării sistemului
vizual uman (abordarea psiho-fizică), fie pe calea analizării anumitor caracteristici ale imaginilor, cum
sunt de exemplu artefactele de compresie (abordarea inginerească).
Abordarea psiho-fizică presupune modelarea anumitor trăsături, aspecte, mecanisme ale
sistemului vizual uman care intervin în decizia legată de calitatea imaginii. Asemenea mecanisme sunt
percepția culorii, senzitivitatea la contrast și mascarea anumitor texturi. Teoretic aceste metrici au un
caracter puternic generalizat și pot fi folosite într-o gamă largă de aplicații video. Au fost de asemenea
gândite metrici care au la bază cunoștințe din neurobiologie, însă acestea sunt mult mai puțin utile în
aplicațiile reale datorită complexității deosebite la care se ajunge în implementare.
Așa numita abordare inginerească se rezumă la extragerea unor elemente specifice de tipul
contururilor sau al artefactelor de compresie și analiza lor, pentru a putea da un estimat privind
calitatea imaginii respective. Asemenea metrici se folosesc adeseori de caracteristicile și mecanismele
prezente în sistemul vizual uman, însă ele nu-și propun să modeleze vederea umană ci să analizeze
imaginile.
Indiferent însă de calea pe care se pornește pentru a proiecta o metrică de evaluare a calității,
va fi necesară o etapă de reglare a valorilor anumitor parametri pentru a putea obține rezultate
similare cu cele de la testările subiective (cu observatori).
Metricile se mai pot clasifica considerând criteriul „câtă informație legată de secvența de
referință (cea originală, neafectată de distorsiuni) este necesară pentru evaluare”:
• metrici cu referință completă (FR – full reference metrics) sau metricile de evaluare a fidelității
realizează o comparație cadru cu cadru între secvența video luată ca referință și cea supusă
testării. Fiind necesară întreaga secvență de referință și sub formă necomprimată în general,
aceste metrici au așadar o restricție severă în utilizarea în aplicații practice.
• metrici fără referință (NR – no reference metrics) sunt metode care dispun doar de secvența
care trebuie testată și nu dețin nici o informație despre referință. Cu asemenea metode este
posibilă măsurarea calității video în orice sistem de compresie și transmisiune, de exemplu la
punctul de recepție al semnalului de televiziune. Dificultatea în acest caz constă în a face
distincția între distorsiuni și conținutul propriu-zis al imaginii, distincție pe care omul o face
ușor pe baza experienței acumulate.
22
• metrici cu referință redusă (RR – reduced reference metrics) se află undeva la mijloc între cele
două tipuri descrise anterior. Inițial se extrag o serie de informații/caracteristici din secvența
de referință și apoi se realizează comparația cu secvența de test numai pe baza acestora. Este
o soluție de compromis deoarece nu se ajunge nici la complexitatea metricilor FR, dar nici la
erorile grave la care se poate ajunge cu metricile NR când anumite texturi sunt interpretate ca
fiind distorsiuni. Această tehnică de evaluare a calității secvențelor video se bazează așadar pe
extragerea unor elemente care ocupă o bandă îngustă și care vor putea fi transmise odată cu
secvența originală pe lanțul de comunicație. Sunt metode ce prezintă avantaje reale în cazul
aplicațiilor de monitorizare a calității între două puncte în timp real, întrucât informația
suplimentară extrasă din referință se transmite cu ușurință prin rețelele de telecomunicații
uzuale și omniprezente astazi.
Metricile bazate pe valoarea pixelilor și cele care se încadrează în abordarea psihofizică aparțin
de obicei clasei FR, în timp ce metricile NR și RR urmează exclusiv abordarea așa numită inginerească.
Un aspect deosebit de important de care trebuie să se țină cont la metricile FR este alinierea
spațio-temporală perfectă între secvența de referință și cea de test, pentru ca operația de comparare
a unui pixel dintr-o imagine să se realizeze exact cu pixelul corespunzător din cealaltă imagine.
Dificultatea în aplicațiile practice apare la alinierea temporală, întrucât codoarele pot să mai sară peste
anumite cadre sau să varieze rata cadrelor în fluxul video codat, astfel transmisia se face adeseori cu
întârzieri suplimentare. Pe lângă acest dezavantaj, metricile FR necesită o calibrare specifică altfel nu
răspund bine la schimbările de luminanță, crominanță sau contrast. La metricile RR restricțiile sunt mai
puțin severe, căci doar trăsăturile analizate trebuie să fie aliniate. Problemele de aliniere nu se aplică
însă deloc metricilor NR.
Eroarea pătratică medie (MSE – Mean Square Error), raportul semnal/zgomot (SNR – Signal to
Noise Ratio) şi raportul semnal/zgomot de vârf (PSNR – Peak Signal to Noise Ratio) sunt metricile
clasice folosite în procesarea de imagini şi semnal video, având la bază calculul diferenţelor dintre două
imagini luate pixel cu pixel. MSE reprezintă media pătratului diferenţelor dintre nivelele de gri ale
pixelilor din două imagini, I şi I’:
1
𝑀𝑆𝐸 = ∑ ∑ ∑[𝐼(𝑡, 𝑥, 𝑦) − 𝐼 ′ (𝑡, 𝑥, 𝑦)]2 (2.1)
𝑇𝑋𝑌
𝑡 𝑥 𝑦
unde imaginile respective au dimensiunile XxY şi secvenţa video are T cadre. Uneori se
foloseşte rădăcina erorii medii pătratice care se defineşte
𝑅𝑀𝑆𝐸 = √𝑀𝑆𝐸. (2.2)
Raportul semnal/zgomot de vârf se măsoară în decibeli şi la rândul său se determină conform
relaţiei:
m2 m (2.3)
𝑃𝑆𝑁𝑅 = 10log10 = 20log10
MSE MSE
unde m reprezintă valoarea maximă pe care o poate lua un pixel din imaginea respectivă, de
exemplu 255 pentru imagini pe 8 biţi.
În mod similar, raportul semnal/zgomot se calculează între imaginea originală și cea trecută
printr-un sistem de test și distorsionată. Există mai multe posibilități de calcul a raportului SNR, cea
folosită în această lucrare fiind dată de relația:
1 (2.4)
𝑃𝐼 ∑𝑥 ∑𝑦 𝐼(𝑥, 𝑦)2
𝑆𝑁𝑅 = 10𝑙𝑜𝑔10 = 10𝑙𝑜𝑔10 𝑋𝑌
𝑀𝑆𝐸 𝑀𝑆𝐸
23
SNR constituie așadar o raportare a puterii semnalului original sau a imaginii de referință la
eroarea pătratică medie.
Se remarcă aşadar faptul că aceşti doi parametri, MSE şi PSNR, sunt definiţi astfel numai pentru
informaţia de luminanţă. Pentru imaginile color nu s-a ajuns la nici o înţelegere privitor la calculul lor.
În esenţă, MSE determină cât de diferite sunt două imagini, în vreme ce PSNR măsoară fidelitatea unei
imagini sau cât de bine se aseamănă ea cu o imagine de referinţă, de obicei imaginea originală
neafectată de distorsiuni.
Aceşti doi parametri sunt atât de larg răspândiţi şi folosiţi în primul rând datorită uşurinţei şi
rapidităţii cu care ei pot fi calculaţi. În plus, minimizarea parametrului MSE conduce la o altă problemă
bine cunoscută şi studiată din punct de vedere matematic, optimizarea celor mai mici pătrate în sensul
energiei minime.
Cu toate acestea, tocmai datorită faptului că la bază rămâne comparaţia pixel cu pixel dintre
două imagini, MSE şi PSNR redau numai în măsură limitată şi cu aproximaţie calitatea video percepută
de sistemul vizual uman. Există situaţii în care adăugarea de zgomot la o imagine conduce la
îmbunătăţirea calităţii subiective percepute, însă acest lucru conduce de fapt la o înrăutăţire
(reducere) a valorii PSNR. Un asemenea exemplu îl constituie operaţia de dithering asupra imaginilor
color şterse în urma cuantizării culorilor, operaţie prin care se adaugă zgomot imaginii. În plus,
particularităţi specifice sistemului vizual uman precum mascarea nu sunt luate deloc în considerare de
aceste metrici bazate pe valoarea pixelilor din imagini. Mascarea se referă la faptul că vizibilitatea
distorsiunilor depinde de fundalul imaginii şi de conţinutul acesteia per ansamblu, fiind mult mai uşor
de reperat o distorsiune situată pe un fundal relativ uniform decât în situaţia în care fundalul este o
textură încărcată, cu multă activitate, ca în Fig. 2.1.
Fig. 2.1 - Aceeași cantitate de zgomot a fost adăugată ambelor imagini, astfel încât PSNR-ul lor este același. În
imaginea din stânga, zgomotul a fost suprapus peste jumătatea inferioară a pozei, iar în dreapta a fost adăugat în
jumătatea superioară. Zgomotul nu e sesizabil în stânga datorită stimulilor de frecvență spațială înaltă, dar și datorită
mascării generate de textura bogată din josul imaginii. Cerul neted determină un fenomen de mascare mult mai slab, iar
zgomotul se observă imediat acolo. Evident, PSNR-ul nu ține seama de aceste caracteristici.
O serie de alţi parametri bazaţi pe valoarea pixelilor au fost studiaţi în lucrarea [73] şi s-a ajuns
la concluzia că pentru anumite tehnici de compresie şi tipuri de distorsiuni, asemenea parametri pot
estima cu succes evaluările subiective din testele cu observatori. Este vorba însă despre metode care
nu se pot extinde la alte tehnici de compresie a semnalelor video sau alte tipuri de distorsiuni. A fost
astfel necesară extinderea metricilor de evaluare obiectivă a calităţii video la modele de calcul în care
se ţine cont de caracteristicile sistemului vizual uman şi ale percepţiei vizuale.
24
1.12 Metode bazate pe modelarea sistemului vizual uman
Transformarea Funcția de
Descompunere Contrast local
spațiului sensibilitate la Mascare
perceptuală și Adaptare
culorilor contrast
Transformarea spațiului culorilor. Prima etapă a modelării sistemului vizual uman constă în
prelucrarea informației de culoare pentru a trece într-un spațiu al culorilor opuse. În urma acestei
transformări, informația conținută în imagine este reprezentată prin trei semnale: unul acromatic și
două cromatice, calculate ca diferențe de culoare. În această etapă trebuie de asemenea rezolvat
fenomenul de mascare datorat luminanței sau neliniaritatea în percepția luminanței specifică
sistemului vizual uman. Un spațiu al culorilor complex precum CIE L*a*b* include această neliniaritate,
însă ea trebuie adăugată în cazul spațiilor de culoare liniare, mai simple.
Descompunerea perceptuală sau multi-canal. Se cunoaște faptul că sistemul vizual uman
prelucrează informația vizuală pe mai multe canale, fiecare canal fiind specializat pe o anumită bandă
de frecvențe spațiale și o anumită orientare. Măsurarea câmpului receptor pentru neuronii din
cortexul vizual primar a evidențiat faptul că aceste canale prezintă cu o bună aproximație o structură
bazată pe octave. Asemenea caracteristici pot fi bine simulate cu un banc de filtre sau cu o
descompunere wavelet. Un exemplu de banc de filtre este transformata cortex, o piramidă multi-
rezoluție flexibilă, ale cărei filtre pot fi ajustate într-un domeniu larg. Transformatele wavelet au însă
avantajul de a putea fi implementate astfel încât să eficientizeze la maximum efortul de calcul. Se
bănuiește că există canale dedicate pentru diversele viteze de deplasare ale obiectelor precum și
pentru frecvențele temporale.
Contrastul și adaptarea. Reacția sistemului vizual uman este cu mult mai slabă la valori
absolute ale luminanței decât reacția la variațiile locale de luminanță raportate la fundalul imaginii.
Contrastul este măsura acestor variații relative. În cazul texturilor simple este destul de ușor de definit
și determinat contrastul, însă devine extrem de dificil de modelat felul în care este perceput contrastul
unor imagini complexe deoarece totul depinde foarte mult de conținutul acestor imagini. În plus,
mecanismul de adaptare la un anumit nivel al luminanței sau la culoare poate influența considerabil
percepția cotrastului.
Sesibilitatea la contrast. În modelarea sistemului vizual uman trebuie luată în considerare
descreșterea sensibilității odată cu creșterea frecvenței spațiale. Fenomenul devine evident atunci
când se construiește funcția de sensibilitate la contrast. O modelare corectă a acestei funcții este însă
deosebit de dificilă în cazul imaginilor color. În mod uzual se face distincția între sensibilitatea la
contrast și la texturi, încât o funcție de sensibilitate la contrast trebuie determinată și implementată
pentru fiecare canal de culoare în parte. Sensibilitatea la contrast specific umană depinde de asemenea
de frecvența temporală a stimulilor vizuali. Asemenea funcției de sensibilitate la contrast pentru
frecvențe spațiale, funcția corespunzătoare frecvențelor temporale are o alură predominant trece-jos
și ușor trece-bandă. Efectele frecvențelor spațiale și temporale se pot observa din funcția de
sensibilitate la contrast spațio-temporală, cea mai folosită de altfel în modelele sistemului vizual uman
destinate aplicațiilor video.
Fenomenul de mascare. Prin mascare se înțelege fenomenul în care un stimul vizibil nu mai
poate fi detectat de observator datorită prezenței unui alt stimul. Se poate petrece și fenomenul opus
denumit evidențiere: un stimul care nu este detectat în mod normal de observatori devine vizibil
25
datorită prezenței altui stimul. În cadrul prelucrărilor de imagini interesează situația în care zgomotul
de codare și diversele distorsiuni sunt mascate sau din contră, evidențiate de către conținutul imaginii
originale. Mascarea explică de ce aceeași distorsiune poate fi extrem de supărătoare în anumite zone
ale imaginii și practic invizibilă în altele. Mascarea poate avea loc datorită contrastului, a contururilor
sau chiar a unor texturi. Există și fenomenul de mascare temporală care constă în creșterea bruscă a
pragurilor de vizibilitate datorită unor discontinuități temporale de luminanță, cum ar fi pauzele prea
mari între scene succesive. De remarcat faptul că mascarea temporală are loc nu numai după anumite
discontinuități, ci și înaintea lor.
Integrarea. Se bănuiește că informația vizuală prelucrată pe diferitele canale din cortexul
vizual primar este apoi integrată în zonele cerebrale următoare. Acest proces poate fi simulat prin
sumarea vectorială a datelor provenind de la bancul de filtre sau prin sumarea conform legilor
probabilistice. Totuși, trebuie menționat faptul că se cunosc foarte puține aspecte despre acest proces
cerebral de integrare a datelor și nu există nici un experiment care să confirme că asemenea operații
de sumare modelează corect procesul de integrare din sistemul vizual uman. Adeseori această sumare
se realizează pe toate dimensiunile pentru a obține o singură valoare pentru distorsiunile din imagine,
însă nu este absolut necesar. De exemplu se poate omite etapa de integrare pixel cu pixel pentru a
rezulta câte o hartă a distorsiunilor pentru fiecare cadru.
Se presupune că x și y sunt două semnale imagine nenule. Scopul sistemului este de a oferi o
măsură a similarității dintre cele două imagini. Aceasta măsură se poate considera relevantă pentru
calitatea uneia dintre imagini, dacă cealaltă este luată ca referință (original). Pentru aceasta sunt
necesari trei parametrii: unul de luminanță, altul de contrast și al treilea de structură.
Într-o primă etapă sunt comparate luminanțele fiecărei imagini. Presupunând ca cele două
semnale sunt discrete, atunci intensitatea medie va fi descrisa de formula:
26
𝑁
1
𝜇𝑥 = 𝑥̅ = ∑ 𝑥𝑖
𝑁
𝑖=1
Funcția de comparare a luminanței l(x,y) va depinde așadar de variabilele µx si µy:
𝑙(𝑥, 𝑦) = 𝑙(𝜇𝑥 , 𝜇𝑦 )
După extragerea luminanței medii din semnal, se estimează contrastul prin deviația standard:
𝑁 1⁄2
1
𝜎𝑥 = ( ∑(𝑥𝑖 − 𝜇𝑥 )2 )
𝑁−1
𝑖=1
Compararea contrastului se realizează cu funcția 𝑐(𝑥, 𝑦) = 𝑐(𝜎𝑥 , 𝜎𝑦 ), în vreme ce compararea
structurilor se realizează cu funcția:
𝑥 − 𝜇𝑥 𝑦 − 𝜇𝑦
𝑠(𝑥, 𝑦) = 𝑠 ( , )
𝜎𝑥 𝜎𝑦
În final, cele trei funcții sunt reunite astfel încât să rezulte o măsură a similarității:
𝑆(𝑥, 𝑦) = 𝑓(𝑙(𝑥, 𝑦), 𝑐(𝑥, 𝑦), 𝑠(𝑥, 𝑦))
Funcțiile de comparație sunt relativ independente una față de alta, în sensul că modificari ale
luminanței sau ale contrastului nu au un impact foarte mare asupra structurii imaginilor. Funcțiile vor
fi definite în continuare, ținând cont de faptul că se dorește ca funcția de similaritate S(x,y) sa
îndeplinească urmatoarele condiții:
1. Simetrică: S(x,y)=S(y,x)
2. Marginită: S(x,y)<=1
3. Cu maxim unic: S(x,y)=1 dacă și numai dacă x=y.
Funcția de comparare a luminanței se definește astfel:
2𝜇𝑥 𝜇𝑦 + 𝐶1
𝑙(𝑥, 𝑦) = 2
𝜇𝑥 + 𝜇𝑦2 + 𝐶1
unde constanta C1 este introdusă pentru a evita împărțirea la zero când 𝜇𝑥2 + 𝜇𝑦2 tinde la zero,
𝐶1 = (𝐾1 𝐿)2. L reprezintă gama dinamică a valorilor pixelilor (255 pentru imagini pe 8 biți), iar 𝐾1 ≪
1. Compararea contrastului se realizează cu funcția:
2𝜎𝑥 𝜎𝑦 + 𝐶2
𝑐(𝑥, 𝑦) = 2 𝐶2 = (𝐾2 𝐿)2
𝜎𝑥 + 𝜎𝑦2 + 𝐶2
unde 𝐾2 ≪ 1. Pentru compararea structurii se dă relația:
𝜎𝑥𝑦 + 𝐶3
𝑠(𝑥, 𝑦) =
𝜎𝑥 𝜎𝑦 + 𝐶3
1 𝑁
unde 𝜎𝑥𝑦 = 𝑁−1 ∑𝑖=1(𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 ).
Combinand cele trei functii se obține scorul de similaritate SSIM pentru imaginile x și y:
𝑆𝑆𝐼𝑀(𝑥, 𝑦) = [𝑙(𝑥, 𝑦)]𝛼 ∙ [𝑐(𝑥, 𝑦)]𝛽 ∙ [𝑠(𝑥, 𝑦)]𝛾
unde parametrii 𝛼, 𝛽, 𝛾 sunt utilizați pentru a ajusta importanța relativă a fiecărei componente
în parte. În mod uzual se aleg 𝛼 = 𝛽 = 𝛾 = 1 și 𝐶3 = 𝐶2 /2, astfel încât scorul SSIM devine:
(2𝜇𝑥 𝜇𝑦 + 𝐶1 )(2𝜎𝑥𝑦 + 𝐶2 )
𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 2
(𝜇𝑥 + 𝜇𝑦2 + 𝐶1 )(𝜎𝑥2 + 𝜎𝑦2 + 𝐶2 )
27