Documente Academic
Documente Profesional
Documente Cultură
5. PERCEPŢIA VIZUALĂ
Cea mai mare parte a informaţiilor noastre despre mediul înconjurător ne este furnizată
prin intermediul sistemului vizual. Prelucrarea informaţiei vizuale este esenţială adaptării la mediu
– ea furnizează de pildă detalii privind forma, mărimea, culoarea, strălucirea, poziţia obiectelor în
spaţiu, în urma procesării acestor informaţii realizîndu-se recunoaşterea obiectelor. Aşadar,
realitatea fizică, obiectivă este „recreeată” la nivel perceptiv pentru a ne oferi imaginea unor
obiecte coerente şi a unui mediu stabil, predictibil.
Datorită rolului crucial pentru adaptare, sistemul vizual şi mecanismele de procesare a
informaţiei vizuale au fost subiectul cercetărilor minuţioase din neurofiziologie, psihofizică sau
psihologie cognitivă. Modelele teoretice elaborate în cadrul acesteia din urmă (ex. privind
recunoaşterea obiectelor) trebuie să satisfacă cel puţin trei constrângeri:
senzaţii – se referă în general la recepţia stimulilor din mediu şi codarea iniţială a acestor
informaţii la nivelul sistemului nervos .
percepţii – se referă la organizarea, interpretarea şi recunoaşterea informaţiilor senzoriale
(Aschraft, 1994).
Valoarea acestei distincţii senzaţii/percepţii este mai mult istorică decât practică sau
funcţională. Abordările recente din psihologia cognitivă propun o viziune integrativă a acestor
procese, în care esenţială este procesarea informaţiei vizuale, fie că este vorba de o procesare
primară, automată, modulară (detecţia culorii, adâncimii sau a contururilor obiectelor) fie că este
o procesare secundară, mai elaborată, implicată în recunoaşterea tridimensională a obiectelor.
În cele ce urmează vom parcurge pe scurt mecanismele fiziologice ale percepţiei vizuale
şi mai apoi vom descrie modelele principale care s-au consacrat în studiul computaţional al
percepţiei vizuale.
5.2. Neurobiologia procesării informaţiei vizuale
Sistemul vizual începe la nivelul ochiului care este similar cu un aparat fotografic.
Sistemul vizual recepţionează unde electromagnetice cu lungimi de undă între 440-810 mm care
determină o activitate fotochimică la nivelul receptorilor, formaţi din conuri (cu sensibilitate pentru
culori şi acuitatea detaliilor) şi bastonaşe (specializate in detectarea luminii de slabă intensitate) .
Ambele tipuri de receptori conţin pigmenţi sensibili la lumină. Fotonii stimulilor luminoşi provoacă
descompunerea acestor pigmenţi, dând naştere unor potenţiale electrice în celulele nervoase.
Receptoriii sunt conectaţi pe verticală de celule bipolare, ceule ganglionale şi nervii optici. Nervii
optici de la fiecare ochi converg în chiasma optică şi proiectează apoi în nucleii geniculaţi laterali
din talamus (LGN). De aici proiectează în cortexul vizual, lobul occipital. Lezarea nervului optic
produce deficite ale inputului vizual de la ochiul respectiv, însă lezarea fibrelor care traversează
chiasma optică produce deficite la nivelul ambelor câmpuri vizuale, tulburare numită hemianopie
bilaterală. Lezarea parţială a cortexului vizual produce „puncte oarbe” sau scotoame în câmpul
vizual, iar lezarea cortexului vizual primar produce orbire corticală, respectiv incapacitatea de a
distinge forme sau paternuri, cu păstrarea capacităţii de a percepe lumina
Distribuţia receptorilor la celulele ganglionale este diferenţială, fiecare con din zona
foveală este conectat la un ganglion, însă cu cât ne îndepărtăm spre periferia retinei, cu atât
numărul de receptori, adică de bastonaşe, conectaţi la o celulă nervoasă creşte, ajungând de
ordinul sutelor (Miclea, 1994).
Celulele off-on au o funcţie complementară celulelor on-off. Activitatea lor este maximă
dacă în zona centrală a câmpului receptor e expus un punct negru, mărginit sau circumscris de
fascicule luminoase. Dacă punctul sau pata neagră se decentrează, activitatea ganglionului se
reduce revenind, odată cu mărirea decentrării, la rata spontană de descărcare (Miclea, 1994).
Celulele simple detectează contururi, fante luminoase sau linii. De fiecare dată
când în câmpul vizual stâng sau drept e prezentată o fantă luminoasă, un contur sau o
linie, se constată o intensificare a frecvenţei potenţialelor de acţiune ale neuronului
respectiv. Specializarea acestor celule nervoase este atât de pregnantă încât ele
reacţionează numai la o anumită orientare şi localizare a elementelor respective. Celulele
care detectează linii verticale într-o anumită locaţie din câmpul vizual – deci care îşi
intensifică rata descărcărilor la apariţia unor astfel de stimuli – sunt diferite de neuronii
care-şi sporesc potenţialele de acţiune în prezenţa unei linii orizontale sau a unei linii
verticale aflate în altă locaţie. Câmpul receptor al celulelor simple nu mai este circular, ca
în cazul celulelor on-off şi off-on ci elongat (Miclea, 1994). O celulă simplă însumează
acivitatea mai multor celule on-off şi/sau off-on din nucleii geniculaţi laterali talamici.
Rezumând cele menţionate până acum, cortexul vizual este sediul unor celule care
detectează stimuli de complexitate tot mai mare. Din punct de vedere funcţional, aceste celule au
fost numite detectori de trăsături. Dincolo de proprietăţile lor specifice, neuronii detectori de
trăsături au câteva note comune: a) manifestă o reactivitate maximă la un anumit tip de stimul-
trăsătură, dar răspund, în măsură mai redusă şi la stimuli similari; b) sunt fatigabili; c) se
activează, semnalând prezenţa unui anumit stimul-trăsătură, iar prin inhibiţie laterală reduc
activitatea unor neuroni învecinaţi care detectează caracteristici similare, într-o zonă învecinată a
câmpului vizual (Miclea, 1994).
Calculul adâncimii.
Deşi pe retină apar numai imagini bidimensionale, totuşi percepem lumea în 3D. Unul din
mecanismele cele mai importante de detecţie a distanţelor şi adâncimii are la bază fenomenul
numit stereopsis, care se referă la faptul că cei doi ochi au unghiuri diferite de recepţie a
stimulilor vizuali, apărând o disparitate retinală. Plecând de la această disparitate se poate
calcula distanţa unui obiect faţă de observator, deci şi adâncimea în spaţiu. Deplasarea
obiectelor în spaţiu şi deplasarea noastră faţă de ele sunt alte surse de informaţii asupra
adâncimii sau distanţei. De asemenea, Gibson (1950, 1966) a arătat că informaţiile pot fi
conţinute de gradientul unei texturi, adică micşorarea sistematică a dimensiunilor elementelor
texturii şi distanţei dintre acestea.
Alte repere:
7. Mișcarea aparentă – când noi ne mișcăm, obiectele din jurul nostru care se mișcă au o
viteză cu atât mai mică, cu cât acestea sunt situate mai la distanță de noi. Dacă ați circulat
vreodată cu mașina pe o șosea pustie vi s-a părut cu siguranță că mergeți mult mai încet decât
pe o șosea aglomerată.
8. Acomodarea – cristalinul îsi modifică forma pentru a focaliza pe retină razele
luminoase, cu mai multă acuratete. Imaginea obiectelor mai depărtate se proiectează pe retină
prin contractia muschilor ciliari, care determină alungirea cristalinului. În cazul obiectelor mai
apropiate, muschii ciliari se relaxează pentru a permite rotunjirea cristalinului. Informatiile
kinestezice, de la nivelul acestor muschi, ajung la nivel cortical si furnizează informații despre
apropierea sau depărtarea obiectului în câmpul vizual.
Procesarea mişcării.
Percepţia deplasării unui obiect joacă un rol esenţial pentru supravieţuirea organismelor în
medii dinamice. Multe date experimentale susţin teza procesării deplasării în spaţiu a unui obiect
de către un modul independent. Se pare că aceste procesări sunt chiar mai rapide decât cele
care sunt implicate în recunoaşterea formei şi/sau a semnificaţiei sale. De exemplu, tendinţa
generală a subiectului uman de a-şi feri capul din calea obiectelor aflate în mişcare a fost
evidenţiază din primele săptămâni de viaţă (Regan et al., 1986). Celulele nervoase implicate în
detectarea mişcării sunt specifice în funcţie de direcţia acestei mişcări; acelaşi obiect, deplasat în
direcţii diferite, este procesat de celule nervoase diferite.
Detectarea culorii.
Detectarea culorii poate constitui o finalitate în sine dar poate servi şi la segregarea mai
rapidă a figurii de fond. Culoarea este obţinută prin mecanisme exclusiv chimice. Sistemul vizual
realizează o reconstrucţie a stimulului prezentat pornind de la proiecţia sa pe retină. Percepţia
obiectelor nu se face instantaneu, nemijlocit, ci prin medierea unor mecanisme de tip modular,
care au ca input proiecţia retinală, iar ca output schiţa 2½D. Astfel, la sfârşitul unei faze de
procesare care durează mai puţin de 200 ms, subiectul surprinde contururile, adâncimea,
deplasarea, forma şi culoarea obiectelor. Pe baza acestor procese se realizează segregarea
figurii de fond sau a obiectelor de mediul în care se află. Schiţa 2½D este o reprezentare
intermediară a stimulului, care încă nu a fost recunoscut. Ea este „centrată pe subiect”, adică
depinde de alinierea ochi-stimul – privit din unghiuri diferite, un obiect îşi relevă contururi diferite.
Stimuli vizuali
Schiţa primară
Detectarea
Procesarea poziţiei şi Procesarea Culoarea
Procesarea
distanţei şi formei din texturii
mişcării
a adâncimii procesarea
umbrelor
Reprezentarea 3 D
Fig. nr. 10. Schema generală de procesare a informaţiei vizuale (Miclea, 1994)
Una dintre cele mai interesante modelări computaţionale ale recunoaşterii obiectelor -
RBC (recognition by components) a fost realizată de I. Biederman (1987, 1988, 1990).
Psihologul american porneşte de la tendinţa cotidiană, naturală a subiectului de a segmenta
obiectele complexe în părţile lor componente. Un elefant, de pildă, e considerat ca fiind compus
din corp, trompă, cap, picioare şi coadă. Un om - din cap, corp, braţe, picioare etc. Uşurinţa
segmentării obiectelor complexe în părţile lor componente e vizibilă şi în desenele sau schiţele de
desen pe care le facem aproape la orice vârstă.
Părţile în care sunt descompuse obiectele pot fi considerate ca nişte volume primitive
numite geoni (de la geometrical ions). Un obiect complex poate fi specificat prin geonii
componenţi şi modul de dispunere a lor. Aceeaşi geoni aflaţi în relaţii diferite reprezintă obiecte
diferite. Bazându-se pe o estimare a numărului de obiecte concrete, semnificativ diferite din
universul cunoscut nouă până în prezent, Biederman susţine că întreaga diversitate obiectuală ar
putea fi redusă la 24 de geoni şi a combinaţiilor dintre aceştia. În figura nr.11 sunt prezentaţi 10
astfel de geoni şi câteva din obiectele care pot fi constituite prin compunerea lor.
Fig.nr.12. Stimuli fizici (a) şi
segmentarea lor în zonele de
maximă concavitate locală (c)
sau în alte zone (b). (apud
Biederman, 1987)
/ \AI / \CASĂ!
Fără prea multă dificultate aţi redus ambiguitatea mesajului percepând propoziţia HAI
ACASĂ! Aceeaşi configuraţie ambiguă / \ este interpretată, în contextul primului cuvânt ca fiind
litera H iar în contextul celui de-al doilea cuvânt ca fiind A . Cunoştinţele noastre de limba
română şi despre semnificaţia semnului exclamării au iniţiat un proces de analiză descendentă
care au dus la specificarea configuraţiilor. Analiza ascendentă - pe trăsături - ar fi fost insuficientă
în acest caz. Cunoştinţele noastre lexicale au funcţionat ca nişte constrângeri ale recunoaşterii
configuraţiei ambigue astfel încât, cele două cuvinte impunând constrângeri diferite au determinat
decodări diferite. Perceput independent de context, configuraţia ambiguă ar fi fost lipsită de
constrângeri, putând s-o interpretăm în chipuri diferite.
Recunoaşterea mai rapidă a unei litere dacă ea este prezentată în contextul unui cuvânt a
fost demonstrată experimental în repetate rânduri. G. Reicher (1969) a prezentat la tahistoscop
un caracter ţintă - să zicem "K" în trei situaţii diferite: a) în contextul unui cuvânt cu sens (ex:
"WORK"); b) în contextul unei configuraţii lingvistice fără sens (ex: "WKOR"); c) independent (ex:
"K"). Pentru fiecare dintre aceste situaţii subiecţii trebuiau să decidă dacă, la tahistoscop, au
văzut litera "K" sau litera "D". S-a constatat că recunoaşterea - operaţionalizată atât prin numărul
de erori cât şi prin timpul de reacţie - este cea mai eficace în situaţia a). Mai exact, numărul de
erori înregistrate la discriminarea dintre D şi K este cu 10% mai mic dacă literele sunt
prezentate în contextul unui cuvânt decât dacă sunt prezentate independent. El a numit acest
rezultat efectul superiorităţii cuvântului, (superiority word effect), subliniind că recunoaşterea
unei litere e mai rapidă dacă ea e încadrată într-un cuvânt cu sens decât dacă ea este prezentată
independent sau într-o configuraţie fără sens.
La prima vedere suntem în faţa unui efect paradoxal, procesarea unei singure litere fiind
realizată într-un timp mai îndelungat decât procesarea unei secvenţe (cu sens) de patru litere.
Rumelhart & Siple (1974) oferă o explicaţie acestui efect. Ei susţin că pentru a discrimina între
"D" şi "K" trebuie realizată o analiză pe trăsături completă dacă aceste caractere sunt prezentate
independent. În schimb, dacă sunt prezentate în cadrul unui cuvânt e suficientă procesarea unei
singure trăsături (ex: ) de la D sau de la K) pentru a le discrimina, deoarece, prin analiză
descendentă, activarea sensului posibil al cuvântului circumscrie semnificaţia ultimei litere,
nemaifiind necesară prelucrarea ei completă.
Ulterior, McClelland & Rumelhart (1981) au construit o reţea neuromimetică în stare să
producă acest efect pe care o vom prezenta într-un subcapitol ulterior. Explicaţia lui Rumelhart &
Siple ne atrage atenţia asupra caracterului puternic redundant al majorităţii stimulilor complecşi.
Oricine poate constata acest lucru cînd, fiind pus să citească un text în care părţi din litere erau
şterse a putut face acest lucru fără dificultăţi deosebite. Secvenţa: scxiu x frxză xn cxre xiexarx a
txeix lixerx esxe x xar xoaxe fx cixitx poate fi într-adevăr citită, datorită procesărilor descendente,
chiar dacă lipsesc foarte multe caractere. Devine acum evident faptul că, în recunoaştere,
prelucrarea ascendentă este dublată de analiza descendentă. Acest lucru nu are loc în cazul
procesării primare a informaţiei vizuale deoarece este efectuată de moduli impenetrabili cognitiv.
Violarea cunoştinţelor tacite nu duce numai la sporirea timpului de reacţie necesar pentru
recunoaşterea scenelor ci adesea provoacă surpriză şi efecte comice. Să ne închipuim, de pildă,
un şoarece cât un motan căutând să se ascundă de un motan cât un şoricel, sau că cel mai
sever profesor pe care-l cunoaştem a devenit transparent, umblă în mâini prin mijloacele de
transport în comun după care, brusc, se ridică la cer.
Sumar
Informaţia vizuală este prelucrată în două stadii. În prima fază (= prelucrarea primară),
caracteristicile fizice ale stimulului sunt procesate în paralel, de mai multe mecanisme modulare.
Din schiţa primară sunt extrase contururile, textura, deplasarea, poziţia, forma, adâncimea şi
culoarea. Outputul lor este o imagine intermediară a stimului, dependentă de punctul de vedere
al subiectului (= schiţa 21/2D). Caracteristicile nonaccidentale ale schiţei inermediare şi gruparea
după principii gestaltiste a stimulilor iniţiază a doua etapă a procesărilor vizuale. Ea are ca
rezultat recunoaşterea obiectului pe baza construirii imaginii sale integrale, 3D. Diversitatea
stimulilor complecşi este redusă prin descompunerea lor în geoni. Geonii rezultă din
segmentarea (automată) a obiectelor în zonele de maximă concavitate locală. Orice obiect poate