Sunteți pe pagina 1din 27

Nome: Wiliam Francisco Rocha

Disciplina: Visão Computacional

Questão 1:
O espectro eletromagnético são regiões espectrais da radiação eletromagnética
(REM) conhecidas atualmente, que se estende desde os comprimentos de onda dos raios
cósmicos aos comprimentos de corrente alternada emitidos pelas redes de alta tensão. A
verdade é que, a faixa de comprimento de onda da REM é praticamente ilimitada.
A REM possui comportamento dual, onde ela se comporta como onda e energia,
formulada pelos modelos denominados ondulatório (onda) e corpuscular (energia). Sob
uma perspectiva ondulatória, ondas eletromagnéticas podem ser interpretadas como ondas
senoidais, de vários comprimentos, que propagam na forma de ondas formadas pela
oscilação dos campos elétrico e magnético, e sob a perspectiva corpuscular, as ondas
eletromagnéticas se comportam como um fluxo de partículas sem massa, concebida com
resultado da emissão de pequenos pulsos de energia, cada uma se deslocando em um
padrão ondulatório e se movendo na velocidade da luz. Cada partícula sem massa contém
certa quantidade de energia, denominada fóton. Segundo Gonzalez e Woods(2010, p.34) se
agruparmos as bandas espectrais de acordo com a energia por fóton, teremos o que
chamamos de espectro mostrado na figura 1.5 , variando desde raios gama (mais alta
energia) em um extremo a ondas de rádio (mais baixa energia) no outro.

Modelo Ondulatório:
Segundo o modelo ondulatório, a REM pode ser explicada como uma forma de
onda senoidal e harmônica. De acordo com as formulações de Maxwell, uma
partícula carregada eletricamente gera um campo elétrico em torno de si e o
movimento dessa partícula gera, por sua vez, um campo magnético. Ambos os
campos, elétrico e magnético, atuam vibrando ortogonalmente entre si e possuem
as mesmas amplitudes, isso é, alcançam os seus máximos ao mesmo tempo. As
variações do campo são causadas pelas vibrações da partícula. Quando essa
partícula é acelerada, as perturbações entre os dois campos se propagam
repetitivamente no vácuo em uma direção ortogonal à direção dos campos
elétricos e magnéticos, como é mostrado na Figura 1.1. Essas perturbações dos
campos elétrico (E) e magnético (M) são chamadas de ondas eletromagnéticas. O
comprimento da radiação eletromagnética depende de quanto tempo a partícula é
acelerada, e a frequência ν da radiação depende da frequência de vibração da
partícula. Assim, define-se uma onda eletromagnética como a oscilação dos
campos E e M, segundo um padrão harmônico de ondas, isso é, ondas espaçadas
repetitivamente no tempo. Esses campos dinâmicos sempre ocorrem juntos como
padrões inseparáveis, de modo que nem campo elétrico puro, nem campo
magnético puro de ondas irradiadas ocorrerão separadamente um do outro
(ALMEIDA e MENESES, 2012, p.4).
Modelo Corpuscular:
As formulações de Maxwell sobre o comportamento da radiação eletromagnética
como um movimento de ondas suaves dos campos elétrico e magnético falham
em explicar certos importantes fenômenos quando a radiação eletromagnética
interage com a matéria. Esse comportamento é mais evidente para as ondas de
pequenos comprimentos. Desde os primeiros experimentos de geração de ondas
eletromagnéticas observou-se que a radiação é emitida em forma de pulsos que
carregam certa quantidade de energia. Em 1901 Planck observou que a REM
transferia energia de um corpo para outro em quantidades fixas e discretas, à qual
denominou de fótons. O fóton é a forma física de um quantum, a partícula básica
estudada em mecânica quântica (ramo da física que se dedica com o muito
pequeno, nos níveis atômicos ou subatômicos), e que pode ser descrita como a
partícula mensageira da energia da onda eletromagnética. Os fótons são como
corpúsculos de energia sem matéria. Assim, uma onda eletromagnética exibe
propriedades de partículas, como as partículas (elétrons) exibem propriedades de
onda.De acordo com o modelo corpuscular, a energia da onda, ao atingir a
superfície dos materiais, interage com ela por meio de trocas de energia entre a
energia discreta que carrega e as energias, também discretas, contidas nos átomos
e moléculas da matéria. As energias contidas nos átomos e moléculas estão
distribuídas por níveis de energia, que são determinados pelos orbitais dos
elétrons em torno do núcleo e pelas forças de vibrações das ligações moleculares.
Para haver uma troca ou interação da energia da radiação da onda com a energia
da matéria, é preciso que a REM incidente seja em parte absorvida pelos elétrons
ou moléculas, o que promove uma mudança do elétron de um orbital para outro
de maior energia, ou em um aumento da intensidade da vibração molecular
(Figura 1.4). A parte da energia da radiação eletromagnética que não é absorvida
é refletida para o sensor. Nesse processo, as imagens medem a radiação refletida,
mas, indiretamente, podemos avaliar o que foi absorvido pelos materiais.
(ALMEIDA e MENESES, 2012, p.8).
Raios Cósmicos: Tem comprimento de onda de 0,1 x 10-10 m.
O fluxo de raios cósmicos que atravessam os meios interplanetários e interestelar
e composto de 90% de prótons, 9% de partículas alfa e o restante de núcleos de
elementos mais pesados. A movimentação destas partículas pela heliosfera é um
exemplo de interações magnetohidrodinâmicas. Magnetohidrodinâmica (MHD) é
o estudo do movimento de um fluido condutor de eletricidade na presença de um
campo magnético. As correntes elétricas induzidas no fluido como resultado de
seu movimento alteram as linhas de campo magnético, por sua vez a variação das
linhas de campo magnético produzem forças que modificam o movimento do
fluido. Os conceitos de raios cósmicos são de imprescindível importância para a
compreensão das condições ambientais no espaço interplanetário que podem
causar algum impacto sobre o ambiente terrestre (OLIVEIRA et al, 2014).

Através da combinação de varias técnicas de detecção formam-se os sensores utilizados


atualmente. Exemplos de detecção são: câmera de nuvens, emulsões fotográfica e nuclear,
detectores de ionização, calorímetro, detectores de radiação de transição, cintiladores,
detectores cherenkove e tubos fotomultiplicadores. Para se identificar partículas são
combinados vários detectores.
Sensores:
PAMELA (Payload for Antimatter-Matter Exploration and Light Nuclei Astrophysics).

Fonte: Bonifazi(2015)
O AMS-02 (Alpha Magnetic Sprectrometer) foi desenhado para operar como um módulo
externo da estação espacial internacional. Seu objetivo principal é a busca de anti-
matéria, mas também realiza medições de alta precisão da composição dos raios cósmicos
e seu fluxo.

Fonte: Bonifazi(2015)

Raios Gama: Com comprimento de onda de 0,01 a 0,01 x 10-10m.


Segundo Montanheiro(1977)”Quando um raio gama incide em um material, pode interagir
principalmente por três mecanismos; efeito Compton, efeito fotoelétrico e produção de par”.
Quando um raio gama interage, por um dos três processos acima descritos, com certas
substâncias denominadas cristais cintiladores, uma pequena cintilação (fótons visíveis) é
produzida. O processo de transformação de raios em fótons visíveis constitui o princípio de
operação dos detectores de cintilação, O detector geralmente usado para radiação gama é o
cristal de iodeto de sódio contendo traços de tálio, cristal NaI(Tl).
Exemplo de sensores utilizados:

Fonte: http://site.mast.br/multimidia_instrumentos/cintilometro_atualidade.html

Raios X: Possui comprimento de onda entre 0,1 a 10-10m.

Os raios X estão entre as fontes mais antigas de radiação EM utilizada para a


formação de imagens. A mais conhecida utilização dos raios X é no diagnóstico
médico, mas eles também são amplamente utilizados na indústria e em outras
áreas, como a astronomia. Os raios X para a formação de imagens médicas e
industriais são gerados utilizando um tubo a vácuo com um catodo e um anodo. O
catodo é aquecido, fazendo com que elétrons sejam liberados. Esses elétrons se
movimentam em alta velocidade na direção do anodo positivamente carregado.
Quando os elétrons atingem um núcleo, a energia é liberada na forma de radiação
de raios X. A energia (capacidade de penetração) dos raios X é controlada por
uma tensão aplicada entre os elétrodos e por uma corrente no filamento do
catodo. A intensidade dos raios X é modificada pela absorção à medida que
passam através do paciente, e o filme é revelado pela energia resultante que o
atinge, de forma similar à luz que revela um filme fotográfico (GONZALEZ e
WOODS, 2010, p.7).
Exemplo de sensor raio-x:

Fonte:http://www.directindustry.com/pt/prod/inspection-
technologies/product-9257-1106803.html

Ultravioleta: Comprimento 100nm a 0,38µm.


As aplicações da “luz” ultravioleta são várias. Elas incluem litografia, inspeção
industrial, microscopia, lasers, imagens biológicas e observações astronômicas.
Ilustramos a formação de imagens nessa banda com exemplos da microscopia e
da astronomia. A luz ultravioleta em si não é visível, mas, quando um fóton de
radiação ultravioleta colide com um elétron em um átomo de um material
fluorescente, o nível de energia do elétron é elevado. Depois disso, o elétron
excitado cai para um nível mais baixo e emite luz na forma de um fóton de
energia mais baixa na região de luz visível (vermelha). A tarefa básica do
microscópio de fluorescência é utilizar uma luz de excitação para irradiar um
espécime preparado e depois separar a luz fluorescente irradiante, muito mais
fraca, da luz de excitação, mais intensa. Dessa forma, só a luz de emissão atinge o
olho ou outro detector. As áreas fluorescentes resultantes brilham contra um
fundo escuro com contraste suficiente para permitir a detecção. Quanto mais
escuro for o fundo do material não fluorescente, mais eficiente é o instrumento
(GONZALEZ e WOODS, 2010, p.7).
Exemplo de sensor ultravioleta:

Fonte: https://www.filipeflop.com/produto/sensor-de-raio-
ultravioleta-uv/
Luz Visível: 0,38 a 0,76 µm.

É a região do espectro solar com a mais alta intensidade de fluxo radiante e onde
há a melhor janela atmosférica, bastante transparente, deixando passar uma
grande quantidade de radiação. Por isso, é muito usada em sensoriamento remoto.
É a região responsável pela interação com os minerais e que dá origem às suas
cores e com os pigmentos da vegetação. O problema dessa faixa espectral é o alto
espalhamento da radiação solar incidente pelos gases atmosféricos, que pode
reduzir o contraste da reflectância dos alvos terrestres. É chamada de visível,
porque o olho humano é sensível a essa região espectral (MENESES et al, 2012,
p.20).
Exemplo de sensor luz visível, câmera RGB de luz visível:

Fonte: https://www.geotrackconsultoria.com.br/produto/516-camera-
survey-3n-rgb-de-luz-visivel

Infravermelho:

Próximo: 0,76 a 1,2 µm.

Região do espectro solar onde a atmosfera também é bastante transparente, mas


ocorrem algumas bandas de absorções, impedindo que todo o intervalo possa ser
continuamente utilizado por sensoriamento remoto. É o intervalo onde ocorrem
importantes interações da REM com os níveis de energia eletrônica dos átomos,
gerando feições espectrais que são diagnósticas para identificar a natureza de
vários tipos de rochas, principalmente as de composição mineral com metais de
transição (Fe, Ni, Cr, Mn...)( MENESES et al, 2012, p.20).

Fonte: http://www.medicalexpo.com/pt/prod/fluoptics/product-104212-
675644.html
Ondas curtas: 1,2 a 3 µm.

É a região espectral geológica, porque é nesta faixa espectral que os vários


minerais de alteração hidrotermal têm as suas diagnósticas feições de absorção.
Também é a região onde os comprimentos de onda em 1,4 μm e em 1,9 μm são
totalmente absorvidos pelas moléculas de vapor d’água da atmosfera, proibindo o
uso do sensoriamento remoto e, por consequência, de se determinar nos materiais
terrestres a presença de água molecular nas suas estruturas (MENESES et al,
2012, p.20).
Exemplo é o sensor multiespectral Aster
.
Médio: 3 a 5 µm.

Região onde o Sol e a Terra não emitem quantidades suficientes de energia que
possam ser detectadas pelos sensores. Somente alvos com elevadas temperaturas,
como vulcões e incêndios, podem ser detectados, pois agem como fontes próprias
de emissão de radiação. É uma região espectral pouco usada no sensoriamento
remoto, à exceção de sensores meteorológicos ou atmosféricos (MENESES et al,
2012, p.20).
Exemplo de sensor:

Fonte: https://www.digitalsecuritymagazine.com/pt/2012/09/19/infaimon-brinda-la-camara-
infrarroja-de-alta-resolucion-raven-640-especifica-para-aplicaciones-de-seguridad/

.
Termal: 5 µm a 1mm.

É conhecido como a região termal, devido á radiação emitida pelos objetos


terrestres em função das suas temperaturas de superfícies. A melhor janela
atmosférica nessa região espectral para imageamento orbital é o intervalo de 8,0
µm a 14,0 µm, porque acima de 30 km, a camada de ozônio absorve toda a
radiação além de 14 µm emitida pela Terra. Ótima faixa espectral para detecção
de quartzo de veios nas rochas (MENESES et al, 2012, p.20).

Fonte: https://pixforce.com.br/tecnologia-integrada-drones/
Micro-Ondas(Radar): Tem comprimento de 1mm a 100cm.

A característica singular da aquisição de imagens por radar é sua capacidade de


coletar dados em praticamente qualquer região a qualquer momento,
independentemente do clima ou das condições de iluminação do ambiente.
Algumas ondas de radar podem penetrar nuvens e, em certas condições, também
podem ver através de vegetação, gelo e areia seca. Em muitos casos, o radar é a
única forma de explorar regiões inacessíveis da superfície da Terra. Um sistema
de imagem por radar funciona como uma câmera equipada com flash que fornece
a própria iluminação (pulsos de micro-ondas) para iluminar uma área no solo e
obter uma imagem instantânea. Em vez de uma lente de câmera, o radar utiliza
uma antena e o processamento computacional para gravar suas imagens. Em uma
imagem de radar, é possível ver apenas a energia na faixa de micro-ondas que foi
refletida de volta para a antena do radar (GONZALEZ e WOODS, 2010, p.12).

Rádio: Comprimento de 1m a 10km.


Como no caso da aquisição de imagens no outro extremo do espectro (raios
gama), as principais aplicações das imagens obtidas na banda de rádio situam-se
na medicina e na astronomia. Na medicina, ondas de rádio são utilizadas em
imagens por ressonância magnética (MRI,de magnetic resonance imaging). Essa
técnica consiste em posicionar um paciente em um poderoso ímã e fazer com que
ondas de rádio passem através de seu corpo em pulsos curtos. Cada pulso de
ondas de rádio emitido provoca um pulso de resposta correspondente, que é
emitido pelos tecidos do paciente. O local onde esses sinais se originam e sua
intensidade são determinados por um computador, que produz uma imagem
bidimensional de uma seção do paciente. A MRI pode produzir imagens em
qualquer plano (GONZALEZ e WOODS, 2010, p.12).

Questão 2:
Exemplos de sensores ativos de profundidade são:
Intel RealSense D400
Kinect
Sonar
Radar

Através de sensores passivos é possível obter uma imagem de profundidade usando dois
sensores, através da comparação de ambas as imagens gera-se uma de profundidade. Essa
extração de parâmetros 3D de uma cena a partir de uma imagem 2D é possível através de
um triangulação em que a profundidade relativa entre pontos correspondentes de duas
imagens é calculada. A triangulação consiste na calculo de um ponto X do espaço 3D, onde
X projeta o par de pontos correspondentes nas imagens, respeitando a restrição epipolar
x’TFx=0. Esse restrição indica que existe dois raios sobre o plano epipolar que transpassam
os pontos correspondentes e o centros projetivos de ambas as câmeras, os quais intersectam
o ponto X no espaço 3D. Um método de triangulação linear para o obtenção de X e dado
pela seguinte expressão: TX=0 onde,
.

Uma solução aproximada para o sistema linear homogêneo TX=0 pode ser obtido através
de uma Decomposição de Valores Singulares.
A visão estéreo é o processo de inferir informação tridimensional e profundidade em
uma cena a partir de duas ou mais imagens.

O deslocamento necessário para sobrepor pontos correspondentes será


inversamente proporcional à profundidade do ponto.

QUESTÃO 3:

Nos sistemas visuais de muitos animais, incluindo o homem, o processo de formação da


imagem começa com o raio de luz vindo da palavra exterior e colidindo com os
fotorreceptores da retina. Um simples olhar para qualquer fotografia comum sugere a
variedade de parâmetros físicos que desempenham um papel na formação da imagem. Aqui
está uma lista incompleta:
Parâmetros ópticos da lente: caracterizam a ótica do sensor. Eles incluem:
* tipo de lente
* comprimento focal,
* campo de visão,
* aberturas angulares.
Parâmetro fotométrico: aparece nos modelos da energia da luz que atinge o sensor depois
de ser refletida a partir dos objetos na cena. Eles incluem:
* tipo, intensidade e direção da iluminação;
* propriedades de reflectância das superfícies visualizadas,
* efeitos da estrutura do sensor na quantidade de luz que atinge os fotorreceptores.
Parâmetro geométrico: determina a posição da imagem na qual um ponto 3-D é projetado.
Eles incluem:
* tipo de projeções,
* posição e orientação da câmera no espaço,
* Distorções de perspectiva introduzidas pelo processo de imagem.
Todos os itens acima desempenham um papel em qualquer dispositivo de imagem de
intensidade, seja uma câmera fotográfica, filmadora ou sistema baseado em computador.
No entanto, mais parâmetros são necessários para caracterizar imagens digitais e seus
sistemas de aquisição. Esses incluem:
* as propriedades físicas da matriz fotossensível da câmera de visualização,
* a natureza discreta dos fotorreceptores,
* quantização da escala de intensidade.
Vamos agora rever os aspectos ópticos, radiométricos e geométricos da formação da
imagem.

Ótica Básica
Primeiro precisamos estabelecer algumas noções fundamentais de ótica. Quanto a muitos
sistemas visuais naturais, o processo de formação de imagens na visão computacional
começa com os raios de luz que penetram na câmera através de uma abertura angular (ou
pupila) e atingem uma tela ou plano de imagem (figura 2.2), o dispositivo fotossensível da
câmera que registra intensidades de luz. Observe que a maioria desses raios é o resultado
dos reflexos dos raios emitidos pelas fontes de luz e atingindo as superfícies dos objetos.
Focalização de imagem. Qualquer ponto único de uma cena reflete a luz proveniente de
possivelmente várias direções, de modo que muitos raios refletidos pelo mesmo ponto
possam entrar na câmera. Para obter imagens nítidas, todos os raios vindos de um único
ponto de cena, P, devem convergir para um único ponto no plano da imagem, p, a imagem
de P. Se isso acontecer, dizemos que a imagem de P está em foco; se não, a imagem é
espalhada por um círculo. Focar todos os raios de um ponto de cena em um único ponto de
imagem pode ser obtido de duas maneiras:
1. Reduzindo a abertura da câmera para um ponto, chamado de pinhole. Isso significa que
apenas um raio de qualquer ponto pode entrar na câmera e criar uma correspondência um-
para-um entre pontos, raios e pontos de imagem visíveis. Isso resulta em imagens muito
nítidas e não distorcidas de objetos a diferentes distâncias da câmera.
2. Introdução de um sistema óptico composto de lentes, aberturas e outros elementos,
explicitamente projetado para fazer com que todos os raios vindos do mesmo ponto 3-D
convergem para um único ponto de imagem.
Uma desvantagem óbvia de uma abertura pinhole é o seu tempo de exposição; isto é,
quanto tempo o plano da imagem recebe luz. Qualquer dispositivo fotossensível (filme de
câmera, sensores eletrônicos) precisa de uma quantidade mínima de luz para registrar uma
imagem legível. Como um orifício permite pouca luz na câmera por unidade de tempo, o
tempo de exposição necessário para formar a imagem é muito longo (tipicamente vários
segundos) para ser de uso prático. Os sistemas óticos, ao contrário, podem ser ajustados
para trabalhar sob uma ampla faixa de condições de iluminação e tempos de exposição (o
tempo de exposição é controlado por um obturador).
Intuitivamente, um sistema óptico pode ser considerado como um dispositivo que visa
produzir a mesma imagem obtida por uma abertura pinhole, mas por meio de uma abertura
muito maior e um menor tempo de exposição. Além disso, um sistema óptico aumenta o
poder de captação de luz.
Lentes Finas. Os sistemas ópticos padrão são bastante sofisticados, mas podemos aprender
as ideias básicas do sistema óptico mais simples, a lente fina. O comportamento óptico da
lente (figura 2.3) é caracterizado por dois elementos: um eixo, chamado de eixo óptico,
passando pelo centro da lente, O, e perpendicular ao plano; e dois pontos especiais, Ft e Fr,
chamados foco esquerdo e direito, colocados no eixo óptico, nos lados opostos da lente, e
na mesma distância de O. Essa distância, chamada de distância focal da lente, é geralmente
indicada por f.
Por construção, uma lente fina desvia todos os raios paralelos ao eixo óptico e vem de um
lado para o foco do outro lado, como descrito por duas propriedades básicas.
-------------
Lente fina: propriedades básicas
1. Qualquer raio que entra na lente paralelo ao eixo de um lado passa pelo foco do outro
lado.
2. Qualquer raio que entra na lente a partir do foco de um lado surge paralelo ao eixo do
outro lado.
A equação fundamental das lentes finas. Nossa próxima tarefa é derivar a equação
fundamental das lentes finas das propriedades básicas 1 e 2. Considere um ponto P, não
muito longe do eixo óptico, e seja Z + f a distância de P da lente ao longo do eixo óptico
(figura 2.4). Por suposição, uma lente fina foca todos os raios de P no mesmo ponto p.
Portanto, podemos localizar p intersectando apenas dois raios conhecidos e não precisamos
nos preocupar em traçar o caminho de nenhum outro.

Observe que aplicando a propriedade 1 ao raio PQ e a propriedade 2 ao raio PR, PQ e PR


são desviados para se interceptarem em um certo ponto do outro lado da lente fina. Mas
como a lente focaliza todos os raios vindos de P no mesmo ponto, PQ e PR devem se cruzar
em p! A partir da figura 2.4 e usando os dois pares de triângulos semelhantes <PFlS> e
<ROFl> e <psFr> e <QOFr>, obtemos imediatamente
Zz = f 2.
Definindo Z’ = Z + f e z’ = z + f, (2.1) reduz a nossa equação alvo.

O raio que passa pelo centro da lente, O, chamado de raio principal, passa por um reflexo
indefinido.
Campo de visão. Uma última observação sobre ótica. Seja d o diâmetro efetivo da lente,
identificando a porção da lente realmente alcançável pelos raios de luz.
Figura 2.4 Imagem por uma lente fina. Observe que, em geral, uma lente real tem duas distâncias focais
diferentes, porque as curvaturas de suas duas superfícies podem ser diferentes. A situação descrita aqui é um
caso especial, mas é suficiente mais leituras no final deste capítulo para mais informações sobre ótica.

Chamamos d o diâmetro efetivo para enfatizar a diferença entre d e o diâmetro físico da


lente. A abertura pode impedir que os raios de luz atinjam os pontos periféricos da lente, de
modo que d é geralmente menor que o diâmetro físico da lente.

O diâmetro efetivo da lente e a distância focal determinam o campo de visão da lente, que é
uma medida angular da porção do espaço 3-D realmente visto pela câmera. Costuma-se
definir o campo de visão w como metade do ângulo subtendido pelo diâmetro da lente visto
do foco:

(2.3)

Essa é a quantidade mínima de ótica necessária para nossos propósitos. Modelos óticos de
dispositivos de imagem reais são muito mais complicados do que o nosso tratamento de
lentes finas (e ideais); problemas e fenômenos não considerados aqui incluem a aberração
esférica (desfocagem de raios não-paraxiais), a aberração cromática (desfocagem diferente
de raios de cores diferentes) e a focalização de objetos a diferentes distâncias da câmera 4.
4
A equação fundamental das lentes implica que os pontos de cena a diferentes distâncias da lente entram em foco em
diferentes distâncias da imagem. Os sistemas de lentes ópticas de câmeras reais são projetados de modo que todos os
pontos dentro de um determinado intervalo de distâncias sejam visualizados no plano da imagem ou próximos a ela e,
portanto, de forma aceitável em foco. Esse intervalo é chamado de profundidade de campo da câmera.
Radiometria Básica
A radiometria é a parte essencial da formação da imagem relacionada com a relação entre
as quantidades de energia luminosa emitida por fontes de luz; refletida de superfícies e
registrada por sensores. Vamos usar conceitos radiométricos para perseguir duas objetivas:
1. modelar quanto da luz iluminadora é refletida pelas superfícies dos objetos;
2. modelar quanto da luz refletida realmente atinge o plano da imagem da câmera.
Definições Começamos com algumas definições, ilustradas na figura 2.5 e sumarizadas
como seguidas:
------------------
Irradiação da imagem e brilho da cena
A irradiância da imagem é a potência da luz, por unidade de área e em cada ponto p do
plano da imagem.
A radiância da cena é a potência da luz, por unidade de área, idealmente emitida por cada
ponto P de uma superfície no espaço 3-D em uma dada direção d.
-----------------
O ideal refere-se ao fato de que a superfície na definição do brilho da cena pode ser a
superfície iluminada de um objeto, a superfície radiante de uma fonte de luz ou mesmo uma
superfície fictícia. Então radiance de cena de termo denota o brilho total emitido por um
ponto; às vezes a radiância se refere à energia irradiada de uma superfície (emitida ou
refletida), enquanto a irradiância se refere à energia incidente em uma superfície.
Reflexão de Superfície e Modelo Lambertiano. Um modelo do modo como uma
superfície reflete a luz incidente é chamado de modelo de refletância de superfície. Um
bem conhecido é o modelo lambertiano, que assume que cada ponto de superfície se apega
igualmente brilhante de todas as direções de visualização. Isso se aproxima muito bem do
comportamento de superfícies rugosas e não-especulares, bem como vários materiais como
tinta e papel fosco. Se representarmos a direção e a quantidade de luz incidente por um
vetor I, a radiância da cena de uma superfície lambertiana ideal, L, é simplesmente
proporcional ao produto escalar entre I e a unidade normal à superfície, n:

L = pI n (2.4)

com p> 0 uma constante chamada albedo da superfície, que é típica do material da
superfície. Também assumimos que Itn é positivo; isto é, a superfície está voltada para a
fonte de luz. Essa é uma condição necessária para o raio de luz atingir P. Se essa condição
não for atendida, a radiância da cena deve ser definida como 0.
Usaremos o modelo lambertiano em várias partes deste livro; por exemplo, ao analisar
sequências de imagens e calcular formas a partir do sombreado. Intuitivamente, o modelo
lambertiano baseia-se no cancelamento exato de dois fatores. Negligenciando termos
constantes, a quantidade de luz que atinge qualquer superfície é sempre proporcional ao
cosseno do ângulo entre o iluminante e a superfície normal n (isto é, a área efetiva da
superfície como vista da direção do iluminante). De acordo com o modelo, uma superfície
lambertiana reflete a luz em uma determinada direção d proporcionalmente ao cosseno de
O, o ângulo entre d e n. Mas como a área da superfície vista da direção d é inversamente
proporcional a cosO, os dois fatores cosO se cancelam e não aparecem em (2.4).
Vinculando Radiância de Superfície e Irradiação de Imagem. Nossa próxima tarefa é
ligar as quantidades de luz refletidas pelas superfícies, L, e registradas pelo sensor de
imagens, E.
______
Suposições e declaração do problema
Dada uma lente fina de diâmetro d e comprimento focal f, um objeto na distância Z da
lente, e um plano de imagem na distância Z 'da lente, com f, Z e Z' como em (2.1), encontre
a relação entre a irradiância da imagem e o brilho da cena.
_______

A equação (2.13) diz que a iluminação da imagem em p diminui à medida que a quarta
potência do cosseno do ângulo se forma pelo raio principal através de p com o eixo óptico.
No caso de pequena abertura angular, esse efeito pode ser negligenciado; portanto, a
irradiância da imagem pode ser considerada como uniformemente proporcional ao brilho da
cena sobre todo o plano da imagem.
A iluminação não uniforme prevista por (2.13) é difícil de ser notada em imagens comuns,
porque o principal componente das mudanças de brilho é geralmente devido ao gradiente
espacial da irradiância da imagem. Você pode tentar um experimento simples para verificar
o efeito previsto por (2.13), adquirindo uma imagem de uma superfície lambertiana
iluminada por luz difusa.
A equação fundamental da formação da imagem radiométrica também mostra que a
quantidade f / d, chamada de f-number, influencia a quantidade de luz coletada pela
câmera: quanto menor o número f, maior a fração de L que atinge o plano da imagem. O
número F é uma das características da ótica. Como mostrado por (2.13), a irradiância da
imagem é inversamente proporcional ao quadrado do número f.

Formação geométrica de imagens


Agora nos voltamos para o aspecto geométrico da formação da imagem. O objetivo é
vincular a posição dos pontos de cena com os pontos de imagem correspondentes. Para
fazer isso, precisamos modelar a projeção geométrica executada pelo sensor.
A câmera da perspectiva. O modelo geométrico mais comum de uma câmera de
intensidade é o modelo perpective ou pinhole. O modelo consiste em um plano pi, o plano
da imagem e um ponto 3-D O, o centro ou foco da projeção. A distância entre pi e O é a
distância focal. A linha através de O e perpendicular a pi é o eixo óptico5, e o, a intersecção
entre pi e o eixo óptico, é denominada pontos principais ou centro da imagem. Como
mostra a figura 2.8, p, a imagem de P, são os pontos nos quais a linha reta através de P e O
cruzam o plano da imagem pi. Considere o referencial 3-D em que O é a origem e o plano
pi é ortogonal ao eixo Z, e seja P = [X, Y, Z] e p = [x, y, z]. Esse quadro de referência,
chamado de quadro da câmera, tem importância fundamental na visão computacional.
Agora vamos escrever as equações básicas das projeções perspectivas no quadro da câmera.

No quadro da câmera, o terceiro componente de um ponto de imagem é sempre igual ao


comprimento focal (como a equação do plano pi é z = f). Por esta razão, frequentemente
escrevemos p = [x, y] T ao invés de p = [x, y, f] T.

5
Você deve vincular essas definições de distância focal e eixo óptico com aquelas na seção
Note que (2.14) são não lineares por causa do fator 1 / Z, e não preservam as distâncias
entre os pontos (nem mesmo até um fator de escala comum), ou os ângulos entre as linhas.
No entanto, eles mapeiam linhas em linhas.
A câmera de perspectiva fraca. Uma aproximação clássica que gira (2.14) em equações
lineares é o modelo de câmera de perspectiva fraca. Este modelo requer que a distância
relativa ao longo do eixo óptico, & z, de quaisquer dois pontos de cena (isto é, a
profundidade da cena) seja muito menor que a distância média, ~ Z, dos pontos da câmera
de visualização. Neste caso, para cada ponto de cena, P, podemos escrever

Estas equações, (2.15), descrevem uma sequência de duas transformações: uma projeção
ortográfica, na qual os pontos da palavra são projetados ao longo de raios paralelos ao eixo
óptico, isto é,
x=X
y=Y
Seguido por escala isotrópica pelo fator f / Z’’. A Seção 2.4 mostra que este e outros
modelos de câmeras também podem ser derivados em uma notação de matriz compacta.

Questão 4:
Segundo Gonzalez e Woods(2010, p.34) “A digitalização dos valores de coordenada é
chamada de amostragem. A digitalização dos valores de amplitude é chamada de
quantização.”
Definido por Marques Filho e Viera Neto(1999, p.22) a amostragem basicamente
transforma uma imagem analógica em uma matriz de M por N ponto, os quais chamamos
de pixel:

Valores maiores de M e N resultam em uma imagem de maior resolução.


A quantização é um processo no qual todos os pixels assume um valor inteiro, no
intervalo de 0 a 2n-1. Um valor maior de n torna maior o número de níveis de cinza
presente na imagem. Sob uma abordagem matemática formal, o processo de amostragem
pode ser visto como uma divisão do plano xy em uma grade, com as coordenadas do centro
de cada grade sendo uma dupla de elementos do produto cartesiano ZxZ (também escrito
Z²), o qual é o conjunto de todos os pares ordenados dos elementos (a, b) com a e b sendo
números pertencentes a Z (conjunto dos inteiros). Portanto f(x,y) é uma imagem digital se
(x,y) forem números inteiros de ZxZ e f uma função que atribui um valor de nível de cinza
(isto é, um número real do conjunto de números reais R) para cada par distinto de
coordenadas, ou seja, f é o processo de quantização descrito anteriormente. Se os níveis de
cinza resultantes forem também números inteiros (como geralmente é o caso), Z substitui R
e uma imagem digital então se torna uma função bidimensional cujas coordenadas e valores
de amplitude são números inteiros.
Na especificação do processo de digitalização deve-se decidir que valores de N, M e n são
adequados, do ponto de vista de qualidade da imagem e da quantidade de bytes necessários para
armazená-la. A tabela 3 fornece uma idéia estimativa do número de bytes necessários para
armazenar uma imagem de N x N pixels com 2n tons de cinza, calculados como: N x N x n / 8.
Assume-se que um pixel estará inteiramente contido em um byte, mesmo que isto signifique que
alguns bits de cada byte permaneçam vazios. Por exemplo, para n = 5, assume-se que cada pixel
ocupa um byte, restando 3 bits sem utilização em cada byte.

Podemos concluir a partir dessas informações que a quantização e amostragem estão


intrinsicamente ligado ao quanto de memoria dada imagem ira ocupar, o que torna
necessário, do ponto de vista de armazenamento, uma análise assertiva no momento da
digitalização para decidir quais valor NxM e n .

Questão 5:
Questão 6:

Em visão computacional, a tarefa de identificação dos objetos é de fundamental


importância. Neste processo de identificação, a utilização de detectores de bordas
possibilita classificar diferentes formatos de objetos presentes numa imagem, tais como:
círculo, canto, arestas, etc. Os principais algoritmos de segmentação e detecção de bordas
faz uso de técnicas e métodos que possibilitam a identificação de variações abruptas na
intensidade dos pixels, conhecido como gradiente. Em geral, o gradiente é direcional,
horizontal e vertical.

A detecção de arestas é realizada por meio da suavização de ruído, destaque de


arestas ( seguida do cálculo da magnitude ggb gradiente - G) e localização. A magnitude do
gradiente G(i,j) em cada pixel é estimada pela derivada direcional em X e Y. O gradiente
G(i,j) é comparado com um limiar inicial e, em seguida, as arestas são marcadas. Tal
gradiente pode ser encontrado na implementação do algorítimo ROBERTS_EDGE_DET
apresentado por Trucco e Verri (1998):

I. Entrada = Imagem (I) + Limiar (є);


II. Aplica-se a suavização de ruído(Gaussiano) obtendo uma nova imagem (In);
III. Aplica-se um filtro (máscara que equivalem a derivada parcial em X e Y) na
imagem (In) obtendo duas novas imagens (I1 e I2);
IV. Estima-se a magnitude do gradiente pra cada pixel (i,j);

𝐺𝑖,𝑗 = √𝐼1 (𝑖, 𝑗)2 + 𝐼2 (𝑖, 𝑗)2

V. Marca como borda todos os pixels (i,j) em que 𝐺𝑖,𝑗 > є.

Já pra detecção de cantos (quinas) a análise de componentes principais (PCA) é essencial. A


PCA determina os autovetores e autovalores da matriz de covariância dos dados,
possibilitando assim, a redução dimensional dos dados e a análise dos padrões principais de
variabilidade presente na imagem. A implementação do algorítimo CORNES também pode
ser encontrada em TRUCCO e VERRI (1998):

I. Determina-se o gradiente de imagem espacial[𝐸𝑥 , 𝐸𝑦 ]𝑇 para toda imagem (I)


II. Para cada ponto p da imagem:
*Obtém a matriz C de covariância do gradiente em uma vizinhança de p(i, j)

*Determina𝜆2 , o menor dos autovalores de C;


*Se 𝜆2 > Limiar (є), armazena as coordenadas de p em uma lista L
III. Ordena L na ordem crescente de 𝜆2
IV. Para cada ponto p, na ordem crescente de 𝜆2 , remove-se vizinho de p em L.

Como apresentado, a entrada é constituída por uma imagem (I) e dois parâmetros: limiar
(є) . Também é definido o tamanho da janela (autovalores), [ 2N +1] pixels. O valor do
limiar (є) pode ser estimado a partir do histograma de 𝜆2 . Já para a vizinhança não há um
critério bem definido para o tamanho da janela, mas experiências indicam que esse valor
pode variar de 2 a 10, na maioria dos casos (TRUCCO; VERRI, 1998).

Questão 7:
A estimação da geometria epipolar trata de estimar uma matriz essencial E e uma matriz
fundamental F que permitem a associação de linhas epipolares na imagem da direita com
sua correspondente na imagem da esquerda.

Começamos observando que são coplanares Pl , T = (Or − Ol ) e Pl − T.


Então
(Pl − T)T .(T × Pl ) = 0
Observando que Pr = R(Pl − T) ⇒ Pl − T = RTPr ,
temos então que (RTPr )T .(T × Pl ) = 0
Ou seja, PTr.R.T × Pl = 0.
Isso implica PTr.R.S.Pl = 0, fazendo

Finalmente, tomamos E = R.S e temos PTr.E.Pl = 0,


A matriz E é chamada matriz essencial e estabelece uma relação entre as restrições
epipolares e os parâmetros extrínsecos.
De PTr.E.Pl = 0,
e observando que:

temos que:

Então, a matriz E, associa o ponto pl , na imagem esquerda, à linha projetiva E.pl que passa
por pr e pelo epipolo er .
Deve-se observar que pl e pr não são dados em pixels, mas nos sistemas de coordenadas
das câmeras esquerda e direita, respectivamente. O mapeamento entre pontos p no sistema
de coordenadas da câmera e p, dado em pixel, é obtido por p = M.p, onde

A matriz F é chamada matriz fundamental e associa o ponto pl , em pixel, na imagem


esquerda à linha projetiva F.pl que passa por pr na imagem direita.
Uma vez obtidas as linhas epipolares e suas correspondentes nas duas imagens, o processo
de retificação transforma as imagens de forma a ter linhas epipolares paralelas ao eixo x.

Entretanto, existe o inconveniente de que a


construção de F depende dos
parâmetros extrínsecos R e T, e dos
parâmetros intrínsecos fr , sx , sy , ox e oy
da câmera da direita, bem como da câmera
da esquerda.
Alternativamente, a matriz F pode ser estimada a partir do conhecimento de, pelo menos, 8
pontos correspondentes entre as imagens da direita e da esquerda. Essa estratégia,
conhecida como algoritmo dos oito pontos, modela o problema como solução não-trivial
de um sistema linear homogêneo.
A relação p.Tr.F.pl = 0 é uma equação linear homogênea de 9 incógnitas que são as
entradas de F, desconhecidas. Então, conhecidos 8 pares de pontos correspondentes,
teremos 8 dessas equações que levam a um sistema linear homogêneo de 9 incógnitas e 8
equações. A solução não trivial desse sistema é única, a menos de escala e sinal.
Considerando a presença de ruído na estimação dos pares correspondentes, mais de 8
pontos podem ser usados de forma a ter um sistema sobre determinado cuja solução pode
ser encontrada usando decomposição em valores singulares.

Questão 8:
Questão 9:

Palavras visuais (bag of words): também conhecida como técnica de Histograma de


Palavras Visuais. É um vetor de atributos obtido por meio de uma imagem ou um conjunto
de imagens. Neste processo, realiza-se um histograma de palavras. O descritor de um
determinado documento (D) representa a probabilidade e ocorrência de cada palavra que
compõe o dicionário. Sendo assim, a similaridade entre dois documentos pode então ser
quantificada, como a similaridade de cossenos entre os descritores.
Em termos de imagem, entendem-se como palavras visuais, as pequenas regiões da imagem
que podem descrever, de forma satisfatória, a totalidade da imagem. O bag of word pode
ser divido nas seguintes etapas:

*Amostragem de Regiões: procura determinar quais regiões serão selecionadas ( sparse at


interest points,uniformly ou randomly)

*Extração de Características: após a amostragem nas imagens de aprendizado, extrai-se


os respectivos vetores das características. Um dos descritores mais utilizados é o SIFT
(Scale-Invariant Feature Transform).

*Aprendizado do Dicionário Visual: a definição de quais palavras visuais a serem


utilizadas pode ser realizado por meio da técnica de agrupamento (clustering). Essa técnica
visa encontrar grupos de dados similares, dentro de um conjunto maior. Uma técnica muito
utilizada é o K-means, o qual se resume: (a) definir o número de K grupos e os respectivos
centroides; (b) todas as amostras será associada ao centroide mais próximo; (c) o processo é
repetido até que não ocorram mudanças significativas.

*Histograma de Palavras Visuais: definido o dicionário visual, conta-se a frequência das


palavras visuais utilizando as técnicas de Hard Assignment ou Soft Assignmente

Modelos paramétricos (part-based methods): a classificação consiste em discriminar


(em diferentes classes) um conjunto de objetos com características (ou atributos)
mensuráveis, as quais são representadas num espaço multidimensional, conhecido como
espaço de características. Neste sentido, o classificador assume um papel de fundamental
importância, pois baseado nas informações do conjunto de treinamento (amostras
conhecidas) determinará a semelhança da nova amostra a uma das classes (pré-definidas).
O objeto (alvo) desconhecido será atribuído a um classe por meio do posicionamento do
mesmo no espaço de característica. O modelo paramétrico parte da premissa de que as
classes dos objetos, no espaço de classificação, seguem uma distribuição (grande parte é a
distribuição normal) conhecida.

Classificador linear: a combinação linear dos atributos separa os objetivos nas classes
estabelecidas.
Classificador quadrático: as amostras são separadas por meio da função quadrática dos
atributos. Modelos paramétricos ou classificadores paramétricos tem uma série de
vantagens, em especial, pode-se destacar que a regra de decisão resultante é robusta e, caso
a hipótese seja violada, a degradação do desempenho do classificador será gradual.
Já em relação ao modelo Part-Based, consiste em uma ampla casse de algoritmo de
detecção, onde várias partes de uma imagem são utilizadas, separadamente, para determinar
objetos de interesse. Um modelo muito conhecido é o constellation. Esse modelo consiste
em procurar um pequeno número de características e posições relativas e assim, determinar
se o objeto de interesse está presente na imagem. O constellation é considerado um
modelo probabilístico para reconhecimento de objeto em nível de categoria. Assim como
diversos outros modelos baseados em parte geométricas, o constellation tenta representar
uma classe de objeto por um conjunto de N partes sob restrições geométricas mútuas.
Diferentemente do modelo "bag-of-words", o qual desconsidera a explicitamente a
localização dos recursos da imagem, bem como as relações geométricas entre diferentes
partes da imagem.

Baseados em segmentação (recognition with segmentation)

Em se tratando de Visão Computacional, segmentar objeto em uma imagem é um tarefa


trivial e de fundamental importância. Consiste em separar somente a área que representa o
objeto a ser identificado ( de interesse ou foreground) e, consequentemente, apresentá-lo
em uma nova imagem ( excluindo o segundo plano, ou seja, background). A segmentação é
uma das primeiras etapas a ser executada antes de extrair as características do objeto e por
fim, classificá-lo.

Segmentação por binarização: conhecida como limiar de intensidade, o objeto de


interesse é separado por meio da definição do valor de um limiar. Os pixels que possuem
valore maiores que o limiar estabelecido como o objeto de interesse, serão redefinidos para
cor preta ou branca, definindo o foreground. Caso o contrário, os demais pixels serão
posicionados para o background. Em geral, o objeto de interesse é representado por cor
branca ( primeiro plano) e os demais, forma-se o segundo plano (cor preta). A biblioteca
OpenCV possui um função thereshold (TRESH_BINARY e THRESH_BINARY_INV) que
realiza tal procedimento. Além da segmentação por binarização, há também a Binarização
Adaptativa e a Binarização de Nobuyuki Otsu.

Segmentação por borda: após a converter a imagem RGB para escala de cinza, aplica-se
a segmentação por binarização ( removendo o segundo plano) e, consequentemente, um
detector de borda (Cany, Sobel e Filtro Laplaciano ). Tal algoritmo visa identificar o
gradiente, ou seja, variações abruptas na intensidade dos pixels de um determinado objeto.

Segmentação por cor: permite separar os objetos de interesse por uma cor específica. Nesta
caso, o espaço de cor HSV é muito utilizado, pois possui informações referente à cor
(matiz) em um único canal. O método apresentado inRange, apresentado na biblioteca
OpenCV pode ser utilizado para aplicação desse procedimento.

Segmentação por movimento: consiste em identificar objetos que se deslocam entre uma
captura e outra. A ferramenta OpenCV apresenta um método bastante eficaz para realizar
essa tarefa, o subtract. A subtração entre duas imagens ( antes e depois) irá nos fornecer o
objeto de interesse. Os demais pixels que praticamente não apresentaram mudanças nas
intensidades são considerados como segundo plano da imagem (Backgroud). Tais pixels
serão”apagados”, ou seja, considerados como preto (0) ou branco (255) após o
procedimento. A subtração de segundo plano é uma das principais etapas de pré-
processamento em muitos aplicativos baseados em visão computacional. A figura 21,
apresenta o resultado da aplicação do algoritmo BackgroundSubtractorMOG, baseado em
segmentação Background e Foreground, aprimorado para acompanhamento (rastreamento)
em tempo real. Tal algoritmo utiliza um método para modelar cada pixel do Background
por uma mistura de distribuições K Gaussianas ( K = 3 a 5). Os pesos da mistura
representam as proporções de tempo que essas cores permanecem na cena.

Figura 21: Resultado do BackgroundSubtractorMOG.


Fonte:OpenCV (2015)⁠.

A modelagem por meio do Background Subtraction(BS) é uma técnica comum e


amplamente utilizada para gerar uma máscara de primeiro plano, ou seja, uma imagem
binária contendo os pixels pertencentes a objetos em movimento na cena, Figura 21.
Ressalta-se que a câmera permanece estática.

A modelagem Background consiste em duas etapas principais:

1.Background Initialization;
2.Background Update.

Na primeira etapa, um modelo inicial do background é computado, enquanto na segunda


etapa esse modelo é atualizado para se adaptar a possíveis mudanças na cena.

Questão 10.

Referencias:

Visão Computacional Algoritmos e aplicações .pdf. (n.d.).

Comandos Básicos de Matlab aplicados ao Processamento Digital de Imagens - revisado


em 31 de 10 de 2016. (1920).

Betemps, M. A. (2006). Origem , Propagação e Detecção dos Raios Cósmicos Ultra-


energéticos Sumário. 1–51.
Bonifazi, C. (2015). Raios Cósmicos : Fundamentos e técnicas de detecção Conteúdo do
Curso.

Faria, D. (2010). Trabalhos Práticos Análise e Processamento de Imagem. 44.

Gonzalez, R. C., & Woods, R. E. (1959). Digital Image Processing (2nd Revised Edition).
In Electrolyte Solutions (2nd Revised Edition). https://doi.org/10.2307/1574313

Imagens, I. D. O. E. M. (n.d.). Caracterizac, Ositos - 2009 - Reducao De Ruído Em


Imagens.

Oliveira, A. G. I. de, Rockenbach, M., & Pacini, A. A. (2014). Raios cósmicos e a


heliosfera. Revista Brasileira de Ensino de Física, 36(2), 1–13.
https://doi.org/10.1590/s1806-11172014000200016

Szeliski, R. (2013). Computer vision: algorithms and applications. Choice Reviews Online,
48(09), 48-5140-48–5140. https://doi.org/10.5860/choice.48-5140

Trucco, E. (1998). Introductory techniques for 3-D computer vision . (January).

Sergio, P. (n.d.). Faculdade de Ciências Aplicadas e Sociais de Petrolina – FACAPE


Processamento de Imagens com MATLAB Objetivos Dar uma visão geral dos
fundamentos de atualmente usadas em processamento de Imagens no MATLAB
MATLAB é um ambiente otimizado para Toolbox Proces.

S-ar putea să vă placă și