TR 045

Pontifcia Universidade Catlica do Rio Grande do Sul
PUCRS
Deteco de Faces e Caractersticas Faciais
Eduardo Costa Lopes
Trabalho Individual II
Ps-Graduao em Cincia da Computao
Dr. Jos Carlos Bins Filho.
RELATRIO TCNICO No. 45
2
Contato:
eduardo.lopes@vetorial.net
eduardocl@gmail.com
http://www.inf.pucrs.br/~elopes
bins@inf.pucrs.br
http://www.inf.pucrs.br/~bins
Eduardo Costa Lopes aluno do curso de mestrado do Programa de Ps-Graduao em Cincia da Com-
putao da Faculdade de Informtica (PPGCC/FACIN) da Pontifcia Universidade Catlica do Rio Grande
do Sul, PUCRS. Engenheiro de Computao pela Fundao Universidade Federal do Rio Grande (FURG).
Desenvolveu trabalhos na rea de redes neurais, algoritmos genticos e otimizao de redes neurais. Atu-
almente sua pesquisa se concentra nas reas de Viso Computacional e Processamento de Imagens, para o
desenvolvimento de um sistema automtico de reconhecimento de faces humanas. Sua bolsa patrocinada
pela CAPES, e dedica-se exclusivamente pesquisa.
Copyright c Faculdade de Informtica - PUCRS
Published by PPGCC/FACIN, PUCRS
Av. Ipiranga, 6881
90619-900 Porto Alegre, Rio Grande do Sul, Brasil
Sumrio
1 Introduo 6
1.1 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Deteco de Faces 9
2.1 Mtodos Baseados em Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Mtodos Baseados em Caractersticas Invariantes . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Mtodos Baseados em Templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Mtodos Baseados na Aparncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 Eigenfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.3 Hidden Markov Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Mtodo de Deteco Utilizando Conhecimento 21
3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Templates Deformveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Snake . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4 Transformada de Gabor 34
4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 Filtros de Gabor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5 Concluses 41
3
Lista de Figuras
1.1 Tpico sistema de deteco de faces e caractersticas. Uma imagem apresentada ao sis-
tema para que o mesmo detecte a face e seus componentes: olhos, boca e nariz. . . . . . . 7
2.1 Figura em vrias resolues. (a) imagem original n=1. (b) n=4. (c) n=8. (d)n=16. Cada
pixel de uma clula quadrada de tamanho n x n tem seu valor substitudo pela mdia do
valor da intensidade pixels da clula [YAN02]. . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Exemplo de uma face em uma determinada resoluo utilizadas para detectar faces atravs
de regras que utilizam o conhecimento sobre a distribuio de luminosidade da imagem. . 10
2.3 Projees verticais (embaixo de cada gura) e horizontais (no lado da gura) de guras em
baixa resoluo. A deteco da face feita pela anlise dos picos presentes na projeo
horizontal e os vales presentes na projeo vertical. [YAN02]. . . . . . . . . . . . . . . . 11
2.4 (a) regio da face selecionada, (b) cluster de cores no espao de cores (RGB) e (c) cluster
no espao cromtico: cores puras [FER00]. . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Deteco da face por meio da cor da pele: (a) Imagem face tpica. (b) Segmentao da cor
da pele. (c) Maior regio conectada de pixels de pele [BHU03]. . . . . . . . . . . . . . . . 13
2.6 Segmentao da cor da pela aplicada na imagem (a) e o resultado na imagem (b)[WAN99]. 13
2.7 Exemplo da estrutura parent vector. Os ltros so aplicados em vrias resolues da ima-
gem. O escalamento da imagem representado pelos grids acima, formando uma pirmide
de imagens. O segmento de reta representa os pixels nos quais os valores dos ltros formam
um nico parent vector [RIK99]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.8 Exemplo de resultado obtido por [RIK99]. Na gura so mostrados apenas clusters corres-
pondentes a determinadas caractersticas. Vrios clusters (1447) so tomados para vericar
a presena ou no da face. Mas h a possibilidade de transformar o detector de face em
detector de caractersticas apenas avaliando o cluster associado a uma caracterstica . . . . 15
2.9 A esquerda temos trs imagens originais e a esquerda a projeo delas no espao de eigen-
faces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.10 Funcionamento do algoritmo de deteco de faces baseado em RNA [ROL96]. . . . . . . . 18
2.11 Descrio grca do algortimo de deteco de faces rotacionadas [ROL98]. . . . . . . . . 18
2.12 HMM utilizado para a deteco e reconhecimento de faces. . . . . . . . . . . . . . . . . . 19
2.13 Imagem de face dividida em blocos para a extrao dos vetores caractersticos. . . . . . . 19
3.1 Template utilizada por [YUI92] para detectar olhos. . . . . . . . . . . . . . . . . . . . . . 22
3.2 Template deformvel para detectar olhos [HUA92]. . . . . . . . . . . . . . . . . . . . . . 22
3.3 Modelo utilizado por Allatar [ALA99] para detectar a cabea. . . . . . . . . . . . . . . . 23
3.4 Projees horizontais e verticais dos olhos obtida a partir da regio intera a janela dos olhos. 24
3.5 As duas templates de boca utilizada por Zhang [ZHA02]. Os parmetros deformveis w
m
l
e w
m
r
so os cantos da boca, C
m
i
(i = 1, 2, 3) e O
m
i
(i = 1, 2, 3, 4) so os parmetros da linha
de contorno do lbio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6 Candidatos para parmetros descritores do contorno do lbio e a determinao se a boca
est aberta ou fechada. Em (a) temos a boca fechada, em (b) a boca aberta [ZHA02]. . . . 26
3.7 Localizao da boca em uma seqncia de vdeo [ZHA02]. . . . . . . . . . . . . . . . . . 27
4
LISTA DE FIGURAS 5
3.8 Nesta gura podemos ver a capacidade da snake de perceber (detectar) os contornos subje-
tivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.9 Mapas horizontais e verticais [RAD95]. . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.10 Exemplo de Deteco de olhos sobrancelhas e boca. . . . . . . . . . . . . . . . . . . . . . 30
3.11 Exemplo de Deteco da boca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.12 (a) performance do modelo pressure snake original e (b) performance do modelo mixture
pressure model [ALM02]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.13 Exemplo de rastreamento de olhos utilizando snakes [ALM02]. . . . . . . . . . . . . . . 32
3.14 Exemplo de rastreamento de olhos. A snake consegue superar o problema do piscar de
olhos [ALM02]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.15 Grco descrevendo o sistema de deteco da boca utilizando templates e snakes. . . . . . 33
4.1 Funo de gabor 2D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 A esquerda temos a imagem original, em seguida temos a reconstruo da mesma a partir
de uma GWN com 16,52,116 e 256 wavelets respectivamente. A imagem mais direita
mostra a posio das primeiras 16 wavelets na imagem [KRU02]. . . . . . . . . . . . . . . 36
4.3 As guras mostram um objeto que foi modelado por uma GWN. esquerda podemos
notar o tamanho, a posio e a orientao das wavelets enquanto que a direita temos uma
representao do objeto onde somente as wavelets mais importantes foram selecionadas
[KRU02]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.4 Exemplo de uma GWN treinada na imagem mais esquerda da Figura 4.2, utilizada para de-
tectar caractersticas faciais em outras imagens de faces com diferentes orientaes [KRU02]. 37
4.5 (Esquerda) Grade log-polar posicionada no olho de uma pessoa. (direita) Exemplo dos
movimentos sacdicos na procura dos olhos. Mesmo com os olhos fechados eles so de-
tectados atravs da informao contida no contorno da rbita. . . . . . . . . . . . . . . . . 38
4.6 Uma cmera eyeball montada para detectar olhos imitando os movimentos sacdicos
[SME98]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.7 (a) imagem original (b) imagem aps a aplicao de ltros (c) pontos caractersticos sele-
cionados [HJE00]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.8 Pontos caractersticos obtidos em duas imagens de face atravs dos ltros de gabor. . . . . 39
4.9 Grafo obtido pelo uso da transformada de gabor para detectar os pontos caractersticos da
face. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.10 A estrutura bunch graph serve como uma representao geral de faces. Os discos repre-
sentam os jets provenientes de vrios grafos individuais, que no processo de extrao de
caracterstica somente um jet selecionado, simbolizado na gura pelos discos escuros
[LAU99]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Captulo 1
Introduo
Nos ltimos anos a Inteligncia Articial (IA) tem obtido crescente sucesso no estudo e simulao da
inteligncia humana. Embora a maioria das pessoas tende a associar as atividades inteligentes com ativida-
des intelectuais como raciocnio matemtico e linguagem, existem atividades mais intuitivas, como andar,
ver, comer, que requerem um certo grau de inteligncia e um grande conhecimento sobre o mundo que
nos cerca. A Viso Computacional, uma subrea da IA, tem como principal objetivo a construo de um
sistema de viso articial que imite a capacidade do sistema visual humano.
As pesquisas em Viso Computacional visam emular um sentido que muitos autores como Linda et. al
[LIN02] acreditam ser imprescindvel para que um dia seja possvel, construir uma forma de vida articial
e inteligente, capaz de aprender e imitar os processos mentais, como ocorre nos humanos. Embora a Inteli-
gncia Articial ainda no tenha conseguido atingir seu principal objetivo, de acordo com [TEI98], vrias
foram as contribuies destas pesquisas em diversas reas, como por exemplo, os sistemas especialistas
para auxlio e treinamento de mdicos, robs cirurgies, tradutores de lnguas automticos, sistemas de
vigilncia inteligentes, entre outros.
Com relao a Viso Computacional o desenvolvimento de equipamentos computacionais cada vez
mais rpidos, permitiram muitos avanos perceptveis nesta rea nos ltimos anos. Atualmente sistemas
de reconhecimento de faces a partir de imagem de vdeos ou mesmo imagens estticas tem se tornado uma
realidade. As aplicaes dessas pesquisas vo desde o controle de acesso a prdios e bancos at sistemas
de reconhecimento de faces acoplados em robs que, inclusive possuem a capacidade de perceber o estado
emocional do seus operadores.
Um estudo sobre reconhecimento de faces foi feito no Trabalho Individual I [EDU03] onde foram
apresentadas as principais tcnicas de reconhecimento e representao de caractersticas faciais. Alm
disso, um dos objetivos de nossa pesquisa era sempre explorar a viabilidade da utilizao de solues
biologicamente inspiradas, devido a proximidade que as mesmas possuem com os objetivos principais
da Inteligncia Articial. Alm de continuar o estudo feito no Trabalho Individual I a outra motivao
deste trabalho, a possibilidade de melhorar a tcnica proposta por Meng et al [MEN02] onde redes
neurais RBF eram utilizadas como classicadores. A rede neural RBF, segundo [MEN02] permite construir
reconhecedores de faces de elevada preciso e a qualidade da mesma est intimamente ligada ao grau de
separabilidade dos dados. Meng utiliza um algoritmo de aglomerao
1
dos dados. No entanto, a imagem
inteira era utilizada. Diante disto viu-se a possibilidade de melhorar tal tcnica, simplesmente utilizando
um algoritmo de aglomerao, mas no sobre a imagem inteira e sim sobre regies de interesse dentro da
imagem. Essas regies consistem dos olhos, boca e nariz e, utilizando somente essas regies, o problema
da alta dimensionalidade dos dados de entrada da rede neural seria resolvido, pois seria descartada grande
parte da imagem. Diante disto decidiu-se estudar as tcnicas de deteco de faces e caractersticas faciais.
Os problemas da deteco de caractersticas, esbarram nas mesmas diculdades vistas na deteco de
objetos. Detectar uma caracterstica consiste em: dada uma cena encontrar onde est a face, ou vrias
faces, bem como identicar seus componentes como olhos, boca, nariz. O funcionamento dos sistemas de
deteco de faces e de caractersticas podem ser visualizados atravs da Figura 1.1, na qual mostrada uma
1
do ingls clustering
6
CAPTULO 1. INTRODUO 7
imagem. O objetivo do sistema detectar a face os olhos, o nariz e a boca.
Figura 1.1: Tpico sistema de deteco de faces e caractersticas. Uma imagem apresentada ao sistema
para que o mesmo detecte a face e seus componentes: olhos, boca e nariz.
1.1 Estrutura do Trabalho
Seguindo a mesma linha do Trabalho Individual I, as tcnicas estudadas foram classicadas, segundo os
critrios apresentados em [YAN02] e [ERI01]. Basicamente o trabalho est divido em deteco de fa-
ces e deteco de caractersticas faciais. No Segundo captulo so apresentadas as principais tcnicas de
reconhecimento de face, subdividas em:
Mtodos Baseados em Conhecimento: representam as tcnicas que de alguma maneira codicam
algum conhecimento sobre o que uma face. Geralmente se baseiam em atributos geomtricos da
face codicados em forma de regras.
Mtodos Baseados em Caractersticas Invariantes: representam as tcnicas que identicam ca-
ractersticas da face independente de sua orientao. Tais tcnicas geralmente utilizam segmentao
de pele e modelagem estatstica da textura da face humana.
Mtodos Baseados emTemplates: uma tcnica geral utilizada para detectar objetos, onde o mesmo
representado por uma famlia de curvas que modelam suas caractersticas geomtricas. Tambm
pode ser considerada uma tcnica baseada em conhecimento, uma vez que, o projeto da template
necessita do conhecimento da forma do objeto.
Mtodos Baseados na Aparncia: representa as tcnicas que no necessitam de conhecimento
prvio sobre a caracterstica a ser detectada. Geralmente as tcnicas que pertencem a este grupo,
necessitam de vrias imagens e, a partir, delas elas aprendem ou codicam somente o que necess-
rio para realizar a deteco da caracterstica de interesse, sem a necessidade de interveno humana.
Exemplos de tal abordagem so as Redes Neurais, Eigenfaces e Modelos Ocultos de Markov.
No Captulo 3, novamente sero apresentadas tcnicas baseadas no conhecimento, mas sob a tica da de-
teco de caractersticas. Naquele captulo ser apresentada, mais uma vez, a tcnica de templates, mas de
uma forma bem mais aprofundada do que no Captulo 2. Como esta tcnica uma ferramenta bsica para a
deteco de objetos, os mesmos conceitos abordados valem para a deteco de faces, bem como para qual-
quer objeto passvel de ser expresso atravs de formas geomtricas bsicas. Em seguida ser apresentada
outra tcnica proposta por Machel Kass et al [KAS87] , mais exvel do que as templates, denominada
Modelos de Contorno Ativo (Active Contour Models) ou comumente conhecida como snakes. A diferena
CAPTULO 1. INTRODUO 8
bsica entre templates e snakes que a primeira utiliza um conhecimento global do objeto, enquanto que
a ltima guiada por conhecimento local obtido atravs de caractersticas pertinentes a imagem, como
picos, vales e bordas. No entanto, no nal do Captulo 3 ser descrita uma tcnica interessante, proposta
por Holbert et al [HOL95], que utiliza a combinao de templates e snakes para leitura de lbios a partir
de seqncias de vdeo.
Em seguida, no Captulo 4 ser apresentada uma tcnica de deteco de caractersticas, que vem ga-
nhando cada vez mais destaque dentro da Viso Computacional. A tcnica denominada Transformada de
Gabor, ou comumente conhecida como Filtros de Gabor, contribui muito para a concretizao do obje-
tivo principal da Viso Computacional, descrito no incio deste captulo, pois o conjunto de funes que
compe os ltros de gabor, segundo Lee [LEE96], modelam os campos receptivos das clulas do crtex
visual humano localizado no crebro. E nalmente, no Captulo 5 sero apresentadas as concluses deste
trabalho.
Captulo 2
Deteco de Faces
Umas das tarefas que devem ser realizadas na maioria dos Sistema de Reconhecimento de Faces (SRF)
detectar a presena da face em uma determinada imagem. Detectar a face antes de detectar cada caracte-
rstica em particular poupa muito trabalho, uma vez que a maioria dos algoritmos se baseia na procura por
tais elementos em toda a imagem. A vantagem de se detectar a face, em um primeiro momento, que aps
esta fase a procura pelas caractersticas ca limitada apenas em uma determinada regio da imagem.
Como em qualquer problema a ser resolvido, as tcnicas de deteco de faces, apresentadas nas sees
seguintes, apesar de suas diferentes abordagens, esbarram em alguns problemas comuns como[YAN02]:
Pose: as imagens de face variam de acordo com a posio da cmera que registrou a imagem
Expresso Facial: a expresso da face inuncia diretamente na aparncia da imagem de face.
Presena de Elementos Estruturais: a presena de elementos como barba, bigode e culos que
podem modicar as caractersticas em termos de tamanho, luminosidade, etc...
Ocultao: no caso de imagens feitas emambientes no controlados as faces podemaparecer, parcial
ou totalmente sobrepostas, por objetos ou at mesmo por outras faces.
A seguir nas prximas sees sero mostradas as principais abordagens de deteco de faces e alguns
exemplos pertencentes a cada uma delas.
2.1 Mtodos Baseados em Conhecimento
Os mtodos baseados em conhecimento representam as tcnicas de deteco de faces que utilizam alguma
base de regras estabelecida a partir do conhecimento prvio sobre o problema, ou seja mtodos que possuem
regras que denemo que uma face, de acordo como conhecimento do pesquisador. Por exemplo, sabemos
que faces humanas possuem determinadas caractersticas vlidas para a maioria de suas instncias, como:
todas as faces teoricamente possuem dois olhos, um nariz e uma boca. Alm disso, esses elementos se
encontram distribudos de maneira especca sobre a face. Com este conhecimento possvel estabelecer
regras que identicam uma face humana.
Este mtodo sofre de algumas desvantagens inerentes a construo do conjunto de regras. Se as regras
so muito gerais, corre-se o risco de que o sistema que as utiliza apresentar uma alta taxa de falsos positivos,
ou seja, elementos erroneamente identicados como face. O inverso tambm verdadeiro, ou seja, um
conjunto de regras muito especco pode ser inecaz ao tentar detectar faces se estas no satiszerem
todas as regras, caindo muito a preciso da deteco [YAN02].
Como exemplo de tal abordagem podemos citar a tcnica construda por Yang e Huang[YAN02], a qual
utiliza um mtodo de deteco de faces baseado no conhecimento, implementado com o uso de conjuntos
de regras hierrquicas. O primeiro nvel de regras tem como objetivo detectar os possveis elementos
candidatos a faces, retirados da imagem atravs de um algoritmo de janela deslizante. Basicamente o
primeiro conjunto de regras descreve de maneira geral o que uma face. Osegundo nvel contmdescries
9
CAPTULO 2. DETECO DE FACES 10
dos componentes da face como olhos, boca e nariz, necessrio para conrmar a validade dos elementos
extrados no nvel anterior. Na gura 2.1 temos um exemplo da deteco de faces, onde imagens em
mltiplas resolues so formadas atravs da aplicao da mdia em uma amostragem de pixels, ou seja,
toma-se um determinada nmero de pixels n, geralmente contidos em um quadrado (janela de pixels) e
substitui-se o valor dos mesmos pelo valor mdio dos pixels contidos dentro do quadrado. As regras so
aplicadas de acordo com a resoluo da imagem, por exemplo: em baixa resoluo uma determinada regra
identica a regio central do rosto por meio da armativa de que as quatro clulas centrais temluminosidade
uniforme, conforme mostra a Figura 2.2.
Figura 2.1: Figura em vrias resolues. (a) imagem original n=1. (b) n=4. (c) n=8. (d)n=16. Cada pixel
de uma clula quadrada de tamanho n x n tem seu valor substitudo pela mdia do valor da intensidade
pixels da clula [YAN02].
Figura 2.2: Exemplo de uma face em uma determinada resoluo utilizadas para detectar faces atravs de
regras que utilizam o conhecimento sobre a distribuio de luminosidade da imagem.
Kotropoulos e Pitas [KOT97] utilizam um sistema baseado em regras onde caractersticas faciais so
localizadas com o auxlo das projees verticais e horizontais da imagem de face, denidas como: HI(x) =
n
y=1
I(x, y) e VI(x) =
m
x=1
I(x, y), considerando uma imagem de tamanho n x m. As projees verticais
so utilizadas para localizar determinadas caractersticas faciais como os olhos por meio da deteco de
mnimos locais da projeo. O mesmo tratamento dado projeo horizontal, HI, onde dois mnimos
locais obtidos atravs da deteco de mudanas bruscas na projeo, correspondem ao lado esquerdo e
direito da face respectivamente, Figura2.3. Uma desvantagem desta tcnica que a detectao da face bem
como as caractersticas faciais cam comprometidas quando a imagem possui um fundo complexo.
Figura 2.3: Projees verticais (embaixo de cada gura) e horizontais (no lado da gura) de guras em
baixa resoluo. A deteco da face feita pela anlise dos picos presentes na projeo horizontal e os
vales presentes na projeo vertical. [YAN02].
2.2 Mtodos Baseados em Caractersticas Invariantes
Em contraste com o mtodo visto na seo anterior, os metdos que sero vistos nesta seo incorporam
tcnicas que tem por objetivo encontrar caractersticas invariantes da face. Particularmente, estes mtodos
so inspirados na capacidade que os seres humanos possuem de identicar objetos independentes do ponto
de vista. A principal desvantagem de tal abordagem que tais caractersticas podem ser corrompidas
devido as condies de iluminao ou algum tipo de rudo, comprometendo assim, a ecincia de tal
abordagem [YAN02]. A cor da pele e a textura da face so as principais caractersticas invariantes que
podem ser utilizadas para separar a face de outros objetos presentes em uma cena [YAN02]. No caso
da cor, a informao contida somente na escala de cinza se consitui numa representao bsica do objeto,
enquanto que a utilizao de todo o espectro de cores possvel dispe de informaes muito mais poderosas
quanto a aparncia do objeto. Com relao a face humana constatou-se que a cor da pele independente
de suas variaes (branca, negra, amarela, etc), tende a formar um cluster no espao de cores, podendo
ser modelada por um distribuio Gaussiana [WAN99], Figura 2.4. Portanto, esta caracterstica pode ser
explorada para detectar a presena de uma face em uma imagem colorida e classicar regies como face e
no-face [SAB98], sendo que esta ltima extremamente til quando se deseja detectar mais de uma face
em uma imagem.
Figura 2.4: (a) regio da face selecionada, (b) cluster de cores no espao de cores (RGB) e (c) cluster no
espao cromtico: cores puras [FER00].
Em [BHU03] a cor da pele utilizada para determinar a regio da face. As cores relevantes e dominan-
tes so extradas de imagem em RGB. Em seguida a imagem transformada para o espao de cores YIQ
descrito pelas componentes: matiz (hue), luminosidade e saturao. Este sistema de cores universalmente
utilizado em transmisses coloridas de televiso e produz uma transformao linear do RGB que gera Y
representando a luminosidade e I,Q os dois canais que contm a informaes para tratar cores. A matriz de
transformao do espao de cores RGB para YIQ dada pela seguinte equao:
_
_
Y
I
Q
_
_
=
_
_
0.299 0.587 0.114
0.596 0.275 0.320
0.212 0.523 0.311
_
_
_
_
R
G
B
_
_
Uma vez que a cor da pele tende a se aglomerar numa regio do espao de cores um threshold
utilizado para detectar os pixels de pele (skin pixels). Nos experimento de Buhiyan et al [BHU03] o
seguinte threshold, determinado empiricamente, utilizado:
(60 < Y < 200)AND(20 < I < 50) (2.1)
Logo aps a aplicao da Equao 2.1 tem-se apenas os pixels que possivelmente fazem parte da pele
humana. Para localizar efetivamente a face toma-se a imagem com maior regio conectada de pixels de
pele. Um exemplo de resultado da aplicao desta tcnica pode ser visto na Figura 2.5. Tambm na
Figura 2.6 temos outro exemplo da aplicao da mesma tcnica descrita acima, onde a nica diferena
que a segmentao das cores foi feita a partir de imagens normalizadas representadas no espao de cores
r-g. Segundo Wang et al [WAN99] a tcnica permitiu atingir resultados com 100% de sucesso quando foi
testada em 50 imagens obtidas a partir de cmeras CCD.
Figura 2.5: Deteco da face por meio da cor da pele: (a) Imagem face tpica. (b) Segmentao da cor da
pele. (c) Maior regio conectada de pixels de pele [BHU03].
Figura 2.6: Segmentao da cor da pela aplicada na imagem (a) e o resultado na imagem (b)[WAN99].
Apesar dos bons resultados apresentados acima, o sucesso ou fracasso das tcnicas baseadas em seg-
mentao da cor da pele est ligada com a maneira que a cor est representada, ou seja, o espao de cores no
qual a imagem est denida inui na preciso da deteco da face. Saber [SAB98] adverte que a utilizao
do espao de cores RGB torna a tcnica de segmentao de cores sensvel a luminosidade. Devido a esta
desvantagem outros espaos de cores foram propostos com intuito de tornar mais robustos os algoritmos
que utilizam a cor da pele. Como exemplo podemos citar o YCbCr (luminance-chrominance), utilizado em
vrias aplicaes de segmentao de pele. Entretanto Saber [SAB98] destaca a utilizao do sistema de
cores YES (denido pela Society of Motion and Television Engineers), onde Y representa a luminosidade,
E e S representam as componentes de cor. A principal vantagem deste espao de cor que ele reduz as
variaes na cor (chrominance) e principalmente por que permite calcular as componentes E e S a partir
de uma imagem RGB apenas fazendo deslocamentos de bits, sem a necessidade de multiplicaes, o que
reete de maneira positiva no desempenho dos algoritmos.
Entretanto, independente dos espao de cores utilizado as tcnicas de segmentao de pele permite
implementar detectores de face sucientemente rpidos para serem utilizados em tarefas de rastreamento
de faces (face tracking) [VEZ03], teis em reas como segurana e interfaces inteligentes. Apesar das van-
tagens de utilizar a cor para detectar a pele, um problema ocorre quando tem-se objetos com cores seme-
lhantes a pele, consequentemente provocando a ocorrncia de falsos positivos. Em vista destas limitaes,
em tarefas como deteco e rastreamento de faces, geralmente a segmentao de pele vem acompanhada
por outras tcnicas que utilizam informaes inerentes a forma do objeto (no caso a face) e informaes do
movimento para localizar e rastrear a face [YAN02].
A outra caracterstica invariante utilizada na deteco de objetos, juntamente com cores a textura.
A utilizao da textura para detectar objetos se deu com a tentativa de responder perguntas como: como
pode o ser humano reconhecer um objeto que ora apresenta uma determinada forma e ora apresenta outra
forma completamente diferente como no caso das roupas? Da mesma maneira a face humana muda dras-
ticamente dependendo do ponto do vista, pois a face em um ngulo frontal completamente diferente se
for vista de perl. Apesar disso, possvel reconhec-la. Rikert [RIK99] argumenta que a textura, assim
como a cor, tambm independente do ponto de vista. A textura pode ser encarada como uma distribui-
o probabilstica, ou seja, ela gerada a partir de um processo estocstico que fornece algum padro a
partir de permutaes aleatrias. O autor utiliza uma transformada de wavelets guiada (steerable wavelet
transform) ou tambm chamada de transformada de wavelets em pirmide (steerable wavelet pyramid). A
utilizao de wavelets permite analisar a imagem em diferentes escalas e orientaes [BUR98]. A hiptese
de Rikert que imagens perceptualmente diferentes possuem distribuies similares em diferentes bandas
e orientaes. A aplicao de wavelets na imagem resulta em um conjunto de coecientes independentes
entre si, mas no independentes quando a mesma transformada feita em diferentes escalas da mesma ima-
gem. Para capturar esta dependncia Rikert utilizou um conjunto de vetores denominado parent vectors,
que nada mais so do que a coleo de respostas de ltros aplicados em diferentes escalas da imagem. Na
Figura 2.7 temos um exemplo do parent vector.
Figura 2.7: Exemplo da estrutura parent vector. Os ltros so aplicados em vrias resolues da imagem.
O escalamento da imagem representado pelos grids acima, formando uma pirmide de imagens. O
segmento de reta representa os pixels nos quais os valores dos ltros formam um nico parent vector
[RIK99].
Antes de calcular os parent vectors, uma imagem de entrada I transformada em uma pirmide de
imagens atravs da utilizao de uma funo Gaussina Piramidal aplicada sobre a imagem 2.7. Cada nvel
da pirmide reescalado em um fator de 2 em cada dimenso. Em seguida, em cada nvel da pirmide uma
srie de ltros F
j
i
= f
i
N
G
j
aplicado em cada pixel, sendo f
i
a derivada do ltro. Portanto para cada
pixel o parent vector determinado pela seguinte equao:

V (x, y) =
_
F
0
0
(x, y), F
1
0
(x, y), ..., F
N
0
(x, y),
F
0
1
(
_
x
2
_
,
_
y
2
_
), F
1
1
(
_
x
2
_
,
_
y
2
_
), ..., F
N
1
(
_
x
2
_
,
_
y
2
_
), ....
F
0
M
(
_
x
2
M
_
,
_
y
2
M
_
), F
1
M
(
_
x
2
M
_
,
_
y
2
M
_
), ....,
F
N
M
(
_
x
2
M
_
,
_
y
2
M
_
) ]
Aps a obteno dos parent vectors estes so agrupados em classes atravs da aplicao de um al-
goritmo de clusterizao para que posteriormente seja possvel construir um modelo gaussianno misto
que generalize a distribuio. A classicao de uma imagem de entrada feita atravs do clculo de
probalibilidade P(C|v) de um vetor v pertencer a classe C, atravs da seguinte equao:
P(C|v) =
P(v|C)P(C)
P(v|C)P(C) +P(v|C)P(C)
Um resultado prtico da aplicao desta tcnica pode ser visto na Figura 2.8, onde o cluster a que
pertence um determinado parent vector destacado. Nos testes foram usados 1447 clusters para modelar
a face. Na Figura 2.8 o resultado vem da tentativa de se construir um detector de caractersticas modeladas
atravs de tais clusters, ou seja, utilizar o cluster para detectar caractersticas da face.
Figura 2.8: Exemplo de resultado obtido por [RIK99]. Na gura so mostrados apenas clusters correspon-
dentes a determinadas caractersticas. Vrios clusters (1447) so tomados para vericar a presena ou no
da face. Mas h a possibilidade de transformar o detector de face em detector de caractersticas apenas
avaliando o cluster associado a uma caracterstica .
Em [LUO00] apresentado um algoritmo de deteco de faces que utiliza a textura de maneira similar
ao que foi dito acima, entretanto a gerao dos vetores caractersticos no feita no domnio de pixels,
mas sim no domnio DCT (Discrete Cosine Transform), que segundo o autor mais eciente em termos
computacionais que o domnio de pixels. Como a tcnica aplicada sobre imagens no formato JPEG e
MPEG a transformao do domnio de pixels deve ser feito em blocos de 8x8, pois tais formatos dividem a
imagem em blocos de 8x8. Alm disso, qualquer deteco deve ser localizada em blocos e no em pixels.
O problema da deteco de face tratada como um problema de classicao de vetores unidimensionais
e os vetores caractersticos da imagem so contrudos diretamente dos blocos 8x8 do domnio DCT e sero
compostos pelos d menores parmetros DCT denidos por:
d =
N
MM
,
onde N o tamanho do vetor caracterstico desejado obtido a partir de uma imagem de face de tamanho
MxM. Com objetivo de tornar a tcnica capaz de tratar imagens com vrias resolues os modelos de faces
e no-face foram criados em 6 escalas diferentes. Em seguida os vetores caractersticos so clusterizados
em 6 clusters de distribuio gaussiana, atravs da aplicao do algoritmo K-means, mas com clculo
de distncia baseado na distncia gaussiana logartmica no lugar da distncia euclidiana. Os testes feitos
utilizando somente a textura no foram superiores devido a quantizao da imagem em blocos. Diante
disso, a preciso da deteco foi melhorada pela utilizao do algoritmo de textura juntamente com um
algoritmo de deteco baseado em cores. Embora Luo [LUO00] admita que mesmo com a combinao
do algoritmo de textura com um algoritmo de cores no resultou em uma taxa de deteco melhor do que
os algoritmos puramente baseado em cores no domnio de pixels, esta tcnica a primeira a trabalhar em
um domnio DCT comprimido e particularmente til quando h a necessidade de analisar uma grande
quantidade de dados visuais armazenados em formatos comprimidos como JPEG e MPEG comuns em
aplicaes multimdia.
2.3 Mtodos Baseados em Templates
Uma tcnica clssica de detectar objetos procurar pelo mesmo dentro da imagem e testar se ele corres-
ponde a um modelo prvio da sua forma. Uma das formas mais comuns de modelar a forma de um objeto
descrev-lo atravs de seus componentes geomtricos bsicos, como crculos, quadrados ou tringulos,
esta tcnica denominada template. A deteco do objeto, portanto, consistir em achar a melhor corres-
pondncia, denida atravs de uma funo de energia, entre o objeto presente na imagem e o seu molde
(template) . No caso de deteco de faces a template mais utilizada aquela que trata a face como um
elipse. Exemplos de utilizao desta tcnica para deteco de faces em imagens estticas podem ser encon-
trados em [ALA99, LEE01], bem como pode ser aplicada em sequncias de imagens [VEZ03]. Geralmente
a utilizao deste modelo envolve a procura pelo objeto na imagem que pode ser feita atravs de heursticas
ou algoritmos genticos [WON00, LEE01]. Como tal tcnica extremente exvel podendo ser usada para
detectar qualquer objeto passvel de ser representado por formas geomtricas (geralmente objetos slidos).
Esta tcnica est melhor descrita no prximo captulo onde ser apresentado a utilizao de templates para
detectar caractersticas faciais.
2.4 Mtodos Baseados na Aparncia
Os mtodos que compe a abordagem baseada na aparncia (appearence based methods), recebem este
nome devido ao fato de no utilizarem nenhum conhecimento a priori sobre o objeto ou caractersticas a
ser detectada. Nesta classe de algoritmos surge os conceitos de aprendizado e treinamento, uma vez que
as informaes necessrias para realizar a tarefa de deteco so retiradas do prprio conjunto de imagens
sem interveno externa. Portanto, veremos nas prximas sees tcnicas que capturam as informaes
de que precisam para detectar ou reconhecer um objeto a partir de um conjunto de imagens criando uma
representao interna do objeto de interesse.
2.4.1 Eigenfaces
O mtodo de eigenfaces proposto por Turk e Pentland [TUR91] baseado na transformada de Karhunen-
Love (KLT), ou PCA (Principal Component Analysis), e motivada pelo trabalho anterior de Sirovich e
Kirby [KIR90] devido a sua ecincia na representao de guras.
Segundo Pentland e Turk [TUR91] as imagens de faces no se encontramdistribudas de forma aleatria
em um espao de alta dimensionalidade, portanto elas podem ser descritas de alguma forma em um espao
de dimenso menor. De acordo com esta idia, faz-se o uso da transformada KLT com o objetivo de achar
os vetores que melhor descrevem a distribuio de imagens dentro do espao de imagens inteiro. Tais
vetores so denominados eigenfaces devido a semelhana que possuem com as imagens de faces, Figura
2.9.
Figura 2.9: A esquerda temos trs imagens originais e a esquerda a projeo delas no espao de eigenfaces.
A determinao da nova base de vetores feita da seguinta maneira: Considerando I(x, y) uma imagem
de duas dimenses NxN, ou um vetor de dimenso N
2
. A partir de um conjunto de imagens de testes
I={I
1
, I
2
, ..., I
M
}, encontra-se a face mdia f m do conjunto denida por:
f m
j
=
1
M

M
i=1
I
j
i
onde I
j
i
refere-se ao pixel j da imagem i.
Cada face difere da mdia por:
i
= I
i
f m
O conjunto I submetido ao PCA que acha um conjunto de M vetores ortonormais u
k
e seus respecti-
vos eigenvalues
k
que melhor descrevem a distribuio do conjunto I. Os vetoresu
k
e os escalares
k
so
respectivamente os autovetores e os autovalores da matriz de covarincia denida por:
C =
1
M

M
n=1
T
n
= AA
T
onde a matriz A =
1
,
2
, ...,
M
. A dimenso de A N
2
, o que torna o clculo dos N
2
eigenvalues e
eigenvectors uma tarefa intratvel para imagens de tamanho tpico como 128x128 pixels, que neste caso
nos fornece uma matriz de covarincia de 128
2
x128
2
. Precisamos de outro mtodo de se calcular os
eingenvectors que no seja to dispendioso.
Felizmente existe uma maneira de se obter os eigenvectors atravs da resoluo de uma matriz de di-
menso M e realizar-se combinaes lineares dos vetores resultantes [TUR91]. Tal anlise permite uma
grande reduo dos clculos da ordem de N
2
(nmero de pixels da imagem) para a ordemM (nmero de
imagens no conjunto de treinamento). Como o conjunto de treinamento M , geralmente muito pequeno,
ou seja, M N
2
, teremos um nmero de clculos bastante reduzidos. Os eigenvalues associados a cada
eigenvector nos permite organizar cada eigenvector de acordo com a sua utilidade na caracterizao das
variaes entre as imagens. Se aproveitando do fato de que as faces no mudam radicalmente quando
projetadas no espao de eigenfaces, mas quando um objeto arbitrrio (no-face) projetado neste mesmo
espao ele muda sua aparncia drasticamente, pode-se ento utilizar esta tcnica para detectar faces ape-
nas calculando a distncia do objeto projetado em relao ao cluster de face projetadas e atravs de um
threshold vericar se este uma face ou no [TUR91].
2.4.2 Redes Neurais
As Redes Neurais Articiais (RNAs) so modelos matemticos biologicamente inspirados, com o intuito
de emularem os processo cognitivos do crebro humano. Em vrias tarefas como classicao e reco-
nhecimento de padres estes modelos tem demonstrado grande ecincia. No caso de deteco de faces,
geralmente a utilizao de RNA consiste em utilizar a rede para difenciar imagens ou regies da imagem
que, possivelmente contenham uma face, daquelas imagens ou regies que no contm face, ou seja, a
funo da rede apenas classicar as imagens em duas classes possveis: face e no-face.
Em [ROL96] apresentado um sistema de deteco de faces beaseados em redes neurais. Neste sistema
uma imagem de entrada percorrida por um ltro que consiste em um janela de 20x20 que extrai regies
da imagem onde podem existir faces. Logos aps a extrao da possvel regio de face, ela submetida
equalizao de histograma e a normalizao da luz, devido as vrias condies de luminosidade. Se a face
for maior que o tamanho da janela a imagem subamostrada repetidamente por um fator de 1.2 e o ltro
aplicado em cada subamostragem, Figura 2.10. Cada bloco da imagem depois de extrado e pr-processado
enviado para uma rede neural que decidir se nele existe ou no uma face. A rede composta de vrias
camadas com arquiteturas diferentes, Figura 2.10, chamadas campos receptivos. Cada camada avalia uma
parte de imagem com a nalidade de detectarem caractersticas que podem ser teis para determinar a
presena da face. A rede apresenta como resposta um nico valor que determina a existncia ou no da
face. Um teste realizado por Rowley [ROL96] com uma rede possuindo 78 neurnios intermedirios e
4357 conexes apresentou um a taxa deteco correta de face na ordem de 92.7%, sendo que as imagens
de teste foram coletadas da Internet.
Figura 2.10: Funcionamento do algoritmo de deteco de faces baseado em RNA [ROL96].
A estratgia descrita acima ecaz apenas na deteco de faces frontais ou com leves variaes na
rotao. Diante desta limitao Rowley extendeu essa tcnica de modo que a mesma seja robusta quanto a
rotaes de face. A modicao consiste na utilizao de outra rede neural chamada rede roteadora (router
network) que responsvel por determinar o ngulo de rotao da face. A arquitetura da rede roteadora
consiste de uma camada de entrada com 400 unidades, uma camada intermediria com 15 unidades e,
nalmente uma camada de sada com 36 unidades. O ngulo da face expresso como um vetor contendo
os valores das 36 sadas, onde cada unidade de sada i representa um ngulo de i 10
o
. Como cada unidade
foi treinada para responder o valor cos( i 10
) quando uma face com ngulo apresentada, ento

cada sada interpretada como um peso para um vetor na direo indicada pela unidade i. A partir da uma
soma ponderada obtida pela Equao 2.2 e a direo desse vetor mdio indica o ngulo da face.
_
35
i=0
out put
i
cos(i 10
),
35
i=0
out put
i
sin(i 10
)
_
(2.2)
Logo aps aplicao da rede roteadora sobre uma janela e determinada a direo da possvel face, a
janela rotacionada em sentido contrrio de modo a deixar a possvel face em uma vista frontal (upright
view). A partir o funcionamento do algoritmo igual ao algoritmo descrito em [ROL96]. Na Figura temos
uma descrio grca do funcionamento deste algoritmo.
Figura 2.11: Descrio grca do algortimo de deteco de faces rotacionadas [ROL98].
2.4.3 Hidden Markov Models
Historicamente os Modelos Ocultos de Markov (Hidden Markov Models - HMM) tem sido uma ferramenta
til no reconhecimento de fala [RAB89]. Tais modelos possuem como principal caracterstica a capacidade
de caracterizao de propriedades estatsticas de um sinal. HMM so compostos pelos seguintes elementos:
1. N, nmero de estados do modelo e S ={S
1
, S
2
, ..., S
N
} o conjunto de estados.
2. M nmero de smbolos diferentes e V ={v
1
, v
2
, ..., v
M
} o conjunto de diferentes smbolos de obser-
vao
3. A, matriz de probabilidade de transio, onde A = {a
i j
} e a
i j
= P[q
t
= S
j
|qt
i1
= S
i
]1 i, j N,
considerando que q
t
um estado do modelo no instante t, 0 a
i, j
1e
N
j=1
a
i j
= 1, 1 i N
4. B = b
j(k)
, matriz de probabilidades dos smbolos de observao, onde
b
j(k)
= P[O
t
= v
k
|q
t
= S
j
] 1 j N k M
O
t
o smbolo observado no instante t.
5. , distribuio inicial de estados onde ={
i
} onde
i
P[q
1
= S
i
], 1 i N
Entretanto podemos denir um HMM pela tripla = (A, B, ).
Nean [ARA96, ARA98] utiliza HMM tanto para deteco como para o reconhecimento de faces frontais.
Em sua tcnica cada estado do HMM est associado a uma regio da face (cabelo, testa, olhos, nariz e
boca, sempre nesta ordem), Figura 2.12. Cada imagem do conjunto de treinamento possui largura W e
altura H e so divididas em blocos que se sobrepe de altura L e mesma largura W, Figura 2.13. Todos
os blocos extrados das imagens so arranjados em forma de um vetor-coluna consistindo de todos os
pixels que pertencem ao bloco e, logo aps constri-se uma matriz de covarincia que, atravs do uso da
transformada KLT obtem-se uma nova base vetores (KLT basis). Em seguida cada vetor projetado na nova
base, formando-se assim um conjunto de vetores de observao com um nmero de dimenses reduzidas.
Portando, a partir do conjunto de imagens de um indivduo extrai-se um conjunto de vetores de observao
e cada um deste associado a um estado do HMM e usado para obter as estimativas iniciais da matriz B.
O restante do treinamento feito atravs do uso dos algoritmo de segmentao uniforme e do algoritmo
de Viterbi. O treinamento um processo iterativo e pra quando a probabilidade de segmentao Viterbi
menor do que um limiar. Os parmetros nais do HMM so obtidos atravs do procedimento recursivo
Bam-Welch.
Figura 2.12: HMM utilizado para a deteco e reconhecimento de faces.
Figura 2.13: Imagem de face dividida em blocos para a extrao dos vetores caractersticos.
Para que seja possvel identicar uma face, independente de sua indentidade o HMM deve ser treinado
com um modelo genrico de face humana obtido a partir de uma grande conjunto de imagens de face.
A ocorrncia de uma face determinada quando a probabilidade de sada do HMM estiver acima de um
limiar (threshold). Segundo [ARA98] a utilizao de HMM permite construir sistemas de deteco e
reconhecimento robustos quanto a diferena de escala e variaes na orientao e expresses da face.
Neste captulo foram vistas as principais tcnicas de deteco de faces, que so extremamente teis
em sistemas de reconhecimento de faces, vigilncia e interfaces inteligentes homm-mquina. No caso
do reconhecimento de face a deteco da mesma permite diminuir muito a dimenso dos dados, pois o
processamento car restrito apenas regio da face. Tambm em sistemas de deteco de caractersticas,
como deteco de olhos, saber onde onde est a face crucial para o desempenho do sistema, pois reduz o
espao de procura por tais elementos no havendo mais a necessidade de analisar a imagem inteira.
Captulo 3
Mtodo de Deteco Utilizando
Conhecimento
3.1 Introduo
Neste captulo iniciaremos um estudo sobre a deteco das caractersticas faciais especcas como olhos,
boca e nariz. Os conceitos expostos no captulo anterior tambm so vlidas para os problemas aqui
analisados. Pode-se armar sem perda de generalidade que a maioria das tcnicas estudadas at agora
se constituem em ferramentas teis tanto para detectar a face como tambm as caractersticas faciais e
tambm servindo para detectar qualquer objeto. Este captulo aborda tcnicas que se baseiam no conheci-
mento que o pesquisador possui sobre um determinado objeto que deseja identicar em uma imagem ou
seqncia de imagens. Geralmente este conhecimento se limita s caractersticas do objeto. Portanto a
descrio do objeto feita, na maioria das vezes, por representaes utilizando formas geomtricas bsicas
como retngulos, tringulos, crculos, ou a combinao destes. Nas prximas sees sero abordadas duas
das principais tcnicas utilizadas atualmente para detectar objetos, que utilizam conhecimento: templates
deformveis e modelos de contornos ativos (Active Contour Models).
3.2 Templates Deformveis
A tcnica de templates deformveis proposta por Yuille [YUI92] consiste em descrever um determinado
objeto atravs de formas geomtricas simples como crculos ou parbolas, servindo para modelar a forma
de algum objeto, que pode ser descrito atravs de uma coleo de curvas parametrizadas que juntas descre-
vem a forma geomtrica do mesmo[SHA91, RAD95].
As templates deformveis so exveis permitindo o ajuste de seu tamanho, largura e outros parmetros
para se encaixarem com os dados. A template interage dinamicamente com a imagem de acordo com uma
funo de energia denida em termos dos parmetros das curvas e formas utilizadas para constru-la. A
funo de energia formulada de tela maneira que a energia baixa quando a template se encaixa com
a geometria da caracterstica de interesse na imagem [SHA91]. Como foi dito, a energia uma funo
de todos os parmetros da template e denidos em termos dos vales, picos e bordas presentes na imagem
podendo ser expressos pela seguinte equao:
E = E
vales+
E
bordas
+E
picos
(3.1)
Em [SHA91] a equao abaixo utilizada para minimizar os parmetros da template utilizada para
detectar os olhos, motrada na Figura 3.1:
E = E
v
+E
e
+E
i
+E
w
+E
p
+E
int
, (3.2)
onde E
v
, E
e
, E
i
, E
w,
, E
p
e E
int
denotam a energia dos vales, bordas, imagem, partes brancas, picos e
energia interna respectivamente. Cada termo denido pelas equaes abaixo:
21
CAPTULO 3. MTODO DE DETECO UTILIZANDO CONHECIMENTO 22
E
v
=
C
1
Area
Z Z
irisarea
v
(

x )dA
E
e
=
C
2
Length
Z
irisedge
e
(

x )dS
C
3
Length
Z
parabola
e
(

x )dS
E
i
=
C
4
Area
Z Z
irisarea
i
(

x )dA
E
w
=
C
5
Area
Z Z
whites
w
(

x )dA
E
p
=C
6
_
p
(

P
1
) +
p
(P
2
)
_
E
int
=
K
1
2
(

X
e

X
c
)
2
+
K
2
2
_
p
1
(r+b)
2
_
2
+
K
2
2
_
p
2
(r+b)
2
_
2
+
+
K
3
2
(b2r)
2
+
K
4
2
(a0.8r)
2
+
K
4
2
(c 0.8r)
2
+K
5
e
r
Onde os termos
v,
e
,
i
, ,
w
,
p
, denotam os campos potenciais para o vale, bordas, imagem origi-
nal, partes brancas e picos respectivamente. A minimizao de cada termo acima provaca a minimizao
de toda a template e consequentemente a melhor correspondncia (matching) entre ela e a imagem.
Figura 3.1: Template utilizada por [YUI92] para detectar olhos.
Um outro exemplo pode ser visto na Figura 3.2, onde ca fcil notar o grau de liberdade que se tem
quando esta tcnica utilizada para modelar objetos, pois podemos notar que na primeira gura (Figura
3.1) tem-se muito mais parmetros a serem atualizados do que na segunda 3.2.
Figura 3.2: Template deformvel para detectar olhos [HUA92].
Independente do nmero de parmetros da template, este so determinados atravs de um processo
interativo onde cada termo da funo de energia, como aqueles que compes a Equao 3.2, minimizado.
Devido a esta caracterstica o processo global de minimizao da funo de custo acaba sendo computa-
cionalmente caro. Para acelerar o processo de deteco de caractersticas alguns pesquisadores utilizam
mtodos de busca como algoritmos genticos (AGs) e heursticas para determinar onde possivelmente se
localiza um determinado objeto. Com isto o processo de minimizao tende a ser mais rpido se a tem-
plate est prxima do objeto. Em [LEE01] apresentado um algoritmo que utiliza AGs para otimizar
os parmetros da template que modela a face. O modelo da face denido atravs de uma elipse com 5
parmetros: (a,b,r
x
, r
y
,), onde a e b so os dimetros da elipes, x e y a localizao do centro da elipses e
a orientao da mesma. Segundo Lee [LEE01] o AG torna o processo de busca pela face numa imagem
mais rpido e permite obter a soluo global. Uma vez que se tenha obtido a localizao da regio que
contm a face, as caracteriticas faciais so detectadas dentro deste regio por um processo semelhante.
Outro exemplo que utiliza esta mesma estratgia pode ser vista em [ALA99] que descreve um algoritmo
para localizar caractersticas faciais. A cabea tratada como uma elipse podendo apresentar rotaes em
torno de um eixo vertical. Na Figura 3.3 temos um exemplo do modelo utilizado por Alattar [ALA99].
Figura 3.3: Modelo utilizado por Allatar [ALA99] para detectar a cabea.
Portanto se a cabea pode ser descrita como uma elipse, ento ela pode ser denida por uma equao
do tipo:
h(x, y) = ax
2
+2bxy +cy
2
+dx +ey 1 = 0, (3.3)
onde a, b, c, d, e so osparmetros da funo da elipse. Logo aps encontrar a elipse que melhor des-
creve a cabea os parmetros hc
x
e hc
y
(centro da cabea), h
l
e h
w
(altura e largura da cabea) so utilizados
para estimar a posio das caractersticas faciais segundo relaes suas geomtricas com a face. Os olhos
por exemplo so determinados pela relao:
e
l
=
h
w
5
onde e
l
signica o tamanho dos olhos. Os centros so determinados pelas equaes:
rec
x
= hc
x
+e
l
cos
rec
y
= hc
y
+e
l
sin
(3.4)
lec
x
= hc
y
e
l
cos
lec
y
= hc
y
e
l
sin
(3.5)
onde (rec
y
, rec
y
) e (lec
x
, lec
y
) denotam os centros dos olho direito e esquerdo respectivamente. Como
as estimativas se baseiam unicamente em grandezas geomtricas tem-se apenas localizaes aproximadas
das caractersticas. Devido a este fato as estimativas obtidas comas relaes descritas acima so submetidas
a um processo de renamento para corrigir eventuais falhas e imprecises na localizao das catactersticas.
No caso dos olhos uma janela retangular de largura w e altura l com a mesma inclinao denida sobre a
regio dos olhos. Dentro da janela a posio exata dos olhos calculada atravs de um processo semelhante
ao utilizado por Brunello e Poggio em [POG93] que utiliza as projees verticais e horizontais denidas
como:
h(x) =
h
y=0
f (x, y)
v(y) =
w
x=0
f (x, y)
onde f (x, y) o valor do pixel e as coordenadas (x, y) so relativas a janela. Conforme a Figura 3.4a,b
os vales presentes no grco indicam a localizao das rbitas do olho esquerdo e direito respectivamente.
Neste mesmo grco a linha tracejada mostra os valores das projees ltradas por um threshold, que
facilita a identicao dos vales de interesse. Alocalizao destes vales utilizada para renar a localizao
precisa dos olhos atravs das equaes:
lec
x
= hc
x
kcos+msin
lec
y
= hc
y
ksinmcos
rec
x
= hc
x
+lcos+msin
rec
y
= hc
y
+lsinmsin
onde m indica o centro da janela dos olhos e k a distncia entre o vale esquerdo (Figura 3.4b) e o centro
fa janela, l a distncia entre o vale direito (Figura 3.4b) e o centro da janela. O processo de localizao de
outras caractersticas semelhante ao que foi descrito para os olhos. Resumindo, o algoritmo de Alattar
consiste em primeiro determinar a localizao da face e, em seguida, usar os parmetros da elipse para
estimar a localizao das demais caractersticas faciais. Uma vez que se tenha a estimativa da localizao
das caractersticas, um processo de renamento utilizando janelas e projees integrais utilizado para
determinar de forma precisa a posio de cada caracterstica. Com este algoritmo Alattar arma ter con-
seguido bons resultados com imagens extradas de seqncias de video contendo pessoas conversando e
algumas utilizando culos. O teste aplicado em 15 seqencias de vdeo reportou a performance de 97% de
acerto para a deteco dos olhos, mas 76% para a deteco da boca.
Figura 3.4: Projees horizontais e verticais dos olhos obtida a partir da regio intera a janela dos olhos.
Como podemos notar no trabalho de Alattar [ALA99]a boca uma caracterstica difcil de detectar. Em
contrapartida Zhang [ZHA02] desenvolveu um algoritmo especico para detectar a boca e em qual estado
ela se encontra, ou seja, se est aberta ou fechada com o uso de duas templates utilizadas conforme o estado
da boca, Figura 3.5 . O algoritmo de Zhang aps detectar a regio da boca determina os parmetros da linha
de contorno do lbios. O clculo desses parmetros feito pela seleo de pontos candidatos dentro do
contorno da regio da boca obtido atravs da aplicao de ltro de bordas na componente Y da imagem,
uma que est denida no espao de cores YC
b
C
r
.
Figura 3.5: As duas templates de boca utilizada por Zhang [ZHA02]. Os parmetros deformveis w
m
l
e w
m
r
so os cantos da boca, C
m
i
(i = 1, 2, 3) e O
m
i
(i = 1, 2, 3, 4) so os parmetros da linha de contorno do lbio.
Atravs de uma linha l
m
perpendicular a linha que conecta os cantos da boca, Figura 3.6 seleciona-se
pontos de interseco que esto acima da mesma partindo de l
m
at 0.3l
m
denotados por P
u
i
(i =1, 2, 3, ..., N
m
u
),
enquanto que os pontos de interseo que esto entre l
m
e 0.5l
m
so denotados como P
l
j
( j = 1, 2, ..., N
m
l
)
1
.
1
a notao u e l referem-se a lbio superior e inferior respectivamente.
Figura 3.6: Candidatos para parmetros descritores do contorno do lbio e a determinao se a boca est
aberta ou fechada. Em (a) temos a boca fechada, em (b) a boca aberta [ZHA02].
As distncias dos pontos P
u
i
e P
l
j
so tomados como candidatas para os parmetros do contorno dos
lbios. Para determinar o estado da boca o nmero de candidatos utilizado. Se N
m
l
2 e N
m
u
2
considera-se que a boca est aberta, mas se N
m
l
= 1 e N
m
u
2 ou N
m
u
= 1 e N
m
l
2 a boca est fechada. Em
seguida a template adequada selecionada para determinar corretamente a posio do contorno dos lbios.
Devido ao uso de duas templates Zhang utiliza duas funes de custo diferentes. No caso da boca aberta a
funo de custo a seguinte :
f
m
0
= (k
1
f
1
+k
2
f
2
+k
3
f
3
) MIN, (3.6)
onde :
f
1
=
4
i=1
1
L
y
i
I
y
i
E
y
(X)dS
f
2
=
m
A
m
u
m
A
m
o
m
A
m
l
m
A
m
o
+
A
m
u
+
A
m
o
+
A
m
l
f
3
=
A
m
u

A
m
l
A
m
o

A
m
l
A
m
l

A
m
u
,
sendoE
y
a borda extrada da imagem, L
y
i
(i = 1, 2, 3, 4) o tamanhos das parbolas mostradas na Figura
3.5 b, m
A
m
u
, m
A
m
l
, m
A
m
O
,
A
m
u
,
A
m
o
,
A
m
l
, so as mdias e as varincias da componente C
r
da imagem na regio
do lbio superior A
m
u
, lbio inferior A
m
l
, e A
m
O
a regio entre os lbios, Figura 3.5b. Os coecientes k
assumem valor 1 nas duas funes das templates. A funo f
2
que as regies os lbios A
m
u
, A
m
l
e A
m
o
, tem
valores da componente C
r
diferentes, mas dentro de cada regio o valor igual. O termo f
3
considera que
a varincia do rudo da cmera o mesmo em todas as regies. Os parmetros do lbio superior (O
m
1
, O
m
2
)
so selecionados do conjunto de pontos P
u
i
com N
m
u
2 e os parmetros do lbio inferior (O
m
3
, O
m
4
) com
N
m
l
2. Para cada combinao (O
m
1
, O
m
2
, O
m
3
, O
m
4
) a funof
m
0
determina o custo da combinao, sendo
que a combinao de menor custo selecionada para descrever o contorno dos lbios. Para o caso da boca
estar fechada a funo de custo da respectiva template e igual a Equao 3.6, mas os termos que a compe
so dados por:
f
1
=
3
i=1
1
L
y
i
I
y
i
E
y
(X)dS
f
2
=
m
A
m
u
m
A
m
l
+
A
m
u
+
A
m
l
f
3
=
A
m
u

A
m
l
, onde os parmetros do contorno do lbio (C

m
1
,C
m
2
,C
m
3
) so retirados de P
u
i
e P
l
j
, Figura(3.5a). De maneira
semelhante como feito na template da boca aberta, a combinao (C
m
1
,C
m
2
,C
m
3
) de menor custo seleci-
onada como os parmetros para decrever os lbios da boca fechada. Na Figura 3.7 podemos ver um dos
resultados obtidos por Zhang num teste realizado em uma seqncia de video.
Figura 3.7: Localizao da boca em uma seqncia de vdeo [ZHA02].
3.3 Snake
Devido a utilizao de formas especiais de contorno como elipes e parbolas os componentes da face
segmentados atravs do uso de templates deformveis tem um aspecto articial [RAD95], pois no caso de
olhos muito improvvel que se encontre olhos perfeitamente elipsides.
Uma tcnica de segmentao mais exvel foi proposta por Michael Kass, et. al. [KAS87] denomi-
nada Modelos de Contorno Ativo (Active Countour Models) ou popularmente conhecidos como snakes.
O modelo bsico de snake consiste numa linha exposta a inuncia da fora da imagem e foras externas
restritivas. A fora interna da snake faz com ela adquira um formato curvilneo suave, enquanto que a fora
da imagem a atrai em direo s caractersticas da imagem como picos, vales e bordas. uma tcnica inte-
rativa, onde o usurio pode adicionar termos de energia para a minimizao da energia (foras ou energia
externa) de forma a empurar o modelo para a soluo desejada (ponto de energia mnima), conseqente-
mente o mesmo atinge a resposta desejada quando a snake posicionada prxima a regio a ser detectada
[KAS87]. Segundo [Huang,1992] esta tcnica indicada quando se deseja detectar caractersticas faciais
como sobrancelhas e narinas e a prpria face, uma vez que estas caractersticas variam muito de acordo
com a pessoa, tornando complicado o uso de templates deformveis. Representando a posio da snake
por V
S
= (x(S), y(S)) podemos escrever a funo de energia da seguinte maneira[KAS87]:
E
snake
=
Z
1
0
E
internal
V(S)d(S) +
Z
1
0
E
image
V(S)d(S)+
+
Z
1
0
E
constraints
V(S)d(S) (3.7)
onde E
internal
representa a energia interna do contorno devido as curvaturas , E
images
a energia da
imagem, e nalmente E
constraints
representa a energia externa.
A energia interna pode ser escrita da seguinte forma:
E
internal
=
((s)|V
s
(S)|
2
+
ss
(S)|V(S)|
2
)
2
(3.8)
onde a energia da linha composta pelo termo (s) que faz com que snake se comporte de forma
elstica, enquanto que segundo termo (s) tende a acrescentar rigidez ao modelo. A energia da imagem
(E
image
) utilizada de modo para atrair a funo de minimizao para caractersticas pertinentes a prpria
imagem como picos, vales e bordas e, a energia total da imagem pode ser denida a soma poderada de trs
energias funcionais presentes na imagem:
E
total
= w
line
E
line
+w
edge
E
edge
+w
term
E
term
(3.9)
O ajuste dos pesos da Equao 3.9 denide qual o comportamento da snake. A forma mais simples de
denir a enegia da imagem atravs da intensidade, de tal forma que podemos considerar a energia das
linhas como:
E
line
= I(x, y)
onde o sinal do peso w
line
denir se a snake ser atrada por linhas claras ou escuras. Da mesma
maneira a energia relativa as bordas presentes nas imagens pode ser denida atravs da intensidade da
imagem. Portanto podemos denir o segundo termo da equao 3.9 como:
E
edge
=|I(x, y)|
2
, (3.10)
que permite a snake ser atrada para regies da imagem onde o gradiente do contorno possui valores
altos. O terceiro termo da equao 3.9 serve para achar terminaes de linhas e cantos na imagem. Kass
[KAS87] utiliza uma imagemsuavizada pela aplicao de umltro gaussiano onde as linhas so destacadas.
A nova imagem denida por C(x, y) = G
0
(x, y) I(x, y) servir para denir a curvatura em nvel de linha
da seguinte maneira: denine-se = tan
1
(Cy/Cx) como o gradiente do ngulo e n = (cos, sin) e
n
= (sin, cos) como os vetores unitrios e perpendiculares direo do gradiente. Ento a curvatura
do contorno dada por:
E
term
=

n
=

2
C/n
2
C/n
=
C
yy
C
2
x
2C
xy
C
y
+C
xx
C
2
y
(C
2
x
+C
2
y
)
3/2
(3.11)
Combinando os termos E
edge
e E
term
pode-se criar uma snake que seja atrada por bordas e ao mesmo
tempo por terminaes de curvas. Na Figura 3.8 temos um exemplo do comportamento de uma snake
exposta ao contorno subjetivo.
Figura 3.8: Nesta gura podemos ver a capacidade da snake de perceber (detectar) os contornos subjetivos.
Com exemplo de aplicao real desta tcnica podemos citar Huang [HUA92], que dene a funo snake
abaixo destinada a detectar sobrancelhas:
n
i=1
(
i
E
continuity
+
i
E
curvature
+
i
E
image
)
=
n
i=1
_
i
|d
mean
|v
i
v
i1||
Largest
icon
+
i
(|v
i1
2v
i
+v
i+1|)
Largest
icur
+
i
(Edge
iMin
Edge
iValue
)
Edge
iMax
Edge
iMin
,
onde v
i
a iterao seguinte a v
i
, d
mean
representa a distncia mdia entre pontos, Largest
icon
repre-
senta a maior distncia entre 8 distncias {d
mean
neigh(v
i
) v
i1
}, Largest
icur
representa a maior de 8
distncias {v
i
2neigh(v
i
) +v
i+1
}, Edge
iValue
representa a resposta da borda de v
i
, Edge
iMin
/Edge
iMax
representa a menor e a maior resposta de borda em 8 vizinhos de v
i
. Devido a complexidade da equao
de energia Huang utilizou um algoritmo guloso para minimizar a equao acima. A desvantagem deste
processo que ele apenas atinge um mnimo local. Alm disso, o autor utiliza um mdulo chamado RCER
(Rough Countour Estimation Rotine) que serve para estimar a posio inicial da snake de forma que ela
que prxima a caracterstica de interesse, fazendo com que a convergncia do processo de minimizao
seja acelerado, pois necessitar de poucas iteraes.
De acordo com o que foi visto at agora, pode-se notar que a snake no restrita a um determinado
formato prvio, ou seja ela descreve uma famlia de curvas, como por exemplo, olhos geralmente so re-
presentadas por elipses. O mtodo clssico de snakes no contm nenhum conhecimento prvio sobre a
caracterstica a ser detectada e o processo todo consiste somente na atualizao dos parmetros da curva
(ajuste interativo). Consequentemente, tal mtodo computacionalmente caro. Em contrapartida, Radeva
[RAD95] apresenta uma variante da tcnica de snakes denominada rubber snakes onde a principal dife-
rena para o mtodo clssico que a primeira inicia a deformao a partir de um modelo particular de
caracterstica facial e modica seus parmetros de acordo com a caracterstica reproduzindo da maneira
mais l o formato da mesma. Portando rubber snakes podem ser denidas como uma curva contnua que
a partir de um estado inicial tentam se ajustar dinamicamente modicando sua posio e forma. Desta
maneira a rubber snake interage direto com as bordas, picos e vales da imagem sem a necessidade de um
determinao prvia de pesos e parmetros para explicitar a forma da curva. Os nicos parmetros que
necessariamente precisam de um conhecimento prvio so os termos de elasticidade e rigidez que valem
para todos os pixels da snake. Radeva [RAD95] destaca a necessidade de um mtodo de localizao das
caractersticas faciais, pois a rubber snake necessita de um estado inicial [RAD93]. O mtodo utilizado
consiste em localizar as caractersticas atravs das projees horizontais e verticais da imagem, analisando
os picos e vales das projees, da mesma maneira como feito por Brinelli e Poggio [POG93] . Um exem-
plo das projees vertical e horizontal de uma imagem de face pode ser visto na Figura 3.9. As projees
so analisadas com o objetivo de identicar certas seqncias de picos (mximos locais) e vales(mnimos
locais) que geralmente denunciam a presena de uma caracterstica facial. Na Figura 3.9 podemos observar
que na projeo horizontal os dois mnimos globais correspondem aos lados da face, bem como o mnimo
local entre estes dois mnimos globais ocorre na linha do nariz, praticamente em uma linha que divide a
face em duas partes simtricas.
Figura 3.9: Mapas horizontais e verticais [RAD95].
Os resultados reportados por Radeva[RAD95] apontam que em 23 imagens os olhos foram segmenta-
dos correntamente, havendo 3 erros que ocorreram devido a falhas na deteco da ris por causa do brilho
da imagem. A boca detectada com auxlio da linha entre os lbios de forma que a snake, aps ser norma-
lizada em escala e orientao, se deforma at se encaixair com o contorno dos lbios. Alguns problemas,
ao detectar a boca ocorrem quando a linha entre os lbios muito menor que um vale na imagem devido a
presena de dobras ou rugas prximo a boca. As imagens utilizadas no teste possuiam 15% de variao en-
tre escala, orientao e tranlao com o fundo supostamente homogneo. Nas Figuras3.10 e 3.11 podemos
ver um exemplo de deteco de olhos, sobrancelhas e bocas.
Figura 3.10: Exemplo de Deteco de olhos sobrancelhas e boca.
Figura 3.11: Exemplo de Deteco da boca.
Seguindo a mesma idia de otimizar o modelo de contorno ativo Almageed [ALM02] apresenta um
novo modelo de snake denominado pressure snakes, que utiliza modelagemestatstica do objeto e do fundo.
A componente da energia da borda substiuda por um termo de energia de regio que uma funo
das propriedades estatsticas do objeto de interesse. Embora a pressure snake abandona a necessidade de
detectar bordas fortes na imagem possui a desvantagem de ter os parmetros denidos pelo usurio de
forma manual e, estes devem ser bem precisos para se atingir um resultado razovel. Segundo Almageed a
pressure snake, proposta inicialmente por Ivins e Porril dada por:
F(S) =
_
S
u
__
1
|I(S) |
k
_
, (3.12)
onde S denota o contorno, a mdia e o desvio padro, enquanto que o parmetro k denido pelo
usurio e representa o espalhamento da populao. A Equao 3.12 assume uma distribuio Gaussiana
simples para uma determinada rea, onde aplicada uma presso positiva quando a distncia entre a in-
tensidade da imagem e a mdia est dentro de k, caso contrrio aplicada uma presso negativa. A
performance da snake depende diretamente do paramtro k, e por este motivo Almageed desenvolveu o
mtodo a seguir para contornar a necessidade de determinar os paramtros manualmente:
1. usa-se a mistura de duas distribuies Gaussianas estimando-se uma funo de densidade de proba-
bilidade (PDF) dos pixels das imagem (em escala de cinza), atravs do algoritmo EM.
2. Atravs da teoria da deciso de Bayes o limite timo de deciso x
entre as duas distribuies atravs

da equao:
1
_
2
2
1
exp
_
0.5
(
1
x
)
2
2
1
_
=

2
_
2
2
2
exp
_
0.5
(
2
x
)
2
2
2
_
(3.13)
3. Com a ajuda de um conhecimento a priori do objeto sabe-se qual distribuio corresponde ao objeto,
onde o k determinado por:
k =
|
0
x
0
O mtodo acima parte da premissa que tanto o objeto como o fundo podem ser representados so homo-
gneos quanto a sua cor e inclusive podem ser modelados por uma distribuio Gaussiana simples. Em
situaes reais esta situao praticamente impossvel de ocorrer, uma vez que tanto o fundo como o ob-
jeto so entidades multicoloridas. O mtodo proposto por [ALM02], com intuito de superar tal limitao
consiste dos seguintes passos: (a) estima-se os PDF do fundo p(x|B), usando o algoritmo EM ; (b) estima-
se a PDF do objeto, p(x|O) e, (c) usando p(x|O) e p(x|B) segmenta-se o objeto para obter a regio inicial
e (d) nalmente itera-se a snake usando usando o modelos de presso dado por:
F(S) = (p(x|O) p(x|B))
_
S
u
_
I
, (3.14)
onde o termo (p(x|O) p(x|B)) representa a magnitude e direo da presso, enquanto que o termo
_
S
u
_
I
representa as componentes da presso nas direes x e y. Como exemplo da ecincia do modelo
acima descrito podemos ver na Figura 3.12 a performance do mtodo original de pressure snakes proposto
por Ivins e Porril e logo aps a performance atingida pelo mtodo de Almageed utilizando misturas de
presso (mixture pressure).
Figura 3.12: (a) performance do modelo pressure snake original e (b) performance do modelo mixture
pressure model [ALM02].
Em [RAM02] a tcnica de pressure snakes utilizada em uma aplicao de rastreamento de olhos
(eye tracking). A principal vantagem da abordagem estatstica da snake, segundo o autor a habilidade de
snake expandir e contrair quando os olhos piscam. Alm disso, caso a snake permanea contrada, signica
que provavelmento os olhos esto fechados e calculando a frequncia com que os olhos piscam e o tempo
que a snake permanece contrada pode-se deduzir que a pessoa est fadigada ou com algum problema de
sade. O movimentos dos olhos tambm podem ser analisados, sendo extramamente teis na construo
de um detector de mentiras, uma vez determinados padres de movimentos dos olhos denunciam o estado
psicolgico de uma pessoa. Na Figura 3.14 temos um exemplo de rastreamento de olhos usando snakes.
Figura 3.13: Exemplo de rastreamento de olhos utilizando snakes [ALM02].
Figura 3.14: Exemplo de rastreamento de olhos. A snake consegue superar o problema do piscar de olhos
[ALM02].
Holbert [HOL95] apresenta uma aplicao de reconhecimento de fala, na qual a performance me-
lhorada com a interpretao de dados visuais atravs da combinao de snakes e templates deformveis.
A combinao de snakes e templates feita por Hobert com o intuito de que cada modelo preencha as
falhas do outro. No caso de snakes a inicializao e a normalizao dos parmetros requerem intervenes
interativas durante o processo, alm disso, ela deve ser posicionada prximo ao objeto de interesse. Outro
problema relacionado com o modelo de contorno ativo a falta de conhecimento global sobre o objeto a
ser detectado, ou seja, a snake no tem conhecimento nenhum sobre a forma do objeto, se baseando apenas
em informaes locais da imagem.
Em contrapartida as templates deformveis incorporam um conhecimento global sobre o objeto de
interesse e a deteco do mesmo baseia-se no ajuste de seus parmetros. Mas uma desvantagem das
templates que para cada objeto a ser detectado deve ser denido uma funo de custo, bem como as regras
de atualizao dos parmetros da funo. Devido a esta inexibilidade impossvel utilizar templates em
aplicaes onde o objeto a ser detectado muda sua forma dinamicamente como no caso da leitura de lbios.
Com a combinao dos dois modelos Holbert [HOL95] conseguiu desenvolver um sistema que rastreia os
lbios de uma pessoa falando, se aproveitando da exibilidade caracterstica das snakes, bem como utiliza
uma template para codicar o conhecimento global sobre a forma dos lbios alm de inicializar, avaliar
e corrigir os parmetros da snake. Os parmetros iniciais da template so obtidos atravs da aplicao
de operadores morfolgicos e anlise de clusters, posteriormente eles so utilizados para inicializar os
parmetros da snake. Durante todo o processo de rastreamento de lbios, a snake vai sendo guiada pela
template que atua como um usurio interativo at que ela atinja um estado estvel. Em seguida, a template
se deformada at se encaixar com o formato dos lbios para corrigir os parmetros da snake. Na Figura
3.15 temos uma descrio em alto nvel do sistema construdo por Holbert [HOL95].
Figura 3.15: Grco descrevendo o sistema de deteco da boca utilizando templates e snakes.
Neste captulo apresentamos tcnicas que se apoiam no conhecimento que o pesquisador possui sobre
o objeto que desejada detectar em uma imagem. Uma das tcnicas permite expressar o formato do objeto
de interesse atravs de um conjunto de elementos geomtricos, os quais podem ser ajustados para se en-
caixarem com o contorno do mesmo, sendo que o incoveniente de tal tcnica que para cada objeto de
interesse, um modelo particular deve ser projetado. Alm disso, outra tcnica mais exvel foi apresentada,
cuja ecincia pde ser vista quando se trata da deteco de contorno complicados como contorno subjeti-
vos e o contorno de certas caractersticas faciais como os lbios e as sobrancelhas, pois tais caractersticas
se modeladas atravs de um conjunto de cruvas, resultaro em um modelo muito complexo para ser ajus-
tado em fase de deteco. Em contrapartida, no prximo captulo veremos uma tcnica que est ganhando
cada vez mais espao dentro da Viso Computacional que permite detectar caractersticas faciais de forma
automtica sem a necessidade de se estabelecer um modelo geomtrico e suas respectivas regras de ajuste.
Captulo 4
Transformada de Gabor
4.1 Introduo
As redes neurais so uma conseqncia da necessidade de inserir capacidade de aprendizado em mqui-
nas e tal soluo s foi vivel atravs dos avano nas pesquisas de neurologia e psicologia que conseguiram
descrever o funcionamento do neurnio biolgico, que posteriormente serviu de bases para criar seu equi-
valente articial.
No campo da computao vrios problemas tem soluo derivadas de processos biolgicos, uma vez
que muito desses problemas so semelhantes a outros que, atravs da evoluo, a natureza resolveu. Por
exemplo, atualmente uma das principais ferramentas de automatizao de processos complexos e auto-
programao so os algoritmos genticos [MIT96]que imitam o prprio processo de evoluo partindo de
uma soluo, muitas vezes, ruim do problema at chegarem, em muitos casos, em uma soluo tima.
Necessidades semelhantes ocorrem dentro da Viso Computacional, pois para melhorar a performance
de sistemas de Viso Computacional seria interessante dot-los de capacidade de imitar algum sistema
visual biolgico. Atualmente existem tcnicas que imitam a retina [SME02], o movimento de ateno
dos olhos (movimentos sacdicos) [SME98, HOT00], e os campos visuais receptivos do cortx humano,
que so modelados atravs de um conjunto de ltros denominados ltros de Gabor ou Gabor Wavelets
[FER02, LEE96, HOT00], que ser descrito a seguir.
4.2 Filtros de Gabor
Embora a transformada de Fourier tem sido uma ferramenta til na anlise de sinais contnuos, ela
no permite uma anlise local em termos de freqncia, consequentemente eventos que podem ocorrer
em intervalos de tempo distintos e que contribuem de maneira global para a transformada no podem ser
analisados[FER02]. Emcontrapartida, uma variante da transformada de Fourier denominada Transformada
Janelada de Fourier permite analisar o sinal localmente no tempo. Neste caso uma janela deslocada at
reter a poro do sinal a ser analisada, no domnio do tempo, em seguida a transformada aplicada nesta
poro. Porm essa transformada no indicada para analisar determinados sinais devido ao tamanho
constante da janela.
Uma outra alternativa na anlise de sinais proposta por Morlet [BUR98], chamada Transformada de
Wavelets, a qual permite que tamanho da janela varie com a freqncia, possibilitando a anlise de freqn-
cias altas com uma maior resoluo temporal e de freqncias baixas com uma maior resoluo no domnio
de Fourier,ou seja, um evento com baixa freqencia exige uma janela maior no domnio do tempo.
A transformada de wavelets de um sinal f(t) 2D pode ser denida pela equao:
F(a, b) =
Z
f (t)
a,b
(t)dt (4.1)
onde os parmetros a > 0 e b variam continuamente, sendo que as funes
a,b
(t) so denominadas
wavelets e denidas pela seguinte equao:
34
CAPTULO 4. TRANSFORMADA DE GABOR 35
a,b
=
1
_
t b
a
_
(4.2)
As funes representadas pela equao 4.2 so derivadas a partir de dilataes e translaes de uma
funo me denominada wavelet me. A equao 4.1 pode ser escrita como o produto interno do sinal
f(t) com uma funo wavelet
a,b
, denotada por: F(a, b) =< f ,
a,b
>. Conforme a equao 4.1 podemos
armar que um sinal ou objeto (funo f(t)) pode ser expresso como a superposio de uma famlia de
wavelets
a,b
(t), sendo que os coecientes dessa superposio so obtidos pela transformada wavelets de
f(t). Portanto possvel reconstruir f(t) a partir de sua representao em wavelets [FER00].
Para o caso da Viso Computacional, uma ferramenta de representao de imagens, que vem ganhando
bastante destaque a Transformada de Gabor, tambm denominada Gabor Wavelets, ou ainda Filtros de
Gabor, que consiste em aplicar a transformada wavelets em uma funo de Gabor 2D, Figura 4.1, denida
como:
(x, y) = exp(
1
2
(x
2
+y
2
))sin(x) (4.3)
Figura 4.1: Funo de gabor 2D.
E uma famlia de Gabor Wavelets ={
n
1
,
n
2
, ...,
n
M
} denida a partir de rotaes, translaes e
dilataes da funo me, Equao 4.3, com o seguinte formato:
n
i
= exp(
1
2
[s
x
i
(x c
x
i
)cos
i
(y c
y
i
)sin
i
]
2
+[s
y
i
((x c
x
i
)sin
i
+(y c
y
i
)cos
i
]
2
])
sin(s
x
i
((x c
x
i
)cos
i
(y c
y
i
)),
(4.4)
sendo que x,y R e o vetor de parmetros n
i
= (c
x
i
, c
y
i
,
i
, s
x
i
, s
y
i
) R
5
, onde c
x
i
, c
y
i
representam a
translao da Gabor Wavelet, s
x
i
, s
y
i
representa a dilatao e
i
a orientao.
A aplicao dos Filtros de Gabor na representao de imagens ampla e diversa. Neste trabalho
no ser apresentado o embasamento terico de tal tcnica. Para uma melhor descrio dos ltros de
Gabor aplicado a imagens o leitor pode consultar [LEE96, GAB46], bem como uma melhor descrio
da transformada wavelets pode ser encontrada em [BUR98]. Nos prximos pargrafos iremos apresentar
exemplos de aplicao dos ltros de Gabor com o intuito de esclarecer melhor a tcnica, em um nvel
prtico sem a necessidade de entrar em detalhes matemticos mais aprofundados.
Em [FER02, KRU02] uma imagem pode ser representada por uma famlia de gabor wavelets, asso-
ciadas a um peso w. A esta estrutura d-se o nome de Gabor Wavelets Network (GWN), representada por
(,W), onde
={
n
1
,
n
2
, .....,
n
M
}
W ={w
1
, w
2
, ....., w
n
}
A GWN tem a propriedade de que cada funo
n
i
corresponde a um nodo de uma rede neural e
os pesos w
i
correspondem a conexes sinpticas da rede. A representao da imagem I obtida pela
minimizao da funo abaixo:
E = min
n
i
,w
i
,
i
=
_
_
_
_
_
I
M
i=1
w
i
n
i
_
_
_
_
_
2
(4.5)
que segundo [FER02, KRU02], signica que a diferena entre uma imagem I e sua reconstruo a partir
da rede wavelets deve ser mnima. Isto atingido atravs da determinao dos pesos w
i
e dos coecientes
das gabor wavelets . De acordo com Fris [FER02] o processo de otimizao consiste em aplicar um
algoritmo para clculo direto dos pesos w
i
descrito em detalhes em [KRU02]. Tal processo visa determinar
os pesos da GWN, de forma que seja possvel reconstruir a imagem utilizando a equao abaixo:
I =
M
i=1
w
i
n
i
, (4.6)
onde

I denota a imagem reconstruda, sendo que a preciso da reconstruo determina pela M gabor
wavelets utilizadas no processo de construo da representao da imagem. Na Figura 4.2 podemos ver
um exemplo de uma imagem modelada por uma GWN, onde possvel notar as caractersticas faciais
detectadas. Na Figura 4.3 podemos notar o poder de representao dos ltros de gabor onde facl notar
que a informao sobre a forma geomtrica do objeto codicada nos parmetros das gabor wavelets.
Figura 4.2: A esquerda temos a imagem original, em seguida temos a reconstruo da mesma a partir de
uma GWN com 16,52,116 e 256 wavelets respectivamente. A imagem mais direita mostra a posio das
primeiras 16 wavelets na imagem [KRU02].
Figura 4.3: As guras mostram um objeto que foi modelado por uma GWN. esquerda podemos notar o
tamanho, a posio e a orientao das wavelets enquanto que a direita temos uma representao do objeto
onde somente as wavelets mais importantes foram selecionadas [KRU02].
Segundo [FER02] uma GWN equivalente a uma RBF permitindo a generalizao dos dados de trei-
namento quando um nmero pequeno wavelets utilizado. Uma GWN que represente uma imagem I pode
ser utilizada tambm sobre uma imagem J, atravs da distoro da mesma at que ela se encaixe com a
imagem J, ou seja as wavelets da GWN podem ser reposicionadas nas mesmas caractersticas que estavam
presentes na imagem I, mas agora sobre a imagem J. No caso de imagens de face signica dizer que uma
GWN que modela uma face A, pode ser utilizada para detectar as caractersticas faciais correspondentes
na imagem B, atravs da deformao dos parmetros dessa GWM. De fato isto possvel atravs de uma
procedimento chamado de reparametrizao, descrito em [KRU02], que consiste em determinar os par-
metros ans em uma nova imagem. O processo de reparametrizao feita atravs da utilizao de uma
superwavelet, que basicamente consiste em uma GWN otimizada para uma determinada face, mas com
termos adicionais de rotao, translao e dilatao, sendo denida pela equao abaixo:
n
(x) =
M
i=1
w
i
n
i
(SR(xc)) (4.7)
onde os parmetros do vetor n da superwavelet denem uma matriz de dilatao S e uma matriz de
rotao R e tambm um vetor de translao c sendo que:
S =
_
s
x
0
0 s
y
_
, R =
_
cos sin
sin cos
_
, c = (c
x,
c
y
)
T
Assim dada uma imagem nova J a superwavelet deformada at se encaixar com a nova imagem.
Este procedimento tambm consiste em um processo de minimizao aplicado sobre e equao abaixo e
realizado atravs do algoritmo Levenberg-Marquard [FER02] apud Press et al [PRE86]:
E = min
n
=||J
n
||
2
Na Figura 4.4 podemos ver um exemplo de como uma GWN, utilizada para modelar uma image de
face, pode ser reparametrizada para detectar as mesmas caractersticas em outras imagens. Nesta gura
podemos notar que, devido a orientao e as posies das caractersticas faciais da imagem de teste, a
reconstruo da face que a GWM modela tambm sofre mudanas de orientao. Este fenmeno ocorre
devido as mudanas de escala, orientao e posio das wavelets que compe a GWN, causadas pelas
deformaes ocorridas no processo de reparametrizao .
Figura 4.4: Exemplo de uma GWN treinada na imagem mais esquerda da Figura 4.2, utilizada para detectar
caractersticas faciais em outras imagens de faces com diferentes orientaes [KRU02].
A representao de faces atravs de GWN tem a seguintes vantagens, segundo [KRU02, FER02]:
a representao invariante quanto a deformaes da face e a mudanas nas condies de iluminao.
o grau de preciso pode ser ajustado de acordo com o nmero de funes utilizadas e permite a
generalizao dos dados
ltros de gabor so bons detectores de caractersticas sendo atrados por caractersticas locais da
imagem codicando a informao geomtrica.
o armazenamento de um GWN compacta ocupando apenas 1040 bytes.
Outro exemplo da utilidade dos ltros de gabor mostrado em [SME98, SME02] onde um sistema de
deteco de caractersticas faciais inspirado nos movimentos de ateno dos olhos humanos denominados
movimentos sacdicos. A imitao de tais movimentos realizada com a utilizao de uma grade de
amostragem retnica colocada sobre a imagem. A grade possui uma geometria log-polar onde a densidade
dos pontos cai exponencialmente quando os mesmo esto afastados do centro. Tal topologia implementa os
chamados focos de ateno, que so pontos especcos que os olhos dos mamferos focam quando olham
uma imagem, pois os olhos deste seres no realizam uma varredura linear em toda a imagem, mas sim
repousa em certos pontos de interesse.
Os ltros de gabor so calculados apenas nestes pontos. Nos pontos mais ao centro da grade so
aplicados ltros de alta freqncia, enquanto que nos pontos mais distantes so utilizados ltros de baixa
freqncia. Esta forma de utilizao dos ltros tenta imitar a retina dos mamferos onde a fvea retmmaior
parte de informao local (ltros de alta freqncia no centro da grade) e os ltros de baixa freqncia
imitam a viso perifrica, onde se encontra as informaes globais. Como esta tcnica utilizada para
detectar olhos, um vetor referncia v
r
construdo com as respostas do ltro de gabor aplicados sobre o
centro dos olhos em imagens de treinamento. Posteriormente, no incio da procura pelos olhos a grade
posicionada em um lugar aleatrio da imagem e os ltros de gabor so calculados para cada ponto da
grade.
Atravs do clculo da distncia euclidiana entre cada ponto da grade e o vetor referncia v
r
determina-
se qual o ponto tem distncia mnima com relao ao vetor referncia v
r
. Em seguida este selecionado
como o prximo ponto de ateno do movimento sacdico. O processo termina quando o movimento
menor que um limiar. Caso no haja convergncia o processo reinicializado em outro ponto aleatrio
da imagem. Na Figura 4.5 podemos ver a grade posicionada sobre a imagem e na Figura 4.5 temos uma
cmera que simula os movimentos de ateno dos olhos, a cada 0.5s a orientao da cmera modicada
atravs de microcontroladores.
Figura 4.5: (Esquerda) Grade log-polar posicionada no olho de uma pessoa. (direita) Exemplo dos mo-
vimentos sacdicos na procura dos olhos. Mesmo com os olhos fechados eles so detectados atravs da
informao contida no contorno da rbita.
Figura 4.6: Uma cmera eyeball montada para detectar olhos imitando os movimentos sacdicos
[SME98].
Hjelmas em [HJE00] apresenta um sistema de reconhecimento de face que se apoia em caractersticas
locais, detectadas atravs do uso de ltros de Gabor. O pr-processamento de uma imagem, feito atra-
vs da aplicao de ltros de Gabor e, logo aps aplica-se uma mscara Gaussiana bidimensional, para
posicionar o foco no centro da imagem e evitar a extrao de caractersticas no contorno da face. A partir
da imagem ltrada procura-se por picos, de onde sero extrados vetores caractersticos formados pelos
coecientes de Gabor e a posio dessas caractersticas. Um exemplo de deteco das caractersica faciais
mostrado na Figura 4.7.
Figure 4.7: (a) imagem original (b) imagem aps a aplicao de ltros (c) pontos caractersticos seleciona-
dos [HJE00].
Como os coecientes resultantes da aplicao dos ltros de Gabor so armazenados em um vetor, a
fase de reconhecimento consiste apenas em utilizar algum clculo de distncia entre o vetor da imagem de
teste e os vetores das imagens de treinamento armazendos em um banco de vetores de faces conhecidas
pelo sistema [HJE00]. J em outra aplicao semelhante Manjunath [MAN95] apresenta um sistema de
reconhecimento de faces onde grafos so utilizados para codicar as relaes topolgicas das caractersticas
faciais. Cada nodo V
i
do grafo corresponde a uma determinada caracterstica denido por:
V
i
= S, q,
ondeV
i
o nodo i , S a localizao espacial da caracterstica a que se refere o nodo V
i
e q
i
um vetor
correspondendo a ith caracterstica denido por:
q
i
= [Q
i
(x, y,
1
), ..., Q
i
(x, y,
N
)],
onde Q(x, y,
N
) o valor da transformada de Gabor na posio (x, y) com orientao
N
. Na Figura 4.8
temos um exemplo dos pontos caractersticos identicados pela transformada de Gabor que so utilizados
para construir o grafo das caractersticas faciais.
Figura 4.8: Pontos caractersticos obtidos em duas imagens de face atravs dos ltros de gabor.
Laurenz [LAU99b] apresenta um sistema para reconhecer faces de uma grande base de dados contendo
uma nica imagem de cada pessoa. A face denida como um conjunto de pontos duciais, que so as pu-
pilas, os cantos da boca, topo da orelha, etc. Um grafo valorado G utilizado para representar a face e cada
nodo est associado a um jet que consiste de um conjunto de coecientes obtidos atravs da transformada
de Gabor (Gabor wavelet coecients). Alm disso, os nodos esto localizados sobre os pontos duciais,
Figura 4.9. Portanto para cada face existe um grafo que a modela. Com o objetivo de detectar as caracte-
rsticas da face e extrair automaticamente grafos de novas imagens de faces havia a necessidade de se ter
disponvel uma representao mais geral de faces, que permitisse extrair um grafo de uma imagem sem ter
que compar-la com todos os modelos individuais de faces. Tal representao deve cobrir um intervalo de
possveis variaes de face com diferentes caractersticas como os vrios tipos de olhos, bocas, etc. Como
todos os jets de cada nodo refere-se ao mesmo ponto ducial (olhos,boca,nariz,etc...) e todos os grafos
obedecem a mesma estrutura, Laurenz introduziu uma nova estrutura chamada face bunch graph (FBG),
que resultado da combinao dos jets associados aos nodos de vrios grafos, Figura 4.10. Neste grafo
geral um nodo codica vrias instncias de uma caracterstica, como por exemplo o nodo correspondente
aos olhos possui informaes relativas a olhos fechados, abertos, olhos orientais, ocidentais, etc...
Figura 4.9: Grafo obtido pelo uso da transformada de gabor para detectar os pontos caractersticos da face.
Quando uma nova imagem apresentada para extrao de seu grafo modelo, inicialmente o FBG
posicionado sobre os pontos duciais e verica-se em cada um desses pontos qual o jet que melhor o
descreve. Posteriormente as caractersticas detectadas so utilizadas para realizar o reconhecimento da
face atravs da comparao com grafos que modelam faces conhecidas.
Figura 4.10: A estrutura bunch graph serve como uma representao geral de faces. Os discos representam
os jets provenientes de vrios grafos individuais, que no processo de extrao de caracterstica somente um
jet selecionado, simbolizado na gura pelos discos escuros [LAU99].
Neste captulo abordamos uma tcnica biologicamente inspirada que, cada vez mais est ganhando a
ateno dos pesquisadores de Viso Computacional devido as suas caractersticas intrnsecas que permitem
construir um sistema de viso com capacidade de extrair atributos de uma imagem de forma automtica.
Alm disso, permite a construo de sistemas tolerantes a rotao, translao e iluminao. Um exemplo
pode visto em [FER02] que implementou um sistema de rastreamento de faces em vdeo
1
. Tal tcnica
permite construir sistemas de reconhecimento e deteco de faces, ou ainda, a deteco de caractersticas
faciais, sem um custo alto de armazenado, pois a representao de uma face precisa de menos de 1KB para
ser armazenada.
1
demonstraes do funcionamento de tal sistema pode ser visto em http://www.ime.usp.br/~feris/demo.mpg
Captulo 5
Concluses
Neste trabalho foram apresentadas as principais tcnicas de deteco de face e caractersticas faciais. As
tcnicas foramclassicadas segundo a necessidade de umconhecimento prvio da geometria, cor ou textura
da caracterstica. Todas estas tcnicas no cam restritas somente a deteco de faces ou caractersticas
faciais, pois podemser aplicadas para detectar qualquer outro tipo de objeto. No caso do reconhecimento de
faces, estudado no Trabalho Individual I, algumas tcnicas requerema localizao prvia das caractersticas
faciais. Alm disso, este trabalho tambm foi motivado pela possibilidade de melhorar uma tcnica de
reconhecimento de faces apresentada por [MEN02], conforme mencionado no Captulo 1.
Com base no que foi estudado neste trabalho, bem como no Trabalho Individual I, pretendiamos cons-
truir um sistema de reconhecimento de faces para controlar o acesso de pessoas em prdios. No entanto,
o enfoque desta pesquisa foi modicado para a rea de reconhecimento de poses de mos para ambientes
de realidade virtual. Porm, as tcnicas de deteco e reconhecimento de faces estudadas ao longo desta
pesquisa no sero descartadas, uma vez que os problemas da rea de deteco e reconhecimento de mos
exigem as mesmas solues. Portanto as tcnicas so as mesmas, mas com aplicaes diferentes.
41
Referncias Bibliogrcas
[ERI01] H.Erick, Face Detection: A Survey, Computer Vision and Image Understanding Vol.83, pp
236-274, 2001 - disponvel em http://www.idealibrary.com
[TEI98] J.F. Teixeira, Mentes & Mquinas, 1998, Ed. Artes Mdicas.
[LIN02] Linda G. Shapiro and George C. Stockman, Computer Vision.
[MEN02] J.E. Meng, S.Wu, H.L. Toh, Face Recognition With Radial Basis Function(RBF) Neural
Networks, IEEE Transactions on Neural Networks,vol.13,No.3,Maio de 2002
[YAN02] Ming-Hsuan Yang, David J. Kriegman, Narenda Ahuja, Detecting Faces in Images: ASurvey,
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.24,No.1,Janeiro 2002.
[FER02] F.S. Rogrio, Rastreamento Eciente de faces em um Subespao Wavelets, Dissertao de
Mestrado, Instituto de Matemtica e Estatstica, USP,Maio de 2001.
[PRE86] W. Press, B. Flannery, S. Teukolsky, W. Vetterling, Numerical Recipes, The Art of Scientic
Computing, Cambridge University Press, 1986.
[EDU03] Eduardo Costa Lopes, Estudo de Tcnicas Computacionais para o Reconhecimento de Fa-
ces. Trabalho Individual I, Programa de Ps-Graduao em Cincia da Computao, Pontifcia
Universidade Catlica do Rio Grande do Sul.
[HUA92] C.L Huang e C.W. Chen, Human Facial Features Extraction for Face Interpretation and
Recognition. Em Pattern Recognition 25(12) pp. 1435-1444.
[KOT97] C. Kotropoulos e I. Pitas, Rule-Based Face Detection In Frontal Views, Em Proc. Intl Acous-
tics, Speech and Signal Processing, vol.4, pp. 2537-2540, 1997.
[KAS87] M.Kass,A.Witkin,D.Terzolpoulos, Snakes: Active Countor Models, International Journal of
Computer Vision, pp 321-331.
[RAD95] P. Radeva e E. Marti, Facial Features Segmentation by Model-Based Snakes, Em
Int. Conf. on Comp. Anal. and Image Processing, Praga 1995, [disponvel em cite-
seer.nj.nec.com/radeva95facial.html]
[RAD93] P. Radeva and J. Serrat, Rubber Snake: Implementation on Signed Distance Poten-
tial, Em Vision Conference SWISS93, pp.187-194, September, 1993, disponvel em cite-
seer.nj.nec.com/radeva93rubber.html], ltimo acesso: novembro de 2003.
[POG93] R. Brunelli e T. Poggio, Face Recognition Features versus Templates, Em IEEE Transactions
on Pattern Recognition and Image Analysis, vol 15,No 10, outubro 1993 pp 1042-1052.
[ALM02] W.A.Almageed, C.E.Smith, Mixture Models for Dynamic Statistical Pressure Snakes, Em
IEEE International Conference on Pattern Recognition, Quebec, Canad, 2002.
42
REFERNCIAS BIBLIOGRFICAS 43
[RAM02] S.Ramdan, W.A.Amageed, C.E. Smith, Eye Tracking Using Active Deformable Models, Em
The III Indian Conference on Computer Vision, Graphics and Image Processing, India, Dezem-
bro, 2002, disponvel em citeseer.ist.psu.edu/ramadan02eye.html, ltimo acesso: novembro de
2003.
[YUI92] A. Yuille,P.Hallinan e D. Cohen, Feature Extraction from Faces Using Deformable Templa-
tes, Em Int. J. Computer Vision, vol.8 No 2, pp. 99-111, 1992.
[SHA91] M.A Schackleton e W.J Welsh, Classication of Facial Features for Recognition, Image
Processing Research Group, British Telecom Research Labs.
[LEE01] H.W. Lee, S. Kil, Y. Han, S.H. Hong, Automatic Face and Facial Fetures Detection, Em
Proceedings of Conference on ISIE, 2001, Korea, pp 254-259.
[ALA99] A. Alattar e S.Rajala Facial Features Localization in Front View Head And Shoulders
Images, IEEE International Conference on Accoustics, Speech and Signal Processing, 1999,
pp.3557-3560.
[ZHA02] L.Zhang, Estimation of the Mouth Features Using Deformable Templates, Em In-
ternatinal Conference on Image Processing (ICIP97), 1997, vol.3 disponvel em cite-
seer.nj.nec.com/zhang97estimation.html, ltimo acesso: novembro de 2003.
[BHU03] Md. A.A. Buhiyan, V.Ampornaramveth,S.Yo H. Ueno, Face Detection and Facial Feature
Localization for Human-machine Interface, NII Journal No.5(2003.3).
[WAN99] J.G. Wang, E.Sung, Frontal-view Face Detection and Facial Feature extraction Using Color
and Morphological Operations, Pattern Recognition Letters 20, 1999, pp. 1053-1068,Ed.
Elsevier.
[SAB98] E. Saber e A.M. Tekalp, Frontal-view Face Detection and Facial Feature Extraction Using
Color, Shape and Symmetry Based Cost Functions, Pattern Recognition Letters 19,1998,
pp. 669-680, Ed. Elsevier, disponvel em citeseer.nj.nec.com/saber98frontalview.html, ltimo
acesso: novembro de 2003.
[VEZ03] V.Vezhnevets, Face and Facial Features Tracking for Natural Human-Computer Interface,
disponpivel em citeseer.nj.nec.com/vezhnevets02face.html, ltimo acesso: novembro de 2003.
[FER00] R.S.Fris, T.E. de Campos, R.M.C Jnior, Detection and Tracking of Facial Features in
Video Sequences, Lectures Notes in Articial Intelligence, vol. 1973, pp 197-206, Abril 2000,
Springer-Verlag.T. D.
[RIK99] T.D. Rikert Texture-Based Statistical Models for Object Detection in Natural images, ci-
tesser.nj.nec.com/riker99/texturebased.html,[ ltimo acesso: novembro de 2003]
[BUR98] C.S Burrus, R.A. Gopinath, H. Guo, Introduction to Wavelets and Wavelets Transforms A
primer, Prentice Hall, 1998.
[GAB46] D. Gabor, Theory of Communication, Institute of Electrical Engineers, 93(26):429-457,1946.
[LUO00] H. Luo, A. Eleftheriadis, On Face Detection in the Compressed Domain, International Mul-
timedia Conference, Proceedings of the Eight ACM International Conference on Multimedia,
pp 285-294, 2000
[WON00] K.W.Won, K.M. Lam, W.C. Siu, An Efcient Algorithm for Human Face Detection and
Facial Feature Extraction under Different Conditions, Pattern Recognition Letters 34, pp
1994-2004.
[TUR91] M.A. Turk e A. P. Pentland, Face Recognition Using Eigenfaces, Proceedings of Iternational
Conference on Pattern Recognition, pp 586-591, 1991.
REFERNCIAS BIBLIOGRFICAS 44
[MIT96] M. Mitchel, Introduction to Genetic Algorithms, The Mit Press,
[KIR90] M. Kirby e L. Sirovich, Application of Karhunen-Love Procedure for the Characteriza-
tion of Human Faces, IEEE Transactions on Pattern and Machine intelligence, vol. 12, pp
103-108, janeiro 1990.
[RAB89] L. R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech
Recognition, Proceedings of the IEEE, vol.77, No. 02, 1989.
[ARA96] N. Ara Tese de Phd, Statistical Approachs To Face Recognition, Georgia Institute of Techno-
logy,School of Electrical Engineering, dezembro de 1996.
[ARA98] N. Ara, Face Detection and Recognition Using Hidden Markov Models, International Con-
ference on Image Processing, pp 141-145, Outubro 1998.
[ROL96] H.A. Rowley, S.Baluja, T. Kanade. Neural Network-Based Face Detection, Computer Vision
and Pattern Recognition, 1996.
[ROL98] H.A Rowley, S. Baluja, T. Kanade, Rotation Invariant Neural Network-Based Face Detec-
tion, IEEE Proceedings on Computer Vision and Pattern Recognition, 1998.
[FER01] R. Feraud, O.J. Bernier, J.E. Viallet, M. Collobert, A Fast and Accurate Face Detector Ba-
sed on Neural Networks, IEEE Transactions on Pattern Analysis And Machine Intelligence,
vol.23, No.01, Janeiro 2001.
[HOL95] S.Holbert e J.L. Dugelay, Active Countor for Lipreading Combining Snakes and De-
formable Templates, Em 15th GRETSI Simposium on Signal and Image Processing, Juan
Les Pins, Frana 1995.
[SME02] F.Smeraldi e J. Bigun, Retinal Vision Applied to Facial Features Detection and Face Au-
thentication, Patterns Recognition Letter 23, 2002, pp.463-475 Ed. Elsevier.
[SME98] F. Smeraldi e J. Bigun, Facial Feature Detection by Saccadic Exploration of the Gabor De-
composition, Proceedings of the 1998 International Conference on Image Processing, Chicago
(USA),vol.3, pp. 163-167, outubro 1998.
[LEE96] T.S. Lee, Image Representation Using 2D Gabor Wavelets, IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol.18,No.10, Outubro 1996.
[HOT00] K. Hotta,T.Mishima, T.Kurita, S. Umeyama, Face Matching Through Informational Theo-
retical Attention Points and Its Applications to Face Detection and Classication, IEEE
Conference on Automatic Face and Gesture Recognition, Grenoble, Frana, 2000, disponvel
em citeseer.nj.nec.com/hotta00face.html, ltimo acesso em novembro 2003.
[KRU02] V. Kruger, G. Sommer, Gabor Wavelet Networks for Objetc Representation, Technical Re-
port 2002, Universidade de Kiel, Alemanha.
[HJE00] E. Hjelmas Feature-Based Face Recognition. Em NOBIM Proceedings (Norwegian Image
Processing and Pattern Recognition Conference), 2000.
[MAN95] B.S.Manjunath. A Feature Based Approach to Face Recognition. In Proceedigns of IEEE,
pages 373-377, 1995.
[LAU99] W. Laurenz, J. F. e C. von der Malsburg. Intelligent Biometric Techniques in Fingerprint
and Face Recognition, captulo 11, pages 355-396. Number ISBN 0-8493-2055-0. CRC Press,
1999.
[LAU99b] W. Laurenz, J. M. F. N Krger e C. von der Malsburg. Face recognition by elastic bunch
graph Matching. Em Inteligent Biometric Techniques in Fingerprint and Face Recognition,
volume 19 of 7, pages 775-779, July 1999.

TR 045

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

TR 045

Încărcat de

Drepturi de autor:

Formate disponibile

Pontifcia Universidade Catlica do Rio Grande do Sul

) quando uma face com ngulo apresentada, ento

, onde os parmetros do contorno do lbio (C

entre as duas distribuies atravs

S-ar putea să vă placă și