99銘傳-以OpenCV 實現即時之人臉偵測與辨識系統

電腦與通訊工程學系
碩士學位論文
以 OpenCV 實現即時之人臉偵測與辨識系統
Use the OpenCV to implement a Real-time
Face Detection and Recognition System
研究生：梁振升
指導教授：李棟良教授
中華民國 99 年 7 月
以 OpenCV 實現即時之人臉偵測與辨識系統
摘要
隨著電腦運算速度的增加，加上為了提供給使用者更大的便利和可靠
性，所以漸漸開始使用人臉辨識、語音辨識、指紋辨識、掌紋辨識和虹膜
辨識等相關的生物認證技術。其中以人臉辨識最廣為被使用和研究，因為
它不需要穿戴額外的裝置，更不需要和受測裝置有任何的接觸，只要透過
簡單的攝影照相裝置，即可取得辨識所需的資料，因此可說是最方便
的辨識方法之一。
本論文提出以人臉五官為特徵的即時人臉辨識系統。偵測部分是基於
OpenCV的人臉偵測結果，結合膚色資訊找出雙眼及嘴巴三點所形成之三
角形，並得到三角形重心，最後利用此四點定位出雙眼、鼻子及嘴巴的範
圍，實現人臉五官偵測。另一種五官偵測方法是利用OpenCV提供的眼睛
及嘴巴分類器，偵測出人臉區域中的眼睛與嘴巴區域，並利用人臉五官比
例位置關係，定位出鼻子區域。辨識部分步驟是先以PCA將低資料維度及
使用LDA提高特徵向量的鑑別性, 增加不同類別特徵向量間的相異性。接
著，將特徵資料使用以KNN及RBFNN為辨識器做人臉辨識。
實驗部分，本論文使用自製的人臉資料庫，包含15人，300張影像，
由5個不同位置所拍攝。以10人共150張當訓練樣本，50張當測試樣本，結
果顯示辨識率可達100%。另位，以其餘5人(100張影像)當作入侵偵測，最
佳辯識結果可達到97%正確偵測率(True Positive Rate)及99% 錯誤排除率
(False Negative Rate)。實驗結果顯示，本論文所提之五官特徵可以較少量
特徵達到理想辨識結果。
I
A Real-time Face Detection and Recognition
System based on OpenCV
Abstract
With the increase in computing speed, and in order to provide users with
more convenience and reliability, the bio-authentication technology such as the
face recognition, voice recognition, fingerprint recognition, palm print
recognition and iris recognition began to be used. One of these is the face
recognition, it’s the most widely used and research, because it does not need to
wear additional devices and not need to contact with the devices. You can
obtain the information needed for recognition by a simple camera device.
Therefore, the face recognition could be the most convenient recognition
method.
We propose a real-time face recognition use the facial features. The
detection is based on the result of face detection of the OpenCV. Combined
with skin color information to find the triangle formed by three points of eyes
and mouth, and locate the region of eyes, nose and mouth by four points for
facial detection. Another facial detection method is using the eyes and mouth
classifier provided by the OpenCV. Use the classifier to detect eyes and mouth
in face region, and orientate the nose region with the facial relationship. The
first step of the recognition is use the PCA to reduce the data dimension and
use the LDA to improve the discrimination of feature vectors, and increase
difference between different class feature vectors.
The experiment result, we use the face database by ourselves. The face
database contains 15 individuals, 300 images from five different positions. Use
10 individuals (150 images) be training patterns, 50 images be testing patterns,
the result show the best recognition rate achieve 100%。The other 5 individuals
(100 images) be the intrusion detection, the best recognition result can be
achieve 97% true positive rate and 99% false negative rate. The experiment
results showed that we proposed the facial feature achieve the optimal
recognition results.
II
誌謝
從大三開始的專題研究及研究所共四年的學涯中，感謝李棟良教授對
學生我的指導及敦敦教誨，讓學生我可以順利在兩年內畢業。在這四年的
教導之中，李棟良教授不僅教導學生我專業知識及研究方法，更幫助學生
我解決生活中的問題，讓學生我可以無後顧之憂的完成學業。在此要對老
師您及教導過學生我的師長們表得心裡的由衷感謝，祝福各位師長身體健
康、萬事如意。
感謝中華大學電機系的駱樂教授及本系的陳旭東教授在百忙中撥空細
心審閱，及不辭辛勞參加學生我的口試，並對本論文提出許多寶貴意見及
指正，讓本論文更加完備。
感謝本實驗室的同學邱偉誠、鄭怡真、林重州、廖少鈞在課業上及生
活上交流及協助我拍攝論文用的人臉資料庫。還有感謝電通專研的學弟妹
宋茂山、郭書瑋、游育碩、范富陽、陳吟瑄、李育諠、黃怡汶、林冠君、
呂懿恬、楊子昀、薛立典幫助我建立論文的人臉資料庫。
最後感謝我的父母親、及家人的鼓勵及支持。感謝我的大學朋友們的
關懷及支持，以及感謝我的女朋友默默在我身邊陪我完成兩年的碩士學涯。
最後將此論文成果獻給所有感謝的人。
振升敬上
中華民國九十九年七月六日
III
目錄
摘要 …………………………………………………………………………….Ⅰ
Abstract …………………………………………………………………………….Ⅱ
誌謝 .. ... .. .. ... .. ... .. .. ... .. .. ... .. .. ... .. ... .. .. ... .. .. ... .. .. ... .. .. ... .. ... .. .. ... .. .. ...Ⅲ
目錄 ………………………………………………………………………...…Ⅳ
圖目錄 …………………………………………………………………………….Ⅵ
表目錄 …………………………………………………………………………….Ⅷ
第壹章緒論……………………………………………………………………… 1
1.1 研究動機………………………………………………………………… 1
1.2 研究目的………………………………………………………………… 1
1.3 論文架構…………………………………………………………………. 2
第貳章人臉偵測與辨識相關研究探討及方法介紹…………………………… 3
第一節相關文獻探討.………………………………………………………. 3
一人臉偵測………………………………………………………. 3
二人臉辨識…….………………………………………………….. 5
第二節人臉偵測方法介紹………………………………………………… 8
一 Viola 方法介紹………………………………………………… 8
(一) 積分影像…………………………………………………... 9
(二) 矩形特徵、弱分類器、Adaboost 演算法……………….. 10
(三) 層疊分類器……………………………………………..... 11
二 OpenCV介紹…………………………………………………… 12
三膚色偵測……………………………………………………….. 13
(一) YCbCr 色彩空間…………………………………………. 13
(二) 膚色偵測………………………………………………….. 14
(三) 嘴唇偵測………………………………………………… 15
1. NCC 色彩空間……………………..………………… 15
2. 嘴唇偵測……………………………………………… 16
(四) 三角形偵測……………………………………………….. 17
第三節人臉辨識方法介紹………………………………………………… 18
一特徵選取……………………………………………………… 18
(一) 輻狀網格映射(Radial Grid mapping)…………………… 18
(二) 基於橢圓樣版之特徵選取……………………………… 19
二主成份分析(Principle Component Analys is)………………. 20
三線性鑑別分析(Linear Discriminate Analysis)……………… 23
四 K 個最近鄰居分類法………………………………………… 27
五幅狀基底函數類神經網路…………………………………… 28
IV
第參章偵測與辨識方法及步驟………………………………………………. 31
第一節五官偵測之方法…………………………………………………. 32
一基於三角形之五官偵測……………………………………… 32
(一) 膚色偵測………………………………………………… 32
(二) 嘴唇偵測………………………………………………… 34
(三) 三角形偵測……………………………………………… 35
二基於矩形之五官偵測…………………………………………. 35
(一) 眼睛及嘴唇偵測…………………………………………. 36
(二) 鼻子定位………………………………………………… 36
第二節人臉辨識之方法………………………………………………… 37
一基於三角形之五官特徵擷取………………………………… 37
二基於矩形之五官特徵擷取……………………………………. 38
第肆章實驗結果與分析……………………………………………………… 40
第一節人臉資料庫………………………………………………………. 40
第二節 KNN 辨識結果……………………………………………………. 41
一內部資料庫之辨識結果………………………………………. 41
(一) 基於三角形之五官偵測法辨識結果……………………. 41
(二) 基於矩形之五官偵測法辨識結果……………………… 44
(三) 幅狀網格映射法辨識結果……………………………… 48
(四) 橢圓樣版取樣法辨識結果……………………………… 48
二入侵偵測結果………………………………………………….. 52
第三節 RBFNN 辨識結果…………………………………………………. 54
一內部資料庫之辨識結果………………………………………. 54
(五) 基於三角形之五官偵測法辨識結果……………………. 54
(六) 基於矩形之五官偵測法辨識結果……………………… 56
(七) 幅狀網格映射法辨識結果……………………………… 57
(八) 橢圓樣版取樣法辨識結果……………………………… 58
二入侵偵測結果………………………………………………….. 59
第伍章結論與未來展望…………………………………………………… 62
第一節結論…………………………………………………………… 62
第二節未來展望……………………………………………………… 62
參考文獻……………………………………………………………………… 63
V
圖目錄
圖 2-1 平行類神經網路架構[34]………………………………………………… 7
圖 2-2 1-D 雙樹複小波轉換架構圖[36]………………………………………... 7
圖 2-3 人臉辨識系統流程圖……………………………………………………… 8
圖 2-4 點(x,y)處的積分影像值[4]……………………………………………….. 9
圖 2-5 計算矩形和示意圖[4]，矩形 D 的所有灰階值的和為 4+1-(2+3)……….. 10
圖 2-6 Viola[3]使用的四種矩形特徵…………….…………………………… 10
圖 2-7 Adaboost 演算法選出的第一及第二個特徵…………………………..… 11
圖 2-8 層疊分類器示意圖.………………………………….…………………… 11
圖 2-9 OpenCV 人臉偵測結果[40]…………………………………………...… 12
圖 2-10 不同亮度下的膚色偵測結果[32]……………………………………… 14
圖 2-11 膚色統計範圍圖[13]…………………………………………………… 16
圖 2-12 唇色二次曲線在 M. Soriano [13]膚色分佈範圍的位置……………… 16
圖 2-13 (a)人臉區域(b)唇色偵測結果[13]……………………………………… 17
圖 2-14 三角形偵測結果[32]…………………………………………………… 17
圖 2-15 輻狀網格取樣結構……………………………………………………… 18
圖 2-16 幅狀網格映射取樣特徵………………………..………………………… 19
圖 2-17 橢圓樣版取樣特徵……………………………………………………….. 20
圖 2-18 幅狀基底函數類神經網路架構圖……………………………………… 28
圖 3-1 (a)基於三角形之五官偵測及辨識 (b) 基於矩形之五官偵測及辨識… 31
圖 3-2 (a)OpenCV 人臉偵測結果(b)人臉區域膚色偵測結果…..……………… 33
圖 3-3 橢圓與扇形二值化影像………………………………………………… 33
圖 3-4 橢圓與眼睛區塊二值化影像做 AND 運算結果……………………… 34
圖 3-5 扇形與圖 3.4 做 OR 運算及反向運算結果………………………… 34
圖 3-6 (a)嘴唇區塊(b)唇色偵測結果..………………………………………… 35
圖 3-7 三角形偵測結果………………..………………………………………… 35
圖 3-8 眼睛偵測結果…………………..………………………………………… 36
圖 3-9 嘴唇偵測結果…………………..………………………………………… 36
圖 3-10 鼻子定位結果…………………..………………………………………… 37
圖 3-11 基於三角形之五官特徵擷取…..………………………………………… 38
圖 3-12 基於矩形之五官特徵擷取……………………………………………….. 39
圖 4-1 (a)理想的環境光線(b)會造成膚色錯誤偵測的環境光線………………. 40
圖 4-2 大小 100x100，特徵數量 10~150，K=1~10 的辨識結果………………. 42
圖 4-3 大小 150x150，特徵數量 10~150，K=1~10 的辨識結果………………. 43
圖 4-4 大小 200x200，特徵數量 10~150，K=1~10 的辨識結果………………. 44
圖 4-5 大小 100x100，特徵數量 10~150，K=1~10 的辨識結果………………. 45
VI
圖 4-6 大小 150x150，特徵數量 10~150，K=1~10 的辨識結果………………. 46
圖 4-7 大小 200x200，特徵數量 10~150，K=1~10 的辨識結果………………. 47
圖 4-8 不同取樣大小與 K 值的辨識結果……………………….………………. 48
圖 4-9 大小 100x100，特徵數量 10~150，K=1~10 的辨識結果……………….... 49
圖 4-10 大小 150x150，特徵數量 10~150，K=1~10 的辨識結果……………….... 50
圖 4-11 大小 200x200，特徵數量 10~150，K=1~10 的辨識結果………………… 51
圖 4-12 大小 100x100，特徵數量=50 的辨識結果………………………………... 54
圖 4-13 大小 150x150，特徵數量=90 的辨識結果………………………………... 55
圖 4-14 大小 200x200，特徵數量=50 的辨識結果………………………………... 55
圖 4-15 大小 100x100，特徵數量=50 的辨識結果………………………………... 56
圖 4-16 大小 150x150，特徵數量=60 的辨識結果………………………………... 56
圖 4-17 大小 200x200，特徵數量=30 的辨識結果………………………………... 57
圖 4-18 不同幅狀網格映射大小及隱藏層節點個數的辨識結果……………….. 57
圖 4-19 大小 100x100，特徵數量=70 的辨識結果………………………………... 58
圖 4-20 大小 150x150，特徵數量=40 的辨識結果………………………………... 58
圖 4-21 大小 200x200，特徵數量=40 的辨識結果………………………………... 59
VII
表目錄
表 2-1 人臉偵測方法及代表著作………………………………………………... 5
表 4-1 人臉資料庫規格………………………………………………………… . 41
表 4-2 大小 100x100，特徵數量 10~150，K=1~10 的辨識結果……………… 41
表 4-3 大小 150x150，特徵數量 10~150，K=1~10 的辨識結果……………..…. 42
表 4-4 大小 200x200，特徵數量 10~150，K=1~10 的辨識結果……………..…. 43
表 4-5 大小 100x100，特徵數量 10~150，K=1~10 的辨識結果……………..…. 44
表 4-6 大小 150x150，特徵數量 10~150，K=1~10 的辨識結果……………..…. 45
表 4-7 大小 200x200，特徵數量 10~150，K=1~10 的辨識結果……………..…. 46
表 4-8 不同取樣大小與 K 值的辨識結果……………………..……………..…. 48
表 4-9 大小 100x100，特徵數量 10~150，K=1~10 的辨識結果……………..…. 48
表 4-10 大小 150x150，特徵數量 10~150，K=1~10 的辨識結果……………..…. 49
表 4-11 大小 200x200，特徵數量 10~150，K=1~10 的辨識結果……………..…. 50
表 4-12 人臉大小 100x100，radial grid:16x16 入侵偵測結果……….………..…. 52
VIII
第壹章緒論
第一節研究動機
隨著科技的日新月異，有越來越多的產品和服務相繼問世，像是筆記
型電腦、PDA、智慧型手機、網路銀行和電子錢包等，透過這些產品和服
務，可以讓我們的解省許多時間與精力，使得生活更便利。但在便利的背
後，則需要想辦法保護自己的隱私，才不會讓別人可以輕易的竊取我們的
資料和金錢。早期都是靠卡片(身份證、學生證、駕照、職員證、金融卡
等等)加上密碼，或是單純只以密碼或卡片來加以保護，只是一旦卡片不見
了，或是密碼忘掉了，又或是被他人偽造、竊取，都將造成使用者極大的
不便，甚至是巨大的損失。現今由於科技的進步和電腦運算速度的增加，
加上為了提供給使用者更大的便利和可靠性，所以漸漸開始使用人臉辨識
、語音辨識、指紋辨識、掌紋辨識和虹膜辨識等相關的生物認證技術，透
過電腦或DSP等硬體運算處理設備計算，讓使用者不需要再去牢記一大堆
煩人的密碼，即可透過最方便的方式去做身份的辨認。
人臉辨識系統是由人臉偵測與人臉辨識兩部分組成。首先，人臉偵測
為人臉辨識系統的首要步驟，目的就是對輸入影像做人臉偵測，如果在人
臉偵測的步驟發生錯誤，那將會影響後續的人臉辨識步驟。因此如何在複
雜的背景中，正確擷取出人臉影像是非常重要。本論文的人臉偵測方法是
基於Viola[3]提出的快速人臉偵測，但由於此方法沒有考慮膚色特徵，因此
許多錯誤偵測中是可以膚色特徵來排除的。接著，偵測到人臉區域後，就
是要對此區域進行辨識的部分，目前在眾多生物辨識方法(如虹膜辨識、指
紋辨識、掌紋辨識及人臉辨識)中，其中以人臉辨識最廣為被企業和教學單
位所使用和研究，因為不需要穿戴額外的裝置，更不需要和受測裝置有任
何的接觸，只要透過簡單的攝影照相裝置，即可取得辨識所需的資料，因
此可說是最方便的辨識方法之一。但是，由於影像辨識易受外界環境所干
擾，例如：光源、角度和遮罩物等，加上所需處理的資料量大，因此辨識
需要的時間長，所以如何排除這些外在因素，又能以最短的時間達到辨識
的效果，即是人臉辨識的一大挑戰。
第二節研究目的
本論文研究目的如下：
有鑑於以上人臉偵測與辨識的問題與挑戰，本論文提出結合膚色偵測
與選取少量特徵的即時人臉辨識方法：
1
一結合 AdaBoost 與膚色特徵的人臉偵測
利用 AdaBoost 人臉偵測的快速及準確特性，將 AdaBoost 的偵測結果
加入膚色及嘴唇偵測，提高人臉偵測率。計算眼睛與嘴唇的重心位置，
以此三點重心找出最佳的等腰三角形。
二擷取少量且有效的人臉特徵
利用少量且重要的特徵，如人臉五官特徵(眼睛、鼻子及眼睛)達到理
想的辨識率。分析比較不同取樣特徵的辨識結果，找出理想的人臉辨
識特徵。最後比較不同分類器的分類結果，找出合適的人臉分類器。
三實現以 OpenCV 為基礎的高辨識率即時人臉辨識系統
結合 AdoBoost 的快速及準確優點，以及膚色來提高偵測率與五官為辨
識特徵來達到高辨識率的即時人臉辨識系統。
第二節論文架構
本論文共有五個章節，各章節內容入下簡述：
第壹章緒論
敘述研究動機、研究目的及論文架構。
第貳章人臉偵測與辨識相關研究探討及方法介紹
簡介目前為止人臉偵測與辨識的相關研究及探討，並介紹本文所
使用的一些偵測及辨識方法。
第叁章偵測與辨識方法及步驟
敘述本論文的五官偵測、五官特徵選取及特徵擷取方法及步驟。
第參章實驗結果與分析
介紹本論文所使用的資料庫及相關實驗結果數據及分析比較。
第伍章結論與未來展望
總結本論文的成果與改進地方，以及未來的研究方向。
2
第貳章人臉偵測與辨識相關研究探討及
方法介紹
第一節相關文獻探討
由於日常生活中有很多時候需要做身分的驗證，例如進入大樓、提款
機、e-mail、電腦登入系統等，因此為讓使用者有更多便利性及安全性。
而且因為最近幾年間的事件，例如恐怖攻擊，暴露現存許多複雜安全系統
的嚴重漏洞(舉例漏洞)。許多政府機構更重視以身體或行為特性為基礎的
安全存取系統，因此安全存取系統越來越多研究人員投入身份識別研究。
其中比較普遍被探討之一就是人臉偵測與辨識系統。人臉偵測與辨識系統
的應用相當廣，例如，門禁系統、ＡＴＭ提款機安全系統、微笑相機的表
情辨識應用等。截至目前，在[1][2]提到許多不同的人臉偵測及辨識方法。
近年來，有非常多的人從事人臉辨的研究領域中，也因此發展出許多不同
的理論及演算法，如 Eigenface、Fisherface、EGM(Elastic Graph Matching) 、
SVM(Support Vector Machine) and NN(Neural Network) 、 FRCM(Face
Recognition Committee Machine) 和 3D face recognition 等，這些都是從是
人臉偵測與辨識研究的人所耳熟能詳的方法，因此本章節將介紹人臉偵測
與辨識的相關文獻。
一人臉偵測
人臉偵測與辯識系統的首要步驟就是對輸入影像做人臉偵測，如果在
人臉偵測的步驟發生錯誤，那將會影響後續的人臉辨識步驟。因此如何在
複雜的背景中，正確擷取出人臉影像是非常重要。人臉偵測的研究已經發
展多年，且也已有相當多的論文發表，但近年的人臉偵測方法[1]可劃分為
四種類型： Knowledge-Based、 Feature invariant、 Template matching 和
Appearance-Based。
Knowledge-Based[15]的方法主要是將一般人臉特徵的關係，轉成一些
規則。例如，人臉影像通常會有一雙對稱的眼睛、一個鼻子、一個嘴巴，
因此可以利用它們間的距離與位置來訂出規則。然而Knowledge-Based的缺
點是，規則的制定是否符合所有人臉的五官特性。如果要求過高，勢必會
降低準確度。反之也會降低準確度。
Feature invariant[16][17][18][19][20][21]方法主要是以邊緣偵測的方式
擷取臉部特徵如眉毛、眼睛、鼻子、嘴巴及膚色，以統計的方式來描述它
3
們之間的關係。此方法的缺點是，這些人臉特徵會受到亮度、雜訊及遮
蔽物的影響。
Template matching[22][23]方式是先人工定義出一個標準樣本，計算出
此標準樣本的相關數值，如人臉輪廓、眼睛、鼻子及嘴巴。然後將輸入影
像基於此標主樣的相關數值做計算及比較。雖然此方法較簡單且易實現，
但缺點是只適用於與標準影像相同大小且位置及的人影像。
Appearance-Based[6, 7, 8]的方法一般是透過統計分析及機器學習的方
式找出人臉與非人臉間的特性。因此必須使用到分佈模型或鑑別函數，同
時須使用降低維度來減少計算的複雜度。此方法的缺點是較複雜且需要大
量的樣本學習，才可能達到較高的效能。
Lin[32]提出結合膚色及五官距離的人臉偵測方法。人臉偵測架構主要
分成兩個部分，第一部分是使用膚色及基於三角形分割來搜尋可能的人臉
區域。第二部分是以前饋式多層感知類神經網路來進行人臉識別。此方法
的優點是在膚色偵測中，將光線因素考慮進去，因此可大大減少不同光線
下的膚色偵測錯誤，且可適用於不同人臉大小及不同角度及表情。尤其，
在複雜背景的情況下，可以有效地提高人臉偵測的速度。缺點是如果背景
與膚色相近，就無法排除背景雜訊，且會在三角形偵測步驟中花費過多時
間，進而導致整體系統速率的降低。
Huang[9]提出將三種人臉偵測方法以串連及並聯的方式做結合。這三
種不同的人臉偵測，各自以不同的人臉特徵來加強人臉偵測，包括2D Haar
wavelet、梯度方向(gradient direction)[7]及賈柏濾波器(Gabor filter)[8]。此
方法的優點是三種特徵皆經由主成份分析(Principle Component Analysis,
PCA)降低維度後，以多項式類神經網路(Polynomial neural network, PNN) [6]
為分類器來做分類。接著將效率較差且簡單的偵測方法放在前面，而效率
較高且複雜的偵測方法放置後方，以多重步驟的方式來提高偵測速度。同
時，每一個步驟的輸出都有不同的輸出權重並且與前一步驟的輸出權重作
加總來提高偵測率。此方法的缺點是雖然方法與Viola[3]所提的方法有點類
式，皆以層疊的方式串接分類器，但此方法使用三種特徵來進行人臉偵測，
由於三種不同特徵都不是以簡單的方式取得特徵，所以所花的時間成本也
相對的比較高，因此並不適合於即時人臉偵測與辨識系統。
然而人臉不是固定不變，因此不管是哪一類型的人臉偵測方法都會受
到下列因素的影響：(1)姿勢(2)形狀(3)表情(4)亮度(5)複雜背景的影響。近
年來人臉偵測研究已有相當多的研究成果發表，由Yang[1]整理出近年來的
相關研究方法(表2.1[1])。比較新的方法是Viola[3]等提出的基於積分影像
(Integral Image)特徵的AdaBoost方法，其層疊(cascade)分類器在人臉偵測方
面速度快且準確度高，因此本論文採用此方法。
4
表2-1 人臉偵測方法及代表著作引自[1]
類型代表著作
Knowledge-base Multiresolution rule-based method [15]
Feature invariant
- Facial Features Grouping of edges [16][17]
- Texture Space Gray-Level Dependence matrix (SGLD) of
face pattern [18]
- Skin Color Mixture of Gaussian [20][19]
- Multiple Features Integration of skin color, size and shape [21]
Template matching
- Predefined face templates Shape template [22]
- Deformable Templates Active Shape Model (ASM) [23]
Appearance based method
- Eigenface Eigenvector decomposition and clustering [24]
- Distribution based Gaussian distribution and multilayer perceptron
[25]
- Neural Network Ensemble of neural networks and arbitration
schemes [26]
- Support Vector SVM with polynomial kernel [27]
Machine(SVM)
- Naive Bayes Classifier Joint statistic of local appearance and position [28]
- Hidden Markov Model Higher order statistic with HMM [29]
(HMM)
- Information Theoretical Kullback relative information [30][31]
Approach
二人臉辨識
人臉辨識方法主要有五種 [2]：線性 /非線性投影 (Linear/nonlinear
projection)、類神經網路(The neural networks)、Gabor濾波器及小波(Gabor
filters and wavelets) 、碎形疊代函數系統 (Fractals and Iterated Function
Systems，IFSs)、熱能與光譜 (Thermal and hyperspectral)。
Linear/nonlinear projection[10, 13, 14]的方法將樣本資料由高維度空間
投影至低維度空間，擷取數個最大的特徵向量，形成特徵空間，擷取待測
樣本的特徵與此特徵空間作距離（通常是以歐氏距離）的比較。
The neural networks[4, 11]的方法是以大量的樣本來訓練網路，待測樣
5
本經由降維後，以完成訓練的網路為分類器，辨別樣本是否屬於資料庫或
屬於哪一類。
Gabor filters and wavelets[42]的方法是以Gabor 濾波器擷取臉部的特
徵點，將這些點以動態連結結構(Dynamic Link Architecture, DLA)連接，以
樣本匹配方式比較待測樣本與資料庫內的樣本的差異程度。結合Gabor and
小波轉換的EBGM (Elastic bunch graph matching method)，與此方法相似的
有隱藏式馬可夫模型(Hidden Markov Model, HMM), 碎形疊代函數系統及
熱能與高光譜的詳細內容請參考[2]。
Kwak[33] 提出結合費雪線性鑑別分析 (Fisher Liner Discriminate
Analysis, FLDA)與獨立成份分析(Independent Component Analysis, ICA)的
方法，稱為FICA，來擷取人臉特徵，並以支援向量機(SVMs)當作人臉辨
識器。特徵擷取步驟是先將資料以主成份分析(PCA)降低維度後，再以獨
立成份分析(ICA)取得統計獨立基底影像，最後利用費雪線性鑑別分析
(Fisher Liner Discriminate Analysis, FLDA)提高獨立成份分析(ICA)資料的
鑑別性。此方法的優點是，FICA方法可將具有高變化亮度及表情的資料，
降低至低維度子空間後，仍可得到鑑別性很高的資料。缺點是雖以ICA擷
取人臉特徵，並以FLDA增加資料的鑑別性，可以大大地改善高亮度變化
及表情變化的影響，但還是無法解決少量樣本所造成的奇異矩陣的問題，
而且因為使用了複雜度較高的ICA及 FLDA因此對於即時人偵測與辨識的
速率會造成一定程度的負擔。
Lu等人[34]提出一種基於模糊聚類及平行類神經網路的人臉辨識方法。
將人臉影像先作亮度補償後，利用Wong [35]的方法，以基因演算法(genetic
algorithm)取得可能的人臉區域再根據特徵臉的資訊決定是否為人臉及定
位。取得人臉區域後，經由主成份分析(PCA)降低維度，最後分別送到數
個較小的模糊聚類類神經網路。此篇論文將所有的人臉樣本分成數個子集，
每個子集都視為一個類神經網路，並以模糊類神經方式訓練決定輸入樣本
屬於哪一個子集，此方法的優點是能夠快速訓練神經網路及達到高辨識率
結果。缺點是需要事先決定哪個人屬於哪一個子集，才能做下一步動作，
如何決定一個新加入的人屬於哪一個子集，會影響後續的辨識結果。而且
如果增加類別數目，對於聚類演算法而言也會產生相當大的影響。
6
圖2-1 平行類神經網路架構[34]
Zhang[36] 提出基於雙樹複小波轉換 (dual-tree complex wavelet

transform)結合支援向量機(Support Vector Machines, SVMs)的人臉辨識方
法。首先，利用2-D雙數複小波轉換將影像分解成有6個不同角度及2張低
頻子影像的6個頻帶影像，然後擷取人臉特徵。經過主成份分析(PCA)降低
資料維度，最後以支援向量機(SVM)當作辨識器。此方法的優點是雙樹複
小波轉換有三種特性：1. 轉換不變性, 2. 良好方向選擇性, 3. 有效率的計
算速率。缺點是使用SVM當作辨識器會有一些因為SVM的缺點而產生的問
題，雖然利用PCA解決了SVM可能造成過度擬和(Overfitting)的問題，但因
為SVM對於雜訊很敏感，而偏偏雜訊是人臉辨識議題一直存在問題(亮度、
表情、遮蔽等)，因此如果沒有良好的排除雜訊方法，勢必對於辨識結果會
有相當程度的影響。
圖2-2 1-D 雙樹複小波轉換架構圖[36]
無論是哪種辨識方法，都面臨現一些現實環境影響的挑戰，包括亮度、
姿勢、遮蔽、時間影響。目前，人臉辨識的研究也不僅止於2D的影像辨識，
也有相當多人臉辨識方法是基於3D影像來進行辯識[2][37][38]。
7
完整的人臉辨識系統包含人臉偵測及人臉辨識，其基本流程如圖2.3
所示：
輸入影像
偵測人臉
特徵選取
特徵擷取
分類器
結果
圖2-3 人臉辨識系統流程圖
以下章節將分成人臉偵測與人臉辨識兩部份，分別介紹本文所使用的
人臉偵測及人臉辨識方法。
第二節人臉偵測方法介紹
一 Viola 方法介紹
Viola[3]等人在 2001，針對人臉偵測提出一種機器學系方法 (Machine

learning approach)，這種方法能夠達到快速及準確的偵測率。Viola 及 Jones
的人臉偵測方法主要有三個特性：1. 使用積分影像達到快速的特徵計算，
2. 以 AdaBoost[5]方法選取少量重要特徵來建構分類器，3. 以串聯的方式
結合許多複雜分類器，此方式是以重視有用的影像區域來明顯地提高偵測
速率。
Viola 等人提出積分影像與基於 AdaBoost 的即時人臉偵測分類器的理
論。他們利用4916張人工擷取的人臉並縮放至大小為24x24以及350萬張非
8
人臉，使用200個特徵建構出一個正面的人臉分類器。如圖1為由 AdaBoost
所得到的兩個矩形特徵範例。他們的人臉分類器能夠達到95%的偵測率，
以及在14804張非人臉測詴中，能夠完全排除(100% false positive rate)。使
用串連分類器的方式提高偵測率且減少計算時間，因為非人臉會在最前面
的步驟就被排除。
以下將簡單介紹 Viola 等人提出的方法：1. 積分影像, 2. 矩形特徵、
弱分類器及 Adaboost 演算法，3. 層疊分類器。
(一 ) 積分影像(Integral Image)
對於一個輸入影像Ｉ，像素(x,y)處的積分影像值定義如式(2.1)：
𝑖𝑖 𝑥, 𝑦 = 𝑖(𝑥, 𝑦) (2.1)
𝑥 ≤𝑥,𝑦 ≪𝑦
其中 𝑖(𝑥,𝑦)表示像素(x,y)的灰階值，如圖2.4所示，積分影像值等於陰影部分
所有灰階值的和。
圖2-4 點(x,y)處的積分影像值[4]
依此定義，如果要得到一個輸入影像I的積分影像時，只需對原圖逐點掃描
一次就可計算出來。計算方式如下：
𝑠 𝑥, 𝑦 = 𝑠 𝑥, 𝑦 − 1 + 𝑖 𝑥, 𝑦 2.2
𝑖𝑖 𝑥, 𝑦 = 𝑖𝑖 𝑥 − 1, 𝑦 + 𝑠 𝑠, 𝑦 (2.3)
其中 s x, y = y 1≤y i(x, y1 ) 是原影像 (x,y)點的列累積和 (Cumulative Row

Sum)，𝑠( 𝑥,−1) =0和𝑖𝑖( −1,𝑦) =0。
使用積分影像時，任何影像內部的矩形和(Rectangular Sum)可以僅使
用四個參考值計算即可取得，如圖2.5所示。在Viola 的系统中，每個矩形
特徵值的計算，最多只需要從積分影像中取9個元素做加减運算。這是Viola
方法速度非常快的原因。
9
圖2-5 計算矩形和示意圖[3]，矩形D的所有灰階值的和為4+1-(2+3)
(二 ) 矩形特徵、弱分類器、 Adaboost演算法
Adaboost演算法是一種疊代方法，主要用途是透過從大量的弱分類器
中選取最具有分類意義的那些組合成一個強分類器，其中弱分類器指的是
那些性能比隨機分類略好一點的分類器，在Viola[3]中也有具體演算法可以
參考。在Viola的方法中，使用矩形特徵作為分類的依據。矩形特徵的值是
指影像上兩個或者多個形狀大小相同的矩形內部所有像素灰階值之和的
差值。在Viola的系統中，使用了四種矩形特徵，如圖2.6所示。
圖2-6 Viola[3]使用的四種矩形特徵
在這裡，一個弱分類器構造如下。一個矩形特徵j對應著一個弱分類器𝑕𝑗 ，
對於一個候選輸入區塊x，設該矩形特徵x上的值𝑓𝑗 (𝑥)，則弱分類器分類函
數表示如下︰
1, 𝑖𝑓 𝑝𝑖 𝑓𝑗 (𝑥) < 𝑝𝑖 𝜃𝑗
𝑕𝑗 𝑥 = (2.4)
0, 𝑜𝑡𝑕𝑒𝑟𝑤𝑖𝑠𝑒
其中𝒑𝒋為±1，𝜽𝒋 為一個閥值， x為一個影像中24x24像素的子區塊，對

於這樣大小的區塊，可能的矩形特徵的個數超過180,000。在實際計算中，
必須找到那些對於分類比較重要的矩形特徵，Adaboost演算法是選取這些
10
特徵的有效手段，圖2.7就是利用此方法找到的第一和第二特徵。在給定的
訓練樣本上，Adaboost演算法從所有可能的弱分類器中挑選錯誤最低的那
一個，然後改變樣本的權值，使得那些被錯分的樣本得到進一步重視，重
複上述操作。這樣，每一步操作都得到一個弱分類器，最後的強分類器
由這些弱分類器的線性組合構成。
圖2-7 AdaBoost演算法選出的第一及第二個特徵
(三 ) 層疊分類器
層疊分類器是由多個強分類器所組成的，如圖2.8 所示。其目的在於能
夠增加偵測率與減少計算複雜度，而其分類方式可看成是一種衰退性決策
樹。如一開始會將所有固定大小之訓練(或測詴)樣本(包括人臉及非人臉樣
本)於通過第一層分類器時，進行決策排除非人臉樣本而保留下大多數人臉
樣本，接著再送到第二層分類器不斷地重複塞篩選過程，直到最後一層所
輸出的結果皆為人臉樣本。透過此方法可快速的排除非人臉樣本，達到快
速的人臉偵測。
圖2-8 層疊分類器示意圖
11
二 OpenCv介紹
本論文是以OpenCV為開發工具，因此本章節將對此工具做簡單的介紹。
OpenCV是 Intel開發的電腦視覺函式庫，裡面提供了許多影像處理有關的函
式。它由一系列Ｃ函數和少量C++類別構成，實現了影像處理和電腦視覺
方面許多通用演算法。其中有些函式都是根據一些paper去實做出來的，如
果想要的功能OpenCV已經提供的，而且實作的方式都是一樣的話，可以
直接使用，這樣可以節省掉很多的時間。
OpenCV擁有包括300多個C函數的跨平台的中、高層API。它不依賴於
其它的外部庫，但它也可以使用某些外部庫。OpenCV對於非商業應用和
商業應用都是免費的。而且OpenCV的Code有最佳化過，處理速度非常的
快。
目前OpenCV包含下面幾個部分：
1. cxcore：一些基本函數（各種數據類型的基本運算等）
2. cv：圖像處理和電腦視覺功能（圖像處理、結構分析、運動分
析、物體跟蹤、模式識別和攝影機定位目標）
3. ml：機器學習模組，目前內容主要為分類器
4. cvaux：一些實驗性的函數（View Morphing、三維跟蹤、PCA
and HMM）
5. highgui：用戶互動部分（GUI、圖像視頻I/O、系統調用函數）
OpenCV與Matlab中的圖像處理工具箱相比：
1. OpenCV寫完後需要compiler，所以效率高；Matlab使用腳本語
言，直觀方便
2. OpenCV適合開發實際系統；Matlab適合測詴模擬時使用
3. OpenCV開放source code；Matlab不提供
OpenCV功能介紹
1. 圖像轉換：傅立葉轉換、離散餘弦轉換和PCA轉換等
2. 圖像增強：圖像平滑化、直方圖均衡化等
3. 數學計算：矩陣的加減乘除、轉置、逆矩陣、邏輯運算、統計
和SVD分解等
4. 圖像處理：梯度、插值、幾何轉換、型態學操作、濾波、色彩
空間轉換、直方圖和特徵匹配等
5. 結構分析：輪廓處理、幾何形狀計算和平面劃分、運動分析，
影像跟蹤、影像偵測、像機定位、三維重建和分類器設計等
網址[39]此連結為官方網站，網站中有下載、安裝與設定等詳細的相關資
訊，圖2.9為OpenCV人臉偵測的結果。
12
圖2-9 OpenCV 人臉偵測結果(影像來源[40])
三膚色偵測
在膚色偵測步驟中需先將影像由 RGB色彩空間轉為其他的色彩空間，
如 YCbCr 及 NCC 等。其中 YCbCr 色彩空間已在其他研究[41]證實可以更
有效地擷取膚色。以下將介紹人臉偵測及嘴唇偵測所使用的 YCbCr 及 NCC
色彩空間。
(一 ) YCbCr 色彩空間
因為RGB色彩空間的會受到亮度極大的影響，因此有許多的色彩空間，
如YCbCr、NCC、 YES、HSI、及 HSV等被提出，這些色彩空間被用來改
善色彩的一致性或分割。然而經由許多的測詴之後，證明YCbCr是最適用
於膚色的分割。
YCbCr色彩空間的Y代表亮度，Cb及Cr代表色藍色的色度及紅色的色
度，YCbCr與RGB之間的轉換是由式(2.5)。
Y 16 1 657.38 129.057 25.064 R

Cb = 128 + −37.945 − 74.494 112.439 G (2.5)
256
Cr 128 112.439 − 94.154 − 18.285 B
選用YCbCr的原因有以下五點：(1) YCbCr中亮度元素Y是獨立的色彩，
13
因此可以用來解決亮度變化的問題且容易使用。(2) 根據[12]中所提，膚色
在YCbCr中的群聚性，較其他色彩空間來得緊密。(3) 在多變的亮度條件
下，膚色及非膚色資料在YCbCr色彩空間中有較小的重疊性。(4) YCbCr
色彩空間被廣泛地應用在影像壓縮標準中 (如 , MPEG 與 JPEG) 。 (5)
YCbCr是使用於家庭影像系統中的色彩空間. (6) YCbCr是兩個主要用來表
示數位影像的色彩空間的其中一個(另一個是RGB)。 YCbCr與RGB不同的
地方在於，YCbCr以亮度和兩個不同的色彩訊號來表示色彩，而RGB是以
紅、綠、藍表示色彩。因此本實驗採用的色彩空間為YCbCr。
(二 ) 膚色偵測
在許多的研究中都假定膚色的色度元素是獨立於亮度元素。然而[32]
研究所示實際上膚色是非線性相依於亮度。
在膚色偵測步驟中，須先將輸入影像由RGB色彩空間轉換成YCbCr色
彩空間。接著再以下列三條規則來判斷某一像素是否為膚色或非膚色：
1. 𝑌 𝑖 > 𝛼：𝑌(亮度)必須大於α值，其中 𝛼 =120。
2. Cb > 𝛽：Cb 必須小於β值，其中 𝛽 =95。
3. Cr > 𝛾：Cr 必須小於γ值，其中 𝛾 =110。
其中 𝛼 , 𝛽, 𝛾的值是由實驗以嘗詴錯誤的方式得到的門檻值。將輸入影像經
由Adaboost進行人臉偵測之後得到的人臉區域，利用上述得三條規則進行
膚色的判斷，結果如圖2-10所示。
圖2-10 不同亮度下的膚色偵測結果[32]
14
(三 ) 嘴唇偵測
1. NCC 色彩空間
C.T. Chen [13]，NCC(Normalized color Coordinates)，NCC 解決 RGB
色彩空間中，影像因光源亮度的強弱，造成物體在相同顏色的地方呈現出
深淺不同的顏色。由 RGB 轉成 NCC，可以使Ｒ與Ｇ對亮度的敏感度降低，
其轉換公式為式(2.6)與式(2.7)：
𝑅
𝑟= (2.6)
𝑅+𝐺+𝐵
𝐺
𝑔= (2.7)
𝑅+𝐺+𝐵
因為B對亮度的敏感度較小，所以可以忽略。利用Ｒ與Ｇ正規劃得到ｒ與
ｇ，做適當膚色範圍的門檻值選取，就能將膚色從影像中分離出來。
其膚色模組是由 Soriano 以四種不同色溫的光源情況，將膚色在 NCC
色彩空間上的分佈統計出來。
(1) 2300K 地平線光源(Horizon Daylight)
(2) 2856K 白灼光(Incandescent)，白灼光是指室內強光。
(3) 4000K 螢光(Fluorescent)，螢光是指一般室內日光燈環境。
(4) 6500K 日光(Daylight)，6500K的色溫可以用D65表示。
其中色溫是指光波在不同的能量下，對人眼所感受的顏色變化，以Kelvin
為色溫計算單位。使用四種不同的口徑攝影機且做白平衡設定，在上述四
種不同的光源環境(共十六種不同環境下)，拍攝白種人與黃種人取得彩色
樣本影像，作為膚色取樣的依據。接下來將這些不同環境下拍攝的彩色影
像，由RGB 色彩空間轉換到NCC 色彩空間。因為RGB 色彩模型對光線
變化有相當靈敏的反應，所以做 NCC 的轉換可以減少顏色對亮度的依
賴。
圖 2.11 是 Soriano 使用 CCD 與 USB webcamera 在他設定的十六種
不同情況下，對白種人與黃種人所拍攝到膚色在 NCC 座標中的統計範圍
分佈，X 軸為正規化後紅色像素，其範圍約在 0.2 到 0.6，Y 軸為正規化
後綠色像素，其範圍約在 0.2 到 0.4。
15
圖 2-11 膚色統計範圍圖引自 M. Soriano [13]
2. 嘴唇偵測
在上一節中介紹了 NCC 色彩空間，本節將介紹嘴唇偵測。首先將影像
由 RGB 色彩空間轉為 NCC 色彩空間，利用嘴唇顏色比膚色較暗的特徵，
從 Soriano 提供膚色分佈統計圖中，可以發現嘴唇顏色將會落於膚色分佈
之扇形區以下區域，也就是唇色的二次曲線會落於膚色下界曲線𝑄 𝑟 _的下
面，用藍色曲線來代表唇色在 NCC 座標上的位置，如圖 2.12 所示：
圖 2-12 唇色二次曲線在 M. Soriano [13]膚色分佈範圍的位置
依據圖 2.12 對唇色曲線分佈，定義判斷式為(2.8)與(2.9)式。
𝑄 𝑟 = −0.776𝑟2 + 0.5601𝑟 + 0.18 2.8

16
1, 𝑖𝑓 𝑔 ≤ 𝑄 𝑟 𝑎𝑛𝑑 𝑤 > 0.001 𝑎𝑛𝑑 ((𝑅 − 𝐺) ≥ 15)
𝐿= (2.9)
利用上述的判斷式對圖 2.13(a)人臉區域做唇色偵測, 結果如圖 2.13(b)。
(a) (b)
圖 2-13 (a)人臉區域(b)唇色偵測結果[13]
(四 ) 三角形偵測
由2.1.2的膚色偵測步驟中，得到的影像中膚色區塊，經過形態運算排
除雜訊後，任意選取三塊膚色區域利用下列三條規則判斷正確的三角形：
1. 𝑎𝑏𝑠 𝐷 𝑖, 𝑗 − 𝐷 𝑗, 𝑘 < 0.25 ∗ 𝑚𝑎𝑥 𝐷 𝑖, 𝑗 , 𝐷 𝑖, 𝑘
2. 𝑎𝑏𝑠 𝐷 𝑖, 𝑗 − 𝐷 𝑖, 𝑘 < 0.25 ∗ 𝑚𝑎𝑥 𝐷 𝑖, 𝑗 , 𝐷 𝑗, 𝑘
3. 𝑖 < 𝑗 < 𝑘
其中i為右眼區塊中心，j為嘴唇區塊中心，k為左眼區塊中心，Ｄ (,)表示兩
區塊的歐是距離，abs(‧ )表示取絕對值，max(,)表示取最大值。根據上述
三條規則，所得的三角形如圖2.14所示：
圖 2-14 三角形偵測結果[32]
17
第三節人臉辨識方法介紹
一特徵選取
特徵選取對於人臉辨識結果有著決定性的影響。特徵選取目的在於選
取人臉中最具有辨識力(或鑑別性)的特徵。目前已有許多不同的特徵選取
方法且辨識力各不相同。然而特徵數量的多寡並不代表辨識力的高低，如
果能以較少量特徵達到較高的辨識力，將有助於即時辨識系統的整體速率，
以下將介紹本論文實驗部分所比較的兩種特徵選取方法，幅狀網格映射
(Radial grid mapping)及基於橢圓樣版之特徵選取。
(一 ) 幅狀網格映射
幅狀網格映射(Radial Grid mapping)[4][5]是以多個同心圓與同心圓
圓心幅射線所交點為取樣點圓心，如圖 2-15。以此圓心及直徑Ｄ，得到取
樣範圍並且平均範圍內灰階值，以平均值當作取樣點特徵。
圖 2-15 輻狀網格取樣結構[4]
2𝜋 (𝑥𝑖 − 𝑥𝑐 )2 + (𝑦𝑖 − 𝑦𝑐 ) 2
𝐷= (2.10)
𝑁𝜃
其中 𝑥𝑐 , 𝑦𝑐 為同心圓圓心，(𝑥𝑖 , 𝑦𝑖 )為取樣點圓心，𝑁𝑟 等於同心圓個數，𝑁𝜃

為同心圓分隔角度個數。因此，取得的特徵大小為𝑁𝑟 × 𝑁𝜃 。下列為特徵擷
取的步驟：
1. 先對人臉區域做柱狀圖等化，降低亮度變化的影響。
2. 由三角形偵測得到的三角形重心，以此重心當作同心圓的圓心，
18
最大同心圓的直徑等於人臉區域的寬度，對同心圓做相同角度分
割。
3. 由步驟 2 所得的𝑁𝑟 , 𝑁𝜃 所形成的幅狀網格，由 (2.10)式計算出取樣
點 D 計算所有取樣點的平均灰階值，就得到特徵向量。
結果如圖 2-16，取樣大小為 32x32。
此方法的優點是在選取特徵後，不需要再使用將低維度的方法來處理
特徵，選取特徵的步驟中就已達到降低資料維度的目的。缺點是所選取的
特徵資料因為是區域的平均值，所以不一定是最具鑑別性的特徵，而且會
因背景雜訊而影響到辨識結果。
圖 2-16 幅狀網格映射取樣特徵
(二 ) 基於橢圓樣版之特徵選取
第二種特徵選取方法為基於橢圓樣版特徵的特徵選取，方法是將人臉
區域以橢圓樣板遮罩擷取人臉特徵。橢圓樣板遮罩可減少影像雜訊，使用
橢圓遮罩保留大部分人臉及減少背景雜訊造成的影響。特徵擷取步驟如
下：
1. 先將人臉區域作柱狀圖等化，降低亮度變化的影響。
2. 將人臉區域大小正規化至三種不同大小分別為 100x100、150x150
及 200x200 。
19
3. 以橢圓遮罩覆蓋人臉區域，排除背景雜訊及擷取特徵。橢圓長軸長
為人臉區域寬度，短軸為人臉區域寬度的 2/3。
4. 以主成分分析(PCA)降低資料維度後，再以線性鑑別分析(LDA)來
提高特徵向量的鑑別性, 增加不同類別特徵向量間的相異性。
結果如圖 2-17 所示。
此方法的優點是將整張人臉當作特徵，提高特徵資料的鑑別性，並且
以橢圓樣版來排除背景雜訊。缺點是特徵資料中會有許多資料是沒有鑑別
性的，因為不同的人臉間還是有相同的特徵存在，如臉頰、額頭及下巴。
圖 2-17 橢圓樣版取樣特徵
二主成份分析 (Principle Component Analysis - PCA)
由上一節的特徵選取步驟取得人臉特徵區域後，若是不先經過降低維度
的動作，其處理和運算所需花費的時間，將會是非常驚人的，且原始影像
資料所形成的特徵參數由於資訊散佈在每一個像素中，因此易受雜訊的影
響。所以在建立整個訓練模型之前，如何取出適當的特徵參數，將是個很
重要的問題。
原始的人臉特徵參數經過 PCA 轉換後，可以得到新的特徵參數
{𝒁𝟏 , 𝒁𝟐 , ⋯ , 𝒁𝑵 }。這組特徵參數除了維度降低之外（n→m, m為我們所保留
20
的特徵值數目），其全域散佈矩陣（即各參數間的變異程度）也是最大。
如此的結果可以用較少維度的特徵，但卻可以更完善地去表達出每張不同
人臉影像之間的差距，也就是取得最具代表性的特徵(Most Expressive
Feature, MEF)。
因此主要成份分析PCA(Principal Component Analysis)[1]，其概念為抽取
不同人之人臉影像中共同存在的主要成份影像（即 Eigenface），並利用
Eigenface簡化還原人臉影像之表示方式。 PCA還可以配合線性區分法
(Linear Discriminate Analysis)，利用將組內變異變小及組間變異變大之概念，
利用將組內變異變小及組間變異變大之概念，以提高不同人之間的差異性
(Between-Class Variation) ，並同時降低同一人不同影像間的差異性
(Within-Class Variation)，提升識別的精確度，本論文就是採用 PCA結合
LDA的方法來擷取特徵，PCA主要原理如下：
假設原來共有 N張訓練用之人臉影像，其原始特徵參數為{𝑿𝟏 , 𝑿𝟐 , ⋯ , 𝑿𝑵 }。
PCA 之目的為找出一個 n× m 線性轉換矩陣 P，將原始維度為 n 之特徵參
數𝑿𝑲 轉換成維度為 m(m≦ n)，且更具代表性（即兩兩間的變異數更大）之
新參數𝒁𝑲 。
𝒁𝒌 = 𝑷𝑻 𝑿𝒌 ， 𝑘 = 1~𝑁 (2.11)
令轉換前的平均向量(Mean Vector)為𝑿，則轉換後的平均向量為
𝑁 𝑁 𝑁
1 1 1
𝒁= 𝒁𝑘 = 𝑷𝑻 𝑘 = 𝑃 𝑇 𝑿𝑘 = 𝑷𝑻 𝑿 2.12
𝑁 𝑁 𝑁
𝑘 =1 𝑘 =1 𝑘 =1
以全域散佈矩陣(total scatter matrix）表示所有特徵參數相對於其平均向量

的分散程度。令轉換前n × n全域散佈矩陣為
𝑁
𝑺 𝑡𝑥 = 𝑘 =1 𝑿𝑘 − 𝑿 (𝑿𝑘 − 𝑿)𝑻 (2.13)
則由(2.11)(2.12)(2.13)式可得轉換後n × n的全域散佈矩陣為
𝑁
𝑻
𝑺 𝑡𝑧 = 𝒁𝑘 − 𝒁 𝒁𝑘 − 𝒁 (2.14)
𝑘=1
21
𝑵
𝑻
= 𝑷 𝑻 𝑿𝑘 − 𝑷 𝑻 𝑿 𝑷 𝑻 𝑿𝑘 − 𝑷 𝑻 𝑿
𝒌=𝟏
= 𝑷 𝑻 𝑺 𝑡𝑥 𝑷
為將轉換後特徵參數與其平均值之間的散佈程度加大，必須找出能使𝑆𝑡𝑧
最大化之轉換矩陣𝑷𝑜𝑝𝑡 ，即
𝑷𝑜𝑝𝑡 = 𝑎𝑟𝑔 𝑚𝑎𝑥 𝑷𝑻 𝑺𝑡𝑧 𝑷 (2.15)

𝑃
於(2.15)式中，為使𝑡𝑟 𝑷𝑻 𝑺𝑡𝑧 𝑷 之值有所限制，不至於變成無限大。若令P 為
n× m轉換矩陣，則需加入𝑷𝑻 𝑷 = 𝑰𝑚 限制條件
𝐹 𝑷 = 𝑷 𝑻 𝑺 𝑡𝑧 𝑷 − 𝝀 𝑷𝑻 𝑷 − 1 (2.16)
為使F(P)最大化，必須根據P 取其一階導數，並將其結果設為零。如此可
以得到
𝜕𝐹(𝑷)
= 2𝑺𝑡𝑧 𝑷 − 2𝝀𝑷 = 0 (2.17)
𝜕𝑷
進一步移項簡化
𝑺𝑡𝑧 𝑷 = 𝝀𝑷
(𝑺𝑡𝑧 − 𝝀𝑰)𝑷 = 0 (2.18)
解(2.18)式之結果，可得P 恰為𝑺𝑡𝑧 之特徵向量(eigenvector）所組成之

矩陣。求所需的特徵空間，一般步驟入下：1. 先求平均值， 2. 求Zero Mean
3. 計算Covariance Matrix，4. 計算特徵值與特徵向量，5. 求特徵空間，過
程如下：
1. 求平均值：將訓練樣本加總起來除以個數
𝑘
1
𝑚= 𝒙𝒊 , 𝒙𝒊 = [𝒙𝒊𝟏 , 𝒙𝒊𝟐 , ⋯ , 𝒙𝒊𝑵 ]𝑻 (2.19)
𝑘
𝑖=1
其中K為訓練樣本個數，N為每一樣本的維度
22
2. Zero Mean：把所有訓練樣本減掉平均值
𝒙𝒊 = 𝒙𝒊 − 𝑚, 𝑖 = 1 ⋯ 𝑘 (2.20)
3. 計算Covariance Matrix：
𝑘
𝑻
𝒄= 𝒙𝒊 𝒙𝒊 (2.21)
𝑖=1
4. 計算特徵值與特徵向量：由Covariance Matrix來求得特徵值與特徵向量
𝒄∅𝒊 = 𝝀∅𝒊 (2.22)
其中∅𝒊 為特徵向量，𝝀為特徵值
5. 計算特徵空間：依照計算得到的特徵值由大到小做排序，將所對應的特
徵向量組合而成特徵空間，而選取的特徵向量則為所對應的特徵值，是個
非零的特徵向量
∅ = ∅𝟏 , ∅𝟐 , ⋯ , ∅𝒌 2.23
其中𝝀𝒊 = ∅𝒊 ⊂ 𝝋𝒊 ≠ 0 and 𝝀𝒊 > 𝝀𝒊 + 1, for 1 ≤ 𝑖 ≤ 𝑘
最後(2.23)式的∅就是原始資料經由投影後，所選取前幾個最大特徵值所對
應的特徵向量，也就是經過降低維度後的資料。接著將降低維度後的資料，
以線性鑑別分析LDA增加不同類別特徵向量間的相異性。
三線性鑑別分析 (Linear Discriminate Analysis - LDA)
由上一節利用 PCA 將特徵資料降低維度後，需再以 LDA[3]來增加特

徵資料的鑑別性。PCA 與 LDA 不同之處在於，PCA 沒有考慮類別的資訊，
僅僅是將資料降低維度。相反地，LDA 擁有降維後能將不同類別資料分開
且相同類別資料聚集的特性。本論文在擷取特徵後，將特徵資料經由 PCA
降維後，接著再以 LDA 來提高特徵向量的鑑別性，增加不同類別特徵向
量間的相異性。所以如果要做資料壓縮，那 PCA 是最佳的選擇。如果是要
做樣本分類，LDA 就是比較好的選擇。以下將以兩類資料投影到一維空間
為範例，來介紹 LDA 的基本原理。
目的是要找到一個向量w, 把資料投影到w 上面去，得到新的座標 y。
23
𝒚 = 𝒘𝒕 𝒙 (2.24)
以LDA 的精神來看，是希望能將同一類的資料投影得越近越好，而不同
類的資料同影得越遠越好。首先是每個類別資料的平均值。
1
𝑚𝒊 = 𝒙 (2.25)
𝑛𝑖 𝑥∈𝐷𝑖
而投影過後的平均值是：
1 1 1
𝑚𝑖 = 𝒚= 𝒘𝒕 𝒙 = 𝒘𝒕 𝒙 = 𝒘𝒕 𝑚𝑖 (2.26)
𝑛𝑖 𝑦 ∈𝑌𝑖 𝑛𝑖 𝑥∈𝐷𝑖 𝑛𝑖 𝑥∈𝐷𝑖
𝑛 𝑖是第i 類的資料個數。𝑫𝒊 是第i 類資料的集合。𝒀𝒊 是投影後第i 類資料

的集合。所以以上可以看出投影過後的每個類別資料的平均值是原來在高
維度空間的平均值投影。
再來就可以定出投影後兩類資料的平均距離
𝑚1 − 𝑚2 = 𝒘𝒕 (𝑚1 − 𝑚2 ) (2.27)
也可以定出兩類資料在投影過後，分散的度量(scatter)
2
𝑺𝒊 = (𝒚 − 𝑚𝑖 ) 2 (2.28)
𝒚∈𝒀 𝒊
再來依照LDA 的精神，首先是投影過後的兩類資料越分開越好，代表投
影過後的平均值差越大越好。第二就是投影過後的同類資料越集中越好，
也就是投影過後的分散程度越小越好。因此可以得到式(2.29)：
𝟐
𝑚1 − 𝑚2
𝑱 𝒘 = 𝟐 𝟐 (2.29)
𝑺𝒊 + 𝑺𝟐
當決定一個投影基底w，可以求出一個𝑱 𝒘 的值，希望分母越小越好，
分子越大越好。當要找出一個w使𝑱 𝒘 出現最大值，那個w就是基底。但是
上式的𝑱 𝒘 右邊的形式是間接跟w有關係，再推導使得右邊的式子能得到w。
首先，定義散射矩陣(scatter matrics) 𝑺𝒊 ，用來描述投影前的各類資料

分散情況。
24
𝑺𝒊 = (𝒙 − 𝑚𝑖 )(𝒙 − 𝑚𝑖 )𝑡 (2.30)
𝒙∈𝑫𝒊
式(2.29)的分母每個項可以寫成𝑺𝒊 跟w個組合，如式(2.31)：
𝑺𝒊 2 = 𝒘𝒕 𝒙 − 𝒘𝒕 𝑚𝑖 2
= 𝒘𝒕 𝒙 − 𝑚𝑖 𝒙 − 𝑚𝑖 𝑡 𝒘 (2.31)
𝒙∈𝑫𝒊 𝒙∈𝑫𝒊
= 𝒘𝒕 𝑺𝒊 𝒘
最後分母可以寫成式(2.32)，𝑺𝒘 是𝑺𝟏 + 𝑺𝟐。
𝟐 𝟐
𝑺𝒊 + 𝑺𝟐 = 𝒘𝒕 𝑺𝟏 + 𝑺𝟐 𝒘 = 𝒘𝒕 𝑺𝒘 𝒘 (2.32)
式(2.29)分子可以寫成式(2.33)：
2
𝑚1 −𝑚2 = 𝒘𝒕 𝑚1 −𝒘𝒕 𝑚2 2
= 𝒘𝒕 𝑚1 −𝑚2 𝑚1 −𝑚2 𝑡 𝒘 (2.33)
= 𝒘𝒕 𝑺𝑩 𝒘
式(2.29)將由式(2.32) 式及(2.33)改寫得式(2.34)：
𝒘𝒕 𝑺𝑩 𝒘
𝑱 𝒘 = (2.34)
𝒘𝒕 𝑺𝒘 𝒘
要求一個w 使J(w)最大，可以用Lagrange multiplier。式(2.34)可以看出，

w有無限多解，因為當w乘上一個倍數，J(w)值都會是一樣的(分母分子相
消 )。因此限制 w的長度，使得分母乘出來為 1。而那就當成是 Lagrange
method 的條件，而目標就是讓分子最大。
𝑪 𝒘 = 𝒘𝒕 𝑺𝑩 𝒘 − 𝝀 𝒘𝒕 𝑺𝒘 𝒘 − 1
𝑑𝒄
= 2𝑺𝑩 𝒘 − 2𝝀𝑺𝒘 𝒘 = 0
𝑑𝒘
𝑺𝑩 𝒘 = 𝝀𝑺𝒘 𝒘 (2.35)
所以讓𝑱(𝒘)最大的𝒘，就會符合式(2.36)
25
𝑺𝑩 𝒘 = 𝝀𝑺𝒘 𝒘 (2.36)
式(2.36)是一般特徵值問題。所以當𝑺𝒘 可逆，就可以讓式(2.36)成為普通的
特徵值問題，如式(2.37)
𝑺𝒘 −1 𝑺𝑩𝒘 = 𝝀𝒘 (2.37)
但是式(2.37)的𝑺𝑩 𝒘方向是(𝑚1 − 𝑚2 )，所以其實w就是式(2.38)的解，不需

要解特徵值問題
𝒘 = 𝑺𝒘 −𝟏 𝑚1 − 𝑚2 (2.38)
接下來，做一些改變來符合多種類資料跟高維空間的需求。首先把𝑺𝒘 改成
多種類資料的版本(類別數 > 2)，式(2.39)
𝒄
𝑺𝒘 = 𝒊=𝟏 𝑺 𝒊 (2.39)
把𝑺𝑩改成式(2.40)
𝑐
1
𝑺𝑩 = 𝑛 𝑖 𝑚𝑖 − 𝑚 (𝑚𝑖 − 𝑚)𝑡 , 𝑚= 𝑥 (2.40)
𝑛
𝑖 =1 𝑥
大致上式(2.40)還是描述了各類資料之間的分散程度。當要投影到高維空間
後，不再是求一個向量基底w，而是要求一組基底，所以多組w將會寫成一
個矩陣W來表示，裡面的行向量就是一組基底。因此式(2.34)的分母跟分子
將變成：
𝑺𝑩 = 𝑾𝒕 𝑺𝑩 𝑾, 𝑺𝑾 = 𝑾𝒕 𝑺𝒘 𝑾 (2.41)
所以式(2.34)將變成式(2.42)
𝑾𝒕 𝑺𝑩 𝑾
𝑱 𝒘 = (2.42)
𝑾𝒕 𝑺𝒘 𝑾
J(W)中的W是一個矩陣，代表一組基底。分子分母因為W 是矩陣，所以必
需加個行列式 (determinant)才能變成常數。取 J(W)的最大值的確是符合
LDA 的精神。求出W的方法，其實是求W第i個行向量，只要解式(2.43)，
26
取第i大的特徵值對應的特徵向量。因此如果要投影到k維的空間，取前k大
的特徵值對應的特徵向量就可以了。
𝑺𝑩 𝒘𝒊 = 𝝀𝑺𝑾 𝒘𝒊 (2.43)
以上是LDA的基礎簡介，LDA 還有各種變形，例如投影後的資料如果仍
然不能分開，這時可以用Kernel LDA。LDA 的計算仍然跟原始資料的維
度有關，更有效率的2DLDA 可以大大減少求得LDA基底的計算成本。LDA
最重要的精神就是把高維的資料投影到低維空間中，並且讓投影過後的資
料能夠具備好分辨的特性。
當輸入影像經過特徵選取，特徵處理及擷取後，接著就是利用不同的
分類器來測詴所使用的特徵資料的鑑別能力。以下將介紹本論文實驗部分
所使用的兩種不同的分類器：K個最近鄰居 (K-Nearest Neighbor，KNN) 分
類法及幅狀基底函數類神經網路(Radial Basis Function Neural Network，
RBFNN)，本文使用此兩種分類器分別測詴本文所提出之五官特徵的辨識
結果。
其中KNN優點是演算法直觀且簡單，不需要訓練步驟，且當資料庫有
更新時(增加或減少)不需重新訓練。缺點是對於大量的資料分類，準確度
較不如其他分類法。RBFNN的優點是學習速率比一般類神經網路來得快，
且能更快地收斂。缺點是隱藏層節點數目可能很多，所以需要較大的記憶
空間來儲存相關參數值。
四 K 個最近鄰居分類法
K 個最近鄰居(KNN)分類法所根據的基礎是，同一類別的特徵距離比
較近。因此，對於一個未知類別的資料，只要找出在訓練資料中與此資料
最接近的點，就可判定此資料的類別應該和最接近的點的類別是一樣的。
KNN 是一種最直覺的分類法,在測詴各種分類器時，被當成是最基礎的分
類器，以便和其他更複雜的分類器進行效能比較。
KNN 的相似度一般是使用歐式距離來的大小判斷，同一類別的歐式距
離越小。藉由計算與已知類別資料的距離，來判斷未知資料的可能類別。
以下簡單說明 KNN 的演算法：
目標：分類未知類別資料。
輸入：待分類的 n 筆未知類別資料{𝑰𝟏 , 𝑰𝟐 , ⋯ , 𝑰𝒏 }。m 個已知類別的資料

資料{(𝑫𝟏 , 𝒚𝟏 ), ⋯ , (𝑫𝒎 , 𝒚𝒎 )}。
27
步驟 1：由歐式距離公式 𝑰 − 𝑫 𝟐，得到待分類資料與已知類別資料的距
離。
步驟 2：將計算出的距離由小到大排序，若是超過門檻值則視為可能的
類別。
步驟 3：由所有可能的類別中取出 K 個，依多數決定，得到待分類資料
的類別。
不同的 K 值及門檻對於分類結果也會影響。K 值不是越大越好，至於理想

的 K 值及門檻值選取，會依不同的資料及類別數而改變。以本文的實驗為
例，我們實驗了 K 值由 1~10 的實驗結果，選取最佳辨識結果的 K 值及門
檻值。
五幅狀基底函數類神經網路
本文實驗使用的第二中分類器，是使用幅射基底函數類神經網路
(RBFNN[4])，以下簡單介紹RBFNN的基本概念。
幅射基底函數類神經網路(RBFNN)或稱為徑向基底類神經網路，屬於
基本的前饋式類神經網路。網路架構為輸入層，一層隱藏層與輸出層，如
圖2-18所示。輸入層是輸入資料與網路連接的介面層，而隱藏層則是將輸
入資料經過非線性 (一般為高斯函數)轉換到隱藏層，得到輸出輸入之間的
關係。輸出層則是將隱藏層的輸出進行線性組合得到輸出值的特色，該層
神經元將輸入相加成為網路輸出。幅狀基底函數類神經網路的架構如下：
圖2-18 幅狀基底函數類神經網路架構圖
其中 𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝑵 為N個維度的輸入特徵, M個神經元的隱藏層及一個輸
出值。
28
當訓練範例資料輸入網路後，直接由輸入層將輸入向量傳給隱藏層中
的每個輻狀基底函數，也就是計算輸入向量與隱藏層各神經元中心點的距
離後，經函數轉換獲得隱藏層各神經元的輸出𝒁𝒋，如(2.44)式。
𝐙𝐣 𝐱 = ∅ 𝐱 − 𝐜𝐣 , 𝑗 = 1,2, … , 𝑀 (2.44)
其中∅ ∙ 為幅狀基底函數，可以為多種不同的基底函數，如線性函數、三
次函數高斯函數等，本論文是使用高斯函數。𝑐𝑗 為隱藏層第j個神經元中心
點， 𝒙 − 𝒄𝒋 為輸入層與隱藏層間的歐氏距離。將隱藏層的輸出值式(2.44)
經加權後傳至輸出層即可求得網路輸出值𝑦，如式(2.45)。
𝑀
𝑦= 𝒘𝒋 ∙ 𝒁𝒋
𝑗 =0
𝑀
𝑦= 𝒘𝒋 ∙ ∅ 𝒙 − 𝒄𝒋 ＋𝑤0 (2.45)
𝑗 =0
其中y為輸出層的輸出值，𝒘𝒋 為隱藏層第j個神經元至輸出層的權重值，為
隱藏層第j個神經元的輸出值。𝒁𝒋為隱藏層第j個神經元的輸出值。
RBFNN架構最重要的部分是隱藏層函數的個數及中心點的選取。不同
中心點的選取方法會影響到中心點的位置及個數，學習策略也會因中心點
的選取方法不同而有所不同。學習策略都式以求得誤差的最小平方和為目
標，可分為修正輸出層的參數(LMS法)及修正整個網路所有參數(坡降法、
最陡坡降法及牛頓法等)。本論文使用的是LMS法，僅修正輸出層的參數(輸
出權重𝒘𝒋 )。
誤差值可由目標輸出值與網路輸出值的差值得出。假設d(p)是第p個訓
練範例資料的目標輸出值，y(p)是輸出層在第p個訓練範例資料的網路輸出
值，e(p)是第p個訓練範例資料之目標輸出值與網路推估值的誤差，如(2.46)
式。
𝑒 𝑝 =𝑑 𝑝 −𝑦 𝑝 (2.46)
當𝑒 𝑝 等於零時，也就是網路能夠完全正確預測第𝑝個訓練範例資料之目
標輸出值，因此，在網路的訓練與修正階段，希望能夠對於整個訓練範例
資料獲得最小誤差值，即E值最小，如式(2.47)。
29
𝑝 𝑝
2 2
𝐸= 𝑒 𝑝 = 𝑑 𝑝 −𝑦 𝑝 2.47
𝑝 =1 𝑝 =1
當E值最小，由∂E ∂wj = 0得式(2.48)及式(2.49)
∅𝑇 𝑑 − ∅𝑇 ∅𝑊 = 0 (2.48)
𝑊 = (∅𝑇 ∅)−1 ∅𝑇 𝑑 = ∅+ 𝑑 2.49
30
第參章偵測與辨識方法及步驟
本章節將介紹本文所提之五官偵測的定位及五官特徵擷取的方法及步
驟。五官偵測方法分為基於三角形之五官偵測及基於矩形之五官偵測，這
兩種方法前者使用彩色，後者使用灰階影像。本系統的偵測及辨識方法如
圖 3.1 所示。圖 3.1(a)為使用彩色影像的五官偵測及辨識步驟。圖 3.1(b)為
使用灰階影像之五官偵測即辨識步驟。
輸入影像輸入影像
人臉偵測人臉偵測
基於膚色之基於矩形特徵之
眼睛、嘴唇偵測眼睛及嘴巴偵測
計算眼睛、嘴唇重心及鼻子區域定位
三角形重心
基於三角形偵測之基於矩形偵測之
五官特徵選取五官特徵選取
特徵擷取特徵擷取
(PCA 降低資料維度， (PCA 降低資料維度，
LDA 增加資料鑑別性) LDA 增加資料鑑別性)
以 KNN 或 RBFNN 分類器以 KNN 或 RBFNN 分類器

辨識辨識
結果結果
(a) (b)
圖 3-1 (a)基於三角形之五官偵測及辨識 (b) 基於矩形之五官偵測及辨識
31
第一節五官偵測之方法
本論文的五官偵測方法是基於 OpenCV 人臉偵測的結果，結合膚色資

訊的五官偵測及五官分類器(眼睛及嘴唇)的五官偵測。兩種不同的偵測方
法分使用不同的影像類型，如利用膚色資訊的五官偵測需使用彩色影像，
而使用五官分類器的五官偵測則是與人臉偵測一樣是使用灰階影像，並且
以 Viola 方法訓練的分類器來偵測五官 (眼睛及嘴唇 )，本論文是使用
OpenCV 提供的分類器。
一基於三角形之五官偵測
(一 ) 膚色偵測
本論文在膚色偵測步驟中的主要目的，是要找出眼睛及嘴唇區塊的重
心。因此為了降低後續三角形的錯誤偵測，根據正常人臉五官的位置關係，
將人臉區域分隔成眼睛區域及嘴唇區域。眼睛在人臉的位置會因為額頭的
關係，位置會跟著改變，因此只取人臉區域的上半部，大小為人臉高度的
1/2。嘴唇位置在人臉最下方，所以取人臉區域的3/4，大小為人臉高度的
3/4。在膚色偵測步驟中，須先將輸入影像由RGB色彩空間轉換成YCbCr
色彩空間。在2.2.3中膚色偵測三條規則，在本文實驗中發現此三條規則並
幾乎無法偵測到的膚色區域，因此，本文修改此三條規則並對人臉區域的
上半部(既眼睛區域)，膚色偵測。以下三條規則為本文修改2.2.3節中的規
則，以修改後的規則來判斷某一像素是否為膚色或非膚色：
1. 𝑌 𝑖 < 𝛼：𝑌(亮度)必須小於𝛼值，其中𝛼 =130。
2. Cb < 𝛽：Cb 必須小於𝛽值，其中𝛽 =95。
3. 𝐶𝑟 < 𝛾：Cr 必須小於𝛾值，其中𝛾 =120。
其中 𝛼 , 𝛽, 𝛾的值是經由實驗結果以嘗詴錯誤的方式得到的門檻值。將
輸入影像經由 Adaboost 進行人臉偵測之後得到的人臉區域，如圖 3.2(a)所
示以紅色方框將人臉區域框起來。利用上述的三條規則進行膚色的判斷，
結果如圖 2-9 所示。如果像素值滿足以上三個條件，那就會被視為膚色且
標記為白色，反之則為非膚色且標記為黑色，如圖 3.2 (b)。
32
(a)
(b)
圖 3-2 (a) OpenCV 人臉偵測結果 (b)人臉區域膚色偵測結果
在取得眼睛重心前，為了去除背景雜訊及眉毛的封閉區域所造成的區
塊雜訊，本論文加入橢圓及扇形兩種圖形，橢圓的長軸為(人臉寬度+人臉
高度)*0.25*0.78，短軸為(人臉寬度+人臉高度)*0.25*0.6。扇形則是由 60
度到 300 度，如圖 3.3(a)(b)。詳細操作步驟如下：
1. 對膚色偵測後的膚色區域做二值化，將圖 3.3(a)橢圓與圖 3.2 的膚
色二值化影像做 AND 邏輯運算，結果如圖 3.4。
2. 將圖 3.3(b)扇形與步驟 1 結果(圖 3.4)做 OR 運算。
3. 將步驟 2 的結果做反向運算，白色區域就是所要求的眼睛區域，如
圖 3.5 所示。
(a) (b)
圖 3-3 橢圓與扇形二值化影像(a)橢圓長軸等於(人臉寬度 + 高度) ∗ 0.25 ∗
0.78, (人臉寬度 + 高度) ∗ 0.25 ∗ 0.6的及(b)扇形(60°~300°)範圍
33
圖 3-4 橢圓與眼睛區塊二值化影像做 AND 運算結果
圖 3-5 扇形與圖 3.4 做 OR 運算及反向運算結果
(二 ) 嘴唇偵測
在上一節中已取出眼睛的區域，為了由雙眼及嘴唇之三角點所形成之
三角形，此章節將介紹本實驗所使用的唇色偵測，根據實驗結果修改 2.2.4
中的唇色偵測式(2.9)中的參數來符合本系統的環境，修改後的式子如式
(3.1)。
1, 𝑖𝑓 𝑔 ≤ 𝑄 𝑟 𝑎𝑛𝑑 𝑤 > 0.001 𝑎𝑛𝑑((𝑅 − 𝐺) ≥ 20)

𝐿= (3.1)
利用上述的判斷式對圖 3.6(a)人臉區域中的嘴唇區塊做唇色偵測 ,如圖

3.6(b)。
34
(a)
(b)
圖 3-6 (a)嘴唇區塊(b)唇色偵測結果
(三 ) 三角形偵測
由前兩小節的眼睛及嘴唇偵測，得到的眼睛區塊重心與嘴唇重心，利
用下列三條規則判斷正確的三角形：
1. LEy- REy < 20：左眼(LE) 與右眼(RE) 水平高度 (重心y座標)
的差異須小於20個pixel。
2. LEx-REx > FaceWidth*0.2857：左眼(LE) 與右眼(RE) 的距離(重
心x座標)須大於人臉寬度的0.2875倍。
3. LEx < Mx < REx：在正常的正面人臉中，左眼(LE)的x位置(重心
x座標)須小於嘴唇的x位置 (重心x座標)，且嘴唇的x位置(重心x
座標)須小於右眼x位置(重心x座標)。
根據上述三條規則，所得的眼睛於嘴唇區塊中心判斷，如圖3.7所示：
圖 3-7 三角形偵測結果
二基於矩形之五官偵測
在這裡我們利用 OpenCV 提供的五官分類器，來對人臉區域做五官偵

測，接著利用正常人臉五官的位置及大小關係，定位出鼻子區域。基於矩
形之五官偵測與基於膚色之五官偵測不同之處在於，基於膚色之五官偵測
是利用膚色資訊找到三角點所組成之三角形及三角形重心，做為五官偵測。
35
基於矩形之五官偵測因為是使用灰階影像，因此不需要膚色資訊，在人臉
偵測的前提下，對人臉區域搜尋眼睛及嘴唇區域，並且依照正常人臉五官
的比例關係得到鼻子區域。
(一 ) 眼睛及嘴唇偵測
由於 OpenCV 提供的眼睛及嘴唇分類器還是會受到不同環境光線的影
響，為了減少眼睛及嘴唇的錯誤偵測率，將眼睛及嘴唇的搜尋區域限制於
人臉偵測步驟中所得到的人臉區域。接著為了減少眼睛及嘴唇的錯誤偵測
率及提高偵測速率，同樣地，將眼睛及嘴巴的搜尋區域侷限在特定區域。
如左右眼搜尋區域為人臉上半部，高度為人臉區域高度的 1/2，而嘴唇搜
尋區域則限定在人臉區域高度 2/3 以下的區域，圖 3.8 及圖 3.9 為眼睛及嘴
唇偵測結果。
圖3-8 眼睛偵測結果
圖 3-9 嘴唇偵測結果
(二 ) 鼻子定位
上一節找出眼睛及嘴唇區域後，由觀察得知一般正面人臉中鼻子與眼
睛及嘴唇的位置及大小比例關係，得到鼻子的高度等於嘴唇區塊寬度的 0.6
倍，鼻子的寬等於嘴唇區域寬度的 0.8 倍。由式(3.2)、(3.3)、(3.4)可以得
到鼻子區域左上角(x,y)：
𝑋𝑛𝑜𝑠𝑒 𝑐𝑒𝑛𝑡𝑒𝑟 = 𝑋𝑚𝑜𝑢𝑡 𝑕 + 𝑊𝑖𝑑𝑡𝑕 𝑚𝑜𝑢𝑡 𝑕 × 0.5 (3.2)
36
𝑋𝑛𝑜𝑠𝑒 = 𝑋𝑛𝑜𝑠𝑒 𝑐𝑒𝑛𝑡𝑒𝑟 − 𝑊𝑖𝑑𝑡𝑕𝑒𝑦𝑒 × 0.5 (3.3)
𝑌𝑛𝑜𝑠𝑒 = 𝑌𝑒𝑦𝑒 + 𝑊𝑖𝑑𝑡𝑕 𝑒𝑦𝑒 (3.4)
最後，將鼻子的 X 及 Y 座標分別加上鼻子的寬及高既可定位出鼻子區域，
如圖 3.10 所示：
圖 3-10 鼻子定位結果
第二節人臉辨識之方法
本文提出基於不同人臉五官的差異性的五官特徵，來當作人臉辨識的
特徵。利用上一節介紹的基於三角形的五官偵測及基於矩形的五官偵測兩
種不同偵測方法定位出五官區域，接著擷取人臉五官特徵。
一基於三角形之五官特徵擷取
由 3.1.1 節介紹的膚色、嘴唇及三角形偵測，找出眼睛、嘴唇重心，
分別計算出眼睛及嘴唇重心及三點形成之三角形重心，以此四點分別當作
眼睛、嘴巴及鼻子的圓心，取半徑為人臉區域寬度的 1/6 圓，所涵蓋的範
圍既當作是五官特徵。詳細步驟如下：
2. 將人臉區域大小正規化至三種不同大小，分別為 100x100、150x150
及 200x200。
3. 以三角點及三角形重心為圓心，分別擷取半徑為人臉區域寬度*1/6
的圓，四個圓分別涵蓋的眼睛、嘴巴及鼻子既為五官特徵。
4. 以主成分分析(PCA[3])降低資料維度後，再以線性鑑別分析(LDA[3])
來提高特徵向量的鑑別性, 增加不同類別特徵向量間的相異性。
結果如圖 3-11 所示，藍色圓為五官特徵範圍。
37
圖 3-11 基於三角形之五官特徵擷取
二基於矩形之五官特徵擷取
在這裡我們利用 3.1.2 節介紹基於矩形之五官偵測，定位出鼻子區域後，

擷取人臉的五官特徵，以下為擷取特徵步驟：
2. 將人臉區域大小正規化至三種不同大小，分別為 100x100、150x150
及 200x200。
3. 以 OpenCV 的眼睛及嘴唇偵測所得的五官區域之中心點為起點，分
別及取眼睛、鼻子及嘴唇。眼睛區域大小的寬高皆為正規化人臉區
域寬度*1/4 的矩形；嘴唇區域寬為眼睛寬度*1.5，高為眼睛寬度*0.75；
鼻子區域則由(2.9)(2.10)(2.11)式得出。
4. 以主成分分析(PCA[3])降低資料維度後，再以線性鑑別分析(LDA[3])
來提高特徵向量的鑑別性, 增加不同類別特徵向量間的相異性。
結果如圖 3.12 所示。
38
圖 3-12 基於矩形之五官特徵擷取
39
第肆章實驗結果與分析
上一章節介紹了本文所提出的基於膚色與矩形的五官偵測及五官特徵
擷取方法，與 2.2.3 節特徵擷取方法中介紹的幅狀網格映射(Radial Grid
mapping)特徵及橢圓樣版特徵，以下將本文所提之五官特徵與幅狀網格映
射及橢圓樣版特徵，以 2.2.4 節中介紹的兩種分類器：K 個最近鄰居分類
法(KNN)與幅狀基底函數類神經網路(RBFNN)為辨識器，並調整不同的參
數做比較結果。
第一節人臉資料庫
本文主要目的是實現一套應用在個人電腦上的人臉辨識系統。因此實
驗步驟所採用的人臉樣本需符合實際的使用環境。目前並無相關的標準人
臉資料庫，所以本文採用的資料庫為自製人臉資料庫。使用 Web-Cam 自
行拍攝人臉樣本，影像大小為 640x480，拍攝環境為一般教室及實驗室。
光源為一般白色日光燈，色溫介於 4500K~3900K 的自然光色[43]。影像的
光源角度共有 4 個：正面、左右及斜上方。總人數為有 15 個人，其中 10
個人為內部資料庫的訓練及測詴樣本，其餘 5 人當作入侵偵測。共有 300
張影像，其中內部資料庫為 200 張，入侵測詴有 100 張。訓練樣本為 10
個人，每人 15 張共 150 張(5 個不同位置)，測詴樣本每人 5 張影像共 50
張(5 個不同位置)。入侵偵測 5 人，每人 20 張共 100 張影像(5 個不同位置)，
如表 4.1。拍攝影像時，為避免膚色錯誤偵測與五官偵測錯誤，因此環境
光線必須盡量充足，且被拍攝者的五官不能有遮蔽，如圖 4-1 所示：
圖 4-1 (a)理想的環境光線 (b) 會造成膚色

錯誤偵測的環境光線
40
表 4-1 人臉資料庫規格
拍攝裝置 Web-Cam
影像大小 640x480 pixels
拍攝環境/燈光一般教室/日光燈
總人數 15 人
資料庫人數 10 人
入侵測詴人數 5人
總張數 300 張
訓練樣本 150 張，15 張/人
測詴樣本 50 張，5 張/人
入侵測詴樣本 100 張，20 張/人
第二節 KNN 辨識結果
此章節分為內部資料辨識及入侵偵測辨識。在內部資料庫的辨識方面，
實驗不同的 PCA 投影特徵數量 (10~150)與 K 值 (1~10)及三種人臉大小
(100x100，150x150 及 200x200)。在入侵偵測部分，我們取內部資料庫的
最佳辯識結果所對應之 K 值及 PCA 的投影特徵數量，並取一門檻值範圍
來做入侵偵測。以下內部資料庫及入侵偵測的辨識結果。
一內部資料庫之辨識結果
(一 ) 基於三角形之五官偵測法辨識結果
表 4-2 大小：100x100，特徵數量 10~150，K：1~10 的辨識結果

K
選取的
1 2 3 4 5 6 7 8 9 10
特徵數量
10 0.24 0.38 0.34 0.32 0.30 0.32 0.34 0.34 0.28 0.34
20 0.30 0.46 0.42 0.42 0.42 0.42 0.40 0.38 0.40 0.38
30 0.28 0.44 0.48 0.44 0.42 0.40 0.38 0.40 0.40 0.34
40 0.48 0.64 0.58 0.46 0.42 0.44 0.46 0.50 0.5 0.48
50 0.36 0.42 0.42 0.40 0.40 0.42 0.48 0.38 0.40 0.44
60 0.56 0.72 0.68 0.68 0.64 0.62 0.66 0.64 0.62 0.56
70 0.62 0.74 0.68 0.72 0.68 0.72 0.64 0.68 0.72 0.68
80 0.50 0.68 0.68 0.62 0.68 0.64 0.62 0.60 0.54 0.60
90 0.68 0.86 0.76 0.70 0.66 0.66 0.68 0.64 0.56 0.56
41
100 0.78 0.84 0.72 0.70 0.74 0.80 0.74 0.72 0.64 0.70
110 0.78 0.92 0.78 0.74 0.74 0.70 0.72 0.66 0.66 0.66
120 0.90 0.94 0.88 0.90 0.88 0.84 0.82 0.84 0.80 0.74
130 0.86 0.88 0.84 0.86 0.86 0.84 0.86 0.86 0.80 0.86
140 0.50 0.62 0.64 0.60 0.54 0.60 0.64 0.62 0.58 0.58
150 0.92 0.92 0.96 0.90 0.92 0.90 0.88 0.84 0.84 0.86
1
0.9
0.8 K= 1
0.7 K= 2
Recognition rate
0.6 K= 3
K= 4
0.5
K= 5
0.4
K= 6
0.3
K= 7
0.2
K= 8
0.1
K= 9
0
K= 10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
No. of Selected eigenvectors
圖 4-2 大小：100x100，特徵數量：10~150 與 K：1~10 的辨識結果
表 4-3 大小：150x150，特徵數量 10~150，K：1~10 的辨識結果

K
選取的
1 2 3 4 5 6 7 8 9 10
特徵數量
10 0.28 0.36 0.48 0.56 0.50 0.44 0.36 0.38 0.40 0.42
20 0.36 0.44 0.46 0.46 0.44 0.48 0.46 0.44 0.44 0.44
30 0.34 0.46 0.46 0.40 0.40 0.40 0.38 0.40 0.34 0.34
40 0.36 0.46 0.50 0.48 0.42 0.40 0.40 0.38 0.50 0.48
50 0.46 0.56 0.54 0.44 0.50 0.48 0.48 0.52 0.50 0.48
60 0.28 0.38 0.48 0.44 0.44 0.36 0.38 0.36 0.34 0.32
70 0.72 0.9 0.84 0.74 0.74 0.78 0.74 0.78 0.76 0.78
80 0.34 0.4 0.48 0.44 0.34 0.32 0.34 0.38 0.40 0.34
90 0.72 0.80 0.76 0.70 0.68 0.72 0.68 0.70 0.66 0.70
42
100 0.56 0.64 0.58 0.64 0.66 0.60 0.62 0.60 0.58 0.54
110 0.50 0.72 0.58 0.58 0.66 0.64 0.60 0.58 0.58 0.62
120 0.70 0.84 0.94 0.86 0.80 0.76 0.78 0.76 0.80 0.68
130 0.90 0.96 0.88 0.82 0.76 0.70 0.72 0.74 0.74 0.70
140 0.74 0.82 0.80 0.76 0.76 0.76 0.76 0.72 0.72 0.74
150 0.88 0.92 0.84 0.84 0.84 0.82 0.84 0.80 0.78 0.78
1
0.9
0.8 K= 1
0.7 K= 2
Recognition rate
K= 3
0.6
K= 4
0.5
K= 5
0.4
K= 6
0.3
K= 7
0.2
K= 8
0.1
K= 9
0
K = 10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
表 4-4 大小：200x200，特徵數量 10~150，K：1~10 的辨識結果

K
選取的
1 2 3 4 5 6 7 8 9 10
特徵數量
10 0.30 0.46 0.42 0.50 0.50 0.48 0.36 0.36 0.36 0.32
20 0.28 0.46 0.50 0.48 0.40 0.38 0.34 0.30 0.36 0.40
30 0.42 0.62 0.50 0.48 0.42 0.52 0.48 0.52 0.54 0.50
40 0.48 0.56 0.62 0.50 0.46 0.56 0.50 0.52 0.46 0.46
50 0.38 0.56 0.56 0.52 0.54 0.54 0.56 0.52 0.54 0.46
60 0.54 0.68 0.66 0.68 0.62 0.60 0.66 0.68 0.66 0.56
70 0.64 0.74 0.74 0.72 0.64 0.70 0.62 0.66 0.58 0.58
80 0.68 0.88 0.72 0.76 0.70 0.70 0.64 0.72 0.64 0.68
90 0.84 0.92 0.82 0.82 0.80 0.84 0.74 0.70 0.76 0.74
43
100 0.60 0.74 0.58 0.62 0.58 0.68 0.64 0.66 0.60 0.58
110 0.88 0.94 0.92 0.92 0.92 0.92 0.86 0.88 0.84 0.82
120 0.78 0.86 0.76 0.78 0.76 0.76 0.72 0.66 0.64 0.62
130 0.60 0.76 0.74 0.70 0.70 0.66 0.60 0.64 0.58 0.54
140 0.58 0.70 0.62 0.68 0.64 0.62 0.62 0.58 0.56 0.54
150 0.86 0.90 0.86 0.82 0.80 0.80 0.76 0.80 0.78 0.76
0.9
K= 1
0.8
K =2
0.7
K= 3
Recognition rate
0.6 K= 4
0.5 K= 5
0.4 K= 6
0.3 K =7
0.2 K= 8
0.1 K= 9
K = 10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
由表 4.2 及圖 4.2 得知，人臉大小為 100x100，特徵數量為 150 且 K 等

於 3 時，辨識率為最佳 96%。由表 4.3 及圖 4.3 得知，人臉大小為 150x150，
特徵數量為 130 且 K 等於 2 時，辨識率為最佳 96%。而由表 4.4 及圖 4.4
得知，人臉大小為 200x200，特徵數量為 110 且 K 等於 2 時，辨識率為最
佳 94%。由實驗結果得知，當特徵數量取越多時辨識率並不會越高，而且
辨識率也不會隨著 K 值的增加而變高。
(二 ) 基於矩形之五官偵測法辨識結果
表 4-5 大小：100x100，特徵數量 10~150，K：1~10 的辨識結果

選取的 K
特徵數量 1 2 3 4 5 6 7 8 9 10
10 0.24 0.21 0.27 0.24 0.25 0.28 0.28 0.28 0.3 0.28
20 0.47 0.4 0.44 0.42 0.42 0.41 0.41 0.41 0.42 0.4
44
30 0.62 0.7 0.64 0.68 0.68 0.71 0.71 0.68 0.64 0.62
40 0.17 0.17 0.14 0.12 0.17 0.2 0.21 0.24 0.25 0.25
50 0.51 0.41 0.44 0.42 0.48 0.51 0.54 0.51 0.5 0.47
60 0.4 0.35 0.37 0.42 0.41 0.42 0.4 0.35 0.42 0.4
70 0.64 0.67 0.74 0.7 0.71 0.7 0.71 0.65 0.61 0.64
80 0.61 0.62 0.65 0.61 0.6 0.6 0.62 0.58 0.57 0.57
90 0.95 0.91 0.92 0.91 0.91 0.91 0.94 0.9 0.9 0.88
100 0.92 0.9 0.87 0.9 0.88 0.88 0.85 0.85 0.84 0.78
110 0.88 0.91 0.92 0.92 0.94 0.95 0.94 0.94 0.91 0.88
120 0.97 0.97 0.97 0.97 0.97 0.97 0.95 0.94 0.95 0.95
130 0.95 0.95 0.97 0.97 0.97 0.97 0.95 0.95 0.92 0.91
140 0.91 0.91 0.9 0.87 0.92 0.9 0.92 0.91 0.92 0.9
150 0.8 0.77 0.82 0.78 0.77 0.81 0.8 0.78 0.81 0.75
0.9
0.8 K= 1
0.7 K= 2
Recognition rate
0.6 K= 3
K= 4
0.5
K= 5
0.4
K= 6
0.3
K= 7
0.2
K= 8
0.1
K= 9
0 K = 10
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
圖 4-5 大小：100x100，特徵數量 10~150，K：1~10 的辨識結果
表 4-6 大小：150x150，特徵數量 10~150，K：1~10 的辨識結果

選取的 K
特徵數量 1 2 3 4 5 6 7 8 9 10
10 0.21 0.14 0.17 0.2 0.24 0.25 0.25 0.25 0.24 0.25
20 0.52 0.42 0.44 0.52 0.48 0.47 0.47 0.5 0.47 0.41
30 0.68 0.68 0.67 0.71 0.75 0.7 0.68 0.65 0.65 0.62
45
40 0.24 0.25 0.21 0.25 0.24 0.22 0.2 0.22 0.22 0.22
50 0.18 0.18 0.15 0.2 0.2 0.24 0.21 0.25 0.28 0.27
60 0.64 0.64 0.65 0.64 0.65 0.62 0.65 0.67 0.67 0.67
70 0.92 0.91 0.94 0.95 0.95 0.94 0.95 0.94 0.95 0.88
80 0.58 0.55 0.54 0.6 0.62 0.57 0.58 0.61 0.64 0.62
90 0.6 0.6 0.62 0.64 0.65 0.65 0.71 0.68 0.68 0.62
100 0.97 0.94 0.97 0.95 0.95 0.92 0.94 0.94 0.94 0.91
110 0.97 0.94 0.97 0.95 0.97 0.92 0.95 0.94 0.94 0.9
120 0.95 0.95 0.97 0.95 0.94 0.95 0.94 0.94 0.94 0.92
130 0.98 0.97 0.98 0.98 0.98 0.95 0.94 0.95 0.97 0.94
140 0.8 0.82 0.85 0.78 0.74 0.78 0.77 0.72 0.71 0.71
150 0.85 0.84 0.82 0.82 0.82 0.82 0.84 0.81 0.77 0.71
1
0.9
K1
0.8
K2
0.7
Recognition rate
K3
0.6
K4
0.5
K5
0.4
K6
0.3
K7
0.2
K8
0.1
K9
0
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 K 10
圖 4-6 大小：150x150，特徵數量 10~150，K：1~10 的辨識結果
表 4-7 大小：200x200，特徵數量 10~150，K：1~10 的辨識結果

選取的 K
特徵數量 1 2 3 4 5 6 7 8 9 10
10 0.27 0.28 0.22 0.24 0.22 0.22 0.24 0.24 0.24 0.24
20 0.47 0.44 0.41 0.42 0.47 0.48 0.48 0.5 0.42 0.38
30 0.75 0.7 0.7 0.74 0.74 0.72 0.72 0.7 0.67 0.68
40 0.67 0.64 0.62 0.72 0.7 0.72 0.72 0.67 0.65 0.71
50 0.42 0.42 0.45 0.42 0.38 0.4 0.42 0.35 0.35 0.32
46
60 0.54 0.5 0.54 0.54 0.55 0.57 0.6 0.61 0.65 0.58
70 0.7 0.67 0.71 0.7 0.75 0.74 0.74 0.75 0.75 0.74
80 0.81 0.78 0.85 0.84 0.84 0.85 0.88 0.88 0.82 0.78
90 0.4 0.45 0.42 0.42 0.42 0.44 0.42 0.4 0.37 0.41
100 0.94 0.94 0.92 0.97 0.97 0.95 0.97 0.92 0.97 0.87
110 0.97 0.97 0.97 0.95 0.97 0.94 0.94 0.94 0.91 0.91
120 0.98 0.95 0.97 0.94 0.97 0.94 0.95 0.94 0.95 0.92
130 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.95 0.95
140 0.94 0.95 0.98 0.97 0.97 0.94 0.94 0.94 0.94 0.92
150 0.88 0.88 0.84 0.87 0.85 0.84 0.81 0.84 0.81 0.77
0.9
0.8 K1
0.7 K2
Recognition rate
0.6 K3
K4
0.5
K5
0.4
K6
0.3
K7
0.2
K8
0.1
K9
0 K 10
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
圖 4-7 大小：200x200，特徵數量 10~150，K：1~10 的辨識結果
由表 4.5 及圖 4.5 得知，人臉大小為 100x100，特徵數量為 120 且 K 為

1~6 時，辨識率皆為最佳 97%。由表 4.6 及圖 4.6 得知，人臉大小為 150x150，
特徵數量為 130 且 K 為 1~5 時，辨識率為最佳 98%。而由表 4.7 及圖 4.7
得知，人臉大小為 200x200，特徵數量為 130 且 K 等於 1~8 時，辨識率為
最佳 98%。由實驗結果得知，當特徵數量取越多時辨識率並不會越高，而
且辨識率也不會隨著 K 值的增加而變高。
47
(三 ) 幅狀網格映射法辨識結果
表 4-8 不同取樣大小與 K 值的辨識結果

Radial K
Grid 大小
1 2 3 4 5 6 7 8 9 10
16x16 0.74 0.86 0.80 0.82 0.74 0.74 0.74 0.80 0.76 0.76
24x24 0.84 0.88 0.80 0.82 0.76 0.78 0.76 0.76 0.74 0.74
32x32 0.78 0.86 0.76 0.82 0.80 0.82 0.78 0.76 0.74 0.76
0.9
16x16
24x24
0.85
32x32
Recognition rate
0.8
0.75
0.7
0.65
1 2 3 4 5 6 7 8 9 10
K
圖 4-8 不同取樣大小與 K 值的辨識結果
由表 4.8 及圖 4.8 得知，當 K 值等於 2 時，三種取樣大小 16x16、24x24、

32x32 都有最佳辨識結果 86%、88%、86%。然而無論是哪種取樣大小，
由實驗結果可看出辨識率均不超過九成，因此幅狀網格映射法於本實驗環
境中並無法達到理想的辨識結果。
(四 ) 橢圓樣版取樣法辨識結果
表 4-9 大小：100x100，特徵數量 10~150，K：1~10 的辨識結果

K
選取的
1 2 3 4 5 6 7 8 9 10
特徵數量
10 0.24 0.38 0.44 0.38 0.40 0.44 0.40 0.38 0.40 0.46
20 0.40 0.56 0.50 0.52 0.52 0.54 0.44 0.46 0.40 0.40
48
30 0.54 0.74 0.62 0.64 0.54 0.66 0.62 0.60 0.58 0.54
40 0.30 0.54 0.48 0.38 0.42 0.44 0.38 0.48 0.48 0.40
50 0.16 0.22 0.24 0.20 0.20 0.22 0.24 0.24 0.24 0.24
60 0.72 0.88 0.80 0.76 0.72 0.76 0.70 0.74 0.68 0.68
70 0.60 0.74 0.66 0.62 0.62 0.64 0.60 0.60 0.58 0.58
80 0.74 0.88 0.84 0.78 0.76 0.84 0.72 0.76 0.78 0.68
900 0.70 0.84 0.82 0.82 0.80 0.80 0.78 0.74 0.76 0.76
100 0.70 0.74 0.70 0.68 0.74 0.72 0.68 0.70 0.68 0.72
110 0.90 0.92 0.92 0.90 0.90 0.90 0.88 0.84 0.84 0.86
120 0.60 0.76 0.74 0.68 0.64 0.58 0.58 0.58 0.56 0.58
130 0.84 0.90 0.84 0.84 0.76 0.76 0.74 0.80 0.80 0.78
140 0.78 0.82 0.82 0.78 0.74 0.72 0.72 0.78 0.76 0.78
150 0.84 0.88 0.80 0.82 0.78 0.78 0.78 0.76 0.78 0.80
0.9
0.8 K= 1
0.7 K= 2
0.6 K= 3
K= 4
0.5
Recognition rate
K= 5
0.4
K= 6
0.3
K= 7
0.2 K= 8
0.1 K= 9
0 K= 10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
No.of selected eigenvectors
圖 4-9 大小：100x100，特徵數量 10~150，K：1~10 的辨識結果
表 4-10 大小：150x150，特徵數量 10~150，K：1~10 的辨識結果

K
選取的
1 2 3 4 5 6 7 8 9 10
特徵數量
10 0.30 0.44 0.42 0.32 0.34 0.40 0.38 0.42 0.42 0.42
20 0.40 0.56 0.56 0.52 0.48 0.56 0.44 0.52 0.46 0.38
49
30 0.60 0.76 0.62 0.68 0.62 0.62 0.54 0.58 0.580 0.54
40 0.56 0.70 0.70 0.68 0.68 0.72 0.60 0.58 0.56 0.54
50 0.14 0.18 0.22 0.20 0.22 0.22 0.22 0.22 0.20 0.18
60 0.76 0.82 0.72 0.70 0.72 0.72 0.70 0.72 0.70 0.68
70 0.82 0.84 0.88 0.86 0.80 0.86 0.80 0.84 0.82 0.80
80 0.52 0.68 0.62 0.64 0.66 0.68 0.64 0.62 0.62 0.62
90 0.86 0.90 0.82 0.84 0.80 0.76 0.80 0.80 0.80 0.74
100 0.60 0.76 0.70 0.78 0.74 0.64 0.70 0.70 0.70 0.66
110 0.60 0.68 0.64 0.62 0.62 0.68 0.64 0.64 0.580 0.58
120 0.76 0.90 0.82 0.80 0.74 0.84 0.74 0.74 0.70 0.68
130 0.82 0.88 0.82 0.84 0.82 0.82 0.82 0.84 0.82 0.82
140 0.58 0.76 0.72 0.72 0.68 0.68 0.64 0.60 0.60 0.62
150 0.90 0.90 0.84 0.86 0.88 0.88 0.86 0.82 0.82 0.78
0.9
0.8
K= 1
0.7 K= 2
Recognition rate
0.6 K= 3
K= 4
0.5
K= 5
0.4
K= 6
0.3 K= 7
0.2 K= 8
0.1 K= 9
K = 10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
No. of selected eigenvectors
圖 4-10 大小：150x150，特徵數量 10~150，K：1~10 的辨識結果
表 4-11 大小：200x200，特徵數量 10~150，K：1~10 的辨識結果

NO. of K
Selected
1 2 3 4 5 6 7 8 9 10
eigenvectors
10 0.30 0.42 0.48 0.40 0.38 0.38 0.42 0.44 0.42 0.44
50
20 0.44 0.60 0.54 0.48 0.46 0.58 0.48 0.48 0.46 0.42
30 0.58 0.76 0.64 0.70 0.64 0.64 0.56 0.56 0.58 0.56
40 0.72 0.84 0.76 0.88 0.78 0.84 0.70 0.70 0.70 0.74
50 0.14 0.20 0.22 0.18 0.22 0.24 0.20 0.22 0.18 0.18
60 0.82 0.90 0.82 0.86 0.84 0.78 0.76 0.80 0.76 0.76
70 0.64 0.80 0.72 0.72 0.70 0.72 0.74 0.70 0.68 0.70
80 0.56 0.64 0.62 0.60 0.54 0.60 0.58 0.58 0.54 0.54
90 0.78 0.86 0.76 0.76 0.76 0.76 0.74 0.76 0.74 0.74
100 0.66 0.74 0.74 0.74 0.78 0.80 0.76 0.74 0.72 0.70
110 0.56 0.76 0.70 0.70 0.64 0.64 0.60 0.60 0.62 0.56
120 0.74 0.90 0.86 0.86 0.84 0.90 0.80 0.84 0.80 0.78
130 0.70 0.84 0.84 0.80 0.74 0.76 0.70 0.70 0.74 0.66
140 0.86 0.92 0.82 0.90 0.80 0.88 0.86 0.88 0.84 0.90
150 0.88 0.92 0.82 0.84 0.80 0.80 0.82 0.76 0.74 0.76
0.9
0.8
K= 1
0.7 K= 2
Recognition rate
0.6 K= 3
K= 4
0.5
K= 5
0.4
K= 6
0.3 K= 7
0.2 K= 8
0.1 K= 9
K = 10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
No. of selected eigenvectors
圖 4-11 大小：200x200，特徵數量 10~150，K：1~10 的辨識結果
由表 4.9 及圖 4.9 得知，人臉大小為 100x100，特徵數量為 110 且 K 為

2 及 3 時，辨識率皆為最佳 92%。由表 4.10 及圖 4.10 得知，人臉大小為
150x150，特徵數量為 90、120 及 150，K 為 2 時，辨識率為最佳 90%。而
由表 4.11 及圖 4.11 得知，人臉大小為 200x200，特徵數量為 140 及 150 且
K 為 2 時，辨識率為最佳 92%。由實驗結果得知，當特徵數量取越多時辨
51
識率並不會越高，而且辨識率也不會隨著 K 值的增加而變高。
二入侵偵測結果
由上一節內部資料庫辨識，以不同 K 值、不同 PCA 投影特徵數量及

不同正規化人臉大小的辨識結果中得知，不同的人臉大小其最佳辯識結果
所對應的Ｋ值及投影特徵數量不盡相同，但本文所提之五官特徵的辨識結
果優於其他兩種特徵的辨識結果。在入侵偵測部份，我們取用不同人臉大
小的最佳辨識結果所對應的 K 值與投影特徵數量，當作入侵偵測的Ｋ值及
特徵數量。實驗結果如表 4.12，表 4.13 及表 4.14。
五官特徵與橢圓樣板特徵之門檻值範圍由 0.4~0.5，幅狀網格映射門檻
值範圍為(16x16 與 24x24)0~1 與(32x32)1~2，由實驗結果得知當人臉大小
為 150x150，基於矩形的五官偵測法其最佳結果可達到 100%的 True
Positive Rate 與 False Negative Rate。雖然基於三角形的五官偵測法無法達
到較高的辨識結果，但其最佳結果為 92% True Positive Rate 及 94% False
Negative Rate，仍是可以接受的。由實驗節結果得知，最佳的人臉大小為
150x150。反觀，幅狀網格映射不管是哪種大小及門檻值均無法達到理想
的辨識效果。
表 4-12 人臉大小:100x100, radial grid:16x16 入侵偵測結果

五官特徵五官特徵橢圓樣版特徵幅狀網格映射
(三角形 ) (矩形) Ｋ=2,
門檻值Ｋ=3, Ｋ=2, 特徵=110 門檻值
特徵=150 特徵=140
TP FN TP FN TP FN TP FN
0.4 0.78 1 0.72 1 0.74 0.98 0 0.1 1
0.41 0.8 1 0.77 1 0.74 0.98 0.1 0.1 1
0.42 0.86 1 0.81 1 0.74 0.98 0.2 0.16 1
0.43 0.86 0.98 0.82 1 0.76 0.97 0.3 0.44 1
0.44 0.86 0.97 0.85 1 0.82 0.97 0.4 0.52 1
0.45 0.88 0.96 0.91 1 0.86 0.97 0.5 0.58 1
0.46 0.92 0.94 0.92 1 0.86 0.95 0.6 0.56 1
0.47 0.92 0.89 0.94 1 0.88 0.94 0.7 0.56 0.9
0.48 0.94 0.84 0.94 1 0.92 0.93 0.8 0.58 0.9
0.49 0.94 0.82 0.94 1 0.92 0.9 0.9 0.58 0.77
0.5 0.96 0.76 0.97 1 0.94 0.89 1 0.58 0.61
52
(三角形 ) (矩形) Ｋ=2,
特徵=130 特徵=140
0.4 0.9 0.88 1 1 0.92 0.97 0 0.1 1
0.41 0.92 0.84 1 1 0.92 0.95 0.1 0.1 1
0.42 0.92 0.79 1 1 0.96 0.95 0.2 0.1 1
0.43 0.94 0.78 1 1 0.96 0.94 0.3 0.1 1
0.44 0.94 0.72 1 0.99 0.98 0.92 0.4 0.12 1
0.45 0.96 0.61 1 0.99 1 0.88 0.5 0.16 1
0.46 0.98 0.54 1 0.98 1 0.84 0.6 0.26 0.97
0.47 0.98 0.45 1 0.97 1 0.78 0.7 0.26 0.89
0.48 0.98 0.42 1 0.96 1 0.74 0.8 0.26 0.77
0.49 0.98 0.36 1 0.94 1 0.66 0.9 0.32 0.57
0.5 0.98 0.27 1 0.91 1 0.6 1 0.38 0.38

(三角形 ) (矩形) Ｋ=2,
特徵=110 特徵=120
0.4 0.88 0.98 0.87 0.99 0.56 1 1 0.46 0.97
0.41 0.88 0.97 0.91 0.98 0.58 1 1.1 0.48 0.91
0.42 0.88 0.95 0.97 0.97 0.62 1 1.2 0.48 0.81
0.43 0.88 0.94 0.98 0.97 0.62 1 1.3 0.48 0.76
0.44 0.9 0.89 1 0.95 0.66 1 1.4 0.46 0.66
0.45 0.92 0.85 1 0.95 0.7 1 1.5 0.46 0.62
0.46 0.92 0.78 1 0.93 0.74 1 1.6 0.46 0.57
0.47 0.92 0.73 1 0.92 0.74 1 1.7 0.48 0.49
0.48 0.94 0.69 1 0.9 0.78 1 1.8 0.48 0.42
0.49 0.94 0.66 1 0.88 0.78 1 1.9 0.48 0.36
0.5 0.96 0.64 1 0.85 0.8 0.99 2 0.48 0.33
53
第三節 RBFNN 辨識結果
前一章節我們實驗了不同特徵在 KNN 的辨識結果，最後得知本文所

提之五官特徵的辨識結果可以達到理想的辨識率。因此本章節本文提出之
五官特徵及其他文獻中的幅狀網格映射特徵與基於橢圓樣本之特徵，以幅
狀基底函數類神經網路(RBFNN)為辨識器，分為內部資料辨識及入侵偵測
辨識。內部資料庫辨識中，我們先實驗不同 PCA 投影特徵數量與不同隱藏
層節點個數的辨識結果。σ值。得知最佳辨識結果所得之 PCA 投影特徵數
量及隱藏節點個數。其中當隱藏層節點個數為 145，所有辨識的結果皆為
最佳，因此本實取驗隱藏層節點個數為 145。以下為不同的特徵數量及
σ(0.1~2)值(spread)的辨識結果。
一內部資料庫之辨識結果
(一 ) 基於三角形之五官偵測法辨識結果
0.9 eigenvector=50
0.8
0.7
Recognition rate
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Spread
圖 4-12 大小=100x100，特徵數量=50 的辨識結果
54
1
eigenvector=90
0.9
0.8
0.7
Recognition rate
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Spread
1
eigenvector=50
0.9
0.8
0.7
Recognition rate
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Spread
由實驗結果得知，不同的 PCA 投影特徵數量與幅狀基底函數類神經網

路(RBFNN)的σ值(Spread)，會有不同的辨識結果。由圖 4.12 得知，當人臉
大小為 100x100 時，特徵數量為 50，且σ=0.4 時的辨識結果為最佳 96%。
由圖 4.13 得知，人臉大小為 150x150 時，特徵數量為 90，且σ=0.4 時的辨
識結果為最佳 94%。而由圖 4.14 得知，當人臉大小為 200x200 時，特徵數
量為 50，且σ=0.5 時的辨識結果為最佳 96%。且當σ值超過 0.6 之後，因為
發生 Over-fitting 的關係，三種不同人臉大小的辨識率都會降低。
55
(二 ) 基於矩形之五官偵測法辨識結果
1
0.9 eigenvectors = 50
0.8
0.7
Recognition rate
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Spread
圖 4-15 大小: 100x100，特徵數量=50 的辨識結果
1
eigenvectors = 60
0.9
0.8
0.7
Recognition rate
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Spread
56
1
eigenvectors = 30
0.9
0.8
0.7
Recognition rate
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Spread
由圖 4.15 得值，當人臉大小為 100x100 時，特徵數量為 50，且σ=0.4

時的辨識結果為最佳 100%。由圖 4.16 得知，人臉大小為 150x150 時，特
徵數量為 60，且σ=0.4 時的辨識結果為最佳 98%。而由圖 4.17 得知，當人
臉大小為 200x200 時，特徵數量為 30，且σ=0.5 時的辨識結果為最佳 100%。
且當σ值超過 0.5 之後，因為發生 Over-fitting 的關係，辨識率都會下降。
(三 ) 幅狀網格映射法之辨識結果
0.9
0.8
0.7
Recognition rate(%)
0.6
0.5
0.4
16x16,Nodes=50
0.3
0.2 24x24,Nodes=30
0.1 32x32,Nodes=20
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Spread
圖 4.18 不同幅狀網格映射大小及隱藏層節點個數的辨識結果
57
由圖 4.18 可看出，幅狀網格映射特徵大小為 16x16，隱藏層節點個數
為 50 及σ=1.3，得到最佳辨識率 84%；大小 24x24，節點個數為 30 及σ=1.3
與大小 32x32，節點個數為 20 及σ=1.3 的辨識率均為 86%。因此由實驗結
果得知，無論哪一種大小的辨識結果，都無法達到 90%以上的辨識率。
(四 ) 橢圓樣板取樣法辨識結果
1
eigenvector=70
0.9
0.8
0.7
Recognition rate(%)
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Spread
圖 4-19 大小 100x100，特徵數量=70 的辨識結果
1
eigenvector=40
0.9
0.8
0.7
Recognition rate(%)
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Spread
58
1
eigenvector=40
0.9
0.8
0.7
Recognition rate(%)
0.6
0.5
0.4
0.3
0.2
0.1
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Spread
由圖 4.19 及圖 4.21 得知，當大小為 100x10，σ=0.6 與 200x200，σ=0.3

時，橢圓樣板特徵的辨識率都為 96%。而由圖 4.20 得知，大小為 150x150，
σ=0.3 時，辨識率為 94%。且當σ值超過 0.3，大小為 100x100 則是超過 0.6
時，因為發生 Over-fitting，所以辨識率會開始下降。
二入侵偵測結果
門檻值設定，需針對不同使用情況，門檻值會不一樣。假如，希望系
統的安全性高(嚴格)，門檻值可以調高。相反的，如果門檻值越低相對安
全性就越低。因此，門檻值並不會固定，需視不同用途來做調整。此時，
辨識效能可由四種狀態來評估： TP(True Positive) 、 TN(True Negative)、
FP(False Positive)、FN(False Negative)。 TP 表示為如果使用者是資料庫內
的人，且正確辨識出來。TN 表示為如果使用者是資料庫內的人，但辨識
為非資料庫內的人。FP 表示為如果使用者是非資料庫內的人，卻辨識為資
料庫內的人。FN 表示為如果使用者是非資料庫內的人，且正確辨識為非
資料庫內的人。因此，如果門檻值越低，TP 會越高，相對的 FN 會越低；
如果門檻值越高，TP 會越低，FN 則會越高。所以 TP 與 FN 會是 Trade-off
的情況。
本實驗針對不同人臉大小(100x100, 150x150, 200x200)及幅狀網格映射
(Radial Grid mapping)取樣大小(16x16, 24x24, 32x32)，調整門檻值(0.1~0.9)。
隱藏層節點個數為 145，σ值與特徵數量皆為內部資料庫所得之最佳辯識結
果所對應的σ值與特徵數量。實驗結果如表 4-15、4-16、4-17 所示：
59
表 4-15
人臉大小 100x100，幅狀網格映射大小 16x16
五官特徵五官特徵幅狀網格橢圓樣板
門檻值 (三角形) (矩形) 映射特徵
0.1 1 0 1 0 1 0 1 0
0.2 1 0.05 1 0.1 1 0 1 0
0.3 0.94 0.72 0.98 0.76 0.98 0 1 0.08
0.4 0.84 0.98 0.92 0.93 0.94 0.18 1 0.38
0.5 0.72 1 0.78 0.97 0.78 0.34 0.98 0.68
0.6 0.58 1 0.61 0.99 0.64 0.51 0.94 0.92
0.7 0.38 1 0.37 1 0.46 0.59 0.78 0.98
0.8 0.16 1 0.1 1 0.3 0.66 0.68 1
0.9 0.06 1 0.04 1 0.16 0.84 0.5 1
表 4-16
0.1 1 0 1 0 1 0 1 0
0.2 1 0.02 0.98 0.76 1 0 1 0.32
0.3 0.9 0.86 0.97 0.99 0.98 0 0.96 0.88
0.4 0.8 0.97 0.94 1 0.94 0.05 0.84 0.96
0.5 0.66 1 0.87 1 0.9 0.26 0.78 0.98
0.6 0.5 1 0.71 1 0.78 0.5 0.7 1
0.7 0.36 1 0.52 1 0.58 0.65 0.58 1
0.8 0.16 1 0.4 1 0.44 0.73 0.38 1
0.9 0.04 1 0.17 1 0.28 0.88 0.1 1
表 4-17
0.1 1 0 1 0 1 0 1 0
0.2 0.98 0.33 1 0.03 1 0 1 0.32
0.3 0.94 0.64 1 0.57 0.98 0 1 0.98
0.4 0.82 0.92 0.98 0.84 0.94 0.18 0.94 0.99
0.5 0.72 0.97 0.91 0.95 0.78 0.34 0.82 1
60
0.6 0.62 1 0.78 0.99 0.64 0.51 0.76 1
0.7 0.34 1 0.61 0.99 0.46 0.59 0.7 1
0.8 0.16 1 0.34 0.1 0.3 0.66 0.46 1
0.9 0.04 1 0.1 1 0.16 0.84 0.18 1
由實驗結果得知，本文所提之五官特徵的可以用較小的特徵數量達到
理想的辨識效能。而且基於矩形之五官偵測法所得之最佳辯識結果可達到
97% True Positive Rate 及 99% False Negative Rate，優於橢圓樣板特徵最佳
辯識結果為 94% True Positive Rate 及 99% False Negative Rate。雖然基於三
角形之五官偵測法與橢圓樣板特徵相比，辨識結果明顯較低，但仍然是可
接受的。且由前面所有的實驗結果均可看出，本文所提之五官特徵可以較
少量的特徵來達到理想的辨識率結果。
61
第伍章結論與未來展望
第一節結論
由於科技的進步，加上人們追求便利，現在有越來越多、各式各樣的
安全驗證系統，這些系統讓使用者不需要親自去到現場，也不需要帶一大
堆的卡片，或是記住一大堆的密碼，而是透過人的眼睛、指紋和聲音等方
式，對使用者做身份的驗證，而其中因為人臉辨識系統不會影響到人們正
常的活動，由於這個優點，所以目前已有相當多的研究與應用陸續發表。
在人臉辨識的方法上，大部分都需要採取一連串的前處理動作，如影像的
正規化和降低維度等，然而過多的前處理，將會造成影像嚴重的失真，導
致所擷取的特徵無法適當的表達該影像的資訊，更會因為運算量的增加，
而使得運算時間過於冗長。在本實驗中，著重在人臉的辨識率上面，希望
以少量的特徵來達到具有理想辨識率的即時辨識系統。在此次實驗中，所
使用的照片皆為非確定是人臉照片，因此本實驗是基於OpenCV所提供之
人臉偵測方法取得人臉區域，結合膚色擷取五官與利用五官偵測分類器擷
取五官特徵。並且，使用主成份分析(PCA)降低資料維度，接著使用線性
鑑別分析(LDA)增加不同特徵向量的鑑別性。最後以K個最近鄰居(KNN)
分類法及幅狀基底函數類神經網路(RBFNN)測詴結果。就實驗結果看來，
本文所提之五官特徵，可以少量人臉特徵，來達到理想的辨識能力。
第二節未來展望
人臉辨識研究和應用，其最主要的兩個目標就是達到高辨識率和低辨
識時間，由於輸入影像皆非確定為人臉，因此需先經過人臉偵測的部分，
加上本實驗使用的為彩色人臉影像，因此需要考慮光源強弱和顏色不同等
因素所造成的影響，因此在人臉辨識系統上，辨識率不比基於灰階影像辨
識率，且如果訓練的影像的光源及顏色不夠理想，辨識率就會跟著下降，
因此無法應用於廣泛的環境中，加上整合膚色的特徵抓取和辨識方法，因
此辨識速度並不算快，這些都是可以改善的地方。除了上面這些可以改
善的地方外，我們也可以將研究的範圍再擴大，若遇到訓練資料庫裡的人
變換造型，需要去考慮遮罩物的問題，這些都是目前人臉辨識的困難之處，
所以在人臉辨識的研究上，還有很長的路要走。
62
參考文獻
[1] Ming-Hsuang Yang, David J. Kriegman, narendra Ahuja, "Detecting
Faces in Images: A Survey", IEEE Transactions on Pattern Analysis and
Machine Intelligence, vol. 24, 2002, pp. 34-58.
[2] Andrea F, Abate, Michele Nappi, Daniel Riccio, Gabrele Sabatino, "2D
and 3D face recognition: A survey", ScienceDirect Pattern Recognition
Letters , vol. 28, 2007 pp. 1885-1906
[3] Paul Viola, Michael Jones, "Robust Real-time Object Detection",
Second International Workshop on Statistical and Computational
Theories of Vision - Modeling, Learning, Computing, and Sampling,
2001.
[4] Lian Hock Koh, Surendra Ranganath, Y.V. Venkatesh, "An integrated
automatic face detection and recognition system", ScienceDirect Pattern
Recognition, vo. 35, 2002, pp. 1259-1273.
[5] H. Araujo, J.Dias, "An introduction to the log -polar mapping",
Proceedings of the Workshop on Cybernetic Vision 1996, 1997, pp.
139-144.
[6] Lin-Lin Huang, Akinobu Shimizu, Yoshihiro Hagihara, Hidefumi
Kobatake, "Face detection from cluttered images using a polynomial
neural network", Neurocomputting vol. 51, 2003, pp. 197-211.
[7] Lin-Lin Huang, Akinobu Shimizu, Yoshihiro Hagihara, Hidefumi
Kobatake, "Gradient feature extraction for classification-based face
detection", Pattern Recognition vol. 36, issue 11, 2003, pp. 2501-2511.
[8] Lin-Lin Huang, Akinobu Shimizu, Hidefumi Kobatake, "Robust face
detection using Gabor filter features", Pattern Recognition Letters, vol.
26, issue 11, 2005, pp. 1641-1649.
[9] Lin-Lin Huang, Akinobu Shimizu, " A multi-expert approach for robust
face detection", Pattern Recognition, vol. 39, 2006, 1695-1703.
[10] Tiping Zhang, Yuan Yan Tang, Bin Fang, Zhaowei Shang, Xiaoyu Liu,
"Face Recognition Under Varying Illumination Using Gradientfaces",
IEEE Transactions on Image Precessing, vol. 18, 2009, pp. 2599-2606.
[11] Zhiming Liu, Chengjun Liu, "Fusion of the complementary Discrete
Cosine Features in the YIQ color space for face recognition", Computer
Vision and Image Understanding, vol. 111, 2008, pp. 249-263.
[12] Chiunhsiun Lin, "Face detection in complicated backgro unds and
different illumination conditions by using YCbCr color space and
neural network", Pattern Recognition Letters, vol. 28, 2007, pp.
63
2190-2200.
[13] 劉倫偉、陳繼堂，「結合膚色區域分割與主要成分分析於多人臉部辨
識」, 國立台灣海洋大學，機械與機電工程學系碩士論文，2006 年.
[14] 蘇木春、楊煒達，「簡易方法之少量人臉辨識系統」，國立中央大學，
資訊工程研究所碩士論文，2007 年.
[15] G. Yang and T. S. Huang, "Human Face Detection in Complex
Background, "Pattern Recognition, vol. 27, no. 1, pp. 53-63, 1994.
[16] K.C. Yow and R. Cipolla, "Feature-Based Human Face Detection,"
Image and Vision Computing, vol. 15, no. 9, pp. 713-735, 1997.
[17] T.K. Leung, M.C. Burl, and P. Perona, "Finding Faces in Cluttered
Scenes Using Random Labeled Graph Matching, "Proc. Fifth IEEE Int’l
Conf. Computer Vision, pp. 637-644, 1995.
[18] Y. Dai and Y. Nakano, "Face-Texture Model Based on SGLD and Its
Application in Face Detection in a Color Scene, "Pattern Recognition,
vol. 29, no. 6, pp. 1007-1017, 1996.
[19] S. McKenna, S. Gong, and Y. Raja, "Modeling Facial Color and
Identity with Gaussian Mixtures, "Pattern Recognition, vol. 31, no. 12,
pp. 1883-1892, 1998.
[20] J. Yang and A. Waibel, "A Real-Time Face Tracker," Proc. Third
Workshop Applications of Computer Vision , pp. 142-147, 1996.
[21] R. Kjeldsen and J. Kender, "Finding Skin in Color Images, "Proc.
Second Int’l Conf. Automatic Face and Gesture Recognition , pp.
312-317, 1996.
[22] I. Craw, D. Tock, and A. Bennett, "Finding Face Features," Proc.
Second European Conf. Computer Vision, pp. 92-96, 1992.
[23] A. Lanitis, C.J. Taylor, and T. F. Cootes, "An Automatic Face
Identification System Using Flexible Appearance Models, " Image and
Vision Computing, vol. 13, no. 5, pp. 393-401, 1995.
[24] M. Turk and A. Pentland, "Eigenfaces for Recognition, " J. Cognitive
Neuroscience, vol. 3, no. 1, pp. 71-86, 1991.
[25] K.-K. Sung and T. Poggio, "Example-Based Learning for View-Based
Human Face Detection, " IEEE Trans. Pattern Analysis and Machine
Intelligence, vol. 20, no. 1, pp. 39-51, Jan. 1998.
[26] H. Rowley, S. Baluja, and T. Kanade, "Neural Network-Based Face
Detection," IEEE Trans. Pattern Analysis and Machine Intelligence,
vol. 20, no. 1, pp. 23-38, Jan. 1998.
[27] E. Osuna, R. Freund, and F. Girosi, "Training Support Vector
Machines: An Application to Face Detection, " Proc. IEEE Conf.
64
Computer Vision and Pattern Recognition , pp. 130-136, 1997.
[28] H. Schneiderman and T. Kanade, "Probabilistic Modeling of Local
Appearance and Spatial Relationships for Object Recognition, " Proc.
IEEE Conf. Computer Vision and Pattern Recognition, pp. 45-51, 1998.
[29] A. Rajagopalan, K. Kumar, J. Karlekar, R. Manivasakan, M. Patil, U.
Desai, P. Poonacha, and S. Chaudhuri, "Finding Faces in Photographs,"
Proc. Sixth IEEE Int’l Conf. Computer Vision, pp. 640-645, 1998.
[30] M.S. Lew, "Information Theoretic View-Based and Modular Face
Detection, " Proc. Second Int’l Conf. Automatic Face and Gesture
Recognition, pp. 198-203, 1996.
[31] A. J . Co l m e nar e z and T. S. H u a ng, "Fac e D e t e ct io n wi t h
Information-Based Maximum Discrimination," Proc. IEEE Conf.
Computer Vision and Pattern Recognition, pp. 782-787, 1997.
[32] Chiunhsiun Lin, "Face detection in complicated backgrounds and
different illumination conditions by using YCbCr color space and neural
network," Pattern Recognition Letters, vol. 28, issue 16, pp. 2190-2200,
2007.
[33] Ke un- Chang K wak, "Face Recognitio n Usi ng an Enhance d
Independent Component Analysis Approach," IEEE Transactions on
neural networks, vol. 18, NO. 2, pp. 530-541,2007.
[34] Jianmin Lu, Xue Yuan, and Takashi Yahagi, "A Method of Face
Recognition Based on Fuzzy c-Means Clustering and Associated
Sub-NNs," IEEE Transactions on neural networks, vol. 18, NO. 1,
pp. 150-160, 2007.
[35] K. W. Wong, K. M. Lam, and W. C. Siu, "An efficient algorithm for
face detection and facial feature extraction under different conditions, "
Pattern Recognition, vol. 34, no. 10, pp. 1993–2004, 2001.
[36] Guo-Yun Zhang, Shi-Yu Peng and Hong-Min Li, "Combination of Dual
-Tree Complex Wavelet and SVM for Face Recognition," Proceedings
of the Seventh International Conference on Machine Learning and
Cybernetics, pp. 1-5, 2008.
[37] Am non Shashua, Tam my Ri klin-Ravi v, "The Q uotient Im age:
Class-Based Rendering and Recognition with Varying Illuminations, "
IEEE Transactions on pattern analysis and machine intelligence ,
vol. 23, NO. 2, pp. 129-139, 2001.
[38] Wang, Y., Chua, C., & Ho. Y. "Facial feature detection and face
recognition from 3D and 3D images ". Pattern Recognition Letters, vol.
23, pp. 1191–1202, 2002
65
[39] http://www.opencv.org.cn/index.php/%E9%A6%96%E9% A1%B5
[40] A.M. Martinez and R. Benavente, "The AR face database," CVC Tech.
Report #24, 1998.
[41] S.L. Phung and D. Chai, "Skin Segmentation Using Color Pixel
Classification: Analysis and Comparison, " IEEE Transactions on
pattern analysis and machine intelligence, vol. 27, pp. 148-154,2005.
[42] Chengjun Liu, Harry Wechsler, "Gabor Feature Based Classification
Using the Enhanced Fisher Liner Discriminant Model for Face
Recognition", IEEE transactions on image processing, vol. 11, pp.
467-476, 2002.
[43] http://www.chinaelectric.com.tw/word.htm
66

99銘傳-以OpenCV 實現即時之人臉偵測與辨識系統

Încărcat de

Informații document

Descriere originală:

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

99銘傳-以OpenCV 實現即時之人臉偵測與辨識系統

Încărcat de

Drepturi de autor:

Formate disponibile

電腦與通訊工程學系

Zhang[36] 提 出 基 於 雙 樹 複 小 波 轉 換 (dual-tree complex wavelet

圖2-2 1-D 雙樹複小波轉換架構圖[36]

Viola[3]等 人 在 2001， 針對 人臉 偵測 提出 一種機 器學 系方 法 (Machine

其 中 s x, y = y 1≤y i(x, y1 ) 是 原 影 像 (x,y)點 的 列 累 積 和 (Cumulative Row

其中𝒑𝒋為±1，𝜽𝒋 為一個閥值， x為一個影像中24x24像素的子區塊，對

Y 16 1 657.38 129.057 25.064 R

圖 2-12 唇色二次曲線在 M. Soriano [13]膚色分佈範圍的位置

依據圖 2.12 對唇色曲線分佈，定義判斷式為(2.8)與(2.9)式。

𝑄 𝑟 = −0.776𝑟2 + 0.5601𝑟 + 0.18 2.8

其中 𝑥𝑐 , 𝑦𝑐 為同心圓圓心，(𝑥𝑖 , 𝑦𝑖 )為取樣點圓心，𝑁𝑟 等於同心圓個數，𝑁𝜃

二 主成份分析 (Principle Component Analysis - PCA)

以全域散佈矩陣(total scatter matrix）表示所有特徵參數相對於其平均向量

𝑷𝑜𝑝𝑡 = 𝑎𝑟𝑔 𝑚𝑎𝑥 𝑷𝑻 𝑺𝑡𝑧 𝑷 (2.15)

於(2.15)式中，為使𝑡𝑟 𝑷𝑻 𝑺𝑡𝑧 𝑷 之值有所限制，不至於變成無限大。若令P 為

解(2.18)式之結果，可得P 恰為𝑺𝑡𝑧 之特徵向量(eigenvector）所組成之

𝒄∅𝒊 = 𝝀∅𝒊 (2.22)

三 線性鑑別分析 (Linear Discriminate Analysis - LDA)

由上一節利用 PCA 將特徵資料降低維度後，需再以 LDA[3]來增加特

𝑛 𝑖是第i 類的資料個數。𝑫𝒊 是第i 類資料的集合。𝒀𝒊 是投影後第i 類資料

首先，定義散射矩陣(scatter matrics) 𝑺𝒊 ，用來描述投影前的各類資料

式(2.29)的分母每個項 可以寫成𝑺𝒊 跟w個組合，如式(2.31)：

最後分母可以寫成式(2.32)，𝑺𝒘 是𝑺𝟏 + 𝑺𝟐。

要求一個w 使J(w)最大，可以用Lagrange multiplier。式(2.34)可以看出，

但是式(2.37)的𝑺𝑩 𝒘方向是(𝑚1 − 𝑚2 )，所以其實w就是式(2.38)的解，不需

輸入：待分類的 n 筆未知類別資料{𝑰𝟏 , 𝑰𝟐 , ⋯ , 𝑰𝒏 }。m 個已知類別的資料

不同的 K 值及門檻對於分類結果也會影響。K 值不是越大越好，至於理想

當E值最小，由∂E ∂wj = 0得式(2.48)及式(2.49)

以 KNN 或 RBFNN 分類器 以 KNN 或 RBFNN 分類器

本論文的五官偵測方法是基於 OpenCV 人臉偵測的結果，結合膚色資

圖 3-5 扇形與圖 3.4 做 OR 運算及反向運算結果

1, 𝑖𝑓 𝑔 ≤ 𝑄 𝑟 𝑎𝑛𝑑 𝑤 > 0.001 𝑎𝑛𝑑((𝑅 − 𝐺) ≥ 20)

利 用上 述的 判斷 式對圖 3.6(a)人臉 區域 中的 嘴唇 區塊 做唇 色偵 測 ,如圖

在這裡我們利用 OpenCV 提供的五官分類器，來對人臉區域做五官偵

𝑋𝑛𝑜𝑠𝑒 𝑐𝑒𝑛𝑡𝑒𝑟 = 𝑋𝑚𝑜𝑢𝑡 𝑕 + 𝑊𝑖𝑑𝑡𝑕 𝑚𝑜𝑢𝑡 𝑕 × 0.5 (3.2)

在這裡我們利用 3.1.2 節介紹基於矩形之五官偵測，定位出鼻子區域後，

圖 4-1 (a)理想的環境光線 (b) 會造成膚色

第二節 KNN 辨識結果

表 4-2 大小：100x100，特徵數量 10~150，K：1~10 的辨識結果

No. of Selected eigenvectors

圖 4-2 大小：100x100，特徵數量：10~150 與 K：1~10 的辨識結果

表 4-3 大小：150x150，特徵數量 10~150，K：1~10 的辨識結果

No. of Selected eigenvectors

圖 4-3 大小：150x150，特徵數量：10~150 與 K：1~10 的辨識結果

表 4-4 大小：200x200，特徵數量 10~150，K：1~10 的辨識結果

圖 4-4 大小：100x100，特徵數量：10~150 與 K：1~10 的辨識結果

由表 4.2 及圖 4.2 得知，人臉大小為 100x100，特徵數量為 150 且 K 等

表 4-5 大小：100x100，特徵數量 10~150，K：1~10 的辨識結果

No. of Selected eigenvectors

圖 4-5 大小：100x100，特徵數量 10~150，K：1~10 的辨識結果

表 4-6 大小：150x150，特徵數量 10~150，K：1~10 的辨識結果

No. of Selected eigenvectors

圖 4-6 大小：150x150，特徵數量 10~150，K：1~10 的辨識結果

表 4-7 大小：200x200，特徵數量 10~150，K：1~10 的辨識結果

No. of Selected eigenvectors

圖 4-7 大小：200x200，特徵數量 10~150，K：1~10 的辨識結果

由表 4.5 及圖 4.5 得知，人臉大小為 100x100，特徵數量為 120 且 K 為

表 4-8 不同取樣大小與 K 值的辨識結果

圖 4-8 不同取樣大小與 K 值的辨識結果

由表 4.8 及圖 4.8 得知，當 K 值等於 2 時，三種取樣大小 16x16、24x24、

表 4-9 大小：100x100，特徵數量 10~150，K：1~10 的辨識結果

No.of selected eigenvectors

圖 4-9 大小：100x100，特徵數量 10~150，K：1~10 的辨識結果

Zhang[36] 提出基於雙樹複小波轉換 (dual-tree complex wavelet

Viola[3]等人在 2001，針對人臉偵測提出一種機器學系方法 (Machine

其中 s x, y = y 1≤y i(x, y1 ) 是原影像 (x,y)點的列累積和 (Cumulative Row

二主成份分析 (Principle Component Analysis - PCA)

三線性鑑別分析 (Linear Discriminate Analysis - LDA)

式(2.29)的分母每個項可以寫成𝑺𝒊 跟w個組合，如式(2.31)：

以 KNN 或 RBFNN 分類器以 KNN 或 RBFNN 分類器

利用上述的判斷式對圖 3.6(a)人臉區域中的嘴唇區塊做唇色偵測 ,如圖