人臉識別技術發(fā)展與展望(雜志)
來源:數(shù)字音視工程網(wǎng) 編輯:數(shù)字音視工程 2016-04-21 10:03:34 加入收藏
前言
2015年以來,人臉識別相關新聞頻頻進入人們的視野,國內(nèi)外的人臉識別算法團隊不斷刷新著各種記錄,相關的產(chǎn)品與應用也層出不窮,使得人臉識別成為近期最受關注的生物特征識別技術。
人臉識別作為一種生物特征識別技術,早期主要應用于公共安全領域,隨著近年來人臉考勤、人臉通過等應用的普及,普通人逐漸接觸到以前在科幻片中才能看到的技術。尤其是近兩年,隨著技術的進步,人臉識別在各個領域取得越來越多的應用:馬云在德國演示了刷臉支付、微軟的How-Old.net測年齡刷爆朋友圈、銀行券商逐漸采用人臉識別技術輔助開戶。本文旨在回顧人臉識別技術的發(fā)展歷程,同時結(jié)合個人的觀察與總結(jié),展望人臉識別的未來趨勢。
人臉識別技術簡介
完整的人臉識別系統(tǒng)一般包括人臉檢測、人臉配準、人臉匹配、人臉屬性分析等模塊。
人臉檢測:從圖片中獲得人臉的位置,目前常用的是AdaBoost級聯(lián)分類器。
人臉配準:在人臉圖像中獲得關鍵特征點(比如眼睛、鼻子、嘴巴)的位置,通常采用回歸的方法。
人臉匹配。人們常說的“人臉識別”通常指的是人臉匹配,包括兩種模式:鑒別(identification)與認證(verification)。人臉鑒別給出測試人員的身份,即解決”你是誰”的問題,比如公安追逃系統(tǒng);人臉認證用于判斷測試人員與其聲稱的身份是否一致,即驗證“你是你”的問題,比如刷臉支付。目前主流的方法有兩種,一是通過人工設計特征+子空間投影實現(xiàn),二是采用深度學習算法。
人臉屬性分析。根據(jù)人臉分析出各種屬性,比如年齡,性別,表情,種族,發(fā)型,是否戴眼鏡,胡子的類型。通常采用一般的分類或者回歸技術。
人臉識別技術進展
自動人臉識別系統(tǒng)的研究始于20世紀中期,早期的人臉識別探索主要依靠一些手工標定的幾何特征(比如眼鏡、嘴巴等器官的位置、距離)進行分類,實用的成果較少。
1991年發(fā)表的EigenFaces是一種重要的方法,該方法通過主成分分析(PCA)將圖像投影到一個低維的“特征空間”,使得信息損失最少,在該“特征空間”上進行人臉分類。該方法不僅對數(shù)據(jù)進行了壓縮,而且識別效果比直接使用圖像像素也要好。EigenFaces將統(tǒng)計學習引入到人臉識別領域,直接影響了后續(xù)的一大類主流識別算法,即子空間方法,該類方法通過各種各樣準則來尋找“特征空間”,使得在“特征空間”上分類準確率更高,比如FisherFaces。與EigenFaces不同的是,在訓練階段FisherFaces引入了監(jiān)督信息,投影的不標不再是“信息損失最少”,而是“同類分布越緊,不同類分布越散”,即更容易分類,在有足夠帶標簽樣本的情況下,該方法可以獲得更好的識別效果。1990年代,美國國防部反毒品技術發(fā)展計劃辦公室資助了FERET(Face Recognition Technology Test)項目,構(gòu)建了數(shù)據(jù)庫對自動人臉識別算法進行對比,在1996年最后一次FERET測試中,子空間方法取得了領先的測試結(jié)果。時至今日,子空間方法仍然發(fā)揮著非常重要的作用,不僅直接應用于許多人臉識別系統(tǒng),而且許多人臉識別的新方向比如流形學習、稀疏表示、度量學習,都或多或少的受到子空間方法的影響。
盡管子空間方法在FERET的一些簡單測試集合上取得了不錯的效果,但是當測試集呈現(xiàn)出光照、姿態(tài)等變化時,子空間人臉識別算法的性能急劇下降,因此在進入21世紀后,人臉識別研究者們將更多的精力放在提高算法的魯棒性上面。子空間方法在非理想測試條件下性能下降的一個重要原因就是,原始的圖像像素包含了諸多不利于識別的信息,比如光照。研究人員主要有兩種思路來應對這些不利因素:一是進行專門的校正(去光照以降低光照的影響;3D校正以降低姿態(tài)的影響),二是尋找更加魯棒的特征。魯棒的特征是目前很多識別算法的基礎,其中比較常用的有Gabor特征、LBP特征。在21世紀的前10年里,研究人員結(jié)合魯棒特征與子空間算法提出各種各樣的改進,使得人臉識別算法的性能得到不斷的提升,見圖1。人臉識別逐漸在一些場景中得以實用,比如人臉考勤機、自助通關。
圖1 NIST人臉測試歷程
盡管在一些測試集合上,魯棒特征+子空間的方法已經(jīng)取得了非常高的準確率,但是在實際場景中,人臉識別性能仍然難以滿足要求?,F(xiàn)實環(huán)境下光照、姿態(tài)、清晰度等遠遠比實驗室采集的測試圖片復雜的多。2007年LFW數(shù)據(jù)集被建立,該數(shù)據(jù)集旨在評價非約束場景下的人臉識別性能。由于該數(shù)據(jù)集包含復雜的姿態(tài)、表情、遮擋等變化,而且又沒有充足的訓練樣本,很多算法并不能取得很高的準確率,在2010左右最好的算法也只有85%左右的準確率。研究者們發(fā)現(xiàn),要想取得好的效果,準確的特征點定位、適當?shù)膶W習算法以及大量的訓練樣本起到至關重要的作用。于是從2010年開始,準確地特征點定位、高層特征表示與度量學習、收集更多的訓練樣本成為人臉識別研發(fā)的方向。一個代表性的算法就是微軟的HDLBP算法,該方法基于準確定位的特征點提取高維的人臉特征,以稀疏投影的方式進行降維,最后通過一種度量學習算法來計算相似度,在LFW上取得了93%以上的準確率,此外,通過在大量的外部數(shù)據(jù)集上進行訓練,準確率可進一步提高到95%以上。2012年以后,隨著深度學習的復興,研究人員自然而然的想到通過深度學習來解決人臉識別問題。在剛開始的一些嘗試中,深度學習在人臉識別中并沒有取得非常領先的結(jié)果,在2013年的CVPR上仍然落后于傳統(tǒng)方法。之后研究人員針對人臉識別的特點進行了一系列的改進,而且通過互聯(lián)網(wǎng)收集到更多的訓練樣本,終于使得深度學習在人臉識別領域取得了不錯的結(jié)果。在2014年的CVPR上,F(xiàn)acebook、CUHK、Face++等通過深度學習在LFW上取得了97%以上的準確率,尤其是CUHK的湯曉鷗實驗室對其DeepID系列算法不斷改進,其DeepID2算法取得了99%以上的準確率,第一次使得算法的性能在LFW數(shù)據(jù)集上超過了人類。
據(jù)筆者統(tǒng)計,截止目前已經(jīng)有至少10個人臉識別團隊宣稱自己的算法識別準確率(在LFW數(shù)據(jù)集上)超過99%,其中有百度、Google、騰訊這樣的互聯(lián)網(wǎng)巨頭,有Face++、Linkface等初創(chuàng)公司,也有香港中文大學、中科院、新加坡國立大學這樣的科研院所。這些團隊的結(jié)果都得益于深度學習算法。毫無疑問,深度學習成為目前人臉識別領域最主流的研究方向。
人臉識別技術展望
毫無疑問,深度學習成為目前人臉識別領域最主流的研究方向,但是傳統(tǒng)方法仍然可以取得不錯的效果。在大華股份內(nèi)部,傳統(tǒng)非深度方法與深度學習都起到重要的作用。深度學習算法學習能力更強,在具備足夠多的訓練樣本的情況下,往往可以取得更高的準確率,但是目前的深度學習算法計算量一般都比較大,往往依賴于GPU等并行計算資源。非深度方法不僅速度快,而且在安防監(jiān)控等復雜環(huán)境下更加穩(wěn)定,比如在一個中國人日常生活照數(shù)據(jù)集上,大華的非深度學習算法可以超過某深度學習算法(該算法在LFW上準確率超過99%)。深度學習在未來一段時間內(nèi)必將持續(xù)成為研究重點。同時傳統(tǒng)方法也不容忽視,尤其是在一些實用場景速度要求高、環(huán)境復雜而訓練數(shù)據(jù)又不充足的情況下。算法改進、數(shù)據(jù)資源、計算資源將成為核心競爭力,尤其是數(shù)據(jù)資源,成為深度學習性能的關鍵因素。一定程度上可以說誰掌握了數(shù)據(jù)入口(尤其是特定領域的結(jié)構(gòu)化數(shù)據(jù)),誰就有機會做出真正的”終極應用”,例如大華股份專注于安防領域的人臉識別,針對安防監(jiān)控采集、收集了大量結(jié)構(gòu)化數(shù)據(jù)用于算法改進,取得了較好的效果。
數(shù)據(jù)成為提升人臉識別算法性能的關鍵因素,很多應用更加關注低誤報條件下的識別性能,比如支人臉支付需要控制錯誤接受率在0.00001之內(nèi),因此以后的算法改進也將著重于提升低誤報下的識別率。對于安防監(jiān)控而言,可能需要控制在0.00000001之內(nèi)(比如幾十萬人的注冊庫),目前學術界還沒有相關的數(shù)據(jù)庫可以測試如此低誤報下的識別性能,大華股份在內(nèi)部已經(jīng)建立了千萬級別的數(shù)據(jù)庫用于算法測試與改進。
人臉識別的應用展望與思考
隨著技術的日益進步,人臉識別必將更多的走進每個人的日常生活,比如越來越多的銀行與券商借助人臉識別進行身份核實,大大提高了工作效率;基于人臉識別的社保領取,方便了大批行動不便的老人;證件照查重、嫌疑犯檢索協(xié)助公安機關破案。然而必須認識到的是,目前的人臉識別技術遠遠沒有達到足以應用到任意場景的程度,尤其是對安全性要求、識別率要求很高的場景下。過度宣傳“識別率達到99%” “識別率超過人類”之類的內(nèi)容并不利于人臉識別的長遠發(fā)展。首先,LFW只是一個很小的學術數(shù)據(jù)集,在上面達到99%以上的準確率并不代表在實用中可以達到很高的準確率,在更權(quán)威的數(shù)據(jù)集FRVT上,很多算法并沒有經(jīng)過測試,難以評價真正的性能。其次,人臉識別的很多問題還沒有得到真正解決,比如刷臉支付下的活體驗證,現(xiàn)有的驗證機制很可能被視頻合成、3D頭套等破解,存在巨大風險。
總之,人臉識別歷經(jīng)數(shù)十年的發(fā)展,已經(jīng)取得了巨大的進步,應用前景廣闊,但同時也面臨著巨大的挑戰(zhàn)。通過學術界、工業(yè)界同仁持續(xù)的腳踏實地的努力,人臉識別必將取得更多的進展。
評論comment