人臉識別新進展:利用算法解決圖像3D建模問題
來源:數(shù)字音視工程網(wǎng) 編輯:航行150 2016-12-29 09:59:18 加入收藏 咨詢

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯(lián)系方式: | |
咨詢內(nèi)容: | |
驗證碼: |
|
在計算機視覺領(lǐng)域,人臉識別一直以來都是學(xué)術(shù)界和工業(yè)界的雙重寵兒。學(xué)術(shù)上的熱門和工業(yè)市場的迫切需求,使得圍繞該方向的核心技術(shù)自深度學(xué)習(xí)爆發(fā)以來,得到了更為迅猛的發(fā)展。
得益于深度學(xué)習(xí),當(dāng)前計算機對人臉屬性的分析判斷在某些(姿態(tài)、光照)限制條件下已經(jīng)媲美甚至超越人類,但是如何在非限制條件下,使計算機獲取和人類一樣,從姿態(tài)萬千的人臉圖像中依然能夠進行識別的能力,是一項非常具有挑戰(zhàn)性的工作。
今天,地平線《大牛講堂》邀請到美國密歇根州立大學(xué)劉小明教授,他將結(jié)合自己近年來有關(guān)人臉識別的研究成果和發(fā)表在多篇世界頂級期刊(CVPR,TPAMI等)的論文,為大家?guī)矸窒?mdash;—2D/3D shape estimation and recognition for large-pose faces。
神奇idea:大姿態(tài)下人臉圖像矯正算法
人臉矯正是人臉屬性分析中至關(guān)重要的一步,能夠直接影響整體性能的好壞。在深度學(xué)習(xí)之前就有許多優(yōu)秀的方法被提出,例如知名度較高的ASM和AAM,這些方法能夠在人臉變化不大的條件下取得比較好的效果,但是對于一些發(fā)生遮擋或者姿態(tài)角度偏大的情況就差強人意了;在深度學(xué)習(xí)出來之后,一些基于深度學(xué)習(xí)的方法雖然能夠解決上述部分問題,但是對姿態(tài)角度偏大的情況仍然無能為力。
針對上述問題,劉小明教授在2016年CVPR的一篇論文中有提出一個神奇的idea,利用3D人臉可變模型來解決2D圖像中姿態(tài)角度偏大問題,該方法神奇之處在于能夠使3D人臉模型“學(xué)習(xí)”2D圖像中人臉在拍照時候的姿勢狀態(tài),如下圖左邊的第一步,給神經(jīng)網(wǎng)絡(luò)輸入通用正面人臉模板模型和2D圖像,神經(jīng)網(wǎng)絡(luò)識別獲取圖像中人臉的姿態(tài)角度參數(shù)矩陣,利用這些參數(shù)就可以使模型“做出”和圖像中人臉同樣的臉部朝向。
反過來,對改變姿態(tài)之后的3D模型,我們給它“拍個照”,變成2D圖像,那么3D模型上的關(guān)鍵點通過“拍照”,就映射到2D圖像上來了,得到一個初步的粗定位;此時,再根據(jù)關(guān)鍵點坐標(biāo),把原始圖像切片,輸入到另外的網(wǎng)絡(luò)來調(diào)整3D模型的形狀參數(shù),使得模型更加精確的擬合2D圖像,這樣多次迭代之后,關(guān)鍵點便被精確定位出來;該方法開創(chuàng)性地利用3D人臉可變模型來學(xué)習(xí)2D圖像,并且通過級聯(lián)CNN神經(jīng)網(wǎng)絡(luò)回歸來提高精確度,使得即使大姿態(tài)下,被遮擋的關(guān)鍵點也能被很好的定位出來。
論文參考:Large-pose FaceAlignment via CNN-based Dense 3D Model Fitting
一個經(jīng)典的問題:3維人臉重構(gòu)
3維人臉重構(gòu)在3D動畫、犯罪偵查以及身份識別等領(lǐng)域有著廣闊的應(yīng)用前景,當(dāng)使用在不固定場景下獲取的人臉圖像來重構(gòu)人臉時,由于光照表情的變化,使得任務(wù)變的非常困難,劉小明教授結(jié)合近幾年的研究提出了基于關(guān)鍵點和光照變換的人臉3維重構(gòu)技術(shù)。
該方法首先通過人臉關(guān)鍵點檢測技術(shù),將2D圖像中人臉經(jīng)神經(jīng)網(wǎng)絡(luò)映射,使通用人面模型擬合2D圖像,然后利用Lambertian反射模型統(tǒng)一光照,最后通過3D模型的法向量反復(fù)迭代來重構(gòu)模型表面。
更接近真實場景:多角度人臉識別技術(shù)
隨著深度學(xué)習(xí)的發(fā)展,很多深度學(xué)習(xí)算法在正面臉情況下,對人臉識別的能力已經(jīng)超越了人類,但是實際場景中,很多時候都是非正面的;基于此,劉小明教授給我們分享了他在人臉識別方面的最新成果——多角度人臉識別技術(shù)。
(卡通圖像非實際效果,僅供參考示意)
該技術(shù)包含兩個核心部分,表示學(xué)習(xí)和圖像生成。表示學(xué)習(xí)是指在某一個場景下獲取的多張不同姿態(tài)的圖像,將這些圖像作為輸入,通過提出的DR-GAN網(wǎng)絡(luò)模型,產(chǎn)生一個固定長度的特征向量,該向量表示的是這個人的特征,與姿態(tài)光照無關(guān),同時該網(wǎng)絡(luò)還可以根據(jù)輸入的Noise/Pose編碼,生成不同姿態(tài)的人臉。
劉小明:密歇根州立大學(xué)計算機科學(xué)與工程系助理教授。計算機視覺、模式識別、生物識別和機器學(xué)習(xí)領(lǐng)域?qū)<?。曾任ICPR,WACV和CVPR等多個計算機視覺及圖像處理國際頂尖會議領(lǐng)域主席,獲得多項國際學(xué)術(shù)大獎。共發(fā)表或出版100余本學(xué)術(shù)文章,持有22項美國專利。
評論comment