亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當前位置: 首頁 > 科技新聞 >

干貨 | 澎思科技——有限算力資源下的深度學習

時間:2019-11-12 21:09來源:網(wǎng)絡(luò)整理 瀏覽:
AI研習社AI職通車按:人臉識別主要分兩大類,第一人臉抓拍,指的是從原始的數(shù)據(jù)(如錄像數(shù)據(jù))中提取人臉,第二大類是對提取好的人臉進行進一步操

AI研習社AI職通車按:人臉識別主要分兩大類,第一人臉抓拍,指的是從原始的數(shù)據(jù)(如錄像數(shù)據(jù))中提取人臉,第二大類是對提取好的人臉進行進一步操作,比如人臉比對、人臉性別分類、表情分類等具體應(yīng)用。今天我們把重點放在人臉抓拍這一步,還會特別注意算法的運行速度。


回放地址:http://www.mooc.ai/open/course/680


分享嘉賓:Robert Lorenz(德國籍),澎思科技資深算法研究員,德國柏林洪堡大學數(shù)學系博士,致力于人臉檢測、人臉跟蹤和人臉質(zhì)量判斷等領(lǐng)域的技術(shù)研發(fā),尤其擅長模型構(gòu)建和模型優(yōu)化。其研究成果已經(jīng)應(yīng)用于澎思科技多種人臉識別軟件平臺和硬件產(chǎn)品中。同時也致力于視頻結(jié)構(gòu)化算法的研究和開發(fā),負責數(shù)個子研究課題的攻堅工作。

曾任職學習寶聯(lián)合創(chuàng)始人兼首席科學家、精通5國語言,完成學習寶所有模式識別算法的搭建及商用。精通模式識別、機器學習與圖像處理的常見算法,例如貝葉斯分類器、SVM、ADA-BOOST、MLP、CNN、kernelized回歸、受限制BOLTZMANN機、特征提取、特征選擇,圖像預處理、二值化算法、連通域分析、PPC(Project Profile Cutting),Viterbi算法,C語言數(shù)據(jù)結(jié)構(gòu),例如樹結(jié)構(gòu)、圖形結(jié)構(gòu)等等。


分享主題:有限算力資源下的深度學習與人臉識別技術(shù)——人臉抓拍算法設(shè)計、移植和優(yōu)化


分享提綱:

  • 深度學習定義與概念

  • 人臉檢測與深度學習

  • 人臉跟蹤與深度學習

  • 人臉屬性與深度學習

  • 人臉識別應(yīng)用

  • 深度學習與人臉識別未來


雷鋒網(wǎng)AI研習社將其分享內(nèi)容整理如下:

大家好,我是來自德國的Robert,目前負責算法研究、算法設(shè)計和算法實現(xiàn),今天想分享的內(nèi)容是有限算力資源下的深度學習與人臉識別技術(shù)——人臉抓拍設(shè)計、移植和優(yōu)化。在標題中大家可以看到兩個關(guān)鍵詞,第一深度學習,第二人臉識別。

人臉識別主要分兩大類,第一人臉抓拍,指的是從原始的數(shù)據(jù)(如錄像數(shù)據(jù))中提取人臉,第二大類是對提取好的人臉進行進一步操作,比如人臉比對、人臉性別分類、表情分類等具體應(yīng)用。今天我們把重點放在人臉抓拍這一步,還會特別注意算法的運行速度。

近年來,所有的人臉識別算法都是基于深度學習完成的,所以今天分享的內(nèi)容也基于深度學習來展開,具體目錄如下:

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

大家可能聽過深度學習這個術(shù)語,但是深度學習到底是什么?如圖所示,即為深度學習的定義。我們將深度學習之外所有的模式識別算法命名為傳統(tǒng)模式識別算法。下面來了解一下深度學習和傳統(tǒng)模式識別之間有哪些區(qū)別,深度學習的特點是什么。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

傳統(tǒng)算法主要有兩個步驟。其中第一步為“手動特征提取”,即按照當前分類任務(wù)手動定義特征提取方法。下圖顯示對于文字圖像的邊緣特征,總共四個方向的邊緣特征。深度學習之前,基于四個方向的邊緣特征在文字識別領(lǐng)域非常流行,因為文字圖像邊緣特征的判別能力好于原始圖像像素的判別能力。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別


傳統(tǒng)算法第二步為“訓練參數(shù)”,參數(shù)訓練是基于在第一步提取好的特征進行的。下圖顯示對于文字特征向量的建模,每類由多維高斯分布建模。多維高斯分布唯一由期望值和相關(guān)矩陣描述。為了提高魯棒性,僅僅估計了相關(guān)矩陣的前k個特征值和特征向量,后(d-k)個特征值由一個常數(shù)描述。有了每一類的參數(shù),可以使用貝葉斯分類器對未知、不在訓練庫的新圖像提取特征,并對提取好的特征進行分類。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

傳統(tǒng)方法有一些不太理想的地方:特征提取和參數(shù)訓練的兩個步驟是拆開的。更優(yōu)的方案是聯(lián)合優(yōu)化特征提取和參數(shù)訓練。另外,預測任務(wù)的變化引起特征提取方法的改動。例如,對腫瘤檢測文理特征判別能力好于邊緣特征。為了達到不錯的預測效果,每個領(lǐng)域需要有經(jīng)驗的專家琢磨出好的手動特征提取方法。深度學習克服了這些難題。

接下來我們看一下,深度學習放棄手動特征提取而采用自動特征提取,如圖所示:

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

上圖有10個特征層,每一層的參數(shù)是自動學習的,不涉及到手動干預。因深度學習的特征提取是自動、智能的,所以深度學習屬于人工智能的領(lǐng)域。

我們還需要知道的一點是,與傳統(tǒng)算法相比,深度學習有一定的優(yōu)勢。在包含1000類的IMAGENET數(shù)據(jù)庫中,基于幾層深度學習的分類錯誤率為25%。將層數(shù)提高到19,錯誤率降低到7%,22層的錯誤率為6%,如果是非常深的深度學習模型(152層),錯誤率才3%,而人類的錯誤率也有5%。這說明在特定情況下,深度學習的識別率高于人類的識別率,這就引起了各行業(yè)都想將深度學習的思路融入到他們的領(lǐng)域里,人臉識別也不例外。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

人臉識別屬于圖像處理的領(lǐng)域。圖像處理領(lǐng)域中最常見的層是卷積層,比較一下卷積層和全連接層。如下圖所示,全連接層每個輸入節(jié)點跟任何輸出節(jié)點都構(gòu)造一個連接,而卷積層只有考慮特殊的連接。一個卷積核掃描所有輸入圖的窗口,可以做到參數(shù)共享、參數(shù)數(shù)量降低??捎柧殔⒃蕉啵饺菀装l(fā)生過度適應(yīng)現(xiàn)象,因卷積層大大降低了參數(shù)數(shù)量,其過度擬合現(xiàn)象大量減少,卷積操作可以理解為深度學習網(wǎng)絡(luò)的正則化。另外全連接不考慮二維圖像拓撲,而卷積層更好地利用相鄰像素之間的關(guān)聯(lián)性。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

來看一下深度學習早期的一個完整的深度學習網(wǎng)絡(luò)模型。下圖顯示所謂LENET5的拓撲:卷積層1、欠采樣層2、卷積層3、欠采樣層4、卷積層5、全連接6、分類輸出層7。LENET5對32x32大小的輸入通過卷積和欠采樣和全連接層提取84維的特征向量,對84維的特征向量進行最終的分類,都在一個聯(lián)合框架中。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

對深度學習的定義和概念的介紹就到這,接下來了解深度學習怎么應(yīng)用在人臉抓拍的領(lǐng)域。

人臉抓拍第一步是人臉檢測,是一個二類分類問題,只有兩類:人臉和非人臉。人臉檢測中一個難題是人臉大小未知??朔@個難題的一個辦法是圖像金字塔,如下圖左側(cè)部分所示。圖像金字塔包含不同縮小率的縮小圖像。對不同縮小圖用固定窗口大小進行掃描,就可以做到多尺度人臉檢測。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

人臉檢測另外的難題是類內(nèi)的豐富性。人臉有白種人、黃種人、黑人等不同種族,圖像光照條件不同、模糊度不同,人臉姿態(tài)、角度也不同。非人臉類更復雜,有無窮多個非人臉的可能性。所以,分類人臉和非人臉需要比較深、有一定判別能力的深度學習網(wǎng)絡(luò)。用深的網(wǎng)絡(luò)掃描整個圖像金字塔的方法不最優(yōu),計算量太大??梢岳梅侨四樋梢约毞殖珊唵呜摌颖荆ɡ缙椒€(wěn)的天空)、中等負樣本(例如衣服文理、胳膊、手)和難負樣本(跟人臉非常相似)的事實。先用極少的計算量排除簡單負樣本,然后用中等計算量排除中等負樣本。以此類推,用更大的計算量排除難度更大的負樣本,最中留下的所有沒排除的窗口分類成人臉。在傳統(tǒng)領(lǐng)域該思想叫做ADABOOST分類器組合方法。

下面介紹一個基于ADABOOST思想的三個階段人臉檢測算法,如下圖所示??偣灿腥齻€深度學習模型:PNET、RNET和ONET。PNET網(wǎng)絡(luò)不深,只有三個卷積層,用12x12的窗口掃描圖像金字塔,快速排除大量的簡單負樣本。留下的候選窗口用大小24x24重新?lián)?,當作RNET的輸入,RNET的計算量中等,有四個卷積層。對RNET可能沒有成功排除的難負樣本調(diào)用計算量比較大的ONET,輸入大小為48x48,ONET有5個卷積層,構(gòu)造最終的人臉/非人臉分類效果。同時ONET計算人臉5個特征點(眼睛,鼻尖,嘴角),用來在人臉比對之前做人臉矯正。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

三個階段的高效人臉檢測器運行速度快,分類效果不錯。然而,如果CPU跟GPU聯(lián)合使用的話,CPU與GPU之間的傳輸數(shù)據(jù)時間不可忽略,如下圖所示。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

為了減少傳輸數(shù)據(jù)的時間,我們尋找一個階段的人臉檢測器,即只有一個深度模型的人臉檢測器。下面我們來看一下一個階段的高效人臉檢測器。因為沒有快速預淘汰簡單負樣本的步驟了,我們在前兩個卷積層和欠采樣層大大降低網(wǎng)絡(luò)輸入圖的尺寸,縮小率為32倍。兩個卷積層之后還有非常多的深度學習層,但是因圖像尺寸非常小了,其計算量并不大了。一個階段的人臉檢測器沒有圖像金字塔了,但是有一個以上的分類輸出層。輸出層的輸入是不同尺寸的特征圖,一個階段的人臉檢測器基于特征金字塔,是克服人臉大小未知的另外一種方法。兩個尺度之間跨度比較大,容易漏檢特征金字塔中間大小的人臉。為了避免這種現(xiàn)象,設(shè)計了Inception模塊。其設(shè)計特點為不同分支,分支卷積核大小不一致,最終連和不同分支。不同卷積核大小的分支構(gòu)造不同大小的感受野,構(gòu)造不同尺度的特征圖。連續(xù)三次使用Inception模塊,構(gòu)造非常多的卷積核大小的組合,非常好地客服了人臉大小未知的問題。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

下圖中顯示的人臉檢測器不關(guān)注運行速度,但爭取更高的準確率。代價是幾百倍的計算量,我們這關(guān)注的是網(wǎng)絡(luò)架構(gòu)。高準確率人臉檢測器也屬于一個階段的檢測器,基于特征金字塔,總共有六個尺寸層次。與以前的模型相比,特征金字塔不直接當成網(wǎng)絡(luò)輸出層的輸入,但是還加上特征增強模塊。特征增強模塊考慮到兩個相鄰的特征圖,對尺寸小的特征圖進行上采樣,構(gòu)造跟尺寸大的特征圖同樣的尺寸。用乘法融合兩個相鄰的特征圖,再加上基于inception思想的模塊,這才是分類輸出層的輸入。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

如下圖所示,準確率高的人臉檢測器對不良因素的魯棒性非常強,可以檢測出尺寸更小的人臉、模糊人臉、光照情況復雜、曝光、很暗的人臉、被局部遮擋的人臉,還有反光、姿態(tài)奇特或者化妝的人臉。抓拍系統(tǒng)不會使用計算量龐大的高準確率人類檢測器,而調(diào)用上述提到的快速人臉檢測器。當然,對不利情況下的檢測率有一些折扣。假設(shè),遠處的人臉尺寸小、非常模糊,快速人臉檢測器漏檢了。但是十幾幀之后人移動到離攝像頭更近的位置,不顯得那么小和模糊,檢測出的概率大大提高。以人為單位的快速人臉檢測器的檢測率可以超過99%。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

人臉檢測速度快,但是每幀都做人臉檢測,滿足不了一個GPU實時處理數(shù)十路視頻的數(shù)據(jù)。另外這種方法也放棄了幀與幀之間的關(guān)聯(lián)性。假設(shè),在幀1檢測出四個人臉。在幀2出現(xiàn)4個人臉的概率很高,甚至4個人臉的位置跟前一幀的位置非常相似。從前一幀到當前幀人臉具體平移量是多少,這就是人臉跟蹤的命題,請看下圖。人臉跟蹤在目標周圍范圍考慮問題,人臉檢測在整個場景圖范圍考慮問題,與全局的檢測相比,跟蹤屬于局部算法,可以大量節(jié)省整個抓拍系統(tǒng)的計算量。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

接下來,給大家分享一下一個屬于傳統(tǒng)算法領(lǐng)域的跟蹤算法。其特點是運行速度非??欤瑪?shù)學模型和求解非常瀟灑。下圖的第一個數(shù)學公式是空間域中的數(shù)學模型,優(yōu)化對象是相關(guān)核h,使得對在幀1的圖像數(shù)據(jù)f進行濾波的話,得到跟標簽g盡可能接近的值,其中*代表循環(huán)卷積。標簽g經(jīng)常選擇為高斯函數(shù)。正則化系數(shù)lambda控制過度適應(yīng)現(xiàn)象。利用傅里葉變換和相應(yīng)的一些數(shù)學定理,可以把空間域建模問題等價地描述在頻率域。大寫字母符號代表小寫字母符號的傅里葉變換。卷積定理把耗時的循環(huán)卷積操作改成快速的乘法。頻率域的解析式形式很簡單,只有乘法、加法和除法的操作。在幀2,對空間域的圖像數(shù)據(jù)z應(yīng)用傅里葉變換,跟在幀1學到的模板H進行乘法,得到頻率域的響應(yīng)Y,再用逆傅里葉變換回到空間域,得到空間域的響應(yīng)y。最終跟蹤效果為響應(yīng)y最大值的對應(yīng)的位置。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

雖然基于相關(guān)濾波的跟蹤算法在CPU上非???,但是利用不起來GPU并行計算資源,因為快速傅里葉變換由很多零散的計算步驟組成,其GPU并行計算加速效果很差。接下來,給大家分享基于深度學習的跟蹤算法,可以充分利用GPU并行計算資源。下圖顯示SIAMESE網(wǎng)絡(luò)的跟蹤器的流程。在幀1以目標位置為中心稍微擴充,構(gòu)造參考圖,用深度學習映射phi構(gòu)造尺寸非常小的特征圖(6x6)。在幀2擴充范圍更大,構(gòu)造搜索圖,用同樣的映射phi計算出尺寸比較大的特征圖(22x22)。SIAMESE網(wǎng)絡(luò)的特點是其輸出層,所謂的相關(guān)層。6x6的特征圖當作卷積核,掃描22x22的特征圖,構(gòu)造17x17大小的輸出圖。跟蹤的效果就是輸出圖最大值的對應(yīng)的位置。因17x17尺寸比較粗糙,經(jīng)常對輸出圖進行上采樣操作,獲取更大分辨率的跟蹤效果。SIAMESE網(wǎng)絡(luò)屬于離線學習的跟蹤器,因為映射phi與原始圖像無關(guān),需要大量的人臉訓練樣本在GPU上學習映射phi的參數(shù)。然而,上述介紹的相關(guān)濾波跟蹤器是在線學習的跟蹤器,模板H依賴于原始圖像,關(guān)鍵在于模板H的訓練過程極快。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

從現(xiàn)在開始,內(nèi)容不會給大家介紹那么詳細,限于概括性的介紹。下一步給大家介紹一下人臉屬性與深度學習,如圖所示:前幾層設(shè)計所有任務(wù)共享的卷積層和欠采樣層。后來幾個網(wǎng)絡(luò)分支對應(yīng)不同標簽類別,比如局部、全局標簽,有序標簽、類別性標簽等等。需要大量的標注好的人臉屬性訓練樣本,在GPU上訓練共享的參數(shù)和分支的參數(shù)。

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

接下來簡單介紹一下人臉識別的應(yīng)用,如下圖:

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

下面討論一下深度學習與人臉識別的未來,如下圖:

干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

最后提到的是,對算法研究和算法工程感興趣的朋友,可以關(guān)注澎思科技,感謝大家的聆聽。


以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))(公眾號:雷鋒網(wǎng))AI 研習社社區(qū)https://ai.yanxishe.com觀看。關(guān)注微信公眾號:AI 職通車(AIjobs),可獲取最新公開課直播時間預告。


AI研習社職播間/大講堂已舉辦超150場, 往期分享嘉賓分別來自斯坦福大學、卡內(nèi)基梅隆大學、劍橋大學、北京大學、清華大學、加州伯克利等高校,也有騰訊、百度、阿里、科大訊飛、地平線、曠視科技、商湯科技、Momenta、微軟等知名企業(yè)高管。

比如微軟亞洲研究院院長洪小文、??低暿紫茖W家浦視亮、Momenta L4負責人陳凱、深鑒科技CEO姚頌等。

每月10+場,分享前沿技術(shù)、人才需求。如果你是有AI人才招聘的企業(yè),歡迎勾搭社長,提交資料(姓名+公司+職位+主題)報名AI職播間分享。

聯(lián)系我們:18319013243


干貨 | 澎思科技——有限算力資源下的深度學習與人臉識別

關(guān)注“AI職通車”,第一時間get大牛公開課直播,更有崗位推薦、筆試題庫、面經(jīng)大禮等你來~

推薦內(nèi)容