作者 | BBuf
下面要介紹的論文始發(fā)于ICCV2019,題為「NADS-Net: A Nimble Architecture for Driver and Seat Belt Detection via Convolutional Neural Networks」,axriv地址為:https://arxiv.org/abs/1910.03695 。雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))(公眾號:雷鋒網(wǎng)) AI 科技評論編輯如下。
在本文中,我們提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu),用于二維駕駛員/乘客姿態(tài)估計和安全帶檢測。與其他通用的姿態(tài)估計算法相比,新的結(jié)構(gòu)更加靈活,因此更適合車內(nèi)檢測任務(wù)。這種新的結(jié)構(gòu)稱為NADS-Net,網(wǎng)絡(luò)在一個新的數(shù)據(jù)集上得到驗證,該數(shù)據(jù)集包含為本研究收集的50個駕駛會話中的100個駕駛員的視頻片段。還分析了不同人口學(xué)、外觀和光照條件下的檢測性能。本文的研究結(jié)果可為自主駕駛研究界和汽車工業(yè)提供有意義的見解,為今后的算法開發(fā)和數(shù)據(jù)采集提供參考。
1. 研究背景
全球交通事故報告顯示大多數(shù)交通事故時由于駕駛員分心引起的。分心駕駛的例子包括使用手機,和乘客對話,喝飲料等與駕駛無關(guān)的行為。瞌睡,疲勞,服藥等其他一些生理問題也可能導(dǎo)致危及生命的情況。
另一個重大的駕駛安全隱患是不當(dāng)使用安全帶。這可能導(dǎo)致嚴(yán)重的人身傷害和死亡。根據(jù)美國國家公路交通安全管理局(NHTSA)的數(shù)據(jù),2016年有10428名未系安全帶的駕駛員和乘客在道路上葬生。
因此,車載監(jiān)控系統(tǒng)(IVMS)迅速成為消費類車輛的標(biāo)準(zhǔn)技術(shù),因為它可以通過提醒分心的駕駛員和自適應(yīng)調(diào)整安全機制,在預(yù)防和減少交通事故的發(fā)生中發(fā)揮關(guān)鍵作用。此外,在即將到來的自動駕駛時代,IVMS技術(shù)更加關(guān)鍵。例如,當(dāng)車輛系統(tǒng)在自動駕駛模式下檢測到異常時,IVMS可以向駕駛員報警,以便駕駛員可以在系統(tǒng)出現(xiàn)故障時接管車輛的控制權(quán)。對于IVMS,基于視覺的傳感技術(shù)是其核心。在IVMS系統(tǒng)中檢測并跟蹤了來自臉部,眼睛,頭姿勢,手勢和身體姿勢的視覺信息?;谝曈X傳感技術(shù)的目標(biāo)是識別汽車中人類的各種狀態(tài),例如前排乘客的身體姿態(tài)以及是否正確系好安全帶,這也是本文的主要目標(biāo)。具體來說,本文提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)用于駕駛員和乘客的二維姿態(tài)估計和安全帶檢測。NADS-Net以特征金字塔網(wǎng)絡(luò)FPN作為骨干網(wǎng)絡(luò),后面接了關(guān)鍵點檢測頭,親和力場檢測頭和安全帶檢測頭。和SOAT算法[4]相比,該網(wǎng)絡(luò)表現(xiàn)出了相似的精度,同時更加簡潔高效。
2. 相關(guān)工作
2.1 人體姿態(tài)估計
在自動駕駛領(lǐng)域中,人體姿態(tài)估計算法因其不需要任何傳感儀器就能捕獲人的運動姿態(tài)的能力得到了越來越多的關(guān)注?,F(xiàn)在人體姿態(tài)估計方法大概可以分為自上而下和自下而上的方法。
2.1.1 自上而下的方法
自上而下的方法首先檢測人的邊界框。然后將每個邊界框分解為身體關(guān)鍵點和骨骼。[25]使用Faster RCNN首先預(yù)測人的邊界框,然后利用殘差網(wǎng)絡(luò)預(yù)測每個框中的熱力圖和偏移矢量以定位關(guān)鍵點。何凱明等提出了Mask-RCNN,它在Faster-RCNN的邊界框檢測頭進(jìn)行擴展,使它支持實例分割和關(guān)鍵點檢測。此外,他們將骨干網(wǎng)絡(luò)改成了FPN,使得準(zhǔn)確率和速度都得到了提升。Chen等提出由兩個階段組成的級聯(lián)金字塔網(wǎng)絡(luò)(CPN):GlobalNet和RefineNet。CPN首先檢測一個人的邊界框,然后將裁剪的邊界框傳遞到GlobalNet,在其中使用FPN主干網(wǎng)絡(luò)預(yù)測關(guān)鍵點。然后,RefineNet完善GlobalNet預(yù)測的關(guān)鍵點,進(jìn)而實現(xiàn)更精確的遮擋或不可見關(guān)鍵點檢測。
2.1.2 自下而上的方法
自下而上的方法首先檢測所有的人體關(guān)鍵點,然后解析它們的連接和成員關(guān)系以構(gòu)造人的實例。DeepCut是自下而上方法的一個例子,該方法可以檢測身體部位以及每個身體部位之間的關(guān)系。然后將這些輸出用于回歸檢測到的關(guān)鍵點的位置偏移并連接骨架實例。Newell等介紹了一種可以同時輸出關(guān)鍵點位置和逐像素嵌入的方法,將關(guān)鍵點檢測結(jié)果自動分組為單獨的姿勢。Cao[4]等提出了部分親和力字段(PAF),該字段包含指示如何連接各個關(guān)鍵點的矢量字段。他們使用PAF預(yù)測頭增強了卷積姿態(tài)機算法,并使用了二分圖匹配算法貪心的連接骨架實例。
2.2 安全帶
基于計算機視覺的安全帶檢測研究一直在進(jìn)行。Zhou[39]等將邊緣檢測算法,顯著梯度圖和徑向基函數(shù)組合到一個統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu)中,以判斷圖像中是否存在安全帶。Zhou[38]等使用帶BN層的AlexNet來識別安全帶。Elihos等提出了一種方法,該方法首先使用SSD裁剪乘客區(qū)域,然后用CNN檢測是否使用了安全帶。本文提出的安全帶檢測算法試圖在檢測結(jié)果中增加更多的細(xì)粒度,以便檢測結(jié)果不僅能提供安全帶是否使用的信息,而且還可以通過安全帶相對于檢測到的身體的相對位置來進(jìn)一步反饋。
3. 方法
在本文中,我們提出了新的NADS-Net結(jié)構(gòu),可以同時進(jìn)行姿態(tài)估計和安全帶檢測。
3.1 問題概述
通用的姿態(tài)估計問題都是在公共數(shù)據(jù)集例如MS COCO,PoseTrack上進(jìn)行訓(xùn)練和驗證的。但是這些數(shù)據(jù)一般是在白天和明亮的室內(nèi)拍攝的,且由于車輛有夜間紅外圖像,所以姿態(tài)估計算法在夜間紅外圖像上表現(xiàn)也值得懷疑。且關(guān)鍵點是駕駛員和乘客在車內(nèi)的姿勢非常有限,且背景較為簡單,人的數(shù)量也少,所以較小的淺層模型就可以滿足車內(nèi)駕駛員和乘客的姿態(tài)估計。
3.2 數(shù)據(jù)集
這項研究的主要挑戰(zhàn)之一是缺乏適當(dāng)?shù)臄?shù)據(jù)集。上面提到,一些人體姿態(tài)的公開數(shù)據(jù)集是不適合車輛監(jiān)控環(huán)境的。特別的,我們需要安全帶標(biāo)注樣本,人口統(tǒng)計信息,夜間紅外圖像,在駕駛時處于動態(tài)光照變化下的人體姿態(tài)和手勢。
數(shù)據(jù)收集 我們收集了沃爾沃XC90研究車輛中駕駛員和乘客的視頻。這次收集歷時7個月,共有100名受試著隨機分配到一個汽車駕駛會話中。要求受試者進(jìn)行某些指定的行為,如玩手機,打哈欠,把手伸出窗戶,喝酒等等。我們給汽車配備了紅外燈和兩個攝像頭。其中一個攝像頭安裝臺后視鏡下,另外一個安裝在中央媒體控制板上。紅外燈安裝在儀表盤上和遮陽板后面。Figure2展示了設(shè)備的安裝方式。
Figure 2
統(tǒng)計信息 除了駕駛視頻之外,我們還收集了如年齡,性別,種族等人口統(tǒng)計信息,這些總結(jié)在Table1中。需要注意的是,所有的駕駛場景均由一名研究人員陪同。因此,視頻中包含了一些重復(fù)出現(xiàn)的研究人員。為了最大程度的減少數(shù)據(jù)的潛在偏差,研究人員在整個駕駛過程中輪流陪同。根據(jù)安全要求,研究人員必須在車輛行駛時坐在前排乘客座椅上,但是當(dāng)車輛在停車時,他們盡可能地移動到不同的座椅位置,以最大程度地減少數(shù)據(jù)偏差。此外,要求研究人員每次穿不同的衣服和配件。最后,駕駛路線包括鄉(xiāng)村道路,市區(qū)和高速公路,以實現(xiàn)背景和照明的多樣化。
數(shù)據(jù)標(biāo)注 對于剪輯視頻的每張圖像,將所有可見的安全帶部分做分割標(biāo)簽,并對可見的身體關(guān)鍵點的坐標(biāo)(x, y)進(jìn)行標(biāo)記。這項研究的研究人員在每次標(biāo)注人員提交作業(yè)時都進(jìn)行了最終檢查,以確保數(shù)據(jù)的質(zhì)量。標(biāo)注結(jié)果示例如Figure1所示:
Figure 1
3.3 模型
Figure 3
如Figure3所示,我們的網(wǎng)絡(luò)模型有三個頭,用來生成熱力圖,PAF圖和安全帶分割,其中骨干網(wǎng)絡(luò)是特征金字塔網(wǎng)絡(luò)。NADS-Net的骨干網(wǎng)絡(luò)由ResNet-50組成,為后面的檢測分支產(chǎn)生金字塔特征。ResNet-50的結(jié)構(gòu)可以產(chǎn)生原始分辨率1/4,1/8,1/16,1/32的特征圖。例如對于我們的輸入分辨率384*384,ResNet-50骨骼網(wǎng)絡(luò)產(chǎn)生4層特征金字塔,每層大小分別為96*96,48*48,24*24,12*12。同時特征圖的通道數(shù)分別為256,512,1024,2048。然后進(jìn)一步使用1*1卷積將通道數(shù)都壓縮到256。最后縮減后的特征金字塔再進(jìn)行兩次3*3卷積和上采樣(特征圖大小為96的不用上采樣了),以生成一個96*96*512的特征圖用于三個頭完成身體關(guān)鍵點和安全帶檢測。
每個檢測分支使用兩個3*3卷積核1*1卷積來預(yù)測逐像素概率分布。對于關(guān)鍵點檢測頭,像素的概率表示該點為關(guān)鍵點的置信度。由于我們對背景遮擋的關(guān)節(jié)點也有興趣,所以關(guān)鍵點頭會產(chǎn)生10個大小為96*96的特定類概率圖,每個概率圖都與我們感興趣的9個關(guān)節(jié)點以及背景有關(guān)。對于PAF頭,我們產(chǎn)生尺寸為96*96的矢量場,該矢量場編碼了身體關(guān)節(jié)的成對信息。最后安全帶頭產(chǎn)生大小為96*96的概率圖,代表每個像素為安全帶的概率,然后根據(jù)閾值產(chǎn)生安全帶分割結(jié)果。
4. 結(jié)果
我們將[4]中的PAF模型作為基準(zhǔn)線和我們NADS-Net比較。對于身體關(guān)鍵點的檢測精度,我們采用正確關(guān)鍵點概率(PCK)作為標(biāo)準(zhǔn)。在通用的人體姿態(tài)估計中,人體頭部的PCK(PCKh)被作為PCA的參考。這在圖像中人的像素高度急劇變化情況下是合理的。但是,在本文的車載監(jiān)控任務(wù)中,我們發(fā)現(xiàn)這種通用方法可能會妨礙模型性能的精確表征,因為頭部大小會根據(jù)頭部的空間位置而大大變化,而身體其他部位(如手)到攝像機的距離保持不變。因此,我們可以通過使用頭枕大小作為PCK測量的參考值。首先,從攝像機到頭枕的距離幾乎相同,這可以為PCK評估提供更穩(wěn)定的參考。此外,頭枕的大小與人的頭部大約相同,因此PCK值的范圍與其他人的姿勢估計文獻(xiàn)相似。這樣可以更直觀地解釋分析結(jié)果。因此,我們使用修改后的PCKh度量標(biāo)準(zhǔn)(mPCKh),其中將頭枕的對角線長度用作參考,如圖Figure4所示:
Figure 4
對于安全帶檢測任務(wù),沒有可用的基線模型進(jìn)行比較。所以,我們只報告模型的敏感性,特異性,準(zhǔn)確率,F(xiàn)1得分和交叉結(jié)合(IOU)。
Table2展示了我們的NADS-Net和[4]的方法在姿態(tài)估計準(zhǔn)確率上的對比結(jié)果。
Table3展示了安全帶檢測結(jié)果。
從實驗結(jié)果來看,相比于[4]的SOAT結(jié)果,NADS-Net的準(zhǔn)確率更高。且我們在Core-i7 CPU,1080Ti主機進(jìn)行了速度測試,我們前向推理速度為18fps,而基準(zhǔn)模型是12fps,且我們的模型參數(shù)量比基準(zhǔn)模型減少了25%。
5. 結(jié)論
在本文中,我們提出了一種新的CNN體系結(jié)構(gòu),稱為NADS-Net,用于駕駛員和乘客的姿態(tài)估計以及車輛中的安全帶檢測。在估計人體姿態(tài)和安全帶檢測時,NADS-Net能夠與SOAT工作[4]擁有相似的準(zhǔn)確度,同時減少了計算參數(shù)和擁有更快的推理速度。我們細(xì)分了性能,并在不同方面提供了深入的分析,包括性別,種族,衣服和光照條件。這些結(jié)果可能會為將來的學(xué)術(shù)研究和工業(yè)產(chǎn)品開發(fā)提供有用的參考。
[4] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multiperson 2D pose estimation using part affinity fields. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7291–7299, 2017.
雷鋒網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
