亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁(yè) > 科技新聞 >

夜間場(chǎng)景缺數(shù)據(jù),如何進(jìn)行語(yǔ)義分割?浙大提出

時(shí)間:2019-11-12 18:54來(lái)源:網(wǎng)絡(luò)整理 瀏覽:
雷鋒網(wǎng)注:本文為作者 BBuf,北京鼎漢技術(shù)有限公司 算法工程師(CV)向雷鋒網(wǎng)AI科技評(píng)論投稿,未經(jīng)允許禁止轉(zhuǎn)載!論文發(fā)表于2019年,地

雷鋒網(wǎng)注:本文為作者 BBuf,北京鼎漢技術(shù)有限公司 算法工程師(CV)向雷鋒網(wǎng)AI科技評(píng)論投稿,未經(jīng)允許禁止轉(zhuǎn)載!


夜間場(chǎng)景缺數(shù)據(jù),如何進(jìn)行語(yǔ)義分割?浙大提出基于GAN的高魯棒夜間語(yǔ)義分割框架

論文發(fā)表于2019年,地址為:https://arxiv.org/abs/1908.05868

雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))AI科技評(píng)論按:近年來(lái),借助深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),智能駕駛導(dǎo)航和安全監(jiān)控取得了長(zhǎng)足的進(jìn)步。語(yǔ)義分割作為一種最先進(jìn)的感知方法,在自動(dòng)駕駛和安全監(jiān)控中具有廣泛的應(yīng)用前景。

當(dāng)前,語(yǔ)義分割在標(biāo)準(zhǔn)場(chǎng)景(例如具有良好光照條件的白天場(chǎng)景)中表現(xiàn)出了高效的性能。但是,面對(duì)諸如夜間之類不利環(huán)境,語(yǔ)義分割會(huì)大大降低其準(zhǔn)確性。造成此問(wèn)題的主要原因之一是缺乏足夠的夜間場(chǎng)景分割數(shù)據(jù)集。

在本文中,我們提出了一個(gè)使用生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)緩解將語(yǔ)義分割模型應(yīng)用于夜間環(huán)境時(shí)的準(zhǔn)確性下降。為了聯(lián)系白天和夜晚的圖像域,我們進(jìn)行了關(guān)鍵的觀察,與夜間環(huán)境下的數(shù)據(jù)相比,已經(jīng)存在大量標(biāo)準(zhǔn)條件下的分割數(shù)據(jù)集如BBD,我們收集的ZJU等。

我們提出的基于GAN的夜間語(yǔ)義分割框架包括兩種方法。在第一種方法中,GAN用于將夜間圖像轉(zhuǎn)換為白天,因此可以使用已經(jīng)在白天數(shù)據(jù)集上訓(xùn)練的魯棒模型來(lái)執(zhí)行語(yǔ)義分割。第二種方法是,我們使用GAN將數(shù)據(jù)集中的白天圖像轉(zhuǎn)換為夜間圖像,同時(shí)標(biāo)簽不變。所以,我們可以利用GAN合成夜間數(shù)據(jù)集,以產(chǎn)生在夜間條件下魯棒性很好的模型。

在我們的實(shí)驗(yàn)中,第二種方法顯著提高了模型在夜間圖像上的分割性能,這可以使用IOU和ACC來(lái)評(píng)價(jià)。實(shí)驗(yàn)表明,性能還會(huì)隨著數(shù)據(jù)集中合成夜間圖像的比例變化而變化,其中最佳的比例對(duì)應(yīng)于在白天和夜晚性能最高的模型。我們提出的方法不僅有助于智能車(chē)輛視覺(jué)感知的優(yōu)化,而且可以應(yīng)用于各種導(dǎo)航輔助系統(tǒng)。


1、研究背景

諸如目標(biāo)檢測(cè)和語(yǔ)義分割之類的視覺(jué)任務(wù)始終是安全監(jiān)控和自動(dòng)駕駛的關(guān)鍵點(diǎn)。語(yǔ)義分割可以通過(guò)單個(gè)相機(jī)拍攝來(lái)完成不同的檢測(cè),使場(chǎng)景感知擺脫了復(fù)雜的多傳感器融合。一些最新的方法如PSPNet,RefineNet,DeepLab和AcNet等以非常高的準(zhǔn)確率執(zhí)行語(yǔ)義分割任務(wù)。為了將語(yǔ)義分割應(yīng)用于自動(dòng)駕駛和安全監(jiān)控,我們?cè)谙惹暗墓ぷ髦刑岢隽艘粋€(gè)ERF-PSPNet[1],這是一種高精度的實(shí)時(shí)語(yǔ)義分割方法。

所有的這些感知算法均設(shè)計(jì)為可以在光照條件良好的白天拍攝的圖像上運(yùn)行。然而,戶外應(yīng)用很難逃脫惡劣的天氣和照明條件?;谡Z(yǔ)義分割的計(jì)算機(jī)視覺(jué)系統(tǒng)尚未得到廣泛應(yīng)用的原因之一就是它不能處理環(huán)境不利條件。例如,基于可見(jiàn)光相機(jī)的語(yǔ)義分割模型在夜間表現(xiàn)不理想,原因就是在極弱的照度下,目標(biāo)的結(jié)構(gòu),紋理和顏色特征會(huì)急劇變化。這些特征可能由于缺乏光照而消失,或者被干擾。因此,如何增強(qiáng)語(yǔ)義分割模型的魯棒性成為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要問(wèn)題。在本文工作中,我們著重提高夜間語(yǔ)義分割的性能。

在本文中,我們提出了一個(gè)主框架如圖Figure1所示,

夜間場(chǎng)景缺數(shù)據(jù),如何進(jìn)行語(yǔ)義分割?浙大提出基于GAN的高魯棒夜間語(yǔ)義分割框架

Figure 1

以克服語(yǔ)義分割模型從白天到晚上的精度急劇下降問(wèn)題。受生成對(duì)抗網(wǎng)絡(luò)的思想啟發(fā),夜間圖像在前向推理過(guò)程中被轉(zhuǎn)換為白天域的圖像。換句話說(shuō),我們通過(guò)將部分白天圖像轉(zhuǎn)換為夜間圖像來(lái)擴(kuò)充原始的大規(guī)模語(yǔ)義分割數(shù)據(jù)集。在這些實(shí)驗(yàn)中,我們證明此方法提高了語(yǔ)義分割模型的魯棒性。此外,我們還使用多模式立體視覺(jué)傳感器來(lái)采集了浙江大學(xué)玉泉校區(qū)白天和夜晚的圖像制作了數(shù)據(jù)集ZJU,設(shè)備被安放在一個(gè)儀表車(chē)上,如Figure2所示。

夜間場(chǎng)景缺數(shù)據(jù),如何進(jìn)行語(yǔ)義分割?浙大提出基于GAN的高魯棒夜間語(yǔ)義分割框架

Figure 2

2、相關(guān)工作

2.1 道路場(chǎng)景的語(yǔ)義理解

語(yǔ)義分割技術(shù)對(duì)于理解圖像內(nèi)容和感知目標(biāo)位置很重要,并且該技術(shù)在自動(dòng)駕駛領(lǐng)域也很關(guān)鍵。當(dāng)前,大多數(shù)語(yǔ)義分割SOAT工作都是基于全卷積的端到端網(wǎng)絡(luò)。受到SegNet的啟發(fā),語(yǔ)義分割模型通常采用編解碼結(jié)構(gòu)。編碼器是經(jīng)過(guò)訓(xùn)練可以對(duì)輸入圖像進(jìn)行分類的CNN,解碼器用于將編碼器的輸出上采樣到和原始圖像相同的大小。此外,有更多有效的語(yǔ)義分割網(wǎng)絡(luò)被提出,我們的工作基于ERF-PSPNet,這是一種為導(dǎo)航輔助系統(tǒng)設(shè)計(jì)的最新語(yǔ)義分割網(wǎng)絡(luò)。

2.2 模型適應(yīng)

通常,CNN僅從訓(xùn)練數(shù)據(jù)域中學(xué)習(xí)特征,并且在不同的領(lǐng)域中可能表現(xiàn)會(huì)差很多。這也是為什么在白天訓(xùn)練的語(yǔ)義分割模型在夜間準(zhǔn)確率會(huì)嚴(yán)重下降的原因。為了提高卷積神經(jīng)網(wǎng)絡(luò)的泛化能力,提出很多方法。最常見(jiàn)的是,使用諸如隨機(jī)裁剪,隨機(jī)旋轉(zhuǎn)和翻轉(zhuǎn)之類的數(shù)據(jù)增強(qiáng)技術(shù)去適應(yīng)陌生域。在[29],[30]中已對(duì)合成數(shù)據(jù)的有效使用進(jìn)行了初步的探索。[31]提出了另一種基于域適應(yīng)的方法,用于將語(yǔ)義分割模型從合成圖像適應(yīng)到實(shí)際環(huán)境。[32,33]還提出了類似的方法來(lái)解決魯棒的模糊場(chǎng)景解析。

2.3 圖像風(fēng)格轉(zhuǎn)換

自從GoodFellow提出GAN之后,GAN就成為了最有前途的圖像風(fēng)格化方法。形式上,GAN同時(shí)包含兩個(gè)模型:捕獲關(guān)鍵分布的生成器G和估計(jì)樣本來(lái)自訓(xùn)練數(shù)集而不是生成器的鑒別器D。盡管像Pix2Pix這樣在風(fēng)格轉(zhuǎn)換上最先進(jìn)的工作表現(xiàn)出眾,但兩個(gè)域中的訓(xùn)練數(shù)據(jù)都必須預(yù)先格式化為單個(gè)X/Y圖像對(duì),以保持緊密的像素相關(guān)性。最近提出的CycleGAN可以執(zhí)行完整的轉(zhuǎn)換過(guò)程,并省掉每張圖像配對(duì)的過(guò)程,這很適合我們執(zhí)行白天和夜晚的圖像風(fēng)格轉(zhuǎn)換。


3、方法

在我們的工作中提出了兩種方法來(lái)縮小語(yǔ)義分割中白天和夜間圖像之間的差距。這兩種方法分別為將白天域圖像轉(zhuǎn)換為夜間域圖像和夜間域圖像轉(zhuǎn)換為白天域圖像。Figure1展示了我們的框架。我們訓(xùn)練一個(gè)CycleGAN來(lái)執(zhí)行跨域轉(zhuǎn)換。在第一種方法中,我們將夜間圖像轉(zhuǎn)換為白天圖像,然后在白天圖像上訓(xùn)練ERF-PSPNet。在第二種方法中,CycleGAN將訓(xùn)練集的部分白天圖像轉(zhuǎn)換為夜間圖像,以擴(kuò)展數(shù)據(jù)集的域覆蓋范圍。最后,我們用調(diào)整后的具有一定百分比的夜間圖像的訓(xùn)練數(shù)據(jù)訓(xùn)練ERF-PSPNet,達(dá)到提高夜間語(yǔ)義分割模型性能的目的。

3.1 訓(xùn)練CycleGAN進(jìn)行晝夜跨域轉(zhuǎn)換

CycleGAN是一種在沒(méi)有配對(duì)示例的情況下學(xué)習(xí)將圖像從原域轉(zhuǎn)換為目標(biāo)域的方法,這符合我們的需求。CycleGAN包含兩組GAN,每一組GAN又包含一個(gè)生成器和鑒別器。生成器和鑒別器進(jìn)行圖像風(fēng)格轉(zhuǎn)換,將圖像從域X轉(zhuǎn)換到域Y或者從域Y轉(zhuǎn)換到域X。F和G代表了兩個(gè)GAN,他們生成的內(nèi)容分別為當(dāng)前域圖像的對(duì)立域圖像。我們同時(shí)訓(xùn)練了G和F,并增加了循環(huán)一致性約束:

夜間場(chǎng)景缺數(shù)據(jù),如何進(jìn)行語(yǔ)義分割?浙大提出基于GAN的高魯棒夜間語(yǔ)義分割框架

這種損失使未配對(duì)的圖像風(fēng)格轉(zhuǎn)換成為可能。在我們的工作中,選取了BBD100K數(shù)據(jù)集6000張白天圖像和6000張夜間圖像作為兩個(gè)圖像域來(lái)訓(xùn)練CycleGAN。限于GPU的內(nèi)存,我們將圖像大小調(diào)整為480*270以訓(xùn)練CycleGAN。通過(guò)這種方式,我們獲得了晝夜轉(zhuǎn)換器。

3.2 在推理期間將圖像轉(zhuǎn)換為白天域

第一種選擇是在推理的時(shí)候?qū)⒁归g圖像轉(zhuǎn)換為白天圖像。更具體的說(shuō),將攝像機(jī)獲取的夜間圖像用CycleGAN轉(zhuǎn)換為合成的白天圖像,這是語(yǔ)義分割更擅長(zhǎng)處理的域。該方法不需要再次訓(xùn)練語(yǔ)義分割模型。換句話說(shuō),該方法的優(yōu)勢(shì)在于我們可以利用經(jīng)過(guò)訓(xùn)練的ERF-PSPNet中的原始權(quán)重,該權(quán)重被證明在大多數(shù)數(shù)據(jù)集和實(shí)際場(chǎng)景中都是穩(wěn)定的。此外,晝夜轉(zhuǎn)換和分割過(guò)程是分開(kāi)的,這使得調(diào)整更加容易。

但這種方法的缺點(diǎn)在于CycleGAN轉(zhuǎn)換一張480*270的圖像,前向推理花費(fèi)的時(shí)間接近于1秒,這太慢了,并且語(yǔ)義分割系統(tǒng)也失去了實(shí)時(shí)性能。另外,CycleGAN合成的圖像可能有一定偏差,例如可能將遙遠(yuǎn)的建筑物轉(zhuǎn)換為樹(shù)木。

3.3 產(chǎn)生夜間圖像擴(kuò)展數(shù)據(jù)集

第二種選擇是將帶有語(yǔ)義分割標(biāo)簽的BBD訓(xùn)練集中的部分白天圖像轉(zhuǎn)換為夜間圖像。然后將帶有合成夜間圖像的數(shù)據(jù)集用來(lái)訓(xùn)練ERF-PSPNet損失函數(shù)。這個(gè)想法來(lái)自于缺乏精確分割的夜間數(shù)據(jù)集標(biāo)簽。

此方法的優(yōu)點(diǎn)是對(duì)于訓(xùn)練模型,在推理過(guò)程中不會(huì)引入額外的計(jì)算。因此,ERF-PSPNet可以保留其實(shí)時(shí)的屬性。在我們的實(shí)驗(yàn)中,我們探索了合成夜間圖像的比例如何影響語(yǔ)義分割模型的準(zhǔn)確性。此方法的缺點(diǎn)是重新訓(xùn)練模型的過(guò)程比較耗時(shí),并且該模型可能并不總是對(duì)所有環(huán)境都具有魯棒性。另外,我們必須將BBD100K數(shù)據(jù)集中的圖像大小調(diào)整為480*270以訓(xùn)練GAN。這樣GAN只能產(chǎn)生大小為480*270的圖像。因此,我們必須將合成圖像上采樣到1280*720,然后再輸入分割模型。這樣的操作不可避免的會(huì)影響最終預(yù)測(cè)結(jié)果的準(zhǔn)確性。


4、結(jié)果

本文首先介紹了BDD數(shù)據(jù)集(BDD100K和BDD10K),ZJU數(shù)據(jù)集和Nighttime Driving test數(shù)據(jù)集。他們的圖像分辨率,白天以及夜晚圖像數(shù)量,標(biāo)注信息如Table1所示:

夜間場(chǎng)景缺數(shù)據(jù),如何進(jìn)行語(yǔ)義分割?浙大提出基于GAN的高魯棒夜間語(yǔ)義分割框架

Table 1

我們選擇了BDD100K數(shù)據(jù)集中的6000張白天和黑夜圖像訓(xùn)練CycleGAN。對(duì)于ERF-PSPNet,編碼器部分在ImageNet上進(jìn)行了預(yù)訓(xùn)練,所以ERF-PSPNet所有的訓(xùn)練任務(wù)都在解碼器部分的訓(xùn)練中。第一種方法是在BDD10K上訓(xùn)練ERF-PSPNet。推理期間夜間圖像用CycleGAN即時(shí)轉(zhuǎn)換為白天域。在第二種方法中,使用BDD10K訓(xùn)練集中不同比例的圖像來(lái)訓(xùn)練ERF-PSPNet。為了定量驗(yàn)證我們的方法,在BDD10K的驗(yàn)證集中使用32個(gè)帶有分段注釋的夜間圖像和50個(gè)在Nighttime Driving test數(shù)據(jù)集中具有精確分段注釋的夜間圖像。Nighttime Driving test數(shù)據(jù)集中的圖像樣式類似于BDD10K,這使得在其上應(yīng)用BDD訓(xùn)練的語(yǔ)義分割模型是合理的。最終,模型的實(shí)驗(yàn)表現(xiàn)如Table2所示:

夜間場(chǎng)景缺數(shù)據(jù),如何進(jìn)行語(yǔ)義分割?浙大提出基于GAN的高魯棒夜間語(yǔ)義分割框架

Table 2

可以看到,使用本文的方法,模型在夜間圖像的準(zhǔn)確率得到了較大的提升。此外,本文還探索了第一種方法在擁有不同比例夜間圖像的數(shù)據(jù)集上表現(xiàn),如Figure7所示。

夜間場(chǎng)景缺數(shù)據(jù),如何進(jìn)行語(yǔ)義分割?浙大提出基于GAN的高魯棒夜間語(yǔ)義分割框架

Figure 7

我們可以看到使用2000張合成的夜間圖像的訓(xùn)練集得到的效果是最好的。然后在5000的時(shí)候曲線達(dá)到另外一個(gè)峰值,這個(gè)原因可能是5000是2000的對(duì)稱數(shù)(總數(shù)是7000),并且該模型以互補(bǔ)的方式從白天圖像中學(xué)習(xí)紋理信息,從夜晚圖像中學(xué)習(xí)光照信息,但是此時(shí)白天的性能已經(jīng)降低到了一個(gè)較低的水平。當(dāng)所有圖像均為夜間圖像時(shí),IOU甚至低于30%,這是因?yàn)楹铣蓤D像中的紋理不等同于真實(shí)圖像中的紋理。綜上所述,使用2000張合成的夜間圖像和5000張真實(shí)白天圖像的訓(xùn)練集得到的效果是最好的。


5、結(jié)論

在本文中,我們研究了夜間場(chǎng)景的圖像語(yǔ)義分割問(wèn)題。為了提高性能,通過(guò)CycleGAN訓(xùn)練雙向晝夜轉(zhuǎn)換器,提出了兩種方法。在第一方法中,推理過(guò)程將夜間圖像即時(shí)轉(zhuǎn)換為白天圖像,作為預(yù)處理步驟。在第二種方法中,將訓(xùn)練集的圖像通過(guò)CycleGAN部分轉(zhuǎn)換為夜間合成圖像,從而提高了分割模型的魯棒性。我們的實(shí)驗(yàn)在三個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,并證明了該方法的有效性??偠灾?,我們的方法顯著改善了夜間圖像語(yǔ)義分割模型的性能,從而使諸如ERF-PSPNet之類的SOAT網(wǎng)絡(luò)在夜間擁有較好的魯棒性。


參考資料:

[1]Yang, K., Bergasa, L. M., Romera, E., Cheng, R., Chen, T., and Wang, K., “Unifying terrain awareness through real-time semantic segmentation,” in [2018 IEEE Intelligent Vehicles Symposium (IV)], 1033–1038, IEEE (June 2018).

[29]Sadat Saleh, F., Sadegh Aliakbarian, M., Salzmann, M., Petersson, L., and Alvarez, J. M., “E?ective use of synthetic data for urban scene semantic segmentation,” in [Proceedings of the European Conference on Computer Vision (ECCV)], 84–100 (2018).

[30] Xu, Y., Wang, K., Yang, K., Sun, D., and Fu, J., “Semantic segmentation of panoramic images using a synthetic dataset,” in [Arti?cial Intelligence and Machine Learning in Defense Applications], International Society for Optics and Photonics (2019).

[31] Sankaranarayanan, S., Balaji, Y., Jain, A., Lim, S. N., and Chellappa, R., “Learning from synthetic data: Addressing domain shift for semantic segmentation,” in [2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition], 3752–3761, IEEE (2018).

[32] Dai, D. and Van Gool, L., “Dark model adaptation: Semantic image segmentation from daytime to nighttime,” in [2018 21st International Conference on Intelligent Transportation Systems (ITSC)], 3819–3824, IEEE (2018).

[33] Sakaridis, C., Dai, D., and Van Gool, L., “Semantic nighttime image segmentation with synthetic stylized data, gradual adaptation and uncertainty-aware evaluation,” arXiv preprint arXiv:1901.05946 (2019).

雷鋒網(wǎng)報(bào)道。

夜間場(chǎng)景缺數(shù)據(jù),如何進(jìn)行語(yǔ)義分割?浙大提出基于GAN的高魯棒夜間語(yǔ)義分割框架

推薦內(nèi)容