亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁(yè) > 科技新聞 >

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容

時(shí)間:2019-12-27 15:28來源:網(wǎng)絡(luò)整理 瀏覽:
作者 | 彭厚文、傅建龍來源 | 微軟研究院AI頭條(ID: MSRAsia)編者按:當(dāng)時(shí)間從一維走向二維,時(shí)序信息處理問題中一種全新的建模
時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020

作者 | 彭厚文、傅建龍

來源 | 微軟研究院AI頭條(ID: MSRAsia)

編者按:當(dāng)時(shí)間從一維走向二維,時(shí)序信息處理問題中一種全新的建模思路由此產(chǎn)生。根據(jù)這種新思路及其產(chǎn)生的二維時(shí)間圖概念,微軟亞洲研究院提出一種新的解決時(shí)間定位問題的通用方法:二維時(shí)域鄰近網(wǎng)絡(luò) 2D-TAN,在基于自然語(yǔ)言描述的視頻內(nèi)容定位和視頻內(nèi)人體動(dòng)作檢測(cè)兩個(gè)任務(wù)上驗(yàn)證了其有效性,并在 ICCV 2019 中的 HACS Action Localization Challenge 比賽中獲得了第一,相關(guān)技術(shù)細(xì)節(jié)將發(fā)表于 AAAI 2020 論文“Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language”。本文將對(duì)這一研究進(jìn)行深入解讀。

時(shí)間可以是二維的嗎?這是一個(gè)好問題!

我們常常將物理世界定義為三維空間,將時(shí)間定義為一維空間。但是,這不是唯一的定義方式。最近,研究院的童鞋們大開腦洞,提出了一種新的時(shí)間表示方式,將時(shí)間定義成了二維的!

在二維空間里,時(shí)間是如何表達(dá)的呢?童鞋們給出的答案是這樣的:在二維空間中,我們定義其中一個(gè)維度表示時(shí)間的開始時(shí)刻,另外一個(gè)維度表示時(shí)間的結(jié)束時(shí)刻;從而,二維空間中的每一個(gè)坐標(biāo)點(diǎn)就可以表達(dá)一個(gè)時(shí)間片段(例如,從 A 時(shí)刻開始到 B 時(shí)刻結(jié)束的時(shí)間片),也可以是一個(gè)特定的時(shí)間點(diǎn)(例如,從 A 時(shí)刻開到 A 時(shí)刻結(jié)束,即為 A 時(shí)刻)。

這種二維時(shí)間定義的用途和意義在哪里呢?童鞋們認(rèn)為這種新的時(shí)間定義方式,可以為時(shí)序信息處理問題提供一種新的建模思路,例如視頻、語(yǔ)音、軌跡等時(shí)序信息的分析與處理。近期,他們已將這種新的時(shí)間表達(dá)方式,應(yīng)用于視頻內(nèi)容理解中,并在視頻內(nèi)人體動(dòng)作檢測(cè)、視頻內(nèi)容片段定位任務(wù)中取得了優(yōu)異的性能。值得一提的是,他們應(yīng)用這種新的時(shí)間表達(dá)方式,結(jié)合最新的深度學(xué)習(xí)模型,在視頻行為識(shí)別與檢測(cè)競(jìng)賽(HACS Temporal Action Localization Challenge)中取得了第1名的成績(jī)。

下面,就讓我們了解一下這種二維時(shí)間表達(dá)方式是如何應(yīng)用在視頻內(nèi)容理解任務(wù)中的。

基于二維時(shí)間圖的視頻內(nèi)容片段定位

視頻內(nèi)容片段定位包含多個(gè)子任務(wù),例如,基于自然語(yǔ)言描述的視頻片段定位(moment localization with natural language)與視頻內(nèi)人體動(dòng)作檢測(cè)(temporal action localization)。前者需要根據(jù)用戶給定的描述語(yǔ)句,從視頻中定位文字所描述的視頻片段的開始和結(jié)束時(shí)間點(diǎn);后者則需要在給定的長(zhǎng)視頻中,檢測(cè)出其存在的動(dòng)作片段類別,并定位出動(dòng)作開始和結(jié)束的時(shí)間點(diǎn)。

在這些任務(wù)中,一個(gè)通用的做法是預(yù)先設(shè)定一些候選視頻片段(proposals/moments/ segments),再對(duì)每個(gè)片段的可能性進(jìn)行相應(yīng)的預(yù)測(cè)。然而在預(yù)測(cè)過程中,前人的工作通常只是對(duì)每個(gè)片段獨(dú)立預(yù)測(cè),卻忽略了片段之間的依賴關(guān)系。為此,本文提出了二維時(shí)間圖的概念,并通過二維時(shí)域鄰近網(wǎng)絡(luò)(2D Temporal Adjacent Network, i.e. 2D-TAN)來解決這一問題。該方法是一個(gè)解決時(shí)間定位問題的通用方法,不僅可以學(xué)習(xí)出片段之間的時(shí)域鄰近關(guān)系,同時(shí)也能學(xué)習(xí)出更具有區(qū)分性的特征表達(dá)。

我們的方法在上述的視頻內(nèi)容片段定位任務(wù)上進(jìn)行了驗(yàn)證。在基于自然語(yǔ)言描述的視頻片段定位任務(wù)中,我們提出的 2D-TAN 方法在三個(gè)基準(zhǔn)數(shù)據(jù)集均獲得了良好的性能結(jié)果,相關(guān)論文已經(jīng)被 AAAI 2020 接收[1]。在視頻內(nèi)人體動(dòng)作檢測(cè)中,我們基于 2D-TAN 的改進(jìn)方案[2]在 HACS Temporal Action Localization Challenge 中獲得第一。

下面以自然語(yǔ)言描述的視頻內(nèi)容片段定位為例介紹我們的工作,并簡(jiǎn)要介紹人體動(dòng)作檢測(cè)方面的拓展。

基于自然語(yǔ)言描述的視頻片段定位

基于自然語(yǔ)言描述的視頻片段定位任務(wù)是根據(jù)用戶給定的描述語(yǔ)句,從視頻中定位文字所描述的視頻片段,并返回該片段的開始和結(jié)束時(shí)間,如圖1所示。前人的工作都是獨(dú)立地匹配句子和一個(gè)片段,而忽略了其他片段對(duì)其影響。當(dāng)要處理涉及多片段的情況,尤其是片段之間存在依賴關(guān)系的時(shí)候,這種做法很難得到精確的結(jié)果。例如,當(dāng)我們要定位“這個(gè)人又吹起了薩克斯 The guy plays the saxophone again”,如果只看后面的視頻而不看前面的,我們不可能在視頻中定位到這個(gè)片段。另一方面,有很多候選片段都與目標(biāo)片段有重疊,例如圖1中 Query B 下面所對(duì)應(yīng)的多種片段。這些片段有著相似的視頻內(nèi)容,但是語(yǔ)義上會(huì)略有所不同。如果不將這些片段綜合考慮來區(qū)分其中的細(xì)微差別,同樣很難得到精確的結(jié)果。

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020

圖1:任務(wù)示意圖。在二維時(shí)間圖中,黑色坐標(biāo)軸上的數(shù)字表示開始和結(jié)束的序號(hào),灰色坐標(biāo)軸上的數(shù)字表示序號(hào)所對(duì)應(yīng)的時(shí)間點(diǎn)。二維時(shí)間圖中方格的紅色程度反映該片段與目標(biāo)片段的重疊程度,取決于視頻長(zhǎng)度及采樣比例。

為解決這一問題,我們提出了二維時(shí)域鄰近網(wǎng)絡(luò)(2D-TAN)。其核心思想是在二維時(shí)間圖中做視頻片段定位,如圖1所示。具體來說,圖中(i,j)表示的是一個(gè)從 i 到 (j+1) 的時(shí)間片段。該圖包含多種長(zhǎng)度的片段,并通過圖中坐標(biāo)的遠(yuǎn)近,我們可以定義這些片段之間的鄰近關(guān)系。有了這些關(guān)系,我們的 2D-TAN 模型便可以對(duì)依賴關(guān)系進(jìn)行建模。與此同時(shí),不同片段與目標(biāo)片段之間的重疊程度會(huì)有所不同。2D-TAN 通過整體考慮這些重疊上的差異,而非單獨(dú)考慮每個(gè)片段,可以學(xué)習(xí)更具有區(qū)分性的特征,如圖2。

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020

圖2:與前人方法的對(duì)比。綠色長(zhǎng)方體表示候選片段與句子融合后的相似度特征。方框表示得分,方框紅色的程度表示該片段與目標(biāo)片段的重疊程度。左圖表示前人的方法,獨(dú)立預(yù)測(cè)各個(gè)片段的得分。右圖表示我們的方法,預(yù)測(cè)當(dāng)前片段的得分時(shí),綜合考慮了鄰近片段的關(guān)系。

二維時(shí)域鄰近網(wǎng)絡(luò)(2D-TAN)

我們的 2D-TAN 模型如圖3所示。該網(wǎng)絡(luò)由三部分構(gòu)成:一個(gè)用來提取自然語(yǔ)言文本特征的編碼器,一個(gè)用來提取視頻特征圖的編碼器,及一個(gè)用來定位的時(shí)域鄰近網(wǎng)絡(luò)。我們?cè)谙挛木唧w介紹各部分。

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020

圖3:2D-TAN的框架示意圖

語(yǔ)句的文本特征

我們將每個(gè)文本單詞轉(zhuǎn)換成 GloVe 詞向量表達(dá)[4],再將詞向量依次通過 LSTM 網(wǎng)絡(luò)[5],使用其最后一層輸出作為文本語(yǔ)句的特征。

視頻的二維特征圖

我們首先將視頻分割成小的單元片段(clip),之后等距降采樣到統(tǒng)一長(zhǎng)度,再通過預(yù)訓(xùn)練好的網(wǎng)絡(luò)抽取其特征。抽取好的特征通過卷積、池化操作獲得最終的單元片段特征(clip feature),大小是 N×d^v。候選片段由一段連續(xù)的單元片段構(gòu)成,不同候選片段長(zhǎng)度可能會(huì)不同。為獲得統(tǒng)一的特征表示,對(duì)于每一個(gè)候選片段,我們通過對(duì)其相應(yīng)的單元片段序列最大池化(max-pooling)獲得其最終特證。根據(jù)每個(gè)候選片段的始末時(shí)間點(diǎn),我們將所有的候選片段重新排列成一個(gè)二維特征圖,大小是 N×N×d^v。因?yàn)殚_始時(shí)間永遠(yuǎn)小于結(jié)束時(shí)間,特征圖的下三角部分是無(wú)效的,因此我們將它們填充成0,且不參與后續(xù)的計(jì)算。

當(dāng) N 較大時(shí),特征圖的計(jì)算量也會(huì)隨之增大,為解決此問題,我們還提出了一種稀疏圖的構(gòu)造策略,如圖4所示。在該圖中,我們根據(jù)片段的長(zhǎng)短進(jìn)行不同密度的采樣。對(duì)于短片段,我們枚舉出所有可能,進(jìn)行密集采樣。對(duì)于中等長(zhǎng)度的片段,我們采樣的步長(zhǎng)設(shè)為2。對(duì)于長(zhǎng)片段,我們采樣的步長(zhǎng)設(shè)為4。通過這種方式,我們可以降低因枚舉所帶來的計(jì)算開銷,同時(shí)保證精度。所有未被選中的片段被填充為0,不參與后續(xù)的計(jì)算。

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020

圖4:當(dāng) N=64 時(shí)的候選片段。藍(lán)色的方格表示選中參與候選的片段,灰色的方格表示未選中的片段。白色的方格表示無(wú)效的片段。

通過時(shí)間鄰近網(wǎng)絡(luò)定位

有了視頻的二維特征圖(圖3中的藍(lán)色立方體)和語(yǔ)句的文本特征(圖3中的黃色長(zhǎng)方體),我們首先將其特征圖中每個(gè)位置的視頻特征與文本特征融合,獲得相似度的特征圖(圖3右圖中左側(cè)的綠色立方體)。然后,將融合后的相似度特征圖通過一系列的卷積層,逐層建立其每個(gè)片段與周邊片段之間的關(guān)系。最后,我們將這種考慮了鄰近關(guān)系的相似度特征輸入到全聯(lián)接層中,獲得最終的得分。

損失函數(shù)

在訓(xùn)練整個(gè) 2D-TAN 網(wǎng)絡(luò)時(shí),我們采用二元交叉熵(binary cross-entropy)作為損失函數(shù),并使用經(jīng)過線性變換的 intersection-over-union (IoU)值作為損失函數(shù)中的標(biāo)簽(label)。

實(shí)驗(yàn)結(jié)果

我們?cè)?Charades-STA [6]、ActivityNet Captions [7] 和 TACoS [8] 三個(gè)數(shù)據(jù)集中進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果如表1-3所示。從實(shí)驗(yàn)結(jié)果中我們可以看出,在不同數(shù)據(jù)集的多種評(píng)價(jià)指標(biāo)下,我們的方法均取得了優(yōu)異的性能。值得注意的是,我們的方法在更苛刻的評(píng)價(jià)標(biāo)準(zhǔn)下的提升更為明顯(如表1-3中 rank{1,5}@{0.5,0.7} 的表現(xiàn)),尤其是在 TACoS、Rank1@0.5 和 Rank5@0.5 兩個(gè)上獲得了5和14個(gè)百分點(diǎn)的提升。這些實(shí)驗(yàn)結(jié)果說明基于二維時(shí)間圖鄰近關(guān)系的建模對(duì)性能提升有很大的幫助。

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020

表1:Charades-STA 的實(shí)驗(yàn)結(jié)果。Pool 和 Conv 表示兩種不同的片段特征提取方式,下表同。

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020

表2:ActivityNet Captions 的實(shí)驗(yàn)結(jié)果

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020

表3:TACoS 的實(shí)驗(yàn)結(jié)果

基于二維時(shí)間圖的人體動(dòng)作檢測(cè)

考慮到 2D-TAN 方法的通用性和其在基于自然語(yǔ)言的時(shí)間定位任務(wù)上的優(yōu)異性能,我們?cè)诤罄m(xù)的工作中將其拓展到了視頻內(nèi)人體動(dòng)作檢測(cè)任務(wù)中。該任務(wù)需要在給定的長(zhǎng)視頻中,檢測(cè)出視頻中預(yù)定義的動(dòng)作片段類別及其開始和結(jié)束時(shí)間點(diǎn)。一種通常的做法是將該任務(wù)拆分成兩步,首先檢測(cè)出哪些片段可能存在預(yù)定義動(dòng)作的片段(proposal generation),然后預(yù)測(cè)這些候選片段可能所屬的類別(classification)??紤]到這類做法的第一步和我們提出的 2D-TAN 方法很相關(guān),本質(zhì)上都是要解決片段之間的相互依賴關(guān)系的問題,因此我們用 2D-TAN 方法針對(duì)該任務(wù)進(jìn)行了改進(jìn),如圖5。

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020

圖5:S-2D-TAN 框架示意圖

相較于基于自然語(yǔ)言描述的視頻片段定位,視頻內(nèi)動(dòng)作定位的目標(biāo)片段往往比較短。因此需要的采樣頻率更高,采樣的單元片段個(gè)數(shù) N 也因此更大。相應(yīng)地,在特征圖中長(zhǎng)片段的采樣步長(zhǎng)也會(huì)比較大,底層的卷積層往往感受不到足夠的上下文信息。在圖5中,紅色虛線方框表示的是中等長(zhǎng)度片段在第一層涉及到的鄰近片段,而黃色虛線方框表示的是短片段要涉及的鄰近片段。我們可以看出,黃色框涉及的上下文信息要比紅色框的多。因此我們?cè)?2D-TAN 的基礎(chǔ)上,針對(duì)長(zhǎng)片段上下文信息較少,設(shè)計(jì)了一個(gè)稀疏二維時(shí)域鄰近網(wǎng)絡(luò)(Sparse 2D Temporal Adjacent Network, i.e. S-2D-TAN)。該網(wǎng)絡(luò)將稀疏圖按照采樣的步長(zhǎng),拆分成三個(gè)更緊湊的時(shí)域特征圖。通過將不同特征圖分別通過一個(gè)共享內(nèi)核的卷積網(wǎng)絡(luò),從而使得長(zhǎng)片段可從周圍的特征中獲得更多的上下文信息。

我們的算法在 ICCV 2019 中的 HACS Action Localization Challenge 比賽中獲得了第一名的成績(jī)。值得一提的是,HACS 目前是視頻內(nèi)人體動(dòng)作檢測(cè)任務(wù)中最大的數(shù)據(jù)集 [2]。更多細(xì)節(jié)請(qǐng)參考技術(shù)報(bào)告[3]。

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020

圖6:比賽獲獎(jiǎng)證書

結(jié)語(yǔ)

本文針對(duì)視頻內(nèi)容片段定位問題提出了一種二維時(shí)間圖表示方式與一種新的時(shí)域鄰近網(wǎng)絡(luò)(2D-TAN),其有效性已在基于自然語(yǔ)言描述的視頻內(nèi)容定位和人體動(dòng)作檢測(cè)兩個(gè)任務(wù)上得到了初步的驗(yàn)證。該方法目前仍處于一個(gè)初步探索的階段:從網(wǎng)絡(luò)結(jié)構(gòu)的角度來說,當(dāng)前的結(jié)構(gòu)僅采用簡(jiǎn)單地堆疊卷積層的方式,相信進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)本身會(huì)帶來性能上的提升。另一方面,從方法的通用性角度來說,目前我們僅驗(yàn)證了兩個(gè)任務(wù),仍有許多相關(guān)任務(wù)值得拓展,例如視頻文本描述,視頻內(nèi)容問答,亦或是語(yǔ)音等其他包含時(shí)序信息的任務(wù)。

更多技術(shù)細(xì)節(jié),詳見論文:

Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language

論文鏈接: https://arxiv.org/abs/1912.03590

代碼鏈接: https://github.com/microsoft/2D-TAN

本文作者:彭厚文、張宋揚(yáng)、傅建龍、羅杰波

參考文獻(xiàn)

1. Songyang Zhang, Houwen Peng, JianlongFu and Jiebo Luo, “Learning 2D Temporal Adjacent Networks forMoment Localization with Natural Language”, AAAI 2020

2. Hang Zhao, Zhicheng Yan, Lorenzo Torresani and Antonio Torralba, “HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization”, ICCV 2019

3. Songyang Zhang, Houwen Peng, Le Yang, Jianlong Fu and Jiebo Luo, “Learning Sparse 2D Temporal Adjacent Networks for Temporal Action Localization”, Technical Report

4. Jeffrey Pennington, Richard Socher and Christopher D. Manning, “GloVe: Global Vectors for Word Representation”, EMNLP 2014

5. Hochreiter, Sepp and Schmidhuber,Jurgen, “Long short-term memory”, Neural computation 1997

6. Jiyang Gao, Chen Sun, Zhenheng Yang and Ram Nevatia, “TALL: Temporal activity localization via language query”, ICCV2017

7. Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles, “Dense-Captioning Events in Videos”, ICCV 2017

8. Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, and Bernt Schiele, and Manfred Pinkal, “Grounding action descriptions in videos”, TACL 2013

(*本文為AI科技大本營(yíng)轉(zhuǎn)載文章,轉(zhuǎn)載請(qǐng)聯(lián)系原作者)

時(shí)間可以是二維的?基于二維時(shí)間圖的視頻內(nèi)容片段檢測(cè) | AAAI 2020
推薦內(nèi)容