亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當前位置: 首頁 > 科技新聞 >

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還

時間:2019-11-12 20:41來源:網(wǎng)絡整理 瀏覽:
雷鋒網(wǎng) AI 科技評論按:領域自適應是遷移學習重點研究的課題之一。以往,基于域不變表征的領域自適應方法由于對域偏移(domain shift

雷鋒網(wǎng) AI 科技評論按:領域自適應是遷移學習重點研究的課題之一。以往,基于域不變表征的領域自適應方法由于對域偏移(domain shift)不敏感、能為目標任務獲取豐富信息受到了極大關注。然而,在 ICML 2019 上,來自卡內(nèi)基梅隆大學的研究人員指出,當標簽分布不同時,對源任務的過度訓練確實會對目標域的泛化起到負作用,并且用嚴謹?shù)臄?shù)學證明和豐富的實驗說明了:為了提升領域自適應算法的性能,我們不僅需要對齊源域和目標域的數(shù)據(jù)分布、最小化源域中的誤差,還應該對齊源域和目標域的標注函數(shù)。

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!

圖 1:無監(jiān)督領域自適應概述及其與標準的監(jiān)督學習場景的區(qū)別。在領域自適應任務中,源(訓練)域與目標(測試)域相關但有所不同。在訓練過程中,該算法只能訪問源域的帶標簽樣本以及目標與的無標簽樣本。目的是將算法泛化到目標域上。

支撐監(jiān)督學習算法泛化理論的一個重要假設是,測試數(shù)據(jù)的分布應該與訓練數(shù)據(jù)的分布相同。然而,在許多現(xiàn)實世界的應用程序中,收集所有我們的學習系統(tǒng)可能被部署的場景下的帶標簽數(shù)據(jù)通常是十分耗時的,甚至是不可行的。例如,考慮一個典型的車輛計數(shù)應用程序,我們希望通過它計算在一張由相機拍下的圖片中有多少輛汽車。我們一共有 200 臺校準、視角、照明條件不同的相機。在這種情況下,獲得所有相機拍攝圖像的帶標簽數(shù)據(jù)的開銷是非常巨大的。理想情況下,我們將收集 200 臺相機的一個子集的帶標簽圖像,并且仍然能夠訓練一個可以在所有相機拍攝的圖像的數(shù)據(jù)集上起作用的計數(shù)系統(tǒng)。

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!

圖 2:曼哈頓區(qū)不同位置的相機

領域自適應任務針對的情況是,只能訪問訓練分布(又稱源域)的帶標簽數(shù)據(jù)和測試分布(又稱目標域)的無標簽數(shù)據(jù)。由于源域和目標域可能有所不同,因此這種情況十分復雜——正如上面的例子一樣,不同的攝像機拍攝到的不同的圖像通常會因為不同的視角、光照、校準等因素而具有不同的像素分布。而自適應算法的目標是在不能看到目標域中的帶標簽樣本的情況下,將算法泛化到目標域上。

在本文中,我們將首先回顧一種通用的技術,該技術基于尋找一種域不變的表征的思路來實現(xiàn)這一目標。然后,我們將構造一個簡單的示例說明這種技術本身并不一定能夠在目標域上實現(xiàn)良好的泛化。為了理解失效的模式,我們給出了一個泛化上界,該上界可以分解為度量源域和目標域之間輸入和標簽分布的差異的各項。并且十分重要的一點是,這個上界讓我們可以為在目標域上良好的泛化提供充分條件。

我們還使用一個基于信息論的下界來刻畫學習域不變表征時的權衡,從而對泛化上界進行了補充。直觀地說,實驗結果表明,當不同域中的邊緣標簽分布存在差異時,人們不能指望通過學習不變表征來同時最小化源域和目標域的誤差;這位基于學習不變表征的方法取得成功提供了必要條件。本文所提供的所有材料都是基于我們最近在 ICML 2019 上發(fā)表的工作「On Learning Invariant Representations for Domain Adaptation」:

  • 論文查看地址:http://www.cs.cmu.edu/~hzhao1/papers/ICML2019/icml_main.pdf

通過學習不變表征進行自適應

學習不變表征背后的核心思想是相當簡單和直觀的:我們希望找到一種對域偏移不敏感、同時仍然為目標任務獲取豐富信息的表征方法。這樣的表征將使我們能夠僅僅通過使用源域的數(shù)據(jù)進行訓練就可以將算法泛化到目標域上。學習域不變表征的流程如圖 3 所示。

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!圖 3:來源于源域和目標域的圖像通過映射 g 被轉換為某種表征,此時兩個域都有相同的特征分布。接著,根據(jù)來自源于的帶標簽數(shù)據(jù)訓練假設 h,并使用 h 為目標域生成「h°g」

請注意,在上面的框架中,我們可以在源域/目標域上使用不同的轉換函數(shù)「gS/gT」對齊特征分布。這個強大的框架同時也很靈活:通過使用不同的度量特征分布對齊的手段,我們復現(xiàn)了幾種現(xiàn)有的方法,例如,Ganin 等人于 2015 年發(fā)表的DANN(相關閱讀:http://jmlr.org/papers/v17/15-239.html),Long 等人于 2015 年發(fā)表的 DAN(相關閱讀:https://dl.acm.org/citation.cfm?id=3045130),以及 Shen 等人于 2018 年發(fā)表的WDGRL(相關閱讀:https://arxiv.org/pdf/1707.01217.pdf)。

由 Ben-David 等人于2010 年提出的泛化界(相關閱讀:https://link.springer.com/article/10.1007/s10994-009-5152-4)是上述框架遵循的一個理論依據(jù):令 H 為一個假設類,Ds/DT 分別為源域/目標域的邊緣數(shù)據(jù)分布。對于任意的 h∈H,下面的泛化界成立:

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!

其中CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!是兩個域的最優(yōu)聯(lián)合誤差。通俗的說,上面的泛化界說明目標域的風險基本上可以通過以下三項來約束:

  • 源域的風險(泛化界中的第一項)

  • 源域和目標域的邊緣數(shù)據(jù)分布之間的距離(泛化界中的第二項)

  • 源域和目標域的最優(yōu)聯(lián)合誤差(泛化界中的第三項)

這個泛化界可以被解釋為:如果存在一個同時在源域和目標域都有效的假設,那么為了最小化目標域的風險,應該選擇一個可以最小化源域的風險的假設,同時對齊源域和目標域的數(shù)據(jù)分布。

一個反例

上述的領域自適應框架近年來引起了人們極大的興趣,目前已經(jīng)出現(xiàn)了許多基于學習域不變表征的通用思想的有趣變體和應用。然而目前在滿足下面的條件時,這些方法是否一定會成功還尚不明確:

  • 復合函數(shù)「h °g」在源域上能夠完美地完成分類/回歸的預測。

  • 轉換函數(shù)「g:X→Z」在特征空間 Z 中能夠完美地對齊源域和目標域。

由于我們只能使用源域中的帶標簽數(shù)據(jù)進行訓練,理想狀態(tài)下,我們希望當上述兩個條件得以滿足時,復合函數(shù)「h °g」同樣也能在目標域上擁有較小的風險,因為這兩個域在特征空間中非常相近。也許有些令人驚訝的是,這與我們在下面的圖 4 中演示的簡單示例有所不同。

不妨考慮這樣一個自適應問題:我們擁有輸入空間和特征空間「X=Z=R」,源域為Ds=U(-1,0),目標域為DT=U(1,2),我們使用U(a,b)來代表一個(a,b)區(qū)間內(nèi)的均勻分布。在本例中,源域和目標域相距太遠,以致于它們的支撐集并不相連!現(xiàn)在讓我們將源域和目標域對齊,使它們相距地更近一些。我們可以通過將源域向右移動一個單位,并且將目標域向左移動一個單位實現(xiàn)這一點。

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!圖 4:特征轉換函數(shù) g 完美地在特征空間中將源域和目標域對齊。然而,在自適應操作之后,任何在源域上獲得較小的風險的假設都必然會在目標域上得到較大的風險。事實上,在這兩個域中,沒有哪一個函數(shù)可以同時具有較小的風險。

如圖 4 所示,在自適應操作之后,源域和目標域的數(shù)據(jù)分布都遵循 U(0,1),也就是說,我們通過簡單的變換將它們完美地對齊了。然而,由于我們的構造方式,源域和目標域的標簽反轉了過來:對于每個 x∈(0,1),源域和目標域恰好一個標簽為 1,另一個的標簽為 0。這意味著,如果一個假設在源域上獲得了完美的分類效果,那么它在目標域上也會得到最大為 1 的風險。事實上,在本例中,在對于任何分類器h 進行自適應后,我們令「εS(h)+εT(h) = 1」。作為對比,在進行自適應前,我們規(guī)定一個簡單的區(qū)間假設:h*(x)=1 當且僅當 x ∈(-1/2,3/2)同時在源域和目標域上實現(xiàn)完美的分類。

目標域誤差的泛化上界

那么,我們能從上面的反例中獲得什么啟示呢?為什么盡管我們完美地對齊了兩個域的邊緣分布并且最小化了源域的誤差,我們還是會得到很大的目標域誤差呢?這是否與 Ben-David 等人的泛化界理論相矛盾?

這里需要注意的是,當經(jīng)過自適應操作后,兩個域之間的距離變?yōu)?0 時,兩個域上的最優(yōu)聯(lián)合誤差會變得很大。在上面的返利中,這意味著在經(jīng)過了自適應后有 λ*=1,同時還意味著如果 εS(h) =0,我們有 εT(h) = 1。我們可以直觀地在圖 4 中看到,在自適應之后,兩個域的標注函數(shù)取得了「最大程度上的不同」,但是在自適應的過程中,我們僅僅在特征空間中將它們的邊緣分布進行了對齊。由于最優(yōu)聯(lián)合誤差 λ* 往往是未知且難以計算的,我們是否能構造一個與 λ*無關的泛化上界,并考慮到條件偏移問題呢?

下面是我們在論文中展示的方法的非正式描述:零 fs和 fT分別為源域和目標域的標注函數(shù),那么對于任意的假設類 H 和 任意的 h∈H,下面的不等式都成立:

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!

粗略地說,上面的泛化誤上界給出了源域和目標域之間誤差差異的分解形式。同樣的,不等號右側的第二項度量了邊緣數(shù)據(jù)分布之間的差異。然而,第三項現(xiàn)在度量的是源域和目標域的標注函數(shù)之間的差異。因此,這個泛化上界說明。對于自適應任務來說,僅僅將邊緣數(shù)據(jù)分布對齊是不夠的,我們還要確保標注函數(shù)(條件分布)在自適應之后彼此接近。

基于信息論的聯(lián)合誤差下界

在上面的反例中,我們說明了僅僅將邊緣分布對齊并獲得一個小的源域誤差,不足以保證得到一個小的目標域誤差。但是在本例中,實際上可以找到另一種特征轉換方式,同時將邊緣數(shù)據(jù)分布和標注函數(shù)對齊。具體而言,令特征轉換為CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!。接著,可以直接驗證源域和目標域在自適應之后是否完全對齊。此外,當 εS(h) =0,我們還保證 εT(h) = 0。

這樣一來,我們自然而然地會想知道是否總是可能找到一種特征變換和一個假設,來對齊邊緣數(shù)據(jù)分布并最小化源域誤差,從而使這兩者的復合函數(shù)也得到一個較小的目標域誤差呢?令人驚奇的是,我們證明了這并不一定成立。事實上,發(fā)現(xiàn)一個用來對齊邊緣分布的特征變換確實會增加源域和目標域的聯(lián)合誤差。通過這種變換,最小化源域誤差智能導致目標域誤差增大!

更加形式化的說法是,令 DYS/DYT為源域/目標域的邊緣標簽分布。對于任意的特征變換 g:X->Z 來說,令 DZS/DZT為將g(·)分別應用到 DS/DT上得到的特征分布。此外,我們將 dJS(·,·)定義為一對分布之間的Jensen-Shannon 距離。接著,對于任意的假設 h:Z->{0,1},如果有 dJS(DYS,DYT)≥dJS(DZS,DZT),下面的不等式成立:

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!

接下來,讓我們一步一步解析上面的下界。左邊的部分對應的是通過在源域和目標域同時使用復合函數(shù)「h °g」得到的聯(lián)合誤差。右邊的部分包含邊緣標簽分布之間的距離和特征分布之間的距離、因此,當兩個域中的邊緣標簽分布 DYS/DYT不同(即 dJS(DYS,DYT)>0)時,通過學習 g(·)對齊邊緣數(shù)據(jù)分布只會增大下界。特別是,對于dJS(DZS,DZT)= 0 時的域不變表征來說,該下界將得到其最大值

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!

由于在領域自適應任務中,我們只能使用源域中的帶標簽數(shù)據(jù),最小化源域的誤差將只能導致目標域誤差的增大。簡而言之,我們可以從不確定性原理的角度來理解這個下界:若兩個域的邊緣標簽分布不同,當使用域不變表征時,一定會在源域或目標域中產(chǎn)生較大的誤差。

實證驗證

由我們的下界得出的一個結論是,當兩個域具有不同的邊緣標簽分布時,在對齊兩個域時最小化源域誤差可能導致目標誤差增大。為了驗證這一點,讓我們考慮對 MNIST,SVHN 和 USPS 數(shù)據(jù)集的數(shù)字分類任務。為了驗證這一點,我們不妨考慮 MNIST 、SVHN 和 USPS 數(shù)據(jù)集上的數(shù)字分類任務。這三個數(shù)據(jù)集的標簽分布如圖 5 所示。

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!

圖 5:MNIST 、SVHN 和 USPS 數(shù)據(jù)集上的標簽(數(shù)字)分布

從圖5中可以清楚地看到,這三個數(shù)據(jù)集具有完全不同的標簽分布?,F(xiàn)在讓我們使用Ganin 等人于 2015 年提出的DANN 通過在訓練中學習域不變表征來對目標域進行分類,從而最小化源域的誤差。

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!

圖 6:MNIST、USPS 和 SVHN 數(shù)據(jù)集上的數(shù)字分類任務。水平實現(xiàn)代表不使用自適應時目標域的測試準確率。綠色的實線是使用 DANN 領域自適應后的目標域測試準確率。我們還繪制了 DANN 自適應的結果的最小二成擬合(黑色虛線),用來強調(diào)負的斜率。

我們在圖 6 中為 DANN 繪制了四個自適應的軌跡。通過四個自適應任務,我們可以觀察到以下模式:盡管源域中訓練的準確率一直在增加,測試域的準確率在前10輪迭代中迅速增長,然后逐漸從峰值下降。這些相變可以通過自適應曲線的最小二乘擬合的負斜率(圖6中的虛線)來驗證。上述實驗結果與我們的理論發(fā)現(xiàn)是一致的: 當標簽分布不同時,對源任務的過度訓練確實會對目標域的泛化造成負作用。

未來的工作

請注意,上述反例中的失敗模式是由于自適應過程中標注函數(shù)之間距離的增加引起的。為了減少標注函數(shù)之間的偏移,確定特征變換函數(shù)應該具有哪些屬性是今后的一個有趣的工作方向。當然,如果沒有對底層的源域/目標域的合理假設,實現(xiàn)領域自適應是不可能的。建立一些符合實際情況的假設是一個不錯的選擇,在這些假設下,我們可以開發(fā)出有效的自適應算法,同時對齊邊緣分布和標注函數(shù)。

viahttps://blog.ml.cmu.edu/2019/09/13/on-learning-invariant-representations-for-domain-adaptation/

原文作者為Han Zhao,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)) AI 科技評論編譯。雷鋒網(wǎng)

CMU 領域自適應最新進展:對齊數(shù)據(jù)分布、誤差還不夠,標注函數(shù)也需對齊!

推薦內(nèi)容