機(jī)器之心報(bào)道
魔王、Jamin、杜偉
反向傳播可以解釋大腦學(xué)習(xí)嗎?近日 Hinton 等人的研究認(rèn)為,盡管大腦可能未實(shí)現(xiàn)字面形式的反向傳播,但是反向傳播的部分特征與理解大腦中的學(xué)習(xí)具備很強(qiáng)的關(guān)聯(lián)性。該研究將之前的相關(guān)研究置于「NGRAD」框架下,NGRAD 算法利用活動狀態(tài)的差異驅(qū)動突觸更新,這與反向傳播類似。
加拿大 CIFAR 人工智能主席、麥吉爾大學(xué)生物工程系教授 Danilo Bzdok 轉(zhuǎn)發(fā)了該研究。
在學(xué)習(xí)過程中,大腦會調(diào)整突觸以優(yōu)化行為。在皮層中,突觸嵌入在多層網(wǎng)絡(luò)中,這導(dǎo)致我們難以確定單個(gè)突觸的調(diào)整對整個(gè)系統(tǒng)行為的影響。而反向傳播算法在深度神經(jīng)網(wǎng)絡(luò)中解決了上述問題,不過長期以來人們一直認(rèn)為反向傳播在生物層面上存在問題。
盡管如此,神經(jīng)科學(xué)的最新發(fā)展和神經(jīng)網(wǎng)絡(luò)的成功激活了人們對反向傳播能否幫助進(jìn)一步了解皮層學(xué)習(xí)的興趣。反向傳播算法使用反向連接(feedback connection)傳遞誤差信號,來計(jì)算突觸更新,從而實(shí)現(xiàn)快速學(xué)習(xí)。盡管反向連接在皮層中無處不在,但我們很難觀察到它們是如何傳遞反向傳播所需誤差信號的。
近日,來自 DeepMind、牛津大學(xué)和谷歌大腦的 Timothy P. Lillicrap、Adam Santoro、Geoffrey Hinton 等人在 Nature 子刊《Nature Reviews Neuroscience》發(fā)表文章。該研究以過去和近期的研究發(fā)展為基礎(chǔ),認(rèn)為反向連接可能會引發(fā)神經(jīng)活動,而其中的差異可用于局部逼近誤差信號,從而促進(jìn)大腦深層網(wǎng)絡(luò)中的有效學(xué)習(xí)。
大腦對反向傳播算法的近似。
論文地址:https://www.nature.com/articles/s41583-020-0277-3
引言
大腦通過調(diào)整神經(jīng)元之間的突觸連接來進(jìn)行學(xué)習(xí)。盡管突觸生理學(xué)可以幫助解釋單個(gè)突觸調(diào)整背后的規(guī)則和過程,但這并不能解釋突觸調(diào)整是如何協(xié)調(diào)進(jìn)而實(shí)現(xiàn)網(wǎng)絡(luò)目標(biāo)的。
學(xué)習(xí)不能只是對局部突觸特定事件的盲目累積,也不能不考慮下游行為后果。因此,想要了解大腦中的學(xué)習(xí)過程,就必須揭示在整個(gè)網(wǎng)絡(luò)中協(xié)調(diào)可塑性的原則。
在機(jī)器學(xué)習(xí)領(lǐng)域中,研究人員探索協(xié)調(diào)突觸更新的方法,以提高神經(jīng)網(wǎng)絡(luò)的性能,同時(shí)不受生物現(xiàn)實(shí)情況的限制。
他們首先定義了神經(jīng)網(wǎng)絡(luò)的整體架構(gòu),包括大量神經(jīng)元及其連接方式。例如,研究人員經(jīng)常使用包含多層神經(jīng)元的深層網(wǎng)絡(luò),因?yàn)檠芯孔C明這些架構(gòu)對于多項(xiàng)任務(wù)都非常有效。
接下來,定義一個(gè)誤差函數(shù),用于量化當(dāng)前網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)的程度,進(jìn)而搜索學(xué)習(xí)算法來計(jì)算那些可以減少誤差的突觸變化(如下圖 1)。
圖 1:多種學(xué)習(xí)算法圖示。a)從左到右:神經(jīng)網(wǎng)絡(luò)通過一系列簡單的計(jì)算單元來計(jì)算輸出。b)在規(guī)定突觸變化特異性的譜系中,反向傳播和擾動算法的位置。c)該譜系上的算法以不同的速度進(jìn)行學(xué)習(xí)。
在機(jī)器學(xué)習(xí)中,誤差反向傳播(backprop)是深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中最常用的算法,也是這些神經(jīng)網(wǎng)絡(luò)中最成功的學(xué)習(xí)步驟。
反向傳播算法描述見下圖:
反向傳播算法的核心是對整個(gè)網(wǎng)絡(luò)所有可能的路徑重復(fù)使用鏈?zhǔn)椒▌t。反向傳播算法真正強(qiáng)大的地方在于它是動態(tài)規(guī)劃的,我們可以重復(fù)使用中間結(jié)果計(jì)算梯度下降。因?yàn)樗峭ㄟ^神經(jīng)網(wǎng)絡(luò)由后向前傳播誤差,并優(yōu)化每一個(gè)神經(jīng)節(jié)點(diǎn)之間的權(quán)重,所以這種算法就稱之為反向傳播算法(backpropagation algorithm)。
經(jīng)過反向傳播訓(xùn)練的網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)近期成功案例的核心,包括最領(lǐng)先的語音識別、圖像識別以及語言翻譯。反向傳播還支撐了無監(jiān)督學(xué)習(xí)方面的最新進(jìn)展,例如圖像和語音生成、語言建模和其他相關(guān)的預(yù)測任務(wù)。此外,反向傳播和強(qiáng)化學(xué)習(xí)的組合在解決控制問題方面也取得了重大進(jìn)展,例如玩轉(zhuǎn) Atari 游戲,在圍棋和撲克游戲中擊敗人類頂尖的專業(yè)選手。
反向傳播通過反向連接發(fā)送的誤差信號來調(diào)整突觸,該經(jīng)典方法已在監(jiān)督學(xué)習(xí)設(shè)置中有詳細(xì)描述。
然而,大腦似乎將反向連接用于不同目的,而且主要以無監(jiān)督的方式進(jìn)行學(xué)習(xí),為原始感官輸入中的隱式表征構(gòu)建顯式結(jié)構(gòu)從而建立表征。那么,我們很自然地就會想到這個(gè)問題:反向傳播算法是否可以幫助我們了解更多有關(guān)大腦學(xué)習(xí)的信息?
該研究認(rèn)為,盡管存在明顯的差異,但大腦仍有能力實(shí)現(xiàn)反向傳播的核心原則。其主要思想是,大腦可以通過使用反向連接來引發(fā)神經(jīng)元活動從而計(jì)算有效的突觸更新,而這些神經(jīng)元活動將局部計(jì)算出的差異編碼成類似于反向傳播的誤差信號。
該研究將一組看似完全不同的學(xué)習(xí)算法放入該框架中——neural gradient representation by activity differences(NGRAD)。
NGRAD 框架表明,在避開反向傳播許多有問題的實(shí)現(xiàn)要求后,反向傳播核心原則的實(shí)現(xiàn)是可能的。這些考慮因素可能與任何同時(shí)包含前向和反向連接的腦回路有關(guān)。盡管如此,該研究團(tuán)隊(duì)仍然關(guān)注大腦皮層,皮層是由其多層結(jié)構(gòu)和分層組織所定義的,因此長期以來被視為具與深度網(wǎng)絡(luò)具備很多相關(guān)的架構(gòu)特征。
大腦中是否存在反向傳播?
目前沒有直接證據(jù)表明,大腦使用類似反向傳播的算法進(jìn)行學(xué)習(xí)。但是,之前的研究表明,使用反向傳播訓(xùn)練的模型可以解釋觀測到的神經(jīng)響應(yīng),如后頂葉皮層和初級運(yùn)動皮層中的神經(jīng)元響應(yīng)。此外,神經(jīng)科學(xué)領(lǐng)域?qū)σ曈X皮層進(jìn)行建模的研究提供了新的證據(jù)。
該研究表明,相比匹配靈長目動物視覺皮層腹側(cè)流中表征的其他模型,使用反向傳播訓(xùn)練得到的多層分類模型性能更好(參見下圖 2)。
未使用反向傳播訓(xùn)練的模型(如使用 Gabor filter 的生物啟發(fā)模型,或使用非反向傳播優(yōu)化的網(wǎng)絡(luò))的性能不如使用反向傳播進(jìn)行優(yōu)化的網(wǎng)絡(luò)。與使用反向傳播訓(xùn)練的模型所發(fā)現(xiàn)的表征相比,未使用反向傳播模型的表征無法很好地匹配下顳葉皮層中的表征。
圖 2:使用反向傳播訓(xùn)練的網(wǎng)絡(luò)與利用視覺皮層腹側(cè)流中神經(jīng)響應(yīng)的模型的對比。a)Cadieu 等人的研究 [58] 表明使用反向傳播訓(xùn)練的模型(藍(lán)色)比其他模型(灰色)更好地解釋下顳葉皮層(IT)中的多單元響應(yīng);b)Khaligh-Razavi 和 Kriegeskorte 的研究 [70] 表明,具備更好分類性能的模型與 IT 表征的近似度越高。
使用反向傳播訓(xùn)練的深層網(wǎng)絡(luò)除了能夠更好地匹配大腦中的表征以外,它還可以幫助解釋感知學(xué)習(xí)中感受野變化的規(guī)模和時(shí)間,以及在動物和人類的某種學(xué)習(xí)過程中觀察到的階段變換。
反向傳播自身的問題
盡管越多越多的證據(jù)表明使用反向傳播訓(xùn)練的多層網(wǎng)絡(luò)有助于解釋神經(jīng)數(shù)據(jù),但關(guān)于如何在皮層中實(shí)現(xiàn)類反向傳播的學(xué)習(xí)還有很多難題。下列公式 1 表示反向傳播中的突觸更新:
基于該公式,該研究指出了在生物回路中實(shí)現(xiàn)反向傳播的三個(gè)主要難題。
反向傳播要求前向和后向路徑具備突觸對稱性
反向傳播的樸素實(shí)現(xiàn)要求通過反向連接傳播誤差信號,而反向連接的強(qiáng)度必須與前向連接一致。從上文公式 1 中可以看到,誤差 δ_l+1 沿著后向權(quán)重 W^?_l+1 移動,該后向權(quán)重與前向權(quán)重是對稱的。
在計(jì)算機(jī)上,反向傳播算法利用一組與前向傳播所用活動變量完全不同的 error derivative 變量,向后傳播誤差信息。而將反向傳播引入大腦中后,大腦中的誤差信息可以通過不同的「誤差傳播網(wǎng)絡(luò)」(error delivery network)進(jìn)行傳播,該反向網(wǎng)絡(luò)的每一個(gè)神經(jīng)元均攜帶前向網(wǎng)絡(luò)中對應(yīng)神經(jīng)元的更新信息。
反向傳播中的誤差信號可能出現(xiàn)極值情況
在反向傳播中,通過網(wǎng)絡(luò)向后傳播用于告知更新的信息通常以 signed 誤差信號 δ 的形式進(jìn)行傳輸。在訓(xùn)練過程中,誤差信號常常發(fā)生多個(gè)數(shù)量級的變化,即梯度爆炸和梯度消失問題。
盡管有證據(jù)表明單層結(jié)構(gòu)(如小腦)中存在 signed 誤差傳播,但深層網(wǎng)絡(luò)(如大腦皮層)中 signed 誤差的反饋存在很多問題。
大腦中的反向連接改變了神經(jīng)活動
在誤差反向傳播中,反向連接發(fā)送的誤差信號不會影響前向傳播生成神經(jīng)元的活動狀態(tài)。但是通過 δ 傳播的信息僅對突觸更新造成影響。因此,大腦中反向連接的作用發(fā)生本質(zhì)變化。例如在皮層中,反向連接影響前向傳播生成的神經(jīng)活動,而這些活動用于執(zhí)行多個(gè)功能。又例如,通過反向連接執(zhí)行自上而下的控制與增益控制(gain control)有一定關(guān)聯(lián),即神經(jīng)響應(yīng)的增強(qiáng)或抑制取決于對視場中特定特征的關(guān)注。有趣的是,大腦皮層中的反向連接還可以驅(qū)動活動,而不只是調(diào)整或激活活動。
NGRAD 假設(shè)
利用神經(jīng)活動差異來編碼誤差
研究者將利用活動狀態(tài)差異來驅(qū)動突觸變化的學(xué)習(xí)機(jī)制稱為 NGRAD,而皮層利用 NGRAD 機(jī)制來執(zhí)行對梯度下降近似的想法被稱為 NGRAD 假設(shè)。該假設(shè)的主要魅力在于,它不再需要傳播兩種類型截然不同的參數(shù):活動和 error derivative。
相反,NGRAD 機(jī)制基于這樣一種 idea,即來自一個(gè)目標(biāo)、另一種形態(tài)或更大空間或時(shí)間背景的較高級活動,可以推動較低級活動得到與較高級活動或期望輸出更一致的值。然后,較低級活動中出現(xiàn)的變化可以僅使用局部可用信號來計(jì)算反向傳播的權(quán)重更新。因此,其核心理念是自上而下驅(qū)動(top-down-driven)的活動可以在層間不出現(xiàn)明顯誤差信息的情況下驅(qū)動學(xué)習(xí)。
目標(biāo)傳播
目標(biāo)傳播是深度學(xué)習(xí)中使用一系列自編碼器的基礎(chǔ)理念,下圖 3a 展示了目標(biāo)傳播的流程圖:
圖 3:目標(biāo)傳播算法。a)在每一層使用完美反函數(shù) g_l=f_l^-1(.) 的目標(biāo)傳播原理圖;b)差異目標(biāo)傳播有助于糾正反向連接或許無法實(shí)現(xiàn)完美反函數(shù)的事實(shí);c)單層差異目標(biāo)傳播原理圖。前向突觸權(quán)重的更新旨在促使 forward-pass 隱藏活動更接近修正后的隱藏目標(biāo)。
差異目標(biāo)傳播
上文中描述的目標(biāo)傳播使用完美的自編碼器將目標(biāo)傳達(dá)至較早出現(xiàn)的層。這個(gè)約束是不切實(shí)際的,但可以通過訓(xùn)練后向權(quán)重來修復(fù)。在前向傳遞過程中,研究者力圖基于后續(xù)層中的活動來重建神經(jīng)活動:? h= g_l+1(h_l+1)(如圖 3b 中淺紫色箭頭所示)
此學(xué)習(xí)過程稱為差異目標(biāo)傳播(difference target propagation,DTP),并在圖 3b 和 c 中與逐層權(quán)重更新一起顯示。
實(shí)現(xiàn)
大腦如何近似反向傳播,現(xiàn)有的 NGRAD 或許能提供高級見解,但是關(guān)于如何在神經(jīng)組織中實(shí)現(xiàn)這種算法仍有許多疑問。
為了在神經(jīng)回路中發(fā)揮作用,NGRAD 必須具備以下能力:協(xié)調(diào)前向和反向路徑之間的交互、計(jì)算神經(jīng)活動模式之間的差異以及利用這一差異進(jìn)行適當(dāng)?shù)耐挥|更新。
當(dāng)前,尚不清楚生物回路如何支持這些操作,但最近的實(shí)證研究提出了針對這些實(shí)現(xiàn)所需的一組潛在解決方案(下圖 4)。
圖 4:大腦如何近似反向傳播算法,近期的實(shí)證研究提供了新思路。