亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁(yè) > 體育新聞 >

AlphaGo技術(shù)啟發(fā)腦科學(xué) DeepMind成果登上Nature

時(shí)間:2020-03-03 13:58來(lái)源:網(wǎng)絡(luò)整理 瀏覽:
DeepMind成果登上Nature賴可乾明十三發(fā)自凹非寺量子位報(bào)道|公眾號(hào)QbitAI人工智能,往往從人類思維方式中獲取
DeepMind成果登上Nature DeepMind成果登上Nature

賴可 乾明 十三 發(fā)自 凹非寺

量子位 報(bào)道 | 公眾號(hào) QbitAI

人工智能,往往從人類思維方式中獲取靈感。

但現(xiàn)在反過(guò)來(lái)了!

人工智能的進(jìn)步,已經(jīng)能夠?yàn)榻颐卮竽X如何學(xué)習(xí)提供啟發(fā)。

這是來(lái)自DeepMind的最新研究,剛登上Nature,研究證明:

分布式強(qiáng)化學(xué)習(xí),也就是AlphaGo的頂級(jí)版Alpha Zero和AlphaStar背后的核心技術(shù),為大腦中的獎(jiǎng)賞通路如何工作提供了新解釋。

如此結(jié)論,也讓DeepMind創(chuàng)始人哈薩比斯非常激動(dòng),發(fā)表推文表示:

我們?cè)跈C(jī)器學(xué)習(xí)方面的研究,能夠重新認(rèn)識(shí)大腦的工作機(jī)制,這是非常令人興奮的!

他當(dāng)然有理由興奮。

從長(zhǎng)遠(yuǎn)來(lái)看,這也證明了DeepMind提出的算法與大腦運(yùn)作邏輯相似,也就意味著能夠更好地拓展到解決復(fù)雜的現(xiàn)實(shí)世界問(wèn)題上。

而且一直以來(lái),哈薩比斯的目標(biāo)就是打造通用人工智能。

Alpha系列背后利器:分布式強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí),就是讓智能體在一個(gè)未知的環(huán)境中,采取一些行動(dòng),然后收獲回報(bào),并進(jìn)入下一個(gè)狀態(tài)。

而時(shí)間差分學(xué)習(xí)(temporal difference learning,TD)算法,可以說(shuō)是強(qiáng)化學(xué)習(xí)的中心。

它是一種學(xué)習(xí)如何根據(jù)給定狀態(tài)的未來(lái)值,來(lái)預(yù)測(cè)價(jià)值的方法。

算法會(huì)將新的預(yù)測(cè)和預(yù)期進(jìn)行比較。

如果發(fā)現(xiàn)兩者不同,這個(gè)“時(shí)間差分”就會(huì)把舊的預(yù)測(cè)調(diào)整到新的預(yù)測(cè)中,讓結(jié)果變得更加準(zhǔn)確。

△當(dāng)未來(lái)不確定時(shí),未來(lái)的回報(bào)可以表示為一種概率分布。有些可能是好的結(jié)果(藍(lán)綠色),有些結(jié)果可能是不好的(紅色)。

一個(gè)特定的行為所帶來(lái)的未來(lái)獎(jiǎng)勵(lì)數(shù)量,通常是未知且隨機(jī)。在這種情況下,標(biāo)準(zhǔn)的TD算法學(xué)習(xí)去預(yù)測(cè)的未來(lái)回報(bào)是平均的。

而分布式強(qiáng)化學(xué)習(xí)則是更復(fù)雜的預(yù)測(cè)方式,會(huì)預(yù)測(cè)所有未來(lái)獎(jiǎng)勵(lì)的概率分布。

那人類大腦的多巴胺獎(jiǎng)賞機(jī)制是怎么樣的呢?

然后研究的雛形就在DeepMind研究人員的腦海中生根了。

不研究不知道,一研究真的“嚇一跳”。

過(guò)去,人們認(rèn)為多巴胺神經(jīng)元的反應(yīng),應(yīng)該都是一樣的。

有點(diǎn)像在一個(gè)詩(shī)唱班,每個(gè)人唱的都是一模一樣的音符。

但研究小組發(fā)現(xiàn),單個(gè)多巴胺的神經(jīng)元似乎有所不同——所呈現(xiàn)的積極性是多樣的。

于是研究人員訓(xùn)練小鼠執(zhí)行一項(xiàng)任務(wù),并給予它們大小各異且不可預(yù)測(cè)的獎(jiǎng)勵(lì)。

他們從小鼠腹側(cè)被蓋區(qū)域(Ventral tegmental area,控制多巴胺向邊緣和皮質(zhì)區(qū)域釋放的中腦結(jié)構(gòu))中發(fā)現(xiàn)了“分布式強(qiáng)化學(xué)習(xí)”的證據(jù)。

這些證據(jù)表明,獎(jiǎng)勵(lì)預(yù)測(cè)是同時(shí)并行地由多個(gè)未來(lái)結(jié)果表示的。

這和分布式機(jī)器學(xué)習(xí)的原理也太像了吧?

解釋大腦多巴胺系統(tǒng)

實(shí)驗(yàn)運(yùn)用了光識(shí)別技術(shù)來(lái)記錄小鼠大腦中腹側(cè)被蓋區(qū)中單個(gè)多巴胺神經(jīng)元的反應(yīng)。

腹側(cè)被蓋區(qū)富含多巴胺與5-羥色胺神經(jīng),是兩條主要的多巴胺神經(jīng)通道的一部分

基于強(qiáng)化學(xué)習(xí)理論,研究假設(shè)大腦存在多巴胺的獎(jiǎng)賞預(yù)測(cè)誤差(RPE)。

一個(gè)信號(hào)會(huì)引起一個(gè)獎(jiǎng)賞預(yù)測(cè),當(dāng)獎(jiǎng)賞預(yù)測(cè)低于分布的均值時(shí),會(huì)引起負(fù)的RPE,而較大的獎(jiǎng)勵(lì)會(huì)引起正的RPE。

在一般強(qiáng)化學(xué)習(xí)中,獲得的獎(jiǎng)勵(lì)幅度低于平均值分布將引起消極(負(fù))的RPE,而較大的幅度將引出積極(正)的RPE(如上圖a左所示)。

在分布式強(qiáng)化學(xué)習(xí)中,每個(gè)通道都攜帶不同的RPE價(jià)值預(yù)測(cè),不同通道的積極程度不同。

這些值的預(yù)測(cè)反過(guò)來(lái)又為不同的RPE信號(hào)提供了參考點(diǎn)。在最后的結(jié)果上,一個(gè)單一的獎(jiǎng)勵(lì)結(jié)果可以同時(shí)激發(fā)積極(正)的RPE和消極的RPE(如上圖a右所示)。

記錄結(jié)果顯示,小鼠大腦的多巴胺神經(jīng)元反轉(zhuǎn)點(diǎn)根據(jù)積極程度的不同而不同。符合分布式強(qiáng)化學(xué)習(xí)的特點(diǎn)(如上圖b所示)。

為了驗(yàn)證神經(jīng)元反應(yīng)多樣性不是隨機(jī)的,研究者做了進(jìn)一步驗(yàn)證。

將隨機(jī)地將數(shù)據(jù)分成兩半,并在每一半中獨(dú)立地估計(jì)反轉(zhuǎn)點(diǎn)。結(jié)果發(fā)現(xiàn)其中一半的反轉(zhuǎn)點(diǎn)與另一半的反轉(zhuǎn)點(diǎn)是相關(guān)的。

為了進(jìn)一步了神經(jīng)元對(duì)獎(jiǎng)賞預(yù)測(cè)的處理方式。研究者給神經(jīng)元進(jìn)行了三種不同的信號(hào)刺激。

分別是10%、50%、90%的獎(jiǎng)賞概率,并同時(shí)記錄了四個(gè)多巴胺神經(jīng)元的反應(yīng)。

每條軌跡都是對(duì)三種線索之一的平均反應(yīng),零時(shí)是開(kāi)始時(shí)間。

結(jié)果顯示,一些細(xì)胞將50%的線索編碼為90%的線索,而另一些細(xì)胞同時(shí)將10%的線索編碼為10%的線索。

最后 ,研究者還進(jìn)行了驗(yàn)證,試圖從多巴胺細(xì)胞的放電率來(lái)解碼獎(jiǎng)賞分布。

通過(guò)進(jìn)行推理,成功地重建了一個(gè)與老鼠參與的任務(wù)中獎(jiǎng)勵(lì)的實(shí)際分配相匹配的分配。

初步驗(yàn)證了小鼠的大腦分布式強(qiáng)化學(xué)習(xí)機(jī)制,給研究員帶來(lái)了更多的思考:

是什么電路或細(xì)胞級(jí)機(jī)制導(dǎo)致了不對(duì)稱的多樣性?

不同的RPE通道是如何與相應(yīng)的獎(jiǎng)勵(lì)預(yù)測(cè)在解剖學(xué)上結(jié)合?

這些大腦的謎團(tuán)都有待于進(jìn)一步了解。

而且這一研究結(jié)果也驗(yàn)證了之前多巴胺分布對(duì)成癮和抑郁等精神障礙機(jī)制影響的假說(shuō)。

有理論認(rèn)為,抑郁癥和雙相情感障礙都可能涉及關(guān)于未來(lái)的負(fù)面情緒。

這些情緒與未來(lái)的負(fù)面預(yù)測(cè)偏差有關(guān),偏差則可能來(lái)自于RPE coding28、29中的不對(duì)稱。

但更多的意義,則是對(duì)當(dāng)前機(jī)器學(xué)習(xí)技術(shù)發(fā)展的激勵(lì)。

DeepMind 神經(jīng)科學(xué)研究負(fù)責(zé)人Matt Botvinick說(shuō):“當(dāng)我們能夠證明大腦使用的算法,與我們?cè)谌斯ぶ悄芄ぷ髦惺褂玫乃惴愃茣r(shí),這將增強(qiáng)我們的信心?!?/p>

跨學(xué)科研究團(tuán)隊(duì)的成果

這篇論文中一共有3位共同一作,也是跨學(xué)科團(tuán)隊(duì)的研究成果。

排在第一位的是Will Dabney,DeepMind的高級(jí)研究科學(xué)家。

△Will Dabney

本科畢業(yè)于美國(guó)奧克拉荷馬大學(xué),在馬薩諸塞大學(xué)阿默斯特分校獲得了博士學(xué)位。

在加入DeepMind之前,曾在亞馬遜的Echo團(tuán)隊(duì)工作過(guò)。

2016年加入DeepMind。

第二位共同一作是Zeb Kurth-Nelson,他是DeepMind的研究科學(xué)家。

△Zeb Kurth-Nelson

博士畢業(yè)于明尼蘇達(dá)大學(xué),2016年加入DeepMind。

第三位共同一作是Naoshige Uchida,來(lái)自于哈佛大學(xué),是分子和細(xì)胞生物學(xué)教授。

△Naoshige Uchida

此外,DeepMind創(chuàng)始人哈薩比斯也在作者之列。

他一直都希望,能夠通過(guò)人工智能的突破也將幫助我們掌握基礎(chǔ)的科學(xué)問(wèn)題。

而現(xiàn)在的研究發(fā)現(xiàn),他們致力的研究方向,竟然能夠給人們研究大腦帶來(lái)啟發(fā),無(wú)疑堅(jiān)定了他們的研究信心。

One More Thing

就在這篇論文登上Nature的同時(shí),DeepMind還有另外一篇研究出現(xiàn)了同一期刊上。

它就是DeepMind在2018年12月問(wèn)世的AlphaFold,一個(gè)用人工智能加速科學(xué)發(fā)現(xiàn)的系統(tǒng)。

僅僅基于蛋白質(zhì)的基因序列,就能預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu),而且結(jié)果比以前的任何模型都要精確。

DeepMind稱,這是自己在科學(xué)發(fā)現(xiàn)領(lǐng)域的第一個(gè)重要里程碑,在生物學(xué)的核心挑戰(zhàn)之一上取得了重大進(jìn)展。

截止到現(xiàn)在,DeepMind提出Alpha系列,從AlphaGo,到AlphaZero,再到AlphaStar,以及現(xiàn)在的AlphaFold,一門(mén)4子,全上了Nature。

唉…頂級(jí)研究機(jī)構(gòu)的快樂(lè),就是這么樸實(shí)無(wú)華,且枯燥。

推薦內(nèi)容