亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁 > 科技新聞 >

深度學(xué)習(xí)之后,我們或許可以從進(jìn)化論中找到新

時間:2019-11-12 18:31來源:網(wǎng)絡(luò)整理 瀏覽:
圖 1:開放的環(huán)境與物種間的競爭是達(dá)爾文進(jìn)化論中實現(xiàn)自然進(jìn)化的兩個重要的驅(qū)動力,而這兩個驅(qū)動力在最近的 AI 模型演進(jìn)方法的研究工作中卻沒有

深度學(xué)習(xí)之后,我們或許可以從進(jìn)化論中找到新的突破口

圖 1:開放的環(huán)境與物種間的競爭是達(dá)爾文進(jìn)化論中實現(xiàn)自然進(jìn)化的兩個重要的驅(qū)動力,而這兩個驅(qū)動力在最近的 AI 模型演進(jìn)方法的研究工作中卻沒有體現(xiàn)出來,在同一個世代中,更快的黑斑羚和更快的獵豹比它們更慢的同類更容易生存下來——由此進(jìn)化出更快的黑斑羚和獵豹品種?;诨蚝妥匀贿x擇理論的這些原理可以幫助AI獲得大的進(jìn)步么?

目錄

一、簡介

二、基因和自然選擇

三、進(jìn)化計算

  • 進(jìn)化策略

  • 直接編碼的基因算法

  • 間接編碼的基因算法

  • 無限開放式進(jìn)化(這是最有趣的部分)

  • 本文未提及的其他方面

四、結(jié)論

五、參考文獻(xiàn)

一、簡介

大概自 2012 年以后 [1],人工智能行業(yè)的爆發(fā)式增長幾乎都是反向傳播訓(xùn)練的(深度學(xué)習(xí))神經(jīng)網(wǎng)絡(luò)模型所帶來的。包括用于圖形分類、自動語音識別、語言翻譯、機(jī)器人以及能玩單人或多人游戲的自主智能體等領(lǐng)域的模型。

然而最近,研究者開始應(yīng)用基于生物學(xué)進(jìn)化機(jī)制的方法來構(gòu)建模型。這種思路在深度學(xué)習(xí)時代之前就有了,但直到最近才發(fā)展到足以和反向傳播訓(xùn)練的深度學(xué)習(xí)模型媲美的態(tài)勢。

在這篇博客里,我們會聊到一些進(jìn)化方法,對比它們與生物進(jìn)化和有機(jī)發(fā)育的異同,并推斷出他們最終將如何以甚至比傳統(tǒng)深度學(xué)習(xí)模型更強(qiáng)大和更高效的方式推動 AI 模型的發(fā)展。

二、基因和自然選擇

簡單來說,達(dá)爾文理論認(rèn)為,進(jìn)化是機(jī)體特性經(jīng)自然選擇強(qiáng)化所發(fā)生的微小變化的結(jié)果。具有優(yōu)勢特性的有機(jī)體更容易繁衍下來,這樣就淘汰了那些具有相對劣勢特性的有機(jī)體。

達(dá)爾文當(dāng)時并不知道這些特性是如何由父母輩遺傳到下一代的(如果知道了這一點,他的發(fā)現(xiàn)就更加了不起),但我們現(xiàn)在知道有機(jī)體的基因型,以及它生存發(fā)展的外界環(huán)境共同決定了它的表現(xiàn)型(物理和行為特性)。一般來說,后代出現(xiàn)了新基因型是因為遺傳自父母的 DNA 發(fā)生了隨機(jī)突變,或是多個來源的基因混合(有性生殖),或是兩者兼而有之。

三、進(jìn)化計算

受進(jìn)化論的啟發(fā),科學(xué)家們對生物進(jìn)化的理解遷移到了計算模型的優(yōu)化上。其中最簡單的方式是進(jìn)化策略(evolution strategies),更大、更多樣化的復(fù)雜模型則采用基因算法(genetic algorithms)。這兩種方法都是通過優(yōu)化適應(yīng)度函數(shù)來顯性地評估人工有機(jī)體在特定任務(wù)上的表現(xiàn)。另一種可替代的方法是,摒棄適應(yīng)度函數(shù),而選擇利用豐富、開放的環(huán)境,讓超過一個種類的多個智能體在該環(huán)境中為生存和繁衍而獨自競爭,利用自然選擇挑選出最終存活并繁衍下來的那個。

1、進(jìn)化策略

進(jìn)化策略是這樣一類優(yōu)化算法:在每一次迭代(代際傳遞)中,參數(shù)向量(基因型)都會受到擾動(突變),變化后的適應(yīng)度函數(shù)會被再次評估打分 [2,3]。最高得分的參數(shù)向量會參與形成下一代的參數(shù)向量,不斷迭代直到目標(biāo)方程已被充分優(yōu)化。

在協(xié)方差矩陣適應(yīng)性進(jìn)化策略中(Coveriance-Matrix Adaptation Evolution Strategy,CMAES),模型參數(shù)的分布會存儲在協(xié)方差矩陣中。每一代中,每個樣本的模型參數(shù)都取值于這個分布。協(xié)方差矩陣會根據(jù)獲得最高適應(yīng)度得分的樣本參數(shù)更新矩陣。大家如果想看到這一過程的 2D 可視化效果,可參考 Otoro 的博客:http://blog.otoro.net/2017/10/29/visual-evolution-strategies/

盡管這一方法的原理很簡單,它與相對現(xiàn)代、大規(guī)模,經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的深度學(xué)習(xí)模型相比仍十分有競爭力,OpenAI [4] 就體現(xiàn)了這一點,并且相關(guān)的文章(https://openai.com/blog/evolution-strategies/)中也對此有論述。

與強(qiáng)化學(xué)習(xí)方法相比,進(jìn)化策略有一些非常好的屬性,它在多核CPU 上更容易實現(xiàn)并擴(kuò)展,還能快速地完成模型訓(xùn)練,并且這種方法沒有借助梯度(使用梯度方法較難在離散輸出結(jié)果上訓(xùn)練)。

深度學(xué)習(xí)之后,我們或許可以從進(jìn)化論中找到新的突破口

圖 2:上圖演示的是OpenAI應(yīng)用進(jìn)化策略訓(xùn)練的3D小人學(xué)習(xí)行走的情況(視頻來源于博客blog post)。優(yōu)化后的訓(xùn)練結(jié)果,也就是優(yōu)化收斂到的最小值呈現(xiàn)了較大的多樣性。在本文后續(xù)會介紹到,訓(xùn)練得到的智能體的移動方式看上去都不太自然,它們無法像自然中的生物一樣,在出生后不久就能習(xí)得諸如行走、奔跑之類的運動能力。

2、直接編碼的基因算法

對于基因算法(Genetic Algorithm)這個術(shù)語,不同的研究者和實踐者可以有很多不同的定義。我們這里采用最常見的一種是,在每代中,算法: 1)從一個規(guī)模 P 的種群中,基于適應(yīng)性函數(shù)選出表現(xiàn)最好的 N 個智能體(N<P),2)讓篩選出來的這些智能體通過自我繁殖(無性)或配對繁殖(有性)產(chǎn)生新一代智能體, 3)在繁殖過程中,后代的基因會因突變、交叉(父母輩基因的混合)或是兩者的共同作用而產(chǎn)生變化。

進(jìn)化策略與基因算法的另一個區(qū)別是在進(jìn)化策略中,種群的基因組是用概率分布表示的。這也就意味著在指定某代的某個種群中的所有成員都落在參數(shù)(基因組)空間中的同一個類中,相反,在基因算法中就沒有這種限制。而實際情況是,單個種群往往只進(jìn)行其優(yōu)勢特性的進(jìn)化,除非環(huán)境或者是有其他算法組分來推動種群的多樣性(這種情況下,多個「種族」就會產(chǎn)生)。

而在基因算法的諸多應(yīng)用中,基因型-表現(xiàn)型是直接對應(yīng)的,也就是說每個基因都直接由智能體的模型參數(shù)進(jìn)行編碼。實際應(yīng)用中,基因和它的外在表現(xiàn)型也是直接對應(yīng)的,比如,深度學(xué)習(xí)模型中用數(shù)值表示權(quán)重或偏置項。因此,進(jìn)化策略訓(xùn)練的模型可以直接編碼。

相反,生物學(xué)是基于間接編碼的。舉例來說,由 DNA 組成的基因并不對大腦中神經(jīng)元間的突觸強(qiáng)度進(jìn)行編碼,而是對那些共同指導(dǎo)大腦(和它的突觸)發(fā)育的蛋白質(zhì)進(jìn)行編碼,并根據(jù)有機(jī)體的經(jīng)驗,學(xué)習(xí)選擇強(qiáng)化或是弱化哪些突觸的機(jī)制。我們會在后續(xù)的文章中介紹一些 AI 間接編碼的例子。

2017 年,Ken Stanley 和 Jeff Clune 兩位是長期推崇使用「神經(jīng)進(jìn)化主義」方法進(jìn)化神經(jīng)網(wǎng)絡(luò)參數(shù)的倡議者,他們稱直接編碼的基因算法在很多 Atari 游戲中都有良好的表現(xiàn),包括那些強(qiáng)化學(xué)習(xí)(Q-learning 或策略梯度)方法也難以玩好的游戲 [5]。他們的團(tuán)隊在 Uber AI 實驗室使用了一個簡單的基因算法,這個算法中,通過在母網(wǎng)絡(luò)參數(shù)中加入高斯噪音,就可將基因突變引入自我繁殖后代進(jìn)程中。

深度學(xué)習(xí)之后,我們或許可以從進(jìn)化論中找到新的突破口

圖 3:除了讓智能體通過玩Atari游戲進(jìn)行進(jìn)化,Uber AI團(tuán)隊還讓智能體試著完成相對初級的迷宮游戲,只不過是讓一個智能體玩兩個有不同陷阱的迷宮。應(yīng)用進(jìn)化策略ES訓(xùn)練的智能體被困在陷阱1里且沒有繼續(xù)進(jìn)化。經(jīng)過基因算法GA訓(xùn)練的智能體表現(xiàn)更好一些,但還是被困在了陷阱 2 里。當(dāng)同時根據(jù)適應(yīng)性得分和智能體所表現(xiàn)出的探索性行為(GA-NS)挑選可繼續(xù)繁殖的智能體時,智能體很快進(jìn)化出了解謎的能力。而應(yīng)用強(qiáng)化學(xué)習(xí)方法(A2C和DQN)訓(xùn)練的智能體就沒有習(xí)得解謎的能力。

Uber 團(tuán)隊還檢驗了獎勵智能體(允許他們繁殖)的探索行為(Novel Behaviours)產(chǎn)生的效果。他們稱,盡管智能體在傳統(tǒng)適應(yīng)性函數(shù)中都得分較低,但這個方法對整個種群的代際傳遞表現(xiàn)還是有幫助的。給行為的新穎度賦分的基因算法是一種質(zhì)量多樣性算法(Quality-Diveristy Algorithm)[6],該算法還是一個活躍的研究領(lǐng)域,它的理念是維持種群內(nèi)行為的多樣性,為新的、更復(fù)雜行為的出現(xiàn)提供了一個培養(yǎng)池,這有益于后代有機(jī)體的發(fā)展,盡管復(fù)雜行為在形成之前還會有更多得分很低甚至得負(fù)分的簡單行為出現(xiàn)。(注意:這很大程度上是一種啟發(fā)式策略,因為在代際傳遞中,自然力將如何推動這些保留下來的「無價值」行為表現(xiàn)型進(jìn)行進(jìn)化,還尚未明確。)

總之,Uber 團(tuán)隊使用了一種充滿創(chuàng)造力的高效方法,來保存數(shù)以千計的智能體涵蓋的大規(guī)模基因型(每個智能體有幾百萬個神經(jīng)網(wǎng)絡(luò)參數(shù))。換言之,他們留存了這些創(chuàng)造了初代智能體和各種突變集的種子記錄。因此,單個智能體就可以用一個種子向量實現(xiàn)再生,智能體也可以這種形式作為整體被保存下來,而不再直接以模型參數(shù)的形式儲存。

3、間接編碼的基因算法

一般來說,間接編碼模型的基因算法在應(yīng)用上還不如直接編碼模型成熟(尤其在解決現(xiàn)代大規(guī)模的問題上)。然而間接編碼模型在未來或許會被證明是一種非常有力的方法,因為它具有對復(fù)雜、繁瑣模型編碼的潛力。舉例來說,有機(jī)體內(nèi)的某個基因組一般是確定的,但基因的蛋白質(zhì)產(chǎn)物可以在一段時間和空間(有機(jī)體內(nèi))中以組合形式進(jìn)行交互,這就允許了無限種可能性的發(fā)生。下面我們重點說兩個間接編碼的例子。

HyperNEAT

之間談到過的進(jìn)化計算方法有一個固定大小的基因組,也就是說是一個有著固定架構(gòu)的神經(jīng)網(wǎng)絡(luò)?;驔Q定了這個固定架構(gòu)的參數(shù)值,但并沒有規(guī)定其他的方面,因此該基因算法并沒有規(guī)定神經(jīng)網(wǎng)絡(luò)長大、縮小或是調(diào)整架構(gòu)的途徑。2002 年,Stanley 和 Miikkulainen 引入了增強(qiáng)拓?fù)涞纳窠?jīng)進(jìn)化方法(NeuroEvolution of Augmenting Topologies,NEAT)[7],NEAT 定義了基因與神經(jīng)網(wǎng)絡(luò)中的連接的映射關(guān)系,并支持通過加入定義新連接和節(jié)點的「新基因」來實現(xiàn)神經(jīng)網(wǎng)絡(luò)的進(jìn)化。

深度學(xué)習(xí)之后,我們或許可以從進(jìn)化論中找到新的突破口

圖 4:除了定義網(wǎng)絡(luò)權(quán)重和偏置項值,NEAT 還定義了基因與網(wǎng)絡(luò)架構(gòu)的映射規(guī)則?;蛩惴ㄖ?,網(wǎng)絡(luò)可以通過添加連接和節(jié)點發(fā)展。

然而,NEAT 是一種直接編碼模型,每個基因定義兩節(jié)點之間的連接權(quán)重。一些基因可能會表現(xiàn)出「殘疾」的情況,也就是轉(zhuǎn)碼后的權(quán)重值為 0 的情形。HyperNEAT 于是應(yīng)運而生。

在 HyperNEAT 中,NEAT 訓(xùn)練輸出的網(wǎng)絡(luò)定義了次級網(wǎng)絡(luò)的權(quán)重。這個次級網(wǎng)絡(luò)被用來運行相應(yīng)的任務(wù)。在最簡單的版本中,次級任務(wù)網(wǎng)絡(luò)中的節(jié)點是落在二維空間中的,因此每個節(jié)點都可以用(x,y)坐標(biāo)來定義。初始生成的第一個網(wǎng)絡(luò),被稱為是復(fù)合模式生成網(wǎng)絡(luò)(CPPN),需要四個輸入值來定義網(wǎng)絡(luò)中兩個節(jié)點的位置(i 和 j):(xi,yi)和(xj,yj)。CPPN輸出的則是網(wǎng)絡(luò)中任意兩點間連接的權(quán)重值。由此推之,NEAT方法可以通過進(jìn)化CPPN網(wǎng)絡(luò),指導(dǎo)任務(wù)網(wǎng)絡(luò)的“發(fā)育”。之后,適應(yīng)性函數(shù)會對該任務(wù)網(wǎng)絡(luò)而不是CPPN 進(jìn)行評估。

HyperNEAT 方法中,一個較小的 CPPN 網(wǎng)絡(luò)就可以定義一個任意密度的復(fù)雜任務(wù)網(wǎng)絡(luò)。作為 CPPN 的這種進(jìn)化性的體現(xiàn),已進(jìn)化出可以生成復(fù)雜二維圖片的模型。與進(jìn)化任務(wù)網(wǎng)絡(luò)總是落后于其他新近模型的情況不同,HyperNEAT 已被應(yīng)用在訓(xùn)練模型玩 Atari 游戲上 [9](幾乎是同一時期,DeepMind 也公布了強(qiáng)化學(xué)習(xí)方法訓(xùn)練的此類模型 [10])。

深度學(xué)習(xí)之后,我們或許可以從進(jìn)化論中找到新的突破口

圖 5:在這個 HyperNEAT 實例中,任務(wù)網(wǎng)絡(luò)(右邊)是一個雙層網(wǎng)絡(luò),這個網(wǎng)絡(luò)中的神經(jīng)元在上下兩層間建立了連接,但層內(nèi)并沒有任何連接。CPPN 網(wǎng)絡(luò)(左邊)在給定任務(wù)網(wǎng)絡(luò)節(jié)點的基礎(chǔ)上,定義了任務(wù)網(wǎng)絡(luò)連接的強(qiáng)度。CPPN 是一個由 NEAT 基因-網(wǎng)絡(luò)映射關(guān)系定義的神經(jīng)網(wǎng)絡(luò),并可以根據(jù)適應(yīng)性函數(shù)對給定 CPPN 實例進(jìn)化出的任務(wù)網(wǎng)絡(luò)的打分,應(yīng)用基因算法進(jìn)行進(jìn)化。

有機(jī)體發(fā)育

生物學(xué)上的進(jìn)化并不會直接建立成熟有機(jī)體的表現(xiàn)型。而是通過基因指導(dǎo)個體的發(fā)育間接地建立有機(jī)體的表現(xiàn)型(如胎兒期、嬰兒期、青春期)?;蛟诔赡昶谝矔饔糜趥€體對環(huán)境的反應(yīng)(比如,在有機(jī)體由低海拔地區(qū)轉(zhuǎn)移到高海拔地區(qū)時,有機(jī)體內(nèi)會產(chǎn)生更多的紅細(xì)胞)。然而,NEAT 神經(jīng)網(wǎng)絡(luò)群體在進(jìn)化時,這些網(wǎng)絡(luò)并不是由基因組「生長」出來的,相反,由于 NEAT 網(wǎng)絡(luò)是直接編碼,它的網(wǎng)絡(luò)進(jìn)化也是直接由范例定義的。

研究者如 Jordan Pollack 和他的前博士后,Sylvain Cussat-Blanc,共同發(fā)現(xiàn)了將有機(jī)體的發(fā)育階段原理吸收進(jìn)來的進(jìn)化計算方法。在 2015 年的研究中 [11],他們應(yīng)用近似于 NEAT 的基因算法進(jìn)化出了基因調(diào)控網(wǎng)絡(luò)(Gene Regulatory Networks,GRNs),GRNs 是一種通過基因(以及未組成基因的 DNA、RNA 和蛋白質(zhì))間的相互作用調(diào)控基因表達(dá)(轉(zhuǎn)譯蛋白質(zhì))的神經(jīng)網(wǎng)絡(luò)。不同的基因會在不同的發(fā)展階段,在不同的環(huán)境條件中得以觸發(fā)表達(dá)出來。因此,進(jìn)化的不是有機(jī)體本身,而是有機(jī)體發(fā)育的方式。作者在文中表明了該算法相較于標(biāo)準(zhǔn)基因算法的優(yōu)勢。然而,由于該算法計算復(fù)雜度太高,導(dǎo)致其不太可能在現(xiàn)有硬件條件下,被應(yīng)用到更大規(guī)模,更具挑戰(zhàn)性的現(xiàn)代 AI 任務(wù)中。

深度學(xué)習(xí)之后,我們或許可以從進(jìn)化論中找到新的突破口

圖 5:相比于由基因組直接編碼神經(jīng)網(wǎng)絡(luò)(比如NEAT),Pollack 和他的同事 [11] 選擇應(yīng)用可以調(diào)控神經(jīng)網(wǎng)絡(luò)發(fā)展的基因控制網(wǎng)絡(luò)來調(diào)控網(wǎng)絡(luò)的進(jìn)化,這種方法更類似于生物學(xué)上的基因指導(dǎo)人類由胚胎期發(fā)育至成人期的機(jī)制。

最近,Miller 等 [12] 構(gòu)建了神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元(組織細(xì)胞和它們的樹突)發(fā)展模型。這個發(fā)展模型是由基因編程形成的計算機(jī)程序展現(xiàn)?;蚓幊膛c基因算法之間有很大的區(qū)別,這就留待各位讀者之后再去查閱其他相關(guān)資料。盡管如此,Miller 和他的同事成功地應(yīng)用進(jìn)化計算方法創(chuàng)建了一種可以有效搭建神經(jīng)網(wǎng)絡(luò)的發(fā)展模型,這點毋庸置疑,該神經(jīng)網(wǎng)絡(luò)可以生成新的樹突和神經(jīng)連接來學(xué)習(xí)新任務(wù)。

4、開放式進(jìn)化

到目前為止,我們討論了應(yīng)用適應(yīng)性函數(shù)來給單個智能體的表現(xiàn)打分,并以此為依據(jù)來決定誰來繁殖后代的進(jìn)化方法。很顯然,自然界中沒有顯性的適應(yīng)性方程(但,其實是有隱性逆向適應(yīng)性方程的,如果有機(jī)體 X 繁殖了較有機(jī)體 Y 更多的后代,那么有機(jī)體 X 更有可能具備更強(qiáng)的適應(yīng)性。)也就是說,自然界進(jìn)化出了極其智慧的物種(人類),也進(jìn)化出了具備其他獨特迷人的物理特性以及天生行為特質(zhì)的種群,而這一切都是在沒有任何外在引導(dǎo)下完成的。

這項發(fā)現(xiàn)鼓舞了人工生命以及開放式進(jìn)化的研究領(lǐng)域。人工生命學(xué)指的是在真實環(huán)境,或是在鏡像還原了自然環(huán)境的人工環(huán)境中生存的人工有機(jī)體的研究。研究者們應(yīng)用這種途徑來研究我們已知的、或是未知但可能出現(xiàn)的生命形態(tài)。開放式進(jìn)化研究通常都會考慮人工生命研究中的人工有機(jī)體,觀察這些有機(jī)體如何在類似于產(chǎn)生其他生物進(jìn)化的環(huán)境條件下進(jìn)化,換言之,開放式進(jìn)化的研究對象是在開放環(huán)境中直接進(jìn)行的繁殖活動(尋找配偶,獲取足夠的食物以存活或繁衍,逃脫天敵的捕獵,等等),而不是基于顯性的適應(yīng)性指標(biāo)。

與深度學(xué)習(xí)相比,開放式進(jìn)化還屬于一個較小的研究領(lǐng)域,但它其實已經(jīng)是個相當(dāng)古老的領(lǐng)域了,該領(lǐng)域的先鋒學(xué)者如 Charles Ofria,Jordan Pollack,Risto Miikkulainen,以及他們的學(xué)生(其中有些已經(jīng)是該領(lǐng)域的領(lǐng)頭人)已經(jīng)在這個領(lǐng)域里上花費了數(shù)十年時間。對開放式進(jìn)化的發(fā)展和繁榮的更詳盡描述,請參見 Lehman,Stanley,Soros 的博客(https://www.oreilly.com/radar/open-endedness-the-last-grand-challenge-youve-never-heard-of/),以及 Jeff Clune[13] 的這篇論文(https://arxiv.org/pdf/1905.10985.pdf)。

人工有機(jī)體在開放式環(huán)境中的進(jìn)化機(jī)制可以幫助 AI 智能體發(fā)展取得進(jìn)步么?

我們相信答案是「可以」,但有兩個前提條件:(1)種類的共同進(jìn)化和(2)在豐富、多樣化、動態(tài)的環(huán)境中進(jìn)行進(jìn)化。(對此問題的不同的觀點請參見 Lisa Soros 的博士論文 [14] :https://stars.library.ucf.edu/etd/5965/).

針對第一個條件,環(huán)境中必須同時存在不同種類,具有差異化的需求和能力的智能體,這種情況下,物種的共同進(jìn)化可能會進(jìn)一步引申出物種間的協(xié)作——這是進(jìn)化出人類這種級別的智慧生物的先決條件。共同進(jìn)化作用不僅可以進(jìn)化出越來越快的獵豹和黑斑羚,同時還可以進(jìn)化出狼群中的智慧社群行為,正如 BBC 節(jié)目《 coordinated hunting in packs 》中所展示的那樣。

  • 節(jié)目視頻地址:https://youtu.be/8wl8ZxAaB2E

視頻注:部分因為共同進(jìn)化作用,狼進(jìn)化出了社群智慧,這讓它們可以通過群體捕獵捕獲體型遠(yuǎn)大于它們自身的動物,獲得的食物可以讓整個群體受益。

最近 OpenAI 的一項研究發(fā)現(xiàn)經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體之間會產(chǎn)生復(fù)雜的交互行為,盡管它看上去更像是個“營養(yǎng)不良”的獎勵系統(tǒng)。眾所周知,獎勵是基于團(tuán)隊表現(xiàn)而非個人表現(xiàn)裁定的——就像一群狼會因完成一次大型的捕獵獲得更多的食物。

  • OpenAI 相關(guān)研究的展示視頻地址:https://youtu.be/kopoLzvh5jY

視頻注:在一開始,智能體對如何完成最基礎(chǔ)的捉迷藏都毫無頭緒。團(tuán)隊間的競爭是激發(fā)團(tuán)隊協(xié)作行為的驅(qū)動力。值得注意的是,這些智能體是用強(qiáng)化學(xué)習(xí)而不是進(jìn)化計算方法訓(xùn)練的,而智能體團(tuán)隊間的競爭仍可以催生出探索性的復(fù)雜行為。

強(qiáng)化學(xué)習(xí)與進(jìn)化計算間有個很重要的區(qū)別必須要在這里提一下。本質(zhì)上講,強(qiáng)化學(xué)習(xí)模型是對動物如何在后天進(jìn)行學(xué)習(xí)的模擬,當(dāng)動物的某個行為獲得獎勵時(獲得食物、住所或者配偶等等),它們更傾向于重復(fù)這個行為,期待獲得更多的好處。

然而,動物的許多能力都是源自進(jìn)化,并在胎兒期或是降生后不久就能表現(xiàn)出來這些能力。舉例說明,人類天然具備「客體」的感知能力(但尚不具備對「客體永久性」的認(rèn)知),嬰兒不需要學(xué)習(xí)就知道在空間上近距離排列的「像素」(視網(wǎng)膜上的光子)更有可能同為某個物體的一部分。一個解釋先天性的極端例子是,一些動物可以在出生之后(幾分鐘內(nèi))迅速掌握復(fù)雜的運動控制能力。生物有機(jī)體與生俱來許多能力。

深度學(xué)習(xí)模型則大多是從頭開始訓(xùn)練(宛若一張“白板”),并且都是面向某個專門的應(yīng)用進(jìn)行針對性訓(xùn)練的。構(gòu)建具備更為通用的、更接近真實世界所需能力的 AI 智能體,或許可以首先從進(jìn)化出誕生之初就具備了基準(zhǔn)知識體系(物理學(xué)、情緒、基礎(chǔ)需求等等)的智能體開始。這些智能體可能會通過強(qiáng)化學(xué)習(xí)機(jī)制(理想情況下,該機(jī)制可能會進(jìn)化為智能體一種先天能力,比如元學(xué)習(xí)能力)在「有生之年」繼續(xù)學(xué)習(xí)如何完成特定的任務(wù)。

  • 相關(guān)視頻觀看地址:https://youtu.be/rJJfigOA9zY

視頻注:幼年羚羊在出生后幾分鐘內(nèi)就具備了敏捷的肌肉控制和導(dǎo)航能力。進(jìn)化賦予了它們對重力、物理、客體的先天意識以及高級的感覺運動控制系統(tǒng)。它們不需要強(qiáng)化學(xué)習(xí)系統(tǒng)來學(xué)習(xí)這些概念和能力。

正如前文指出的,進(jìn)化出智慧智能體的第二個前提條件是豐富、多樣、動態(tài)的環(huán)境。這樣的環(huán)境包含了各種不同的時間和空間條件,某些基因突變會在恰當(dāng)?shù)纳鷳B(tài)條件得以留存下來,但當(dāng)環(huán)境固定不變時,后續(xù)的世代中這些基因突變就會被淘汰掉。再進(jìn)一步說,突變后的、有利的表現(xiàn)型可能不僅在某個環(huán)境中有優(yōu)勢,它可能在另一個恰當(dāng)?shù)沫h(huán)境中也是有優(yōu)勢的,出現(xiàn)這種有機(jī)體系的原因可以是智能體自主移動到了新的環(huán)境,也可以是智能體所在的環(huán)境發(fā)生了改變。這也和我們前面在基因算法中討論過的質(zhì)量多樣性方法有類似之處。

5、本文未提及的其他方面

除了上述已經(jīng)提及的內(nèi)容之外,我在這里還列出了一些智能體和智能體環(huán)境以及我們推測能夠推動智能體進(jìn)化出超過當(dāng)下 AI 模型能力的基因算法的其他相關(guān)觀點。其中列出的一些智能體類別,在條件支持的情況下能夠順其自然地進(jìn)化,但也可能被直接利用來加速實現(xiàn)通用人工智能的終極目標(biāo)。

智能體與環(huán)境

  • 培養(yǎng)與長期發(fā)展階段:督促智能體更多地關(guān)心無助的、處于發(fā)育期的后代可能會促進(jìn)一系列社會行為的發(fā)展,比如社會互動、溝通交流(語言)、協(xié)作(父母間的,父母與子女間的,或是無親緣關(guān)系的父母和子女之間的——培育一個孩子是勞師動眾的一件事情),等等。

  • 個體意識:智能體應(yīng)該具備識別同種類的其他個體的能力(通過一類智能體基因組表達(dá)出的「視覺上的」或是其他形式的特點)。如果智能體能夠互相識別,它們就可以將個體的行為與其本身聯(lián)系起來,這有助于信任、協(xié)作、看護(hù)等行為的進(jìn)化。(但同時也會產(chǎn)生不信任、欺騙和合謀)。

  • 溝通媒介:環(huán)境應(yīng)當(dāng)允許智能體具備一些可以發(fā)展出一套溝通方法(一種語言)的形態(tài)。它可以是聽覺的、視覺的,甚至觸覺的。這對智能體進(jìn)化出復(fù)雜的社會交互或協(xié)作行為來說是必要的。

基因和基因算法

  • 組合基因的間接編碼:利用基因間的相互作用生產(chǎn)更高階的產(chǎn)品(比如,蛋白質(zhì),或是調(diào)控蛋白質(zhì)產(chǎn)物)使得結(jié)構(gòu)緊湊但能夠高度充分表達(dá)的基因組的出現(xiàn)成為可能,與每個基因值對應(yīng)唯一一個模型參數(shù)或表現(xiàn)特質(zhì)的基因模型相比,前者可以更高效的完成進(jìn)化。除此之外,這種組合作用的方式還可以限制由于基因突變或偶發(fā)事件導(dǎo)致的后代完全無法自立生活(花在仿真/評估上時間被白費)的可能性。

  • 指導(dǎo)發(fā)展的基因:與之前所提到的相關(guān),編碼指導(dǎo)有機(jī)體發(fā)育的基因,而不是最終的成年有機(jī)體可能是更加集約,且更具進(jìn)化潛力的方式(正如 HyperNEAT)。如果發(fā)育同樣還受到基因間的相互作用以及環(huán)境的驅(qū)動,這就給基因帶來了額外的篩選壓力,可以更好地推動進(jìn)化。

  • 可在規(guī)模上進(jìn)化的基因組:與行為簡單的有機(jī)體相比,行為上復(fù)雜的有機(jī)體還可能要求更多基因來定義它們的表現(xiàn)型(或是它們的發(fā)育機(jī)制)。然而,一個具有小型基因組的簡單物種,可能會較一個具有大型基因組的簡單物種更快進(jìn)化出復(fù)雜的行為。面對單個基因的選擇壓力,具有大型基因組的簡單物種更脆弱,因為單個基因突變對大型基因組有機(jī)體的行為改變作用微乎其微,這就拖慢了進(jìn)化的進(jìn)程。

  • 結(jié)構(gòu)化篩選繁殖和死亡智能體的機(jī)制:在應(yīng)用了適應(yīng)性函數(shù)的算法中,典型的篩選機(jī)制是挑選出表現(xiàn)最好的智能體進(jìn)行繁殖,并淘汰同世代的其他智能體。然而,在這種機(jī)制下,剛突變的可以給智能體提供適應(yīng)性上的好處的基因可能仍會由于物種間的遺傳漂變丟失掉。最近的研究 [15] 表明在一個智能體繁殖時,有策略地選擇哪個智能體應(yīng)被淘汰(結(jié)構(gòu)化的「進(jìn)化圖譜」有對這種篩選機(jī)制的圖示)對新的有益處的基因在物種間的傳遞有「放大作用」,并可同時降低有利基因丟失的概率。在豐富、開放式的環(huán)境里,這種結(jié)構(gòu)可能正是環(huán)境間接施加影響的方式。

四、結(jié)論

最近幾年深度學(xué)習(xí)對于 AI 領(lǐng)域取得巨大進(jìn)展所起到的作用是毋庸置疑的,相信未來還會有更多突破。但同時我們認(rèn)為,過去一直處于替補(bǔ)地位的進(jìn)化計算方法,最終能夠在提升 AI 能力上實現(xiàn)能夠與深度學(xué)習(xí)相媲美的飛躍——無論是以深度學(xué)習(xí)已取得的成果為基礎(chǔ),還是不借助深度學(xué)習(xí)成果基礎(chǔ),獨立發(fā)展為全新的方法。

最后,我們推測進(jìn)化計算方法將會極大提高 AI 的運算效率?;诂F(xiàn)有的硬件平臺進(jìn)行智能體的進(jìn)化,并合理設(shè)計從基因到指令的映射關(guān)系,篩選出可加速完成任務(wù)的智能體,由此在該硬件平臺上逐漸優(yōu)化智能體的性能。

五、參考文獻(xiàn)

1. Krizhevsky, A., Sutskever, I., and Hinton, G. E. ImageNet classification with deep convolutional neural networks. In NIPS, pp. 1106–1114, 2012.

2. I. Rechenberg and M. Eigen. Evolutionsstrategie: Optimierung Technischer Systeme nach Prinzipiender Biologischen Evolution. Frommann-Holzboog Stuttgart, 1973.

3. H.-P. Schwefel.Numerische optimierung von computer-modellen mittels der evolutionsstrategie.1977.

4. Salimans T., Ho J., Chen X., and Sutskever I. Evolution strategies as a scalable alternative to reinforcement learning. arXiv preprint arXiv:1703.03864, 2017.

5. Felipe Petroski Such, Vashisht Madhavan, Edoardo Conti, Joel Lehman, Kenneth O Stanley, and Jeff Clune. Deep neuroevolution: Genetic algorithms are a competitive alternative for training deep neural networks for reinforcement learning. arXiv preprint arXiv:1712.06567, 2017.

6. Justin K Pugh, Lisa B Soros, and Kenneth O Stanley. Quality diversity: A new frontier for evolutionary computation. Frontiers in Robotics and AI, 3:40, 2016.

7. Stanley, K. O. & Miikkulainen, R. Evolving neural networks through augmenting topologies. Evol. Comput. 10, 99–127 (2002).

8. Stanley, Kenneth O.; D』Ambrosio, David B.; Gauci, Jason (2009–01–14).「A Hypercube-Based Encoding for Evolving Large-Scale Neural Networks」. Artificial Life. 15 (2): 185–212.

9. Hausknecht, M., Lehman, J., Miikkulainen, R. & Stone, P. A neuroevolution approach to general atari game playing. IEEE Trans. Comput. Intell. AI Games 6, 355–366 (2014).

10. Mnih, V. et al. Human-level control through deep reinforcement learning. Nature 518, 529–533 (2015).

11. Cussat-Blanc, S., Harrington, K. & Pollack, J. Gene regulatory network evolution through augmenting topologies. IEEE Trans. Evolut. Comput. 19, 823–837 (2015).

12. Miller, J.F., Wilson, D.G., Cussat-Blanc, S.: Evolving developmental programs that build neural networks for solving multiple problems. In: Banzhaf, W., Spector, L., Sheneman L. (eds.) Genetic Programming Theory and Practice XVI, Chap. TBC. Springer (2019).

13. Jeff Clune. AI-GAs: AI-generating algorithms, an alternate paradigm for producing general artificial intelligence. arXiv preprint arXiv:1905.10985, 2019.

14. Soros, Lisa,「Necessary Conditions for Open-Ended Evolution」(2018). Electronic Theses and Dissertations. 5965. https://stars.library.ucf.edu/etd/5965.

15. Pavlogiannis A, Tkadlec J, Chatterjee K, Nowak MA. Construction of arbitrarily strong amplifiers of natural selection using evolutionary graph theory. Communications Biology. 2018;1(1):71.

viahttps://towardsdatascience.com/evolutionary-approaches-towards-ai-past-present-and-future-b23ccb424e98

雷鋒網(wǎng) AI 科技評論編譯。雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))雷鋒網(wǎng)

深度學(xué)習(xí)之后,我們或許可以從進(jìn)化論中找到新的突破口

推薦內(nèi)容