亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁(yè) > 科技新聞 >

神經(jīng)進(jìn)化新思路:用AI助力人工智能,也許忽略目

時(shí)間:2019-11-29 10:30來(lái)源:網(wǎng)絡(luò)整理 瀏覽:
?墊腳石原理是一種將創(chuàng)造力注入人工智能的方法。 (圖片來(lái)自Kevin Hong,Quanta Magazine)導(dǎo)語(yǔ)近年來(lái),神經(jīng)網(wǎng)絡(luò)借鑒了生

?

墊腳石原理是一種將創(chuàng)造力注入人工智能的方法。 (圖片來(lái)自Kevin Hong,Quanta Magazine)

導(dǎo)語(yǔ)

近年來(lái),神經(jīng)網(wǎng)絡(luò)借鑒了生物學(xué)策略的相關(guān)理論知識(shí),實(shí)現(xiàn)了大飛躍,完成了之前無(wú)法完成的任務(wù)。神經(jīng)進(jìn)化作為人工智能的一個(gè)研究領(lǐng)域,試圖通過(guò)進(jìn)化算法而非隨機(jī)梯度下降來(lái)設(shè)計(jì)和構(gòu)建神經(jīng)網(wǎng)絡(luò)。然而,神經(jīng)進(jìn)化存在兩大難題:高昂的計(jì)算成本和不明確的目標(biāo)。最近,基于墊腳石原理的神經(jīng)進(jìn)化算法終于成功克服這些挑戰(zhàn),帶來(lái)了新的研究思路:忽略目標(biāo)比直接追求目標(biāo)能更快速實(shí)現(xiàn)目標(biāo)。忽略目標(biāo)或許是制造真正智能機(jī)器的最佳方法。

從外星人的臉到跑車(chē),這中間發(fā)生了什么?

2007年,中佛羅里達(dá)大學(xué)(University of Central Florida)的計(jì)算機(jī)科學(xué)家 Kenneth Stanley在玩他和學(xué)生們創(chuàng)建的網(wǎng)站Picbreeder時(shí),一個(gè)外星人圖案變成了賽車(chē)圖案,這個(gè)發(fā)現(xiàn)改變了他的生活。

在Picbreeder上,用戶(hù)會(huì)看到一組15張相似的圖片,它們由幾何形狀或漩渦形狀的圖案組成,這些圖案都是同一主題的變種。有時(shí),一些圖案就像一個(gè)真實(shí)的物體,比如一只蝴蝶或一張臉。用戶(hù)被要求選擇一張圖片,他們通常會(huì)點(diǎn)擊自己覺(jué)得最有趣的東西。完成操作后,屏幕內(nèi)容會(huì)根據(jù)他們的選擇做出變化,出現(xiàn)一組新的圖片。從這種游戲性的探索中,產(chǎn)生了許多奇特的設(shè)計(jì)。

Picbreeder (一個(gè)在線藝術(shù)創(chuàng)作網(wǎng)站,允許圖片像動(dòng)物一樣繁殖演化)

網(wǎng)址:http://picbreeder.org/index.php

picbreeder官網(wǎng)截圖

Stanley是神經(jīng)進(jìn)化(neuroevolution)這個(gè)人工智能領(lǐng)域的先驅(qū),神經(jīng)進(jìn)化利用生物進(jìn)化原理來(lái)設(shè)計(jì)更智能的算法。對(duì)于Picbreeder來(lái)說(shuō),每張圖片都是由一個(gè)類(lèi)似于神經(jīng)網(wǎng)絡(luò)的計(jì)算系統(tǒng)產(chǎn)生的。當(dāng)選擇一張圖片,生成新的15張圖片時(shí),被選擇的圖片對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)會(huì)突變?yōu)?5個(gè)略有不同的變種,每個(gè)變種分別產(chǎn)生一張新圖片。Stanley并沒(méi)有打算讓Picbreeder做出什么特別的東西,他只是有一種預(yù)感,依靠這個(gè)發(fā)現(xiàn),也許能讓他學(xué)到一些和進(jìn)化論或者人工智能相關(guān)的東西。

外星人的臉(左)進(jìn)化成一輛跑車(chē)(右)。 (圖片來(lái)自Picbreeder)



一天,Stanley在網(wǎng)站上發(fā)現(xiàn)了一張像外星人的臉的圖片,并開(kāi)始了以它為起點(diǎn)的進(jìn)化:選擇一張圖片,再選擇下一張圖片,這樣一直進(jìn)行下去。偶然的是,外星人圓圓的眼睛開(kāi)始向下移動(dòng),像一輛汽車(chē)的車(chē)輪。最后Stanley一步步進(jìn)化,得出了一輛漂亮的跑車(chē)。他一直在思考這樣一個(gè)事實(shí):如果是從零開(kāi)始進(jìn)化一輛車(chē),而不是從一個(gè)外星臉的圖片開(kāi)始,他可能永遠(yuǎn)不會(huì)得到這樣的結(jié)果,因此,他想知道這個(gè)試驗(yàn)對(duì)于直接去尋找問(wèn)題的解來(lái)說(shuō),意味著什么。“這對(duì)我的整個(gè)人生產(chǎn)生了巨大的影響。”他觀察Picbreeder上出現(xiàn)的其它有趣的圖片,追蹤了它們的演化軌跡,意識(shí)到幾乎所有圖片都是通過(guò)看起來(lái)完全不同的方式進(jìn)化而來(lái)的。Stanley說(shuō):“看到這些跡象,我被震驚了?!?/p>墊腳石原理:神經(jīng)進(jìn)化新思路

Stanley的發(fā)現(xiàn)促成了他所稱(chēng)的“墊腳石原理”(steppingstone principle),并以此為基礎(chǔ)設(shè)計(jì)了一種算法,該算法可以更充分地發(fā)揮生物進(jìn)化的無(wú)限創(chuàng)造潛力。

進(jìn)化算法已經(jīng)存在很久了。傳統(tǒng)上,它們被用來(lái)解決特定的問(wèn)題。在進(jìn)化主體的每一代中,都會(huì)依據(jù)某種度量標(biāo)準(zhǔn)(例如,控制兩足機(jī)器人的能力),選取表現(xiàn)最佳的解決方案,然后讓其產(chǎn)生后代。盡管這些算法取得了一定的成功,但與其它方法(如近年來(lái)廣泛流行的深度學(xué)習(xí))相比,它們所需的計(jì)算量更大。

墊腳石原理超越了傳統(tǒng)的進(jìn)化方法,它不是針對(duì)特定目標(biāo)展開(kāi)優(yōu)化,而是對(duì)所有可能的解決方案進(jìn)行創(chuàng)造性的探索,這促使它取得突破性的成果。今年早些時(shí)候,一個(gè)基于墊腳石原理的系統(tǒng)在一個(gè)視頻游戲中應(yīng)對(duì)自如,而兩個(gè)流行機(jī)器學(xué)習(xí)方法都對(duì)此無(wú)能為力。在近期Nature雜志發(fā)表的一篇論文中,DeepMind(率先將深度學(xué)習(xí)應(yīng)用于圍棋等問(wèn)題的一家人工智能公司)稱(chēng),該系統(tǒng)成功地將深度學(xué)習(xí)與一組具有多樣性的解決方案的進(jìn)化結(jié)合起來(lái)。

論文題目:

Grandmaster level in StarCraft II usingmulti-agent reinforcement learning

論文地址:

http://doi.org/10.1038/s41586-019-1724-z

星際爭(zhēng)霸游戲



通過(guò)與生物進(jìn)化進(jìn)行類(lèi)比,我們可以看到“墊腳石”的潛力。在自然界中,生命的進(jìn)化是沒(méi)有任何總體目標(biāo)的,用于一個(gè)目標(biāo)的特性可能會(huì)被用于完全不同的目標(biāo)。例如,羽毛可能是為了保暖而進(jìn)化出來(lái)的,后來(lái)才進(jìn)化的便于飛行。

生物進(jìn)化同時(shí)也是產(chǎn)生人類(lèi)智能的唯一系統(tǒng),實(shí)現(xiàn)人類(lèi)水平的智能是許多人工智能研究者的終極夢(mèng)想。受生物的進(jìn)化歷程啟發(fā),Stanley和其他人已經(jīng)相信,要使算法能夠像人類(lèi)一樣輕松地(甚至更好地)在物理世界和社交世界中穿行,需要模仿大自然的策略。他們認(rèn)為,不能對(duì)推理的規(guī)則進(jìn)行硬編碼,或讓計(jì)算機(jī)學(xué)會(huì)在特定的性能指標(biāo)上獲得高分,而是必須讓一組解決方案蓬勃發(fā)展進(jìn)化。讓它們優(yōu)先追求新穎性(novelty)或趣味性(interestingness),而不是像走路或說(shuō)話的能力這樣的具體目標(biāo)。這樣它們可能會(huì)發(fā)現(xiàn)一條間接的道路,一些墊腳石,相比直接通過(guò)進(jìn)化尋求走路和說(shuō)話這些技能,墊腳石算法最后能更好地完成走路和說(shuō)話這樣的任務(wù)。

新穎性搜索:以新穎性為目標(biāo)的神經(jīng)進(jìn)化算法

在Picbreeder之后,Stanley開(kāi)始論證神經(jīng)進(jìn)化可以克服其最顯著的反對(duì)意見(jiàn):“如果我運(yùn)行的算法具有這樣高的創(chuàng)造力,以至于我都不確定它會(huì)產(chǎn)生什么,從研究的角度來(lái)看,這是非常有趣的,但從商業(yè)的角度來(lái)看,這很難找到具體的應(yīng)用場(chǎng)景。”

他希望能證明,僅僅追尋著新奇的想法,并以此為進(jìn)化方向,那么算法不僅可以產(chǎn)生多種多樣的結(jié)果,而且可以解決問(wèn)題。更大膽地講,他的目標(biāo)是證明,完全忽略某個(gè)目標(biāo)比直接追求它更能讓你快速達(dá)到目標(biāo)。他通過(guò)一種叫做新穎性搜索(novelty search)的方法來(lái)做到這一點(diǎn)。

介紹新穎性搜索方法(novelty search)的論文:

Abandoning Objectives: Evolution Through the Search for Novelty Alone

論文地址:

https://www.mitpressjournals.org/doi/abs/10.1162/EVCO_a_00025

這個(gè)系統(tǒng)以一個(gè)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)是由多個(gè)神經(jīng)元(小的計(jì)算單元)層層連接排列組成,一層神經(jīng)元的輸出通過(guò)具有不同權(quán)重的連接傳遞到下一層。舉一個(gè)簡(jiǎn)單的例子,輸入數(shù)據(jù)(例如圖像)到神經(jīng)網(wǎng)絡(luò)中,隨著圖像信息的層層傳遞,網(wǎng)絡(luò)提取的內(nèi)容信息越來(lái)越抽象。最終,最后一層計(jì)算出最高級(jí)別的信息:圖像的標(biāo)簽。

在神經(jīng)進(jìn)化中,你首先要將各層之間的權(quán)重初始化為隨機(jī)值。這種隨機(jī)性意味著網(wǎng)絡(luò)不能很好的完成任務(wù)。但是,從這種令人遺憾的狀態(tài)出發(fā),你可以創(chuàng)造一組隨機(jī)突變(random mutations),也就是權(quán)重略有不同的后代神經(jīng)網(wǎng)絡(luò),并評(píng)估它們的能力。你保留最優(yōu)秀的一個(gè)神經(jīng)網(wǎng)絡(luò),然后重復(fù)以上過(guò)程產(chǎn)生更多的后代。(更高級(jí)的神經(jīng)進(jìn)化策略還會(huì)在神經(jīng)元和連接的數(shù)量和排列方面引入突變。)神經(jīng)進(jìn)化是一種元算法(meta-algorithm),一種用于設(shè)計(jì)算法的算法。最終,這些算法可以有不錯(cuò)的表現(xiàn)。

對(duì)于Uber人工智能實(shí)驗(yàn)室和中佛羅里達(dá)大學(xué)的計(jì)算機(jī)科學(xué)家Kenneth Stanley而言, 墊腳石原理可以解釋創(chuàng)新。

為了測(cè)試這個(gè)墊腳石原理,Stanley和他的學(xué)生Joel Lehman調(diào)整了選擇過(guò)程。新穎性搜索不選擇那些在任務(wù)中表現(xiàn)最佳的網(wǎng)絡(luò),而是選擇那些與父輩行為顯著不同的網(wǎng)絡(luò)。(在Picbreeder中,人們傾向于趣味性;而在這里,新穎性搜索傾向于新穎性。)

在一次測(cè)試中,他們將虛擬的輪式機(jī)器人放到迷宮中,不斷進(jìn)化用來(lái)控制它們的算法,希望它們能找到出口。他們從0開(kāi)始進(jìn)化了40次。在一個(gè)用來(lái)對(duì)比的程序中,控制算法是根據(jù)它們離出口的距離(直線距離)來(lái)選擇的,這個(gè)對(duì)比程序進(jìn)化出的機(jī)器人在40次中只成功3次。而新穎性搜索完全忽略每個(gè)機(jī)器人離出口的距離,成功39次。成功的原因是機(jī)器人設(shè)法避開(kāi)了死胡同。它們沒(méi)有面向出口,也沒(méi)有用頭撞墻,而是探索了陌生的領(lǐng)域,找到了解決辦法,最后意外地獲得成功。紐約大學(xué)的計(jì)算機(jī)科學(xué)家Julian Togelius說(shuō):“新穎性搜索很重要,因?yàn)樗嵏擦艘磺?,本質(zhì)上就是在問(wèn),如果我們沒(méi)有目標(biāo),會(huì)發(fā)生什么?!?/p>

Stanley提出自己的觀點(diǎn),追求目標(biāo)可能成為實(shí)現(xiàn)這些目標(biāo)的阻礙。后來(lái),他找到了巧妙的方法來(lái)將新穎性搜索與特定目標(biāo)結(jié)合起來(lái)。這促使他和Lehman創(chuàng)建了一個(gè)用以模擬自然界進(jìn)化中特定生態(tài)位(niche)的系統(tǒng)。在這種方法中,算法只與其它類(lèi)似的算法競(jìng)爭(zhēng)。正如蠕蟲(chóng)不與鯨魚(yú)競(jìng)爭(zhēng)一樣,該系統(tǒng)讓處在獨(dú)特的“算法生態(tài)位”的算法獨(dú)立進(jìn)化,使得從中得以涌現(xiàn)出各種有前景的方法。

這種帶有局部競(jìng)爭(zhēng)( localized competition)的進(jìn)化算法已經(jīng)顯示出熟練處理像素、控制機(jī)械手臂以及(如Nature雜志封面所描述的)幫助六足機(jī)器人像動(dòng)物一樣在失去肢體后快速調(diào)整步態(tài)的能力。這些算法的一個(gè)關(guān)鍵因素是它們培育了墊腳石。他們不是始終優(yōu)先考慮一個(gè)整體最佳解決方案,而是保持了一組多樣化的充滿活力的小的局部生態(tài),其中任何一個(gè)都可能會(huì)對(duì)最終的解做出貢獻(xiàn)。而最佳解決方案可能產(chǎn)生于一個(gè)在不同小生態(tài)之間跳躍的算法。

介紹帶有局部競(jìng)爭(zhēng)的進(jìn)化算法的相關(guān)論文

論文題目:

Evolving a diversity of virtual creaturesthrough novelty search and local competition

論文網(wǎng)址:

https://dl.acm.org/citation.cfm?id=2001606

Nature 封面報(bào)道:

Press material for "Robots that canadapt like animals"

論文網(wǎng)址:

https://members.loria.fr/JBMouret/nature_press.html

墊腳石原理克服了神經(jīng)進(jìn)化的缺點(diǎn)

對(duì)于Stanley(現(xiàn)在在Uber人工智能實(shí)驗(yàn)室工作)來(lái)說(shuō),墊腳石原理解釋了創(chuàng)新:如果你帶著一臺(tái)現(xiàn)代電腦回到過(guò)去,告訴研發(fā)真空管的人,放棄它們的研究,然后開(kāi)始研發(fā)筆記本電腦,那么我們將不會(huì)擁有真空管,也不會(huì)擁有筆記本電腦。這也解釋了進(jìn)化:我們是從扁形蟲(chóng)進(jìn)化而來(lái)的,扁形蟲(chóng)并不是特別聰明,但具有兩側(cè)對(duì)稱(chēng)性(bilateral symmetry)。Stanley說(shuō):“目前還不清楚兩側(cè)對(duì)稱(chēng)性與智能有什么關(guān)系,更不用說(shuō)與莎士比亞有什么關(guān)系,但這之間確實(shí)是相關(guān)的。”

在過(guò)去的十年中,神經(jīng)進(jìn)化經(jīng)歷了意想不到的曲折過(guò)程。長(zhǎng)期以來(lái),它一直生活在其它人工智能領(lǐng)域的陰影之下。

德克薩斯大學(xué)奧斯汀分校(University of Texas,Austin)的計(jì)算機(jī)科學(xué)家Risto Miikkulainen(同時(shí)也是Stanley的前博士生導(dǎo)師)表示,神經(jīng)進(jìn)化這種方法最大的缺點(diǎn)之一就是它所需要的計(jì)算量。在傳統(tǒng)的機(jī)器學(xué)習(xí)中,當(dāng)你訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)時(shí),它會(huì)逐漸變得越來(lái)越好。而在神經(jīng)進(jìn)化中,權(quán)重隨機(jī)變化,網(wǎng)絡(luò)的性能可能會(huì)比變化之前更差。

另一個(gè)缺點(diǎn)也很顯然,大多數(shù)人都有一個(gè)想解決的特定問(wèn)題。這種針對(duì)趣味性進(jìn)行優(yōu)化的搜索策略可能會(huì)讓你為該問(wèn)題找到一個(gè)創(chuàng)造性的解決方案,但是也可能把你引入歧途,找不到正確的解決方案。

話又說(shuō)回來(lái),沒(méi)有什么策略是完美的。在過(guò)去五年左右的時(shí)間里,人工智能不同領(lǐng)域的研究如深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)呈現(xiàn)爆炸式增長(zhǎng)。在強(qiáng)化學(xué)習(xí)中,算法與環(huán)境相互作用(例如,機(jī)器人在現(xiàn)實(shí)世界中穿行,AI玩家在游戲中競(jìng)爭(zhēng)),通過(guò)反復(fù)試驗(yàn)來(lái)學(xué)習(xí)哪些行為會(huì)產(chǎn)生期望的結(jié)果。Deepmind使用深度強(qiáng)化學(xué)習(xí)開(kāi)發(fā)了一個(gè)程序,可以在圍棋上擊敗世界上最好的棋手。在此之前,許多人認(rèn)為這一壯舉還需要幾年或幾十年的時(shí)間才可能實(shí)現(xiàn)。

但是強(qiáng)化學(xué)習(xí)可能會(huì)陷入困境。稀疏或不頻繁的獎(jiǎng)勵(lì)不能給算法足夠的反饋,無(wú)法使算法朝著目標(biāo)前進(jìn)。欺騙性獎(jiǎng)勵(lì)(即阻礙長(zhǎng)期進(jìn)步的短期收益)也會(huì)使算法陷入死胡同。因此,盡管強(qiáng)化學(xué)習(xí)可以在《Invaders》或《Pong》這些加分頻繁且目標(biāo)明確的游戲中擊敗人類(lèi),但在其它缺乏這些特性的經(jīng)典游戲中,它們卻表現(xiàn)平平。

基于墊腳石原理的神經(jīng)進(jìn)化算法是深度學(xué)習(xí)方法的補(bǔ)充

在過(guò)去的一年里,基于墊腳石原理的人工智能最終成功克服了該領(lǐng)域中許多長(zhǎng)期存在的挑戰(zhàn)。

在游戲《Montezuma’s Revenge》中,Panama Joe穿梭于地下迷宮中的各個(gè)房間,收集開(kāi)門(mén)的鑰匙,同時(shí)避開(kāi)敵人和障礙物,如蛇和火坑。為了打贏這個(gè)游戲,Stanley、Lehman、Jeff Clune、Joost Huizinga和Adrien Ecoffet(這五個(gè)人都在Uber人工智能實(shí)驗(yàn)室工作)開(kāi)發(fā)了一個(gè)系統(tǒng),在這個(gè)系統(tǒng)里,Panama Joe基本上四處游蕩,隨機(jī)嘗試各種行動(dòng)。每次到達(dá)一個(gè)新的游戲狀態(tài)(即到達(dá)一個(gè)新的位置,有一套新的道具),他都會(huì)把到達(dá)這個(gè)狀態(tài)所采取的一系列行動(dòng)歸檔存入記憶中。如果他后來(lái)找到一條更快的路徑來(lái)到達(dá)那個(gè)狀態(tài),那么舊的記憶就會(huì)被替換掉。在訓(xùn)練期間,Panama Joe不斷挑選一個(gè)存儲(chǔ)狀態(tài),隨機(jī)地探索一會(huì)兒,并將他發(fā)現(xiàn)的所有新?tīng)顟B(tài)添加到記憶中。

電子游戲《Montezuma’s Revenge》于1984年首次發(fā)行,獎(jiǎng)勵(lì)開(kāi)放式探索。

最終,這些狀態(tài)中,出現(xiàn)了一個(gè)贏得比賽的狀態(tài)。Panama Joe的記憶中記載著他為實(shí)現(xiàn)目標(biāo)所采取的所有行動(dòng)。他沒(méi)有使用神經(jīng)網(wǎng)絡(luò)或強(qiáng)化學(xué)習(xí)(收集鑰匙或接近迷宮出口時(shí)沒(méi)有獎(jiǎng)勵(lì))就實(shí)現(xiàn)了目標(biāo),只是通過(guò)隨機(jī)探索和尋找巧妙的方法來(lái)收集和連接墊腳石。這種方法不僅擊敗了最好的算法,還打破了人類(lèi)的世界紀(jì)錄。

同樣的技術(shù),研究人員稱(chēng)之為Go-Explore,在《Pitfall》游戲中擊敗了人類(lèi)專(zhuān)家!在這個(gè)游戲中,Pitfall Harry在叢林中穿行尋找寶藏,同時(shí)避開(kāi)鱷魚(yú)和流沙。沒(méi)有用其它機(jī)器學(xué)習(xí)方法,Go-Explore得分就超過(guò)0。(Go-Explore是第一個(gè)得分超過(guò)0的算法。)

介紹Go-Explore技術(shù)論文:

論文題目:

Evolving a diversity of virtual creaturesthrough novelty search and local competition

論文網(wǎng)址:

https://dl.acm.org/citation.cfm?id=2001606

DeepMind被認(rèn)為是強(qiáng)化學(xué)習(xí)的研發(fā)核心,現(xiàn)在也對(duì)神經(jīng)進(jìn)化越來(lái)越感興趣。1月份時(shí),該團(tuán)隊(duì)展示了AlphaStar軟件,這款軟件可以在復(fù)雜的視頻游戲《星際爭(zhēng)霸II》中擊敗頂尖的職業(yè)選手。在這個(gè)游戲中,兩個(gè)對(duì)手控制著軍隊(duì),通過(guò)建立殖民地來(lái)統(tǒng)治數(shù)字世界的領(lǐng)地。AlphaStar進(jìn)化出了一群互相競(jìng)爭(zhēng)、互相學(xué)習(xí)的玩家。在上周的Nature雜志上,DeepMind的研究人員宣布,最新版本的AlphaStar已經(jīng)在一個(gè)流行的游戲平臺(tái)上《星際爭(zhēng)霸II》活躍玩家中排名前0.2%,成為第一個(gè)在不加入額外限制的前提下,登上流行電子競(jìng)技頂端的人工智能。

AlphaStar軟件介紹:

https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii

參與了這個(gè)項(xiàng)目的DeepMind的計(jì)算機(jī)科學(xué)家Max Jaderberg說(shuō):“與AlphaStar合作的很長(zhǎng)一段時(shí)間里,它一直在進(jìn)步,但它仍然可以繼續(xù)被改進(jìn)。你可以訓(xùn)練一個(gè)智能體(agent),它的平均表現(xiàn)非常好,但你總是可以訓(xùn)練出另一個(gè)智能體來(lái)對(duì)付它,然后找出它的漏洞?!?/p>

與兒童游戲剪刀布游戲一樣,《星際爭(zhēng)霸II》中沒(méi)有最佳的游戲策略。因此,DeepMind鼓勵(lì)它的智能體進(jìn)化出多樣化的策略——不是作為墊腳石,而是作為目標(biāo)本身。AlphaStar將五個(gè)不同的智能體的策略結(jié)合起來(lái),最終以五比零擊敗兩個(gè)職業(yè)選手。選擇五個(gè)智能體,是為了保證對(duì)手的任何一個(gè)策略都不會(huì)影響到所有的智能體。它們的優(yōu)勢(shì)在于它們的多樣性。

懷俄明大學(xué)的計(jì)算機(jī)科學(xué)家Jeff Clune認(rèn)為開(kāi)放式發(fā)現(xiàn)可能是實(shí)現(xiàn)人類(lèi)水平的人工智能的最快方法。

Alphastar演示了進(jìn)化算法的一個(gè)主要用途:保持大量不同的解決方案。最近另一個(gè)DeepMind項(xiàng)目展示了它的另一個(gè)用途:優(yōu)化單個(gè)解決方案。該團(tuán)隊(duì)與Alphabet的自動(dòng)駕駛汽車(chē)項(xiàng)目Waymo合作,開(kāi)發(fā)識(shí)別行人的算法。為了避免陷入一種效果很好但不是最佳策略的方法,他們保留了“小生境”或亞群體,這樣使得新穎的解決方案在被頂尖的解決方案淘汰之前有時(shí)間發(fā)展。

近年來(lái),基于種群的算法(Population-based algorithms)變得越來(lái)越流行,DeepMind的科學(xué)家兼機(jī)器人負(fù)責(zé)人Raia Hadsell使用計(jì)算資源的行業(yè)標(biāo)準(zhǔn)術(shù)語(yǔ)解釋說(shuō):“部分原因是它們與我們現(xiàn)在擁有的計(jì)算機(jī)類(lèi)型非常匹配?!盚adsell邀請(qǐng)Clune、Lehman和Stanley在6月份的機(jī)器學(xué)習(xí)國(guó)際會(huì)議(International Conference on Machine Learning,ICML)上做了兩個(gè)小時(shí)的演講,介紹他們的工作。Hadsell說(shuō):“我認(rèn)為這是人工智能中很重要的研究領(lǐng)域,因?yàn)樗呛屯苿?dòng)人工智能發(fā)展的深度學(xué)習(xí)方法具有互補(bǔ)性。”

POET算法:用人工智能設(shè)計(jì)人工智能

到目前為止討論到的所有算法的創(chuàng)造力都是有限的。AlphaStar只能提出關(guān)于《星際爭(zhēng)霸II》的新策略。新穎性搜索一次只能在一個(gè)領(lǐng)域內(nèi)(解迷宮或者步行機(jī)器人)找到新穎性。

然而,生物進(jìn)化產(chǎn)生了無(wú)窮無(wú)盡的新穎性。細(xì)菌,海藻,鳥(niǎo)類(lèi)和人類(lèi)的出現(xiàn),是因?yàn)榻鉀Q方案在不斷更新,同時(shí)問(wèn)題也在不斷演變。例如,長(zhǎng)頸鹿是對(duì)樹(shù)木變高帶來(lái)的問(wèn)題的回應(yīng)。人類(lèi)的創(chuàng)新也是如此。我們給自己創(chuàng)造了問(wèn)題(例如我們能把人送上月球嗎?)然后解決它們。

為了重現(xiàn)問(wèn)題和解決方案之間的這種開(kāi)放式對(duì)話,今年早些時(shí)候,Stanley、Clune、Lehman和Uber的另一位同事Rui Wang發(fā)布了一個(gè)名為POET(Paired Open-Ended Trailblazer)的算法。為了測(cè)試該算法,他們開(kāi)發(fā)了一群虛擬的兩足機(jī)器人。他們還為機(jī)器人開(kāi)發(fā)了包含許多障礙的訓(xùn)練場(chǎng),其中包括小山、溝渠和樹(shù)樁。這些機(jī)器人有時(shí)會(huì)互換位置,嘗試新的地形。例如,一個(gè)機(jī)器人學(xué)會(huì)了拖著膝蓋穿越平坦的地形,然后它被隨機(jī)地轉(zhuǎn)移到有短樹(shù)樁的地方,在那里它必須學(xué)會(huì)直立行走。當(dāng)它再次被轉(zhuǎn)移回第一個(gè)障礙訓(xùn)練場(chǎng)時(shí),它的完成速度要快得多。通過(guò)這種間接的途徑,機(jī)器人得以從一個(gè)難題中學(xué)習(xí)技能并將其應(yīng)用到另一個(gè)難題中。

POET詳細(xì)介紹:

https://eng.uber.com/poet-open-ended-deep-learning/

POET可以用來(lái)設(shè)計(jì)新的藝術(shù)形式,或者通過(guò)自己提出并解決新的挑戰(zhàn)來(lái)取得科學(xué)發(fā)現(xiàn)。它甚至可以走得更遠(yuǎn),這取決于它改造世界的能力。Stanley說(shuō),他希望建立的算法在十億年后仍然可以做一些有趣的事情。

Stanley說(shuō):“進(jìn)化發(fā)明了視覺(jué),發(fā)明了光合作用,發(fā)明了人類(lèi)水平的智能,發(fā)明了一切,并且所有這些都是通過(guò)一種算法來(lái)完成的。如果能捕捉到這個(gè)過(guò)程的一點(diǎn)點(diǎn)細(xì)節(jié),我認(rèn)為可能都是非常強(qiáng)大的?!?/p>

在最近的一篇論文中,Clune認(rèn)為,開(kāi)放式發(fā)現(xiàn)(open-ended discovery)可能是通向通用人工智能最快的途徑。這里說(shuō)的人工智能是指幾乎擁有人類(lèi)所有能力的機(jī)器。人工智能領(lǐng)域的大部分研究都集中在人工設(shè)計(jì)智能機(jī)器的各個(gè)構(gòu)件上,比如不同類(lèi)型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)過(guò)程。但目前還不清楚如何將它們捆綁在一起形成一個(gè)通用的智能系統(tǒng)。

開(kāi)放式發(fā)現(xiàn)與通用人工智能相關(guān)介紹pdf文檔鏈接:

https://arxiv.org/pdf/1905.10985.pdf

相反,Clune認(rèn)為應(yīng)該更多地關(guān)注設(shè)計(jì)人工智能的人工智能。算法將使用類(lèi)似POET這樣的方法來(lái)設(shè)計(jì)或進(jìn)化神經(jīng)網(wǎng)絡(luò)和它們的學(xué)習(xí)環(huán)境。這種開(kāi)放式的探索可能通過(guò)我們從未預(yù)料到的途徑(或者各種不同的智能)來(lái)實(shí)現(xiàn)人類(lèi)水平的智能。Clune說(shuō):“數(shù)十年的研究教會(huì)我們,這些算法總能讓我們感到驚訝,并在智力上超過(guò)它的設(shè)計(jì)者。因此,隨著這些算法變得更加強(qiáng)大和開(kāi)放,我們不能自大地以為我們能夠知道它們的結(jié)果?!?/p>

對(duì)研究人員施加過(guò)多的控制也可能是自大的表現(xiàn)。諷刺的是:Stanley最初向美國(guó)國(guó)家科學(xué)基金會(huì)提出Picbreeder項(xiàng)目時(shí),該基金會(huì)拒絕了他的資助申請(qǐng),稱(chēng)其目標(biāo)不明確。但是,這個(gè)項(xiàng)目帶來(lái)了大量論文和訪談、一本書(shū)和一家初創(chuàng)公司(Geometric Intelligence,被Uber收購(gòu),成為Uber人工智能實(shí)驗(yàn)室的核心)。Stanley說(shuō):“對(duì)我來(lái)說(shuō),有一件事真的很驚人,也很瘋狂。那就是我如何走到這一步的故事,本質(zhì)上和讓我走到這一步的算法洞見(jiàn)是一樣的。引導(dǎo)我產(chǎn)生見(jiàn)解的東西,實(shí)際上就是見(jiàn)解本身。

《Why Greatness Cannot Be Planned》 (圖片來(lái)自https://www.springer.com/us/book/9783319155234)

原文地址:

https://www.quantamagazine.org/computers-evolve-a-new-path-toward-human-intelligence-20191106/

翻譯:王佳純

審校:郭瑞東

編輯:張希妍

推薦內(nèi)容