編者按: 智顯未來,洞見新知。中科院之聲與中國科學(xué)院自動(dòng)化研究所聯(lián)合開設(shè)“智言智語”科普專欄,為你介紹人工智能相關(guān)知識(shí)與故事,從最新成果到背后趣聞,帶你徜徉AI空間,看人工智能如何喚醒萬物,讓世界變得更美好 。
隨著智能技術(shù)的發(fā)展,各式各樣的服務(wù)機(jī)器人已經(jīng)成為我們生活中的???。那么,你有沒有產(chǎn)生過這樣的疑問:機(jī)器人會(huì)認(rèn)路嗎?它們是怎么探索新環(huán)境的呢?
(圖片來自網(wǎng)絡(luò))
是像人類一樣用炯炯有神的大眼睛直接探路?
(圖片來自網(wǎng)絡(luò))
或者借助某種神妙之力?
當(dāng)然沒有這么簡(jiǎn)單,請(qǐng)聽我們的詳細(xì)解答!
以目前已經(jīng)在我們的日常生活中廣泛使用的掃地機(jī)器人為例,作為非常需要具備“認(rèn)路”能力的一類機(jī)器人,為了實(shí)現(xiàn)快速的環(huán)境清掃工作,它在到達(dá)新環(huán)境時(shí)的第一項(xiàng)工作便是——構(gòu)建環(huán)境地圖。地圖對(duì)于移動(dòng)機(jī)器人來說非常重要,一方面,機(jī)器人需要通過地圖估計(jì)當(dāng)前時(shí)刻在環(huán)境中的位置;另一方面,地圖為機(jī)器人的路徑規(guī)劃系統(tǒng)提供了搜索空間,以實(shí)現(xiàn)機(jī)器人在環(huán)境中安全,快速地移動(dòng)。
圖1 掃地機(jī)器人(圖片來自于網(wǎng)絡(luò))
因此,快速地構(gòu)建精確的環(huán)境地圖是服務(wù)機(jī)器人實(shí)現(xiàn)安全高效服務(wù)的前提。環(huán)境地圖很重要,但機(jī)器人又是如何順利構(gòu)建地圖的呢?這里我們就不得不提到解決這類問題的核心方法——未知環(huán)境探索,它是指機(jī)器人在一個(gè)全新的環(huán)境中,通過自主移動(dòng)構(gòu)建整個(gè)環(huán)境地圖的過程。未知環(huán)境探索的關(guān)鍵在于機(jī)器人運(yùn)動(dòng)控制的計(jì)算,以保證機(jī)器人采取有效的動(dòng)作構(gòu)建精確的環(huán)境地圖。
除了室內(nèi)這種掃地機(jī)器人,未知環(huán)境探索方法也廣泛應(yīng)用于室外環(huán)境下的移動(dòng)機(jī)器人上。例如救援機(jī)器人,需要在一個(gè)新的環(huán)境中搜救幸存者,通過自主探索希望能夠快速地覆蓋整個(gè)環(huán)境區(qū)域。礦井勘探機(jī)器人以及海底探測(cè)機(jī)器人上也常常用到這類技術(shù),其任務(wù)目的都是盡可能地覆蓋更多的區(qū)域,以完成特定的任務(wù)。
未知環(huán)境探索方法有著怎樣的發(fā)展歷史呢?
未知環(huán)境探索問題在上個(gè)世紀(jì)90年代提出,其目標(biāo)是使機(jī)器人在全新的環(huán)境中具有自主決策能力。目前常用的未知環(huán)境探索決策方法有三大類:基于邊界的方法,基于信息的方法,以及基于深度神經(jīng)網(wǎng)絡(luò)的方法。
基于邊界的方法是最早的未知環(huán)境探索方法,它通過檢測(cè)地圖中的自由區(qū)域與未知區(qū)域之間的邊界,以引導(dǎo)機(jī)器人探索沒有去過的環(huán)境。在三維環(huán)境中,由于這種邊界很難在三維空間地圖上直接搜索,因此會(huì)常常與一些隨機(jī)搜索算法相結(jié)合,例如快速隨機(jī)搜索樹等。這種方法在室內(nèi)服務(wù)機(jī)器人,礦井搜索機(jī)器人中廣泛使用。
基于信息的方法則是將信息理論中熵的概念引入到未知環(huán)境探索問題中以構(gòu)建優(yōu)化問題。在信息理論中,熵通常用于衡量一個(gè)分布的不確定程度。熵值越大,表示對(duì)狀態(tài)的不確定性越高。當(dāng)機(jī)器人到達(dá)一個(gè)新的環(huán)境時(shí),此時(shí)面臨地圖的熵值是最大的,而機(jī)器人需要通過移動(dòng),增加地圖上每個(gè)位置狀態(tài)的確定性,以減小地圖熵值。
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,近幾年也衍生出了一些基于深度神經(jīng)網(wǎng)絡(luò)的未知環(huán)境探索方法。例如采用深度圖像或局部視野范圍內(nèi)構(gòu)建的地圖作為深度神經(jīng)網(wǎng)絡(luò)的輸入,采用監(jiān)督學(xué)習(xí)訓(xùn)練方法,直接預(yù)測(cè)機(jī)器人的運(yùn)動(dòng)方向。這種方法一方面依賴于大量的監(jiān)督數(shù)據(jù),另一方面容易陷入局部解。強(qiáng)化學(xué)習(xí)作為一種序列決策方法,通常會(huì)被結(jié)合進(jìn)來用于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中。相比于前兩類方法,這類方法的優(yōu)勢(shì)有兩點(diǎn):不再依賴專家規(guī)則,并且可以處理更雜亂的環(huán)境。
基于深度強(qiáng)化學(xué)習(xí)的未知環(huán)境探索方法
近幾年,Alpha Go, AlphaGo Zero等游戲AI在圍棋領(lǐng)域取得巨大突破使其核心技術(shù)——“深度強(qiáng)化學(xué)習(xí)”——得到了廣泛的關(guān)注。與此同時(shí),深度強(qiáng)化學(xué)習(xí)也逐漸應(yīng)用到機(jī)器人領(lǐng)域,而基于深度強(qiáng)化學(xué)習(xí)的自主探索成為未知環(huán)境探索領(lǐng)域的熱點(diǎn)方向之一,這類方法通常是設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),通過強(qiáng)化學(xué)習(xí)算法,訓(xùn)練傳感器數(shù)據(jù)到動(dòng)作的映射網(wǎng)絡(luò)。前面也提到,基于深度神經(jīng)網(wǎng)絡(luò)的方法相比于其他方法有很多優(yōu)勢(shì),但是它也存在一些問題。首先,這種方法需要大量訓(xùn)練樣本和訓(xùn)練時(shí)間,而訓(xùn)練過程通常是在仿真環(huán)境中進(jìn)行,由于實(shí)際環(huán)境和實(shí)際機(jī)器人誤差,從而導(dǎo)致從仿真環(huán)境中訓(xùn)練出的智能體很難遷移到實(shí)際的機(jī)器人上。針對(duì)這個(gè)問題,中科院自動(dòng)化所深度強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)提出了一種學(xué)習(xí)效率高、遷移性能強(qiáng)的深度強(qiáng)化學(xué)習(xí)未知環(huán)境自主探索算法。
圖2 自主探索框架
團(tuán)隊(duì)以自主導(dǎo)航框架為基礎(chǔ),將未知環(huán)境探索分解為建圖、決策和規(guī)劃三個(gè)模塊。通過將決策模塊與規(guī)劃模塊相結(jié)合,減小機(jī)器人學(xué)習(xí)運(yùn)動(dòng)的難度,從而提高機(jī)器人學(xué)習(xí)效率。并且重新定了機(jī)器人決策動(dòng)作空間,提高算法實(shí)體遷移性。該動(dòng)作空間定義在建圖模塊得到的柵格地圖,由若干目標(biāo)點(diǎn)構(gòu)成。
圖3 基于柵格地圖的動(dòng)作空間
在此基礎(chǔ)上,設(shè)計(jì)了一種帶有輔助任務(wù)的全卷積Q網(wǎng)絡(luò)(Fully Convolutional Q-network with an Auxiliary task,AFCQN),可以根據(jù)當(dāng)前時(shí)刻構(gòu)建的地圖,當(dāng)前時(shí)刻機(jī)器人位置和上一時(shí)刻機(jī)器人位置,對(duì)動(dòng)作空間中的目標(biāo)點(diǎn)進(jìn)行評(píng)價(jià)。
圖4 動(dòng)作評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)
該網(wǎng)絡(luò)結(jié)構(gòu)可以通過使用結(jié)合地圖信息熵設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)參數(shù)的自適應(yīng)學(xué)習(xí)。
圖5 實(shí)際環(huán)境中自動(dòng)探索過程
通過仿真環(huán)境中的實(shí)驗(yàn)和實(shí)際環(huán)境中實(shí)體機(jī)器人上的實(shí)驗(yàn)表明,團(tuán)隊(duì)提出的這種基于深度強(qiáng)化學(xué)習(xí)的自主探索算法具有更好的學(xué)習(xí)效率和實(shí)體遷移性能。并且相比于經(jīng)典方法,該方法在處理雜亂環(huán)境時(shí)具有更高的探索效率。
總結(jié):
未知環(huán)境探索使機(jī)器人在新環(huán)境中不再“迷路”,是進(jìn)行自主工作的前提,也是機(jī)器人自主學(xué)習(xí)和進(jìn)化的關(guān)鍵。未知環(huán)境探索不僅讓機(jī)器人熟悉新環(huán)境,更重要的是為后續(xù)決策提供重要的環(huán)境地圖信息。深度強(qiáng)化學(xué)習(xí)為未知環(huán)境探索提供了新思路,但也面臨著學(xué)習(xí)效率低的問題。高效和魯棒的學(xué)習(xí)算法仍然是今后努力發(fā)展的方向。
參考文獻(xiàn):
1. B. Yamauchi, “A frontier-based approach for autonomous exploration,” in Proceeding of IEEE International Symposium on Computational Intelligence in Robotics and Automation (CIRA). IEEE, 1997, pp. 146–151.
2. C. Stachniss, et al. “Information gain-based exploration using Rao-Blackwellized particle filters.” In Proceedings of Robotics: Science and Systems (RSS), 2005, pp. 65–72.
3. L. Tai and M. Liu, “Mobile robots exploration through CNN-based reinforcement learning,” Robotics and Biomimetics, vol. 3, no. 1, p. 24, 2016.
4. S. Bai, F. Chen, and B. Englot, “Toward autonomous mapping and exploration for mobile robots through deep supervised learning,” in Proceeding of IEEE International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017, pp. 2379–2384.
5. H. Li, Q. Zhang, and D. Zhao. “ Deep reinforcement learning-based automatic exploration for navigation in unknown environment,” IEEE Transactions on Neural Networks and Learning Systems, vol. 31, no. 6, pp. 2064–2076, 2020.
來源:中國科學(xué)院自動(dòng)化研究所