亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁 > 體育新聞 >

麻將AI超99%人類玩家:專業(yè)十段 學(xué)習(xí)能力堪比阿

時(shí)間:2020-04-13 10:19來源:網(wǎng)絡(luò)整理 瀏覽:
從最早的AI(人工智能)在國際象棋中戰(zhàn)勝人類開始,中國象棋、德州撲克、圍棋等智力游戲相繼淪陷,在DOTA、星際爭霸等電子游戲中也表現(xiàn)亮眼,

從最早的AI(人工智能)在國際象棋中戰(zhàn)勝人類開始,中國象棋、德州撲克、圍棋等智力游戲相繼淪陷,在DOTA、星際爭霸等電子游戲中也表現(xiàn)亮眼,但是AI在麻將領(lǐng)域卻一直沒有突破。

近日,微軟發(fā)布了一份關(guān)于麻將AI“Suphx(意為Super Phoenix,超級鳳凰)”的修訂版預(yù)印本文件,介紹說Suphx是一個(gè)專業(yè)十段水平的“選手”,超越了99%人類玩家,這是計(jì)算機(jī)程序首次超過麻將中大多數(shù)頂級人類玩家。麻將AI,擁有強(qiáng)大算力遠(yuǎn)遠(yuǎn)不夠

據(jù)這份公開資料顯示,Suphx于2019年3月登陸日本專業(yè)的麻將競技平臺Tenhou(天鳳),在短短幾個(gè)月內(nèi),Suphx在該平臺上與人類選手展開了5000余場四人麻將對局,達(dá)到了十段,這是目前為止,世界上第一個(gè)也是唯一一個(gè)達(dá)到10段水平的人工智能

據(jù)悉,天鳳是世界上最大的麻將社區(qū)之一,擁有超過35萬活躍用戶,其中不乏大量的專業(yè)麻將選手。天鳳平臺自2006年推出以來,四人麻將達(dá)到過十段的選手約有180位,而現(xiàn)役的十段人類選手也不過十幾位。

麻將被稱為不完全信息博弈,每位玩家手中最多有13張別人不可見的牌。牌墻中的14張牌對所有玩家都不可見。此外,牌桌中央還有70張牌。只有被玩家打出時(shí),這部分牌才可見。

雖然136張麻將的排列組合結(jié)果和圍棋相比要小得多,但難點(diǎn)在于同一玩家兩次出牌之間,夾雜了其他3位玩家的出牌、自己的摸牌,而且還有“吃、碰、杠”都會讓牌局產(chǎn)生動態(tài)變化。

在這種規(guī)則下,玩家每做出一個(gè)選擇,接下來的牌局就可能出現(xiàn)10個(gè)以上的走向。

另外,麻將游戲的“胡牌”方式非常多。因此,想要打造一個(gè)高手麻將AI,只有強(qiáng)大的算力是不夠的,更需要讓AI具有直覺、預(yù)測、推理和模糊決策的能力,這也正是建立麻將人工智能模型的難點(diǎn)所在。Suphx的決策流程及模型架構(gòu)。

十段功力究竟是怎么修煉的

那么,Suphx是怎么解決這些問題,從而戰(zhàn)勝人類的呢?

據(jù)介紹,開始階段研究員們利用天鳳平臺的公開數(shù)據(jù)得到一個(gè)初始模型,并在模型基礎(chǔ)上用自我博弈的方式進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。研究員開發(fā)了丟牌模型、立直模型、吃牌模型、碰牌模型以及杠牌模型等五大模型,專門訓(xùn)練“超級鳳凰”的打牌策略。

這五大模型都基于深度殘差卷積神經(jīng)網(wǎng)絡(luò),并一一應(yīng)對麻將復(fù)雜的決策類型。甚至,Suphx還有一個(gè)基于規(guī)則的贏牌模型,決定在可以贏牌的時(shí)候要不要贏牌。

隨后,針對非完美信息博弈的挑戰(zhàn),Suphx創(chuàng)新性地嘗試了先知教練技術(shù)來提升強(qiáng)化學(xué)習(xí)的效果。

最后,再針對麻將復(fù)雜的牌面表達(dá)和計(jì)分機(jī)制,研究團(tuán)隊(duì)利用全盤預(yù)測技術(shù)搭建起每局比賽和8局終盤結(jié)果之間的橋梁。

這個(gè)預(yù)測器通過精巧的設(shè)計(jì),可以理解每局比賽對終盤的不同貢獻(xiàn),從而將終盤的獎勵信號合理地分配回每一局比賽中,以便對自我博弈的過程進(jìn)行更加直接有效的指導(dǎo),并使得Suphx可以學(xué)會一些具有大局觀的高級技巧。智力游戲是AI研究者的最佳實(shí)驗(yàn)田

從最早的AI在國際象棋中戰(zhàn)勝人類開始,AI先后攻克了中國象棋、德州撲克、圍棋、DOTA、星際爭霸等多種游戲,為什么AI研究者都喜歡挑戰(zhàn)游戲領(lǐng)域呢?

在去年的世界人工智能大會上,時(shí)任微軟全球副總裁的沈向洋表示,游戲一直是人工智能研究的最佳試驗(yàn)田,訓(xùn)練游戲AI的過程可以不斷提升人工智能的算法和人工智能處理復(fù)雜問題的能力。

在現(xiàn)實(shí)世界中,金融市場預(yù)測、物流優(yōu)化等很多問題與麻將游戲有著相同的特點(diǎn),包括復(fù)雜的操作、獎勵規(guī)則、信息的不完全性等。

浙江大學(xué)人工智能研究所所長吳飛也表示,很多AI的研發(fā)都是針對某個(gè)領(lǐng)域或某個(gè)具體任務(wù)進(jìn)行的研究,這些AI誕生的目的當(dāng)然不僅僅在某個(gè)游戲勝過人類這么簡單,都是為了應(yīng)用到我們實(shí)際生活中去。

吳飛告訴記者:“微軟這款麻將AI所采取的策略其實(shí)和圍棋當(dāng)中的Alphago是類似的,框架還是基于強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)和蒙特卡洛樹搜索。只不過它是針對麻將這個(gè)具體問題進(jìn)行優(yōu)化,如針對麻將中不同出牌的策略專門進(jìn)行學(xué)習(xí)。

在吳飛看來,AI戰(zhàn)勝人類在大部分棋牌類游戲中都可以實(shí)現(xiàn),但這不代表現(xiàn)在的AI就比人類厲害了,因?yàn)槿祟愋袨椴皇菃我粏栴}的集合,實(shí)際的應(yīng)用場景比游戲要復(fù)雜得多。

“比如現(xiàn)在大家關(guān)注度比較高的自動駕駛、城市大腦,這些場景更加復(fù)雜,沒有足夠多的數(shù)據(jù),也沒有足夠準(zhǔn)確的機(jī)器語言去描述,因此目前的人工智能在實(shí)際使用中還很局限。不過這類AI的出現(xiàn)對我們解決序貫決策問題還是很有幫助的,比如對經(jīng)濟(jì)活動調(diào)整的預(yù)測和分析,來幫助經(jīng)營者作出更好的決策;在交通、物流領(lǐng)域進(jìn)行效率優(yōu)化、降低成本提高收益等?!保ㄥX江晚報(bào))

推薦內(nèi)容