芯潮(ID:aichip001)編 | 云鵬
芯潮11月25日消息,日本AI創(chuàng)企Preferred Networks(PFN)在美國(guó)科羅拉多州丹佛市舉行的2019全球超級(jí)計(jì)算大會(huì)上展示了定制AI訓(xùn)練芯片MN-Core,可以在500W的功耗基礎(chǔ)上實(shí)現(xiàn)524TFLOPS算力,計(jì)算功率效率達(dá)到了1.05 TFLOPS / W,超過(guò)NV Tesla V100、華為昇騰910等AI芯片的能效比。
PFN成立于2014年,總部位于日本東京,目前已籌集了約1.3億美元,其中日本豐田(Toyota)公司投資了9,660萬(wàn)美元。PFN主要致力于通過(guò)深度學(xué)習(xí)技術(shù)為邊緣和物聯(lián)網(wǎng)提供算力支持。此次展示的MN-Core基于臺(tái)積電12nm工藝制造。以下是對(duì)WikiChipFuse相關(guān)報(bào)道的原文編譯。
01、MN系列超級(jí)計(jì)算機(jī)已迭代兩次在全球超級(jí)計(jì)算機(jī)大會(huì)中PFN的展位上,我們會(huì)見(jiàn)了東京大學(xué)名譽(yù)教授Kei Hiraki。Hiraki教授一直參與PFN的MN-Core的開(kāi)發(fā)。Hiraki解釋說(shuō),PFN已經(jīng)開(kāi)發(fā)了一系列專用超級(jí)計(jì)算機(jī),以加速其自己的應(yīng)用程序的研發(fā),這些應(yīng)用程序使用大量的計(jì)算能力來(lái)進(jìn)行深度學(xué)習(xí)。
該公司于2017年推出了首個(gè)AI超級(jí)計(jì)算機(jī)MN-1。該系統(tǒng)具有1,024個(gè)Nvidia Tesla P100 GPU,可達(dá)到1.39 PFLOPS和9.3PFLOPS的峰值計(jì)算量。當(dāng)時(shí),MN-1在工業(yè)超級(jí)計(jì)算機(jī)的TOP500上在日本排名第一,在世界排名第十二。
在2018年7月,PFN通過(guò)添加512個(gè)額外的Tesla V100 GPU增強(qiáng)了MN-1。較新的系統(tǒng)MN-1b將深度學(xué)習(xí)(張量)的計(jì)算能力提高到56 PFLOPS。
今年早些時(shí)候,PFN推出了迄今為止最大的超級(jí)計(jì)算機(jī)MN-2。該系統(tǒng)于2019年7月投入運(yùn)行,該系統(tǒng)將V100 GPU的數(shù)量增加了一倍,并從PCIe卡切換為SXM2模塊。
▲歷代PFN超級(jí)計(jì)算機(jī)
02、MN-Core兼顧高性能與低功耗PFN下一代超級(jí)計(jì)算機(jī)更加有趣。Hiraki教授解釋說(shuō),PFN決定開(kāi)發(fā)自己的專有深度學(xué)習(xí)加速器,以實(shí)現(xiàn)更高的性能,更重要的是實(shí)現(xiàn)更高的電源效率。
他們?cè)O(shè)計(jì)的是500瓦芯片,Hiraki表示這是在可能的冷卻極限內(nèi)進(jìn)行的。該芯片本身在一個(gè)多芯片封裝中包含四個(gè)內(nèi)核。內(nèi)核是根據(jù)公司自己的設(shè)計(jì),以臺(tái)積電12nm工藝制造。
▲MN-Core
在上面的芯片照片中,芯片上刻有單詞“ GRAPE-PFN2”。盡管尚不清楚刻制的原因,但似乎有些體系架構(gòu)源自GRAPE-DR。還需要指出的是,PFN團(tuán)隊(duì)的成員以前曾在GRAPE-DR物理協(xié)處理器(physics coprocessor)項(xiàng)目中工作,包括Hiraki教授。
MN-Core封裝尺寸比較大,為85*85mm。內(nèi)核面積也非常大,達(dá)到756.7mm2。在500 W功耗時(shí),該芯片的算力為524TFLOPS。這為他們提供了1.05 TFLOPS / W的計(jì)算功率效率,這正是他們的目標(biāo)。
該體系結(jié)構(gòu)類似于GRAPE協(xié)處理器(coprocessor)的體系結(jié)構(gòu)。盡管對(duì)各個(gè)區(qū)塊進(jìn)行了調(diào)整以用于訓(xùn)練任務(wù),但各個(gè)區(qū)塊的名稱都很相似,并且總體操作非常相似。
MN-Core有DRAM I / F,PICe I / F和4個(gè)L2B區(qū)塊。每個(gè)L2B中有8個(gè)L1B和1個(gè)區(qū)塊存儲(chǔ)器(block memory)。一級(jí)區(qū)塊包括16個(gè)矩陣算術(shù)區(qū)塊(MAB)以及其自己的區(qū)塊存儲(chǔ)器。矩陣算術(shù)單元(matrix arithmetic units)和4個(gè)處理元件(PE)組成一個(gè)MAB。每個(gè)芯片總共有512個(gè)MAB。
各個(gè)PE將數(shù)據(jù)傳遞給MAU,PE包含一個(gè)ALU并實(shí)現(xiàn)了PFN專門(mén)使用的許多自定義DL功能。PE的基本數(shù)據(jù)類型操作是16位浮點(diǎn)數(shù),通過(guò)組合多個(gè)PE可以支持更高精度的操作。
▲MN-Core內(nèi)部架構(gòu)圖
03、2 EFLOPS算力超算MN-3將使用MN-CoreMN-Core芯片本身位于MN-Core板上,后者是一種PFN設(shè)計(jì)的基于PCIe的定制加速器板。Hiraki教授表示,芯片功耗為500W,0.55 V,有1000 A電流流經(jīng)電路板,而封裝對(duì)設(shè)計(jì)構(gòu)成了重大挑戰(zhàn)。
該板本身是x16 PCIe Gen 3.0卡,其中集成了MN-Core芯片,32 GiB內(nèi)存以及定制設(shè)計(jì)的散熱器和風(fēng)扇。PFN估計(jì)該卡的功耗約為600瓦。
▲搭載MN-Core的板卡
在MN-Core服務(wù)器(一個(gè)7U機(jī)架式機(jī)箱)上安裝了四個(gè)MN-Core板。每個(gè)服務(wù)器中都有一個(gè)雙插槽CPU。四個(gè)板使它們每秒可以達(dá)到2 PFLOPS的半精度浮點(diǎn)運(yùn)算。
▲MN-Core板卡和服務(wù)器規(guī)格
PFN計(jì)劃在每個(gè)機(jī)架(rack)上堆疊其4臺(tái)服務(wù)器。他們的下一代超級(jí)計(jì)算機(jī)MN-3將基于MN-Core。
▲MN-3超算概念圖
PFN目前沒(méi)有出售這種芯片的計(jì)劃。MN-Core芯片和他們的超級(jí)計(jì)算機(jī)將專門(mén)用于自己的研發(fā)。
PFN預(yù)計(jì)MN-3擁有約300個(gè)機(jī)架,可用于4800個(gè)MN-Core板。這相當(dāng)于每秒2 EFLOPS的算力。在功耗方面,PFN估計(jì)該機(jī)器的功率為3.36 MW,對(duì)于這種性能而言這是非常低的。例如,擁有1.88 EFLOPS算力的IBM Summit超級(jí)計(jì)算機(jī)功率為13MW。MN-3計(jì)劃于2020年投入運(yùn)營(yíng)。
目前Google和Amazon等超大規(guī)模用戶(hyperscalers)為自己的云服務(wù)器開(kāi)發(fā)了自定義神經(jīng)處理器(custom neural processors)。類似的趨勢(shì)正在行業(yè)中出現(xiàn),諸如Preferred Networks之類的公司設(shè)計(jì)了自己的NPU。
他們的目的都是相同的——通過(guò)設(shè)計(jì)和研發(fā)自己芯片,以便擁有獨(dú)特的,與眾不同的技術(shù)優(yōu)勢(shì)。目前,只有少數(shù)幾家AI硬件初創(chuàng)公司推出了AI推理芯片,而沒(méi)有一家初創(chuàng)公司交付AI訓(xùn)練芯片。這種專業(yè)訓(xùn)練芯片的缺乏,給可以制造超越當(dāng)前頂級(jí)訓(xùn)練GPU能效比的AI芯片的公司帶來(lái)了獨(dú)特的機(jī)遇。
隨著越來(lái)越多的企業(yè)進(jìn)入AI訓(xùn)練芯片領(lǐng)域,整個(gè)市場(chǎng)格局可能將會(huì)發(fā)生變化。
結(jié)語(yǔ):AI芯片自研——掌握技術(shù)優(yōu)勢(shì)的核心此次PFN推出的MN-Core AI訓(xùn)練芯片,無(wú)論在絕對(duì)算力還是能效比方面都處于全球領(lǐng)先行列,不過(guò)該公司準(zhǔn)備將這項(xiàng)成果掌握在自己手中,用于后續(xù)研發(fā),之后是否會(huì)商用還未表態(tài)。
提高芯片的算力和深度學(xué)習(xí)推理能力是當(dāng)下的大趨勢(shì),MN-Core的推出豐富了當(dāng)下相對(duì)匱乏的AI訓(xùn)練芯片市場(chǎng),為大規(guī)模超算提供了一種新的解決方案。
無(wú)論是谷歌、華為、英偉達(dá)、英特爾,都將自研AI芯片作為重點(diǎn)發(fā)力方向之一,唯有掌握“核心”,才能掌握核心技術(shù)優(yōu)勢(shì)。AI芯片算力市場(chǎng),亟待更多新力量加入。
原文來(lái)自:WikiChipFuse