亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁 > 科技新聞 >

CPU將進(jìn)入新時(shí)代:押注計(jì)算芯片的極限協(xié)同設(shè)計(jì)

時(shí)間:2020-04-03 17:49來源:網(wǎng)絡(luò)整理 瀏覽:
來源:內(nèi)容由半導(dǎo)體行業(yè)觀察(icbank)編譯自「nextplatform」,作者:Timothy Prickett Morgan,謝謝。我
CPU將進(jìn)入新時(shí)代:押注計(jì)算芯片的極限協(xié)同設(shè)計(jì)

來源:內(nèi)容由半導(dǎo)體行業(yè)觀察(icbank)編譯自「nextplatform」,作者:Timothy Prickett Morgan,謝謝。

我們現(xiàn)在進(jìn)入了一個(gè)時(shí)代,那就是IT行業(yè)的計(jì)算引擎將需要比以往任何時(shí)候都更需要更低的價(jià)格,更好的性能以及更好的散熱特性。這將需要一種在更大范圍的工作負(fù)載和設(shè)備上進(jìn)行協(xié)同設(shè)計(jì)系統(tǒng)(co-designing systems )的進(jìn)化方法。

讓我們從顯而易見的地方開始。越來越清楚的是,盡管世界上所有軟件工程師都可能使您相信,但通用計(jì)算的美好時(shí)代是一個(gè)簡單的X86指令集和操作系統(tǒng)內(nèi)核是他們唯一需要的畫布。繪制他們的代碼。

X86計(jì)算生態(tài)系統(tǒng)的興起使我們在分布式計(jì)算和各種運(yùn)行時(shí)中實(shí)現(xiàn)了出色的寒武紀(jì)爆炸式增長,以執(zhí)行可跨X86變體以及Arm和Power等其他體系結(jié)構(gòu)移植的高級代碼。數(shù)據(jù)存儲、數(shù)據(jù)庫,應(yīng)用程序框架,虛擬機(jī)和運(yùn)行時(shí)的數(shù)量驚人,多樣化且美觀。如果確實(shí)發(fā)生了寒武紀(jì)大爆炸,那就是分布式計(jì)算模型和計(jì)算硬件的多樣性(過去十年中一直在增長)確實(shí)是通用X86引擎的功能,后者可以完成所有工作,或者有時(shí)很多,雖然他們不是支持各種工作負(fù)載的最佳方法。

當(dāng)工作負(fù)載,框架和硬件都對齊時(shí),這是一件很美的事情。2012年就是這種情況,大約在HPC開始過渡到將代碼的并行組件卸載到GPU加速器的五年之后,機(jī)器學(xué)習(xí)算法最終找到了足夠的數(shù)據(jù)并具有足夠的并行處理能力以采用數(shù)學(xué)上早在1980年代就聽起來不錯(cuò)的算法,并將它們用于圖像識別,語音識別,語音到文本翻譯,視頻識別和其他工作負(fù)載的測試。而且,lo和hehold,他們工作了。

現(xiàn)在AI的機(jī)器學(xué)習(xí)版本已經(jīng)徹底改變了我們思考軟件編寫以及管理業(yè)務(wù)和個(gè)人生活許多方面的方式。HPC和AI統(tǒng)一對供應(yīng)商和用戶而言都非常方便,因?yàn)榭梢詧?zhí)行一組工作負(fù)載的相同系統(tǒng)也可以完成另一組工作,在某些情況下,它們可以串行或并行地交織以創(chuàng)建AI增強(qiáng)的HPC。但是,正如我們之前指出的那樣,HPC和AI之間這種諧波收斂(harmonic convergence)的便利并不一定要保持,而只有在軟件和經(jīng)濟(jì)朝著相同的方向推動(dòng)時(shí)才如此。

在2020年的這一點(diǎn)上,很難說它是否會成立,但是很明顯的是,橡樹嶺國家實(shí)驗(yàn)室的1.5 exaflops的“Frontier” 系統(tǒng)將于2021年到期,勞倫斯·利弗莫爾國家實(shí)驗(yàn)室的2 exaflops的“ El Capitan”系統(tǒng)定于2022年問世。相關(guān)資料顯示,這個(gè)系統(tǒng)混合了CPU-GPU,兩者之間具有緊密耦合的計(jì)算和一致的內(nèi)存。他們指出,將AMD Epyc CPU和Radeon Instinct GPU加速器混合使用是正確的選擇,這對新貴X86和GPU芯片制造商來說是福音。話雖如此,勞倫斯·利弗莫爾(Lawrence Livermore)絕對清楚,El Capitan主要是一臺HPC機(jī)器,具有一些相對較小的AI職責(zé)。

現(xiàn)代的單片CPU或使用單個(gè)插槽中的小芯片(chiplets)之間的互連創(chuàng)建虛擬CPU的插槽,確實(shí)是一個(gè)奇跡。當(dāng)我們看這些芯片中的一種時(shí),我們正在看的是僅僅幾十年前的超級計(jì)算機(jī),它們將需要如此多的單個(gè)芯片來構(gòu)建,以至于讓人難以置信。讓我們花點(diǎn)時(shí)間看一下這些藝術(shù)品,從英特爾的28核“ Skylake” Xeon SP 裸片開始:

CPU將進(jìn)入新時(shí)代:押注計(jì)算芯片的極限協(xié)同設(shè)計(jì)

甚至西摩·克雷(Seymour Cray)都會拿出放大鏡,花幾個(gè)小時(shí)觀察這種美麗??死祝–ray)將花費(fèi)我們預(yù)期的等量時(shí)間,研究IBM的24核“ Nimbus” Power9處理器:

CPU將進(jìn)入新時(shí)代:押注計(jì)算芯片的極限協(xié)同設(shè)計(jì)

我們還沒有Ampere的“ Quicksilver” Altra或Marvell的“ Triton” ThunderX3 這些Arm服務(wù)器CPU的裸片圖,但是就組件數(shù)量而言,毫無疑問,它們將同樣復(fù)雜。我們也沒有構(gòu)成AMD“羅馬” Epyc 7002系列的九中芯片的集合,但是我們稍后將在此查看一些Rome原理圖。

如果您細(xì)心看,你會發(fā)現(xiàn)現(xiàn)代服務(wù)器CPU就像二十年前的大型iron NUMA的外觀,只是所有組件都縮減為一個(gè)裸片,他不僅包含CPU(今天稱為內(nèi)核),還包括L3緩存,PCI- Express和以太網(wǎng)控制器以及用于加密、數(shù)據(jù)壓縮、內(nèi)存壓縮、矢量數(shù)學(xué)和十進(jìn)制數(shù)學(xué)的各種加速器(IBM Power和System z都有)。如果您已經(jīng)像我們一樣從事了很長時(shí)間的行業(yè),那么從大型NUMA服務(wù)器縮減到單個(gè)插槽的縮影確實(shí)是一個(gè)了不起的旅程。

AMD Rome會是你的目標(biāo)嗎?

有幾件事很清楚。一方面,AMD在Rome方面的成功提供了一種設(shè)計(jì)良好的小芯片體系結(jié)構(gòu),即使從單片芯片遷移到小芯片設(shè)計(jì)時(shí),即使對延遲產(chǎn)生影響,也可以提供性能和性價(jià)比方面的優(yōu)勢。在羅馬走一走,看看:

CPU將進(jìn)入新時(shí)代:押注計(jì)算芯片的極限協(xié)同設(shè)計(jì)

Rome使用的Zen2內(nèi)核的所有功能都優(yōu)于Naples首次推出的Zen1內(nèi)核,并且通過創(chuàng)建圍繞單個(gè)I / O和內(nèi)存控制器中樞的專用內(nèi)核模塊,大大改善了小芯片的互連體系結(jié)構(gòu)。AMD這樣做的所有意圖和目的都是在單個(gè)14納米管芯上混合了I / O和存儲器控制器的NUMA控制器,該管芯由Globalfoundries制造,具有83.4億個(gè)晶體管。

據(jù)了解,核心小芯片在單個(gè)裸片上具有兩個(gè)四核核心復(fù)合體,其中八個(gè)裸片(骰子?)構(gòu)成了總共64個(gè)核心,這些I / O核心都包裹在其中。每個(gè)核心小芯片都有39億個(gè)晶體管,這些晶體管是由臺積電在其7納米工藝中蝕刻的,總共有322億個(gè)晶體管用于計(jì)算。

全部加進(jìn)去 Rome Epyc 7002小芯片工廠總共擁有395.4億個(gè)晶體管,這肯定會超出任何代工廠的標(biāo)線限制,而且要獲得如此大芯片的良率也將變得更加瘋狂。封裝小芯片的麻煩,成本和風(fēng)險(xiǎn)不如制造標(biāo)線片破壞單片服務(wù)器芯片的麻煩成本和風(fēng)險(xiǎn)大,至少對于擁有附屬PC芯片業(yè)務(wù)的AMD而言,無論如何它都需要制造更小的芯片。

所有服務(wù)器CPU制造商遲早都將使用小芯片,但我們希望更加激進(jìn)。我們希望將CPU分解為核心串行,整數(shù)處理要點(diǎn),并撕裂所有已放置在芯片上的矢量引擎和加速器(這些整數(shù)引擎現(xiàn)在或在其旁邊或在環(huán)形或網(wǎng)狀互連中)。它們位于其他芯片中,它們屬于一個(gè)世界,該世界將具有一致的系統(tǒng)間(CXL)和系統(tǒng)內(nèi)(Gen-Z)一致協(xié)議集,以將計(jì)算元素捆綁在一起,以便它們可以以非對稱方式共享內(nèi)存或存儲或symmetric fashion。

如果GPU加速器可以在64位或32位浮點(diǎn)處理上提供最佳的每瓦性能和每美元性能,那就可以了。將向量單元從CPU中取出,然后有兩種選擇:使芯片更小,更便宜,添加更多內(nèi)核或提高時(shí)鐘頻率以創(chuàng)建性能更高或成本更低的串行整數(shù)計(jì)算引擎。

如果客戶需要混合精度或更高精度的數(shù)據(jù)流引擎以及僅少量串行數(shù)據(jù),主機(jī)計(jì)算,則可以將精簡的CPU與FPGA緊密連接。并且假設(shè)至少要進(jìn)行一些服務(wù)器虛擬化,尤其是在云和企業(yè)中,則應(yīng)盡可能從服務(wù)器CPU上卸載這項(xiàng)工作。這意味著我們絕對假設(shè)每臺服務(wù)器中都將有一個(gè)SmartNIC,可以像基板管理控制器(尚未發(fā)生的融合),服務(wù)器虛擬化或容器平臺主機(jī),以及可以運(yùn)行虛擬網(wǎng)絡(luò)和虛擬存儲的地方一樣工作,就像Amazon Web Services和Microsoft Azure一樣。加密,解密,數(shù)據(jù)壓縮和其他功能也可以從主機(jī)CPU中提取出來,并放入SmartNIC中,它們可以歸為SmartNIC,并且可以用更少的錢完成。

最終,我們要優(yōu)化專用芯片上的所有芯片性能,使其具有各種尺寸和容量,并具有互連功能,從而允許系統(tǒng)設(shè)計(jì)師以比超規(guī)?;吆驮茦?gòu)建者所擁有的以太網(wǎng)更細(xì)粒度,更低的層次來混合它們。

試圖做到這一點(diǎn)。這可能意味著socket的協(xié)議標(biāo)準(zhǔn)化,這可能將引致一些芯片制造商的抵制。但是有了這樣的標(biāo)準(zhǔn),系統(tǒng)架構(gòu)師和芯片(實(shí)際上是socket)制造商可以擁有更廣泛的計(jì)算選項(xiàng)板,用它們來繪制他們的許多工作負(fù)載,無論是在socket還是跨系統(tǒng),或是它們的某種混合。

誠然,仍然會有那些想要通用服務(wù)器CPU的人,瑞士軍刀可以完成所有工作。但是,我們談?wù)摰氖菗碛幸话褎?,一把非常好的剪刀和一把無用的手鋸,而是一系列微型版本的集合,這些版本最終并沒有看上去有用。

*點(diǎn)擊文末閱讀原文,可閱讀英文原文

*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第2265期內(nèi)容,歡迎關(guān)注。

★為什么我看中的人都想去華為海思?

★中國存儲產(chǎn)業(yè)的另一面

★手機(jī)芯片往事

存儲|傳感器|IGBT|ARM|FPGA|中興|蘋果|半導(dǎo)體股價(jià)|IP

CPU將進(jìn)入新時(shí)代:押注計(jì)算芯片的極限協(xié)同設(shè)計(jì)
推薦內(nèi)容