亚洲人成网站日本片,久久亚洲精品女人黄

CPU將進(jìn)入新時代：押注計(jì)算芯片的極限協(xié)同設(shè)計(jì)

來源：內(nèi)容由半導(dǎo)體行業(yè)觀察（icbank）編譯自「nextplatform」，作者：Timothy Prickett Morgan，謝謝。

我們現(xiàn)在進(jìn)入了一個時代，那就是IT行業(yè)的計(jì)算引擎將需要比以往任何時候都更需要更低的價格，更好的性能以及更好的散熱特性。這將需要一種在更大范圍的工作負(fù)載和設(shè)備上進(jìn)行協(xié)同設(shè)計(jì)系統(tǒng)（co-designing systems ）的進(jìn)化方法。

讓我們從顯而易見的地方開始。越來越清楚的是，盡管世界上所有軟件工程師都可能使您相信，但通用計(jì)算的美好時代是一個簡單的X86指令集和操作系統(tǒng)內(nèi)核是他們唯一需要的畫布。繪制他們的代碼。

X86計(jì)算生態(tài)系統(tǒng)的興起使我們在分布式計(jì)算和各種運(yùn)行時中實(shí)現(xiàn)了出色的寒武紀(jì)爆炸式增長，以執(zhí)行可跨X86變體以及Arm和Power等其他體系結(jié)構(gòu)移植的高級代碼。數(shù)據(jù)存儲、數(shù)據(jù)庫，應(yīng)用程序框架，虛擬機(jī)和運(yùn)行時的數(shù)量驚人，多樣化且美觀。如果確實(shí)發(fā)生了寒武紀(jì)大爆炸，那就是分布式計(jì)算模型和計(jì)算硬件的多樣性（過去十年中一直在增長）確實(shí)是通用X86引擎的功能，后者可以完成所有工作，或者有時很多，雖然他們不是支持各種工作負(fù)載的最佳方法。

當(dāng)工作負(fù)載，框架和硬件都對齊時，這是一件很美的事情。2012年就是這種情況，大約在HPC開始過渡到將代碼的并行組件卸載到GPU加速器的五年之后，機(jī)器學(xué)習(xí)算法最終找到了足夠的數(shù)據(jù)并具有足夠的并行處理能力以采用數(shù)學(xué)上早在1980年代就聽起來不錯的算法，并將它們用于圖像識別，語音識別，語音到文本翻譯，視頻識別和其他工作負(fù)載的測試。而且，lo和hehold，他們工作了。

現(xiàn)在AI的機(jī)器學(xué)習(xí)版本已經(jīng)徹底改變了我們思考軟件編寫以及管理業(yè)務(wù)和個人生活許多方面的方式。HPC和AI統(tǒng)一對供應(yīng)商和用戶而言都非常方便，因?yàn)榭梢詧?zhí)行一組工作負(fù)載的相同系統(tǒng)也可以完成另一組工作，在某些情況下，它們可以串行或并行地交織以創(chuàng)建AI增強(qiáng)的HPC。但是，正如我們之前指出的那樣，HPC和AI之間這種諧波收斂（harmonic convergence）的便利并不一定要保持，而只有在軟件和經(jīng)濟(jì)朝著相同的方向推動時才如此。

在2020年的這一點(diǎn)上，很難說它是否會成立，但是很明顯的是，橡樹嶺國家實(shí)驗(yàn)室的1.5 exaflops的“Frontier” 系統(tǒng)將于2021年到期，勞倫斯·利弗莫爾國家實(shí)驗(yàn)室的2 exaflops的“ El Capitan”系統(tǒng)定于2022年問世。相關(guān)資料顯示，這個系統(tǒng)混合了CPU-GPU，兩者之間具有緊密耦合的計(jì)算和一致的內(nèi)存。他們指出，將AMD Epyc CPU和Radeon Instinct GPU加速器混合使用是正確的選擇，這對新貴X86和GPU芯片制造商來說是福音。話雖如此，勞倫斯·利弗莫爾（Lawrence Livermore）絕對清楚，El Capitan主要是一臺HPC機(jī)器，具有一些相對較小的AI職責(zé)。

現(xiàn)代的單片CPU或使用單個插槽中的小芯片（chiplets）之間的互連創(chuàng)建虛擬CPU的插槽，確實(shí)是一個奇跡。當(dāng)我們看這些芯片中的一種時，我們正在看的是僅僅幾十年前的超級計(jì)算機(jī)，它們將需要如此多的單個芯片來構(gòu)建，以至于讓人難以置信。讓我們花點(diǎn)時間看一下這些藝術(shù)品，從英特爾的28核“ Skylake” Xeon SP 裸片開始：

甚至西摩·克雷（Seymour Cray）都會拿出放大鏡，花幾個小時觀察這種美麗。克雷（Cray）將花費(fèi)我們預(yù)期的等量時間，研究IBM的24核“ Nimbus” Power9處理器：

我們還沒有Ampere的“ Quicksilver” Altra或Marvell的“ Triton” ThunderX3 這些Arm服務(wù)器CPU的裸片圖，但是就組件數(shù)量而言，毫無疑問，它們將同樣復(fù)雜。我們也沒有構(gòu)成AMD“羅馬” Epyc 7002系列的九中芯片的集合，但是我們稍后將在此查看一些Rome原理圖。

如果您細(xì)心看，你會發(fā)現(xiàn)現(xiàn)代服務(wù)器CPU就像二十年前的大型iron NUMA的外觀，只是所有組件都縮減為一個裸片，他不僅包含CPU（今天稱為內(nèi)核），還包括L3緩存，PCI- Express和以太網(wǎng)控制器以及用于加密、數(shù)據(jù)壓縮、內(nèi)存壓縮、矢量數(shù)學(xué)和十進(jìn)制數(shù)學(xué)的各種加速器（IBM Power和System z都有）。如果您已經(jīng)像我們一樣從事了很長時間的行業(yè)，那么從大型NUMA服務(wù)器縮減到單個插槽的縮影確實(shí)是一個了不起的旅程。

AMD Rome會是你的目標(biāo)嗎？

有幾件事很清楚。一方面，AMD在Rome方面的成功提供了一種設(shè)計(jì)良好的小芯片體系結(jié)構(gòu)，即使從單片芯片遷移到小芯片設(shè)計(jì)時，即使對延遲產(chǎn)生影響，也可以提供性能和性價比方面的優(yōu)勢。在羅馬走一走，看看：

Rome使用的Zen2內(nèi)核的所有功能都優(yōu)于Naples首次推出的Zen1內(nèi)核，并且通過創(chuàng)建圍繞單個I / O和內(nèi)存控制器中樞的專用內(nèi)核模塊，大大改善了小芯片的互連體系結(jié)構(gòu)。AMD這樣做的所有意圖和目的都是在單個14納米管芯上混合了I / O和存儲器控制器的NUMA控制器，該管芯由Globalfoundries制造，具有83.4億個晶體管。

據(jù)了解，核心小芯片在單個裸片上具有兩個四核核心復(fù)合體，其中八個裸片（骰子？）構(gòu)成了總共64個核心，這些I / O核心都包裹在其中。每個核心小芯片都有39億個晶體管，這些晶體管是由臺積電在其7納米工藝中蝕刻的，總共有322億個晶體管用于計(jì)算。

全部加進(jìn)去 Rome Epyc 7002小芯片工廠總共擁有395.4億個晶體管，這肯定會超出任何代工廠的標(biāo)線限制，而且要獲得如此大芯片的良率也將變得更加瘋狂。封裝小芯片的麻煩，成本和風(fēng)險(xiǎn)不如制造標(biāo)線片破壞單片服務(wù)器芯片的麻煩成本和風(fēng)險(xiǎn)大，至少對于擁有附屬PC芯片業(yè)務(wù)的AMD而言，無論如何它都需要制造更小的芯片。

所有服務(wù)器CPU制造商遲早都將使用小芯片，但我們希望更加激進(jìn)。我們希望將CPU分解為核心串行，整數(shù)處理要點(diǎn)，并撕裂所有已放置在芯片上的矢量引擎和加速器（這些整數(shù)引擎現(xiàn)在或在其旁邊或在環(huán)形或網(wǎng)狀互連中）。它們位于其他芯片中，它們屬于一個世界，該世界將具有一致的系統(tǒng)間（CXL）和系統(tǒng)內(nèi)（Gen-Z）一致協(xié)議集，以將計(jì)算元素捆綁在一起，以便它們可以以非對稱方式共享內(nèi)存或存儲或symmetric fashion。

如果GPU加速器可以在64位或32位浮點(diǎn)處理上提供最佳的每瓦性能和每美元性能，那就可以了。將向量單元從CPU中取出，然后有兩種選擇：使芯片更小，更便宜，添加更多內(nèi)核或提高時鐘頻率以創(chuàng)建性能更高或成本更低的串行整數(shù)計(jì)算引擎。

如果客戶需要混合精度或更高精度的數(shù)據(jù)流引擎以及僅少量串行數(shù)據(jù)，主機(jī)計(jì)算，則可以將精簡的CPU與FPGA緊密連接。并且假設(shè)至少要進(jìn)行一些服務(wù)器虛擬化，尤其是在云和企業(yè)中，則應(yīng)盡可能從服務(wù)器CPU上卸載這項(xiàng)工作。這意味著我們絕對假設(shè)每臺服務(wù)器中都將有一個SmartNIC，可以像基板管理控制器（尚未發(fā)生的融合），服務(wù)器虛擬化或容器平臺主機(jī)，以及可以運(yùn)行虛擬網(wǎng)絡(luò)和虛擬存儲的地方一樣工作,就像Amazon Web Services和Microsoft Azure一樣。加密，解密，數(shù)據(jù)壓縮和其他功能也可以從主機(jī)CPU中提取出來，并放入SmartNIC中，它們可以歸為SmartNIC，并且可以用更少的錢完成。

最終，我們要優(yōu)化專用芯片上的所有芯片性能，使其具有各種尺寸和容量，并具有互連功能，從而允許系統(tǒng)設(shè)計(jì)師以比超規(guī)?；吆驮茦?gòu)建者所擁有的以太網(wǎng)更細(xì)粒度，更低的層次來混合它們。

試圖做到這一點(diǎn)。這可能意味著socket的協(xié)議標(biāo)準(zhǔn)化,這可能將引致一些芯片制造商的抵制。但是有了這樣的標(biāo)準(zhǔn)，系統(tǒng)架構(gòu)師和芯片（實(shí)際上是socket）制造商可以擁有更廣泛的計(jì)算選項(xiàng)板，用它們來繪制他們的許多工作負(fù)載，無論是在socket還是跨系統(tǒng)，或是它們的某種混合。

誠然，仍然會有那些想要通用服務(wù)器CPU的人，瑞士軍刀可以完成所有工作。但是，我們談?wù)摰氖菗碛幸话褎?，一把非常好的剪刀和一把無用的手鋸，而是一系列微型版本的集合，這些版本最終并沒有看上去有用。

*點(diǎn)擊文末閱讀原文，可閱讀英文原文。

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第2265期內(nèi)容，歡迎關(guān)注。

★為什么我看中的人都想去華為海思？

★中國存儲產(chǎn)業(yè)的另一面

★手機(jī)芯片往事

存儲｜傳感器｜IGBT｜ARM｜FPGA｜中興｜蘋果｜半導(dǎo)體股價｜IP

亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

CPU將進(jìn)入新時代：押注計(jì)算芯片的極限協(xié)同設(shè)計(jì)