99久久综合国产二区精品,婷婷五月天在线视频

機器之心報道
參與：張倩、蛋醬

2016 年底，谷歌 TPU 團隊的十位核心開發(fā)者中的八位悄悄離職，創(chuàng)辦了一家名為 Groq 的機器學習系統(tǒng)公司。在此后的三年里，這家公司一直很低調(diào)。但最近，他們帶著一款名為 TSP 的芯片架構(gòu)出現(xiàn)在公眾視野里。

TSP 的全稱是 Tensor Streaming Processor，專為機器學習等 AI 相關(guān)需求打造。該架構(gòu)在單塊芯片上可以實現(xiàn)每秒 1000 萬億（10 的 15 次方）次運算，是全球首個實現(xiàn)該級別性能的架構(gòu)，其浮點運算性能可達每秒 250 萬億次（TFLOPS）。在摩爾定律走向消亡的背景下，這一架構(gòu)的問世標志著芯片之爭從晶體管轉(zhuǎn)向架構(gòu)。
250 TFLOPS 浮點運算性能是什么概念？目前的世界第一超級計算機 Summit，其峰值算力為 200,794.9 TFLOPS，它的背后是 28,000 塊英偉達 Volta GPU。如果 TSP 達到了類似的效率，僅需 803 塊就可以實現(xiàn)同樣的性能。

單芯片每秒1000萬億次運算：谷歌TPU團隊全新AI架構(gòu)，性能提升6倍

Groq 在一份白皮書中介紹了這項全新的架構(gòu)設計。此外，他們還將在于美國丹佛舉辦的第 23 屆國際超算高峰論壇上展示這一成果。
白皮書地址：https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

「我們?yōu)檫@一行業(yè)和我們的客戶感到興奮，」Groq 的聯(lián)合創(chuàng)始人和 CEO Jonathan Ross 表示?！疙敿?GPU 公司都在宣稱他們有望在未來幾年向用戶交付一款每秒百萬億次運算性能的產(chǎn)品，但 Groq 現(xiàn)在就做到了，而且建立了一個新的性能標準。就低延遲和推理速度而言，Groq 的架構(gòu)比其他任何用于推理的架構(gòu)都要快許多倍。我們與用戶的互動證明了這一點。」

Groq 的 TSP 架構(gòu)是專為計算機視覺、機器學習和其他 AI 相關(guān)工作負載的性能要求設計的。「對于一大批需要深度學習推理運算的應用來說，Groq 的解決方案是非常理想的選擇，」Groq 的首席架構(gòu)師 Dennis Abts 表示，「但除此之外，Groq 的架構(gòu)還能用于廣泛的工作負載。它的性能和簡潔性使其成為所有高性能即數(shù)據(jù)和計算密集型工作復雜的理想平臺?！?/p>

一款「簡單」的 AI 芯片架構(gòu)

Groq 的這款架構(gòu)受到「軟件優(yōu)先」（software first）理念的啟發(fā)。它在 Groq 開發(fā)的 TSP 中實現(xiàn)，為實現(xiàn)計算靈活性和大規(guī)模并行計算提供了一種新的范式，但沒有傳統(tǒng) GPU 和 CPU 架構(gòu)的限制和溝通開銷。
「軟件優(yōu)先」的硬件設計理念

在 Groq 的架構(gòu)中，Groq 編譯器負責編碼所有內(nèi)容：數(shù)據(jù)流入芯片，并在正確的時間和正確的地點插入，以確保計算實時進行，沒有停頓。執(zhí)行規(guī)劃由軟件負責，這樣就可以釋放出原本要用于動態(tài)指令執(zhí)行的寶貴硬件資源。這使得 Groq 的芯片性能具有確定性。編譯器動態(tài)地重新配置硬件來執(zhí)行每個計算，因此編譯器和芯片之間沒有抽象（abstraction）。由于編譯器了解硬件和每條指令的速度，所以它可以準確地告訴硬件做什么，什么時候做。

在傳統(tǒng)的體系架構(gòu)中，將數(shù)據(jù)從 DRAM 移動到處理器需要大量的算力和時間，而且相同工作負載上的處理性能也是可變的。在典型的工作流中，開發(fā)人員通過反復運行工作負載或程序來對其進行配置和測試，以驗證和度量其平均處理性能。由于處理器接收和發(fā)送數(shù)據(jù)的方式不同，這種處理可能會得到略有差別的結(jié)果，而開發(fā)人員的工作就是手動調(diào)整程序以達到預定的可靠性級別。

但有了 Groq 的硬件和軟件，編譯器就可以準確地知道芯片的工作方式以及執(zhí)行每個計算所需的時間。編譯器在正確的時間將數(shù)據(jù)和指令移動到正確的位置，這樣就不會有延遲。到達硬件的指令流是完全編排好的，使得處理速度更快，而且可預測。

開發(fā)人員可以在 Groq 芯片上運行相同的模型 100 次，每次得到的結(jié)果都完全相同。對于安全和準確性要求都非常高的應用來說（如自動駕駛汽車），這種計算上的準確性至關(guān)重要。

另外，使用 Groq 硬件設計的系統(tǒng)不會受到長尾延遲的影響，AI 系統(tǒng)可以在特定的功率或延遲預算內(nèi)進行調(diào)整。

這種軟件優(yōu)先的設計（即編譯器決定硬件架構(gòu)）理念幫助 Groq 設計出了一款簡單、高性能的架構(gòu)，可以加速推理流程。

該架構(gòu)既支持傳統(tǒng)的機器學習模型，也支持新的計算學習模型，目前在 x86 和非 x86 系統(tǒng)的客戶站點上運行。

更簡單的架構(gòu)設計

為了滿足深度學習等計算密集型任務的需求，芯片的設計似乎正在變得越來越復雜。但 Groq 認為，這種趨勢從根本上就是錯誤的。他們在白皮書中指出，當前處理器架構(gòu)的復雜性已經(jīng)成為阻礙開發(fā)者生產(chǎn)和 AI 應用部署的主要障礙。當前處理器的復雜性降低了開發(fā)者工作效率，再加上摩爾定律逐漸變慢，實現(xiàn)更高的計算性能變得越來越困難。

Groq 的芯片設計降低了傳統(tǒng)硬件開發(fā)的復雜度，因此開發(fā)者可以更加專注于算法（或解決其他問題），而不是為了硬件調(diào)整自己的解決方案。有了這種更加簡單的硬件設計，開發(fā)者無需進行剖析研究（profiling），因此可以節(jié)省資源，更容易大規(guī)模部署 AI 應用。

與基于 CPU、GPU 和 FPGA 的傳統(tǒng)復雜架構(gòu)相比，Groq 的芯片還簡化了認證和部署，使客戶能夠簡單而快速地實現(xiàn)可擴展、單瓦高性能的系統(tǒng)。

讓每個晶體管實現(xiàn)更高的性能

Groq 的張量流架構(gòu)可以在任何需要的地方提供算力。與當前領(lǐng)先的 GPU、CPU 相比，Groq 處理器的每個晶體管可以實現(xiàn) 3-6 倍的性能提升。這一改進意味著交付性能的提升、延遲的下降以及成本的降低。結(jié)果是，Groq 的架構(gòu)使用起來更加簡單，而且性能高于傳統(tǒng)計算平臺。

備受矚目的 Groq

Groq 總部位于加州山景城，針對計算密集型應用程序提供高效的軟件驅(qū)動解決方案，在性能、準確性和延遲度（亞毫秒級）等方面處于行業(yè)領(lǐng)先水準。

創(chuàng)立之初，Groq 頗受關(guān)注的原因是它的團隊組成：創(chuàng)始團隊的 8 位研發(fā)成員均來自谷歌 TPU 核心團隊——在此之前，谷歌 TPU 核心團隊總共不過才 10 個人。谷歌在短短 14 個月內(nèi)發(fā)布 TPU，1 年后又完成第 2 代 TPU，所以外界對 Groq 抱有非常高的期待值。

盡管 Groq 只是一家成立三年的創(chuàng)業(yè)公司，但一舉一動都會受到外界的高度關(guān)注。今年 9 月，Groq 在 AI Hardware Summit 2019 無故缺席，業(yè)內(nèi)紛紛猜測 Groq 公司內(nèi)部是否遇到了危機。

Groq 現(xiàn)任 CEO Jonathan Ross 的身份是「前谷歌芯片高層人員」，他畢業(yè)于紐約大學，曾在谷歌度過了 5 年多的職業(yè)生涯，是 TPU 的主要設計者之一。與他相關(guān)的還有非常神秘的谷歌 X 實驗室，這個部門所從事的工作都是最前沿的領(lǐng)域，比如太空電梯、無人駕駛汽車、谷歌眼鏡等。一定意義上說，谷歌是在「利用這個實驗室來追蹤 100 個震撼世界的創(chuàng)意」。創(chuàng)立之初，Jonathan Ross 擔任 Groq 的 CTO，后來從 2018 年底開始接任 Doug Wightman 擔任 CEO 一職。

Douglas Wightman 也是谷歌 X 實驗室的前成員。Groq 成立幾個月后，賽靈思全球銷售執(zhí)行副總裁 Krishna Rangasayee 也加盟出任 COO。

就在前幾天，Groq 官網(wǎng)宣布 Stuart Pann 也將加入其董事會。Stuart Pann 目前是惠普的首席供應鏈官（Chief Supply Chain Officer），之前在英特爾工作了 33 年之久，負責英特爾微處理器和芯片組業(yè)務的定價，收入和預測等相關(guān)工作，在控制成本支出、提高營收方面有著非常深厚的經(jīng)驗。

Groq 目前大約有 70 名員工，從工程師數(shù)量上看還不及英特爾這種大型芯片制造商的四分之一。不過，Groq 卻在用于人工智能行業(yè)的關(guān)鍵領(lǐng)域——新型芯片研發(fā)方面占有相當?shù)膬?yōu)勢。這個領(lǐng)域未來可能價值數(shù)百億美元，而 CEO Jonathan Ross 此前不久表示「Groq 不希望被收購」。

原本 Groq 對外公布要在 2018 年發(fā)布第一代芯片，實際發(fā)布時間卻是今年的 9 月。雖然來得晚了一些，但還是足夠驚艷。

參考鏈接：

https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdfhttps://www.prnewswire.com/news-releases/groq-announces-worlds-first-architecture-capable-of-1-000-000-000-000-000-operations-per-second-on-a-single-chip-300958743.html?tc=eml_cleartime&from=timeline&isappinstalled=0https://www.bloomberg.com/news/articles/2019-10-24/former-google-chip-guru-takes-novel-approach-to-ai-at-groqhttp://baijiahao.baidu.com/s?id=1649887565730511742&wfr=spider&for=pc

亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

單芯片每秒1000萬億次運算：谷歌TPU團隊全新AI架