亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁 > 科技新聞 >

單芯片每秒1000萬億次運(yùn)算:谷歌TPU團(tuán)隊(duì)全新AI架

時(shí)間:2019-11-18 17:39來源:網(wǎng)絡(luò)整理 瀏覽:
機(jī)器之心報(bào)道參與:張倩、蛋醬2016 年底,谷歌 TPU 團(tuán)隊(duì)的十位核心開發(fā)者中的八位悄悄離職,創(chuàng)辦了一家名為 Groq 的機(jī)器學(xué)習(xí)系統(tǒng)公司

機(jī)器之心報(bào)道
參與:張倩、蛋醬

2016 年底,谷歌 TPU 團(tuán)隊(duì)的十位核心開發(fā)者中的八位悄悄離職,創(chuàng)辦了一家名為 Groq 的機(jī)器學(xué)習(xí)系統(tǒng)公司。在此后的三年里,這家公司一直很低調(diào)。但最近,他們帶著一款名為 TSP 的芯片架構(gòu)出現(xiàn)在公眾視野里。

TSP 的全稱是 Tensor Streaming Processor,專為機(jī)器學(xué)習(xí)等 AI 相關(guān)需求打造。該架構(gòu)在單塊芯片上可以實(shí)現(xiàn)每秒 1000 萬億(10 的 15 次方)次運(yùn)算,是全球首個(gè)實(shí)現(xiàn)該級(jí)別性能的架構(gòu),其浮點(diǎn)運(yùn)算性能可達(dá)每秒 250 萬億次(TFLOPS)。在摩爾定律走向消亡的背景下,這一架構(gòu)的問世標(biāo)志著芯片之爭從晶體管轉(zhuǎn)向架構(gòu)。
250 TFLOPS 浮點(diǎn)運(yùn)算性能是什么概念?目前的世界第一超級(jí)計(jì)算機(jī) Summit,其峰值算力為 200,794.9 TFLOPS,它的背后是 28,000 塊英偉達(dá) Volta GPU。如果 TSP 達(dá)到了類似的效率,僅需 803 塊就可以實(shí)現(xiàn)同樣的性能。

單芯片每秒1000萬億次運(yùn)算:谷歌TPU團(tuán)隊(duì)全新AI架構(gòu),性能提升6倍


Groq 在一份白皮書中介紹了這項(xiàng)全新的架構(gòu)設(shè)計(jì)。此外,他們還將在于美國丹佛舉辦的第 23 屆國際超算高峰論壇上展示這一成果。
白皮書地址:https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

「我們?yōu)檫@一行業(yè)和我們的客戶感到興奮,」Groq 的聯(lián)合創(chuàng)始人和 CEO Jonathan Ross 表示。「頂級(jí) GPU 公司都在宣稱他們有望在未來幾年向用戶交付一款每秒百萬億次運(yùn)算性能的產(chǎn)品,但 Groq 現(xiàn)在就做到了,而且建立了一個(gè)新的性能標(biāo)準(zhǔn)。就低延遲和推理速度而言,Groq 的架構(gòu)比其他任何用于推理的架構(gòu)都要快許多倍。我們與用戶的互動(dòng)證明了這一點(diǎn)。」

Groq 的 TSP 架構(gòu)是專為計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和其他 AI 相關(guān)工作負(fù)載的性能要求設(shè)計(jì)的。「對于一大批需要深度學(xué)習(xí)推理運(yùn)算的應(yīng)用來說,Groq 的解決方案是非常理想的選擇,」Groq 的首席架構(gòu)師 Dennis Abts 表示,「但除此之外,Groq 的架構(gòu)還能用于廣泛的工作負(fù)載。它的性能和簡潔性使其成為所有高性能即數(shù)據(jù)和計(jì)算密集型工作復(fù)雜的理想平臺(tái)?!?/p>

一款「簡單」的 AI 芯片架構(gòu)

Groq 的這款架構(gòu)受到「軟件優(yōu)先」(software first)理念的啟發(fā)。它在 Groq 開發(fā)的 TSP 中實(shí)現(xiàn),為實(shí)現(xiàn)計(jì)算靈活性和大規(guī)模并行計(jì)算提供了一種新的范式,但沒有傳統(tǒng) GPU 和 CPU 架構(gòu)的限制和溝通開銷。
「軟件優(yōu)先」的硬件設(shè)計(jì)理念

單芯片每秒1000萬億次運(yùn)算:谷歌TPU團(tuán)隊(duì)全新AI架構(gòu),性能提升6倍


在 Groq 的架構(gòu)中,Groq 編譯器負(fù)責(zé)編碼所有內(nèi)容:數(shù)據(jù)流入芯片,并在正確的時(shí)間和正確的地點(diǎn)插入,以確保計(jì)算實(shí)時(shí)進(jìn)行,沒有停頓。執(zhí)行規(guī)劃由軟件負(fù)責(zé),這樣就可以釋放出原本要用于動(dòng)態(tài)指令執(zhí)行的寶貴硬件資源。 這使得 Groq 的芯片性能具有確定性。編譯器動(dòng)態(tài)地重新配置硬件來執(zhí)行每個(gè)計(jì)算,因此編譯器和芯片之間沒有抽象(abstraction)。由于編譯器了解硬件和每條指令的速度,所以它可以準(zhǔn)確地告訴硬件做什么,什么時(shí)候做。

在傳統(tǒng)的體系架構(gòu)中,將數(shù)據(jù)從 DRAM 移動(dòng)到處理器需要大量的算力和時(shí)間,而且相同工作負(fù)載上的處理性能也是可變的。在典型的工作流中,開發(fā)人員通過反復(fù)運(yùn)行工作負(fù)載或程序來對其進(jìn)行配置和測試,以驗(yàn)證和度量其平均處理性能。由于處理器接收和發(fā)送數(shù)據(jù)的方式不同,這種處理可能會(huì)得到略有差別的結(jié)果,而開發(fā)人員的工作就是手動(dòng)調(diào)整程序以達(dá)到預(yù)定的可靠性級(jí)別。

但有了 Groq 的硬件和軟件,編譯器就可以準(zhǔn)確地知道芯片的工作方式以及執(zhí)行每個(gè)計(jì)算所需的時(shí)間。編譯器在正確的時(shí)間將數(shù)據(jù)和指令移動(dòng)到正確的位置,這樣就不會(huì)有延遲。到達(dá)硬件的指令流是完全編排好的,使得處理速度更快,而且可預(yù)測。

開發(fā)人員可以在 Groq 芯片上運(yùn)行相同的模型 100 次,每次得到的結(jié)果都完全相同。對于安全和準(zhǔn)確性要求都非常高的應(yīng)用來說(如自動(dòng)駕駛汽車),這種計(jì)算上的準(zhǔn)確性至關(guān)重要。

另外,使用 Groq 硬件設(shè)計(jì)的系統(tǒng)不會(huì)受到長尾延遲的影響,AI 系統(tǒng)可以在特定的功率或延遲預(yù)算內(nèi)進(jìn)行調(diào)整。

這種軟件優(yōu)先的設(shè)計(jì)(即編譯器決定硬件架構(gòu))理念幫助 Groq 設(shè)計(jì)出了一款簡單、高性能的架構(gòu),可以加速推理流程。

該架構(gòu)既支持傳統(tǒng)的機(jī)器學(xué)習(xí)模型,也支持新的計(jì)算學(xué)習(xí)模型,目前在 x86 和非 x86 系統(tǒng)的客戶站點(diǎn)上運(yùn)行。

更簡單的架構(gòu)設(shè)計(jì)

為了滿足深度學(xué)習(xí)等計(jì)算密集型任務(wù)的需求,芯片的設(shè)計(jì)似乎正在變得越來越復(fù)雜。但 Groq 認(rèn)為,這種趨勢從根本上就是錯(cuò)誤的。他們在白皮書中指出,當(dāng)前處理器架構(gòu)的復(fù)雜性已經(jīng)成為阻礙開發(fā)者生產(chǎn)和 AI 應(yīng)用部署的主要障礙。當(dāng)前處理器的復(fù)雜性降低了開發(fā)者工作效率,再加上摩爾定律逐漸變慢,實(shí)現(xiàn)更高的計(jì)算性能變得越來越困難。

Groq 的芯片設(shè)計(jì)降低了傳統(tǒng)硬件開發(fā)的復(fù)雜度,因此開發(fā)者可以更加專注于算法(或解決其他問題),而不是為了硬件調(diào)整自己的解決方案。有了這種更加簡單的硬件設(shè)計(jì),開發(fā)者無需進(jìn)行剖析研究(profiling),因此可以節(jié)省資源,更容易大規(guī)模部署 AI 應(yīng)用。

與基于 CPU、GPU 和 FPGA 的傳統(tǒng)復(fù)雜架構(gòu)相比,Groq 的芯片還簡化了認(rèn)證和部署,使客戶能夠簡單而快速地實(shí)現(xiàn)可擴(kuò)展、單瓦高性能的系統(tǒng)。

讓每個(gè)晶體管實(shí)現(xiàn)更高的性能

Groq 的張量流架構(gòu)可以在任何需要的地方提供算力。與當(dāng)前領(lǐng)先的 GPU、CPU 相比,Groq 處理器的每個(gè)晶體管可以實(shí)現(xiàn) 3-6 倍的性能提升。這一改進(jìn)意味著交付性能的提升、延遲的下降以及成本的降低。結(jié)果是,Groq 的架構(gòu)使用起來更加簡單,而且性能高于傳統(tǒng)計(jì)算平臺(tái)。

備受矚目的 Groq

Groq 總部位于加州山景城,針對計(jì)算密集型應(yīng)用程序提供高效的軟件驅(qū)動(dòng)解決方案,在性能、準(zhǔn)確性和延遲度(亞毫秒級(jí))等方面處于行業(yè)領(lǐng)先水準(zhǔn)。

創(chuàng)立之初,Groq 頗受關(guān)注的原因是它的團(tuán)隊(duì)組成:創(chuàng)始團(tuán)隊(duì)的 8 位研發(fā)成員均來自谷歌 TPU 核心團(tuán)隊(duì)——在此之前,谷歌 TPU 核心團(tuán)隊(duì)總共不過才 10 個(gè)人。谷歌在短短 14 個(gè)月內(nèi)發(fā)布 TPU,1 年后又完成第 2 代 TPU,所以外界對 Groq 抱有非常高的期待值。

盡管 Groq 只是一家成立三年的創(chuàng)業(yè)公司,但一舉一動(dòng)都會(huì)受到外界的高度關(guān)注。今年 9 月,Groq 在 AI Hardware Summit 2019 無故缺席,業(yè)內(nèi)紛紛猜測 Groq 公司內(nèi)部是否遇到了危機(jī)。

Groq 現(xiàn)任 CEO Jonathan Ross 的身份是「前谷歌芯片高層人員」,他畢業(yè)于紐約大學(xué),曾在谷歌度過了 5 年多的職業(yè)生涯,是 TPU 的主要設(shè)計(jì)者之一。與他相關(guān)的還有非常神秘的谷歌 X 實(shí)驗(yàn)室,這個(gè)部門所從事的工作都是最前沿的領(lǐng)域,比如太空電梯、無人駕駛汽車、谷歌眼鏡等。一定意義上說,谷歌是在「利用這個(gè)實(shí)驗(yàn)室來追蹤 100 個(gè)震撼世界的創(chuàng)意」。創(chuàng)立之初,Jonathan Ross 擔(dān)任 Groq 的 CTO,后來從 2018 年底開始接任 Doug Wightman 擔(dān)任 CEO 一職。

單芯片每秒1000萬億次運(yùn)算:谷歌TPU團(tuán)隊(duì)全新AI架構(gòu),性能提升6倍

Douglas Wightman 也是谷歌 X 實(shí)驗(yàn)室的前成員。Groq 成立幾個(gè)月后,賽靈思全球銷售執(zhí)行副總裁 Krishna Rangasayee 也加盟出任 COO。

就在前幾天,Groq 官網(wǎng)宣布 Stuart Pann 也將加入其董事會(huì)。Stuart Pann 目前是惠普的首席供應(yīng)鏈官(Chief Supply Chain Officer),之前在英特爾工作了 33 年之久,負(fù)責(zé)英特爾微處理器和芯片組業(yè)務(wù)的定價(jià),收入和預(yù)測等相關(guān)工作,在控制成本支出、提高營收方面有著非常深厚的經(jīng)驗(yàn)。

Groq 目前大約有 70 名員工,從工程師數(shù)量上看還不及英特爾這種大型芯片制造商的四分之一。不過,Groq 卻在用于人工智能行業(yè)的關(guān)鍵領(lǐng)域——新型芯片研發(fā)方面占有相當(dāng)?shù)膬?yōu)勢。這個(gè)領(lǐng)域未來可能價(jià)值數(shù)百億美元,而 CEO Jonathan Ross 此前不久表示「Groq 不希望被收購」。

原本 Groq 對外公布要在 2018 年發(fā)布第一代芯片,實(shí)際發(fā)布時(shí)間卻是今年的 9 月。雖然來得晚了一些,但還是足夠驚艷。

參考鏈接:

https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdfhttps://www.prnewswire.com/news-releases/groq-announces-worlds-first-architecture-capable-of-1-000-000-000-000-000-operations-per-second-on-a-single-chip-300958743.html?tc=eml_cleartime&from=timeline&isappinstalled=0https://www.bloomberg.com/news/articles/2019-10-24/former-google-chip-guru-takes-novel-approach-to-ai-at-groqhttp://baijiahao.baidu.com/s?id=1649887565730511742&wfr=spider&for=pc

推薦內(nèi)容