• 正文
    • “CPU擴張的時代已結束”
    • “始終相信CPU跑AI推理有價值,也是極其普遍的”
    • “AI處于早期快速發(fā)展階段,不相信護城河”
    • CPU加速AI,尚能戰(zhàn)否?
    • 寫在最后
  • 推薦器件
  • 相關推薦
申請入駐 產業(yè)圖譜

CPU跑AI,不被時代拋下的自救之路

原創(chuàng)
2023/10/08
4393
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

從1964年第一臺計算機系統(tǒng)IBM 360引入CPU,迄今約60年,不論是PC、臺式電腦主機,還是大型商用主機,CPU一直是計算機工業(yè)發(fā)展史上的主角。然而,隨著AI應用來臨,加速計算盛行,GPU和各類AI計算芯片崛起,CPU遭遇前所未有的挑戰(zhàn)。

在加速計算的世界,CPU落伍了嗎?特別是隨著生成式AI席卷業(yè)界,算力需求暴增,CPU中央處理器的地位是否還如其名?

“CPU擴張的時代已結束”

黃仁勛就明確表達過,加速計算和人工智能重塑了計算機行業(yè),CPU擴張的時代已經結束了。當下需持續(xù)提升運算能力的數據中心需要的CPU越來越少,需要的GPU越來越多,我們已經到達了生成式AI的引爆點。

在他看來,全球價值1萬億美元的數據中心基本上都在使用60年前發(fā)明的計算模式,而現(xiàn)在,計算已經從根本上改變,如果你明年再買一大堆CPU,計算吞吐量仍難以增加,必須使用加速計算平臺去處理。

他指出了CPU通用計算和加速計算的根本區(qū)別:盡管CPU如此靈活,基于高級編程語言和編譯器,幾乎任何人都能寫出相當好的程序,但是它的持續(xù)擴展能力和性能提升已經結束。加速計算則是個全棧問題,必須從上到下和從下到上重新設計一切,包括芯片、系統(tǒng)、系統(tǒng)軟件、新的算法優(yōu)化以及新的應用等,還需要針對不同領域進行不同的堆棧,而這些堆棧一旦建立起來,就會彰顯出加速計算的驚人之處。

不過,換一個角度來看, GPU盡管性能強悍,但通常只能執(zhí)行深度學習這樣的特定應用,它還需要CPU的協(xié)助,來進行數據的搬運、控制,以及一系列的預處理和后處理任務。而CPU具有獨立運算能力,可以獨立運行操作系統(tǒng)和應用程序。如果說絕對點,一臺計算機可以只有一個CPU,但是不能只有一個GPU。

也正是由于CPU的不可替代性,黃仁勛雖然預判了CPU暴力擴張的時代結束,但另一方面,卻曾試圖斥巨資收購Arm,以補齊生態(tài)短板。并且,英偉達專門面向數據中心推出基于Arm Neoverse內核的Grace CPU,來滿足新時代數據中心的性能和效率需求。

CPU不會被完全取代,我們只是來到了新計算時代的臨界點。

“始終相信CPU跑AI推理有價值,也是極其普遍的”

數據中心在AI時代的重要性不言而喻,多年來,英特爾至強處理器在數據中心一直扮演著重要角色。當前,英特爾至強處理器該如何應對AI的趨勢和挑戰(zhàn)?如何應對加速計算的沖擊?

英特爾資深院士、至強首席架構師Ronak Singhal告訴<與非網>,“AI的發(fā)生不僅在各類加速器上,更在我們‘老生常談’的CPU上。實際上,眼下大部分的推理工作都是在CPU上運行的。我們始終相信CPU上的推理是非常有價值的,也是極其普遍的。為了讓其在CPU上運行,我們需要繼續(xù)討論‘加速’。我們一直在探索,如何去提高CPU的能力,使它始終是運行這些推理工作負載的最佳載體?!?/p>

他補充,根據當前所觀察到的算法方向以及實際案例來看,在CPU上運行AI工作負載擁有顯著優(yōu)勢,包括更低的延遲以及更高的能效,比如避免在CPU和加速器之間來回移動數據,可以極大地降低能源消耗,這也是CPU的一個顯著優(yōu)勢。

根據英特爾方面提供的數據,目前25%在售的至強被用于AI工作負載。其中,很大一部分用于推理,一小部分用于訓練。此外,許多至強產品還用于在訓練或推理之前的一些工作,如數據準備(包括為至強和GPU提供數據)。

英特爾副總裁、至強產品和解決方案事業(yè)部總經理Lisa Spelman表示,為滿足AI工作負載的需求,至強已經具備諸多加速器和專業(yè)功能,且這些日漸成為至強越來越重要的方向。在海量數據、復雜數據處理等需求下,能源效率成為至強轉變設計的關鍵因素。將于明年推出的第六代至強就引入了新的體系結構:Granite Rapids(性能核/P-core產品)和Sierra Forest(能效核/E-core產品),有望進一步提升算力和效率。

Granite Rapids的產品升級有兩個要點:一是如何增強算力。其中最重要的是在第四代至強基礎上增加了核數,以及繼續(xù)提高能效。因為進行大量AI矩陣計算時,耗電量會大幅提升,Granite Rapids通過內置的加速器能夠為目標工作負載提供顯著的性能和效率提升。二是內存帶寬。部分AI工作負載以計算為核心,因此將受到核數和能效的影響。還有部分大語言模型,需要處理包括計算、存儲等AI工作負載,因此對內存帶寬提出了要求。

與Granite Rapids相比,Sierra Forest的核心則更節(jié)能,且面積較小,因此,可以在相同功耗下進行擴展、并增加核數,最高可達288核。

對于云服務提供商來說,將盡可能多的用戶整合到一個系統(tǒng)上,能夠幫助他們減少所需的系統(tǒng)數量,從而降低TCO,這時就可以選擇大核數的CPU(Sierra Forest);如果他們需要每個核心擁有最佳性能,他們則可以選擇Granite Rapids。

值得注意的是,chiplet、先進封裝、最新的內存技術等,在這兩款產品中都發(fā)揮了重要作用。從下圖可知,頂部和底部的I/O chiplet設計,包括 PCIe、CXL 等。這些功能在 Sierra Forest 和 Granite Rapids 之中都很常見??梢愿鶕嶋H需求,采用更多或更少的chiplet,來擴大或減少核心數量。chiplet的方式既實現(xiàn)了構建芯片的靈活性,同時也有助于提升制造能力。

此外,EmiB封裝(英特爾的2.5D先進封裝技術)也發(fā)揮了重大作用。通過EmiB封裝,多個獨立的計算chiplet和I/O chiplet,在單一芯片中進行了集成,使得芯片結構更為靈活,實現(xiàn)了通用IP、固件、操作系統(tǒng)、平臺的有機整體。

除了數據中心,客戶端處理器AI方面,英特爾的酷睿Ultra處理器也將首次集成NPU,用于在PC上實現(xiàn)AI加速和推理體驗。

“AI處于早期快速發(fā)展階段,不相信護城河”

面對AI的沖擊,蘇姿豐表示,“對于人工智能,尤其是生成式人工智能如何進入市場,我們還處于起步階段。我認為我們談論的是一個10年的周期,而不是‘未來兩到四個季度你能生產多少GPU’”。她表示,人工智能發(fā)展太快,不相信護城河。

數據中心被AMD作為首要的戰(zhàn)略重點。

由于數據中心應用端的算力需求仍在不斷增加,而chiplet設計有利于堆算力。AMD在chiplet 技術已經享有先發(fā)優(yōu)勢,在 2019 年推出的 Zen2 架構中,AMD就采用了chiplet 設計,使用 8 塊CPU芯片實現(xiàn)64核,是當時英特爾性能最佳處理器的兩倍。

去年發(fā)布的基于Zen4架構的霄龍?zhí)幚砥?,具?6個核心192個線程。而最新的代號為Bergamo的霄龍?zhí)幚砥?,采用Zen4c架構,將會搭載128個核心256個線程。Zen4c是AMD專門為云計算場景打造的一款CPU核心,與Zen4架構保持相同的IPC性能和ISA指令集,通過設計優(yōu)化,使得核心面積縮小,功耗效率提升。這也意味著最新霄龍?zhí)幚砥鞯暮诵拿芏葍?yōu)勢,將可以使云服務提供商能夠支持超過兩倍的服務器實例數量。

在 前不久的AMD 數據中心和 AI 首映式中,AMD 對比了霄龍EPYC 9654 和 Intel 至強Xeon 8490H的性能,EPYC 9654比Xeon 8490H高80%,Java 編譯性能高 70%,云計算性能(整數)高 80%。蘇姿豐稱,AMD 的 Epyc在前 10 名最快的超級計算機中的占據了 5 臺, 包括 Frontier,這是第一臺使用惠普企業(yè)硬件構建的百億億次計算計算機。

目前,AMD 的服務器 CPU 份額也不斷提高,從 2017 年第四季度的0.8%到2023 年第一季度的 18%。預計 2024 年份額達到 20%,2027 年份額達到 25%。

除了服務器CPU,AMD在筆記本電腦CPU也在大刀闊斧地引入AI,銳龍7040系列通過集成AI引擎,能夠幫助用戶加速多任務處理,提高生產力和效率。據AMD官方說明,銳龍AI引擎的峰值算力可以達到10 TOPS,能夠應對日常的AI推理負載設計,相較于外置 AI 運算芯片,可實現(xiàn)毫瓦級的低功耗AI運算,助力實現(xiàn)本地化的AI運算。

CPU加速AI,尚能戰(zhàn)否?

提到 AI 加速,第一反應通常是強大的GPU或專用的AI加速芯片,但CPU通過內置AI計算,優(yōu)化底層指令集、矩陣運算加速庫、神經網絡加速庫等方式,在AI推理領域表現(xiàn)出了當仁不讓的態(tài)勢。那么,CPU加速AI推理具體有哪些優(yōu)勢?

英特爾方面表示,經過多年的發(fā)展,CPU加速推理過程性價比更高。例如至強可擴展處理器的強大算力可以極大提高AI推理效率,并兼顧成本與安全性。在指令集方面,CPU 指令集是計算機能力的核心部分,英特爾的AVX-512 指令集通過提升單條指令的計算數量,從而可提升CPU的矩陣運算效率。并且在加速訓練環(huán)節(jié), DL Boost 把對低精度數據格式的操作指令融入到了 AVX-512 指令集中,即 AVX-512_VNNI (矢量神經網絡指令) 和 AVX-512_BF16(bfloat16),分別提供對 INT8(主要用于量化推理)和 BF16(兼顧推理和訓練)的支持。

例如在企業(yè)落地AI模型的場景中,CPU服務器部署已經非常普遍,而大多數 AI 實際要求的是并發(fā)量,對推理速度沒有特別高的要求,并且在制造業(yè)、圖像等行業(yè),模型也不會太龐大,這種情況就適合使用 CPU 作為計算設備。

此外,學術界正在研究輕量級神經網絡,目標是使用較少的參數和較低的算力達到同樣性能與效果。在這一情況下,用CPU訓練輕量級神經網絡被認為可能是一個性價比較高的選項,因為相對GPU,CPU一方面減少了數據的反復轉移,訓練更高效;并且面對輕量神經網絡的訓練工作,CPU性能已足夠,且成本比GPU大幅降低。

寫在最后

傳統(tǒng)CPU在處理大規(guī)模數據和復雜算法時顯現(xiàn)出了性能瓶頸,隨著AI發(fā)展和應用場景的繼續(xù)擴大,需要更強大的計算能力和存儲能力等支持。因此,傳統(tǒng)CPU架構不得不引入AI,以適應市場需求。

兩大CPU巨頭激戰(zhàn)正酣,已經面向云邊端場景全面引入AI,通過優(yōu)化架構、提高能效等措施,提高CPU性能和效率。就連GPU巨頭英偉達,也開始面向AI數據中心,推出專有的CPU。

AI時代,CPU作為計算機的核心部件,在計算機系統(tǒng)中的地位仍有其不可替代性,也有巨大的想象空間。試想,隨著AI的普及,如果未來每個工作負載都嵌入AI,那么是否意味著每次運行AI工作負載時,都離不開CPU?選擇AI,擁抱AI,成為AI,是CPU在新時代的宿命。

推薦器件

更多器件
器件型號 數量 器件廠商 器件描述 數據手冊 ECAD模型 風險等級 參考價格 更多信息
ATXMEGA128A3U-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP

ECAD模型

下載ECAD模型
$8.03 查看
AT91SAM7X512B-AU 1 Microchip Technology Inc IC MCU 32BIT 512KB FLASH 100LQFP

ECAD模型

下載ECAD模型
$13.29 查看
STM8S003F3P6 1 STMicroelectronics Mainstream Value line 8-bit MCU with 8 Kbytes Flash, 16 MHz CPU, integrated EEPROM

ECAD模型

下載ECAD模型
$1.53 查看
英特爾

英特爾

英特爾在云計算、數據中心、物聯(lián)網和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數字世界提供支持。

英特爾在云計算、數據中心、物聯(lián)網和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數字世界提供支持。收起

查看更多

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄