• 正文
    • 中國(guó)不存在電力限制,只存在芯片限制
    • CloudMatrix 384 系統(tǒng)架構(gòu)
    • 與 DGX H100 NVL256 “Ranger” 的相似之處
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

華為CloudMatrix 384:中國(guó)對(duì)GB200 NVL72的回應(yīng)

06/03 10:10
763
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

華為憑借其新的 AI 加速器和機(jī)架級(jí)架構(gòu),結(jié)合 Ascend 910C 構(gòu)建了 CloudMatrix 384。這一解決方案可直接與 GB200 NVL72 競(jìng)爭(zhēng),并且在某些指標(biāo)上比英偉達(dá)的機(jī)架規(guī)模解決方案更為先進(jìn)。其工程優(yōu)勢(shì)體現(xiàn)在系統(tǒng)層面,而非僅僅在芯片層面,在網(wǎng)絡(luò)、光學(xué)和軟件等層面均有創(chuàng)新。

華為 Ascend 芯片對(duì) SemiAnalysis 來(lái)說(shuō)并不陌生,但在系統(tǒng)比微架構(gòu)更重要的世界,華為正在挑戰(zhàn) AI 系統(tǒng)性能的極限。雖然存在權(quán)衡取舍,但考慮到出口管制和低迷的國(guó)內(nèi)收益率,很明顯中國(guó)的出口管制存在進(jìn)一步的漏洞。

雖然 Ascend 芯片可以在?SMIC 制造,但我們注意到這是一款具有HBM(來(lái)自韓國(guó)),TSMC 的初級(jí)晶圓生產(chǎn),并由來(lái)自美國(guó)、荷蘭和日本的數(shù)百億臺(tái)晶圓制造設(shè)備,我們深入探討了中國(guó)國(guó)內(nèi)生產(chǎn)的可能性,什么是激進(jìn)的繞過(guò)出口管制,以及為什么美國(guó)政府需要專注于這些關(guān)鍵的新領(lǐng)域來(lái)限制中國(guó)的人工智能能力。

華為在芯片方面落后了一代,但其縱向擴(kuò)展解決方案可以說(shuō)比 Nvidia 和 AMD目前在市場(chǎng)上的產(chǎn)品領(lǐng)先一代。那么華為的 CloudMatrix 384 (CM384) 的規(guī)格是什么?

CloudMatrix 384 由 384 個(gè) Ascend 910C 芯片組成,通過(guò)多對(duì)多拓?fù)溥B接。權(quán)衡很簡(jiǎn)單:昇騰芯片數(shù)量增加了五倍,這足以彌補(bǔ)每個(gè)圖形處理器(GPU)性能僅為英偉達(dá)布萊克韋爾(Blackwell)芯片三分之一的不足。

完整的 CloudMatrix 系統(tǒng)現(xiàn)在可以提供?300 PFLOP 的密集 BF16 計(jì)算,幾乎是 GB200 NVL72 的兩倍。憑借超過(guò) 3.6 倍的總內(nèi)存容量以及 2.1 倍的內(nèi)存帶寬優(yōu)勢(shì),華為和中國(guó)如今已具備能夠超越英偉達(dá)的人工智能系統(tǒng)能力。

而且,CM384 尤其契合中國(guó)的優(yōu)勢(shì)所在,即國(guó)內(nèi)的網(wǎng)絡(luò)生產(chǎn)以及可防止網(wǎng)絡(luò)故障的基礎(chǔ)設(shè)施軟件,并且隨著產(chǎn)量的進(jìn)一步提升,它具備拓展至更大規(guī)模應(yīng)用領(lǐng)域的能力。

這里的不足之處在于,它的功耗是 GB200 NVL72 的 4.1 倍,每一次浮點(diǎn)運(yùn)算(FLOP)的功耗要高出 2.5 倍,每太字節(jié)每秒(TB/s)內(nèi)存帶寬的功耗高出 1.9 倍,每太字節(jié)高帶寬內(nèi)存(HBM)容量的功耗高出 1.2 倍。

功耗方面的這些不足雖值得關(guān)注,但在中國(guó)并非一個(gè)限制因素。

中國(guó)不存在電力限制,只存在芯片限制

西方常見(jiàn)的說(shuō)法是人工智能受電力限制,但在中國(guó),情況恰恰相反。過(guò)去十年里,西方一直在將主要以煤炭為基礎(chǔ)的電力基礎(chǔ)設(shè)施轉(zhuǎn)向更環(huán)保的天然氣以及可再生能源發(fā)電,并且人均能源使用效率也有所提高。而在中國(guó),生活水平的提升以及持續(xù)的大規(guī)模投資意味著巨大的電力生產(chǎn)需求。

其中大部分能源依靠煤炭提供,但中國(guó)同時(shí)擁有全球最大的太陽(yáng)能、水能、風(fēng)能裝機(jī)規(guī)模,并且如今在核能部署方面處于領(lǐng)先地位。美國(guó)只是維持著 20 世紀(jì) 70 年代部署的核能規(guī)模。簡(jiǎn)而言之,對(duì)美國(guó)能源電網(wǎng)進(jìn)行升級(jí)并增加其容量,就像是失去了力量一般停滯不前,而在中國(guó),自 2011 年,也就是大約過(guò)去十年間,新增的電網(wǎng)容量相當(dāng)于整個(gè)美國(guó)電網(wǎng)的規(guī)模。

如果因相對(duì)電力充足而不存在電力限制的話,那么放棄對(duì)功率密度的考量而擴(kuò)大規(guī)模,包括在設(shè)計(jì)中納入光學(xué)元素,就是合理的做法。CM384 的設(shè)計(jì)甚至考慮到了機(jī)架之外的系統(tǒng)層面限制因素,而且我們認(rèn)為,限制中國(guó)人工智能發(fā)展雄心的并非僅僅是相對(duì)電力供應(yīng)情況。我們認(rèn)為華為的解決方案有多種繼續(xù)擴(kuò)大規(guī)模的途徑。

中國(guó)能生產(chǎn)多少昇騰 910C 和CloudMatrix 384?

一個(gè)常見(jiàn)的誤解是認(rèn)為華為的 910C 是在中國(guó)制造的。它完全是由中國(guó)自主設(shè)計(jì)的,但中國(guó)在很大程度上仍然依賴國(guó)外生產(chǎn)。無(wú)論是三星的高帶寬內(nèi)存(HBM)、臺(tái)積電的晶圓,還是來(lái)自美國(guó)、荷蘭和日本的設(shè)備,都對(duì)國(guó)外產(chǎn)業(yè)有著很大的依賴。

雖然中芯國(guó)際是中國(guó)最大的芯片代工廠,也確實(shí)擁有 7 納米制程工藝,但絕大多數(shù)的昇騰 910B 和 910C 都是采用臺(tái)積電的 7 納米制程生產(chǎn)的。事實(shí)上,美國(guó)政府、技術(shù)洞察(TechInsights)等機(jī)構(gòu)已經(jīng)獲取了昇騰 910B 和 910C,并且每一個(gè)產(chǎn)品用的都是臺(tái)積電的芯片。華為曾通過(guò)另一家公司算能(Sophgo)購(gòu)買了約 5 億美元的 7 納米晶圓,以此來(lái)規(guī)避針對(duì)臺(tái)積電的制裁措施。

臺(tái)積電因公然違反制裁規(guī)定而被罰款 10 億美元,罰款金額僅為其獲利的兩倍。有傳言稱,華為仍通過(guò)另一家第三方公司從臺(tái)積電獲得晶圓,但我們無(wú)法證實(shí)這一傳言。

華為的高帶寬內(nèi)存(HBM)獲取情況

對(duì)國(guó)外前沿技術(shù)的依賴是這里需要考慮的部分因素,但中國(guó)對(duì)高帶寬內(nèi)存(HBM)的依賴程度更高。長(zhǎng)鑫存儲(chǔ)(CXMT)距離實(shí)現(xiàn)可觀產(chǎn)量的量產(chǎn)仍有一年時(shí)間,所以中國(guó)還無(wú)法可靠地制造這種產(chǎn)品。幸運(yùn)的是,三星伸出了援手,它一直是向中國(guó)供應(yīng)高帶寬內(nèi)存(HBM)的頭號(hào)供應(yīng)商,借此華為得以在高帶寬內(nèi)存(HBM)禁令出臺(tái)前總共儲(chǔ)備了 1300 萬(wàn)顆高帶寬內(nèi)存(HBM)堆疊體,這些堆疊體可用于 160 萬(wàn)個(gè)昇騰 910C 芯片封裝。

此外,這種被禁的高帶寬內(nèi)存(HBM)仍在被轉(zhuǎn)出口到中國(guó)。高帶寬內(nèi)存(HBM)出口禁令針對(duì)的是未加工的高帶寬內(nèi)存(HBM)封裝產(chǎn)品。只要芯片搭載的高帶寬內(nèi)存(HBM)未超出每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)相關(guān)規(guī)定,帶有高帶寬內(nèi)存(HBM)的芯片仍可發(fā)貨??苼嗠娮樱–oAsia Electronics)是三星在大中華區(qū)的高帶寬內(nèi)存(HBM)獨(dú)家經(jīng)銷商,他們一直在向?qū)S?a class="article-link" target="_blank" href="/tag/%E9%9B%86%E6%88%90%E7%94%B5%E8%B7%AF/">集成電路(ASIC)設(shè)計(jì)服務(wù)公司法拉第(Faraday)運(yùn)送 HBM2E 產(chǎn)品,而法拉第會(huì)讓矽品精密工業(yè)股份有限公司(SPIL)將其與廉價(jià)的 16 納米邏輯芯片一同進(jìn)行 “封裝”。

然后,法拉第會(huì)將這種系統(tǒng)級(jí)封裝產(chǎn)品運(yùn)往中國(guó),從技術(shù)層面來(lái)說(shuō)這是允許的,但中國(guó)企業(yè)隨后可以通過(guò)拆焊的方式回收高帶寬內(nèi)存(HBM)。我們認(rèn)為他們采用了一些技術(shù),使得從封裝中提取高帶寬內(nèi)存(HBM)變得非常容易,比如使用熔點(diǎn)很低的低溫焊料凸塊,所以當(dāng)我們說(shuō) “封裝” 的時(shí)候,是從最寬泛的意義上來(lái)說(shuō)的。

中國(guó)國(guó)內(nèi)代工廠仍可加速發(fā)展

國(guó)外生產(chǎn)仍有需求,但中國(guó)國(guó)內(nèi)半導(dǎo)體供應(yīng)鏈能力已迅速提升,且仍被低估。我們一直在不斷對(duì)中芯國(guó)際(SMIC)和長(zhǎng)江存儲(chǔ)(CXMT)的制造能力發(fā)出警示。良率和產(chǎn)量仍是問(wèn)題,但關(guān)鍵在于從長(zhǎng)遠(yuǎn)來(lái)看中國(guó)的圖形處理器(GPU)生產(chǎn)加速會(huì)帶來(lái)怎樣的情況。

中芯國(guó)際和長(zhǎng)江存儲(chǔ)都已收到價(jià)值數(shù)百億美元的設(shè)備,而且盡管面臨制裁,它們?nèi)詮膰?guó)外獲得大量獨(dú)家供應(yīng)的化學(xué)品及材料。

中芯國(guó)際正在上海、深圳和北京擴(kuò)充先進(jìn)制程產(chǎn)能。今年其月產(chǎn)能將接近 5 萬(wàn)片晶圓,而且由于能持續(xù)獲得國(guó)外設(shè)備以及缺乏有效的制裁及執(zhí)行力度,他們還在繼續(xù)擴(kuò)大產(chǎn)能。如果其良率得到提升,在華為昇騰 910C 芯片封裝方面就能達(dá)到可觀的數(shù)量。

雖然臺(tái)積電在 2024 年和 2025 年已提供 290 萬(wàn)個(gè)芯片,足以用于 80 萬(wàn)個(gè)昇騰 910B 芯片以及 105 萬(wàn)個(gè)昇騰 910C 芯片的生產(chǎn),但如果高帶寬內(nèi)存(HBM)、晶圓制造設(shè)備、設(shè)備維修服務(wù)以及光刻膠等化學(xué)材料沒(méi)有得到有效管控,中芯國(guó)際的產(chǎn)量就有大幅增長(zhǎng)的潛力。

CloudMatrix 384 系統(tǒng)架構(gòu)

接下來(lái),讓我們深入了解云CloudMatrix ?384 架構(gòu)、縱向擴(kuò)展網(wǎng)絡(luò)、橫向擴(kuò)展網(wǎng)絡(luò)、功耗預(yù)算以及成本。

一整套云矩陣系統(tǒng)分布在 16 個(gè)機(jī)架上,12 個(gè)計(jì)算機(jī)架中的每個(gè)機(jī)架都包含 32 個(gè)圖形處理器(GPU)。在這 16 個(gè)機(jī)架的中間是 4 個(gè)縱向擴(kuò)展交換機(jī)機(jī)架。為了擴(kuò)大規(guī)模,華為正在跨多個(gè)機(jī)架進(jìn)行縱向擴(kuò)展,為此,華為不得不使用光纖。像華為這樣在全互聯(lián)的縱向擴(kuò)展中達(dá)到數(shù)百個(gè) GPU 的規(guī)模并非易事。

與 DGX H100 NVL256 “Ranger” 的相似之處

早在 2022 年,Nvidia 就發(fā)布了 DGX H100 NVL256“Ranger”平臺(tái),但決定不將其投入生產(chǎn),因?yàn)樗浅0嘿F、耗電且由于所需的所有光收發(fā)器和兩層網(wǎng)絡(luò)而不可靠。CloudMatrix Pod 需要一個(gè)令人難以置信的 6,912 個(gè) 400G LPO 收發(fā)器進(jìn)行聯(lián)網(wǎng),其中絕大多數(shù)用于縱向擴(kuò)展網(wǎng)絡(luò)。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號(hào):智能計(jì)算芯世界;聚焦人工智能、芯片設(shè)計(jì)、異構(gòu)計(jì)算、高性能計(jì)算等領(lǐng)域?qū)I(yè)知識(shí)分享!