• 正文
    • █ 昇騰芯片的演進(jìn)
    • █ 昇騰硬件體系
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

一文看懂華為昇騰芯片

06/05 09:45
887
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

最近這幾年,網(wǎng)上關(guān)于華為昇騰的討論很多,關(guān)注熱度也很高。

我們經(jīng)常說的昇騰,其實有兩層定義。

一層是狹義的定義,特指華為昇騰芯片。

另一層是廣義的定義,是指圍繞昇騰芯片的整個全棧計算生態(tài)。既包括硬件,也包括軟件、算法以及應(yīng)用服務(wù)。

來自《昇騰計算產(chǎn)業(yè)發(fā)展白皮書》

今天這篇文章,小棗君主要說說昇騰芯片和硬件體系。

█ 昇騰芯片的演進(jìn)

昇騰(Ascend)芯片是華為(海思)自研的、專門面向高性能AI計算的NPU(神經(jīng)網(wǎng)絡(luò)處理器)芯片。

現(xiàn)在AI浪潮風(fēng)起云涌,到處都在搞AI大模型,還有AI應(yīng)用落地。這些工作涉及到巨量的AI訓(xùn)練和推理計算需求,就會用到昇騰這樣的AI芯片。

昇騰的對標(biāo)對象,毫無疑問就是英偉達(dá)的GPU系列。

因為眾所周知的原因,英偉達(dá)的GPU對我們禁售(現(xiàn)在連閹割版的H20都不賣給我們了),所以,昇騰作為國產(chǎn)AI芯片,就發(fā)揮了重要的替代作用,也迎來了巨大的市場機(jī)遇。

昇騰芯片是一個大系列,主要包括昇騰310和昇騰910兩個子系列。

在2018年的華為全聯(lián)接大會上,華為輪值CEO徐直軍首次闡述了他們的AI戰(zhàn)略,并正式公布了昇騰910和昇騰310兩款A(yù)I芯片。當(dāng)時,實體展示的,是昇騰310。

一年后,2019年8月,華為又正式推出了昇騰910。

昇騰310是SoC小芯片,和我們手機(jī)芯片差不多,只有指甲蓋那么大,功耗僅有8W。

它集成了多個運算單元,包括CPU(8個ARM A55 Core)、AI Core、數(shù)字視覺預(yù)處理子系統(tǒng)等,主要面向邊緣計算低功耗終端,以完成AI推理任務(wù)為主。

AI Core是計算核心,采用了華為自研的達(dá)芬奇(DaVinci)架構(gòu),復(fù)雜執(zhí)行矩陣、向量、標(biāo)量計算的算子任務(wù)。CPU負(fù)責(zé)非矩陣類復(fù)雜計算。

昇騰310架構(gòu)

根據(jù)海思官網(wǎng)的披露,昇騰310的FP16算力為8TOPS,INT8算力為16TOPS,采用12nm工藝制造。

昇騰910是大芯片,和我們的掌心差不多大,功耗在300W以上,主要面向云端高性能計算。它的算力更強(qiáng),既能用于AI推理任務(wù),也能用于AI訓(xùn)練任務(wù)。

華為早期發(fā)布的昇騰910,其實應(yīng)該算是910A。

當(dāng)時,因為華為還沒有被完全禁售,所以910A仍然采用了臺積電的7nm增強(qiáng)版EUV工藝。

芯片內(nèi)建了32顆達(dá)芬奇Max核心(達(dá)芬奇核心分為Max/Lite/Tiny三種,Max最完整),支持混合精度計算(FP16/FP32/INT8),F(xiàn)P16算力為256TFOPs,最大功耗350W(一開始說是350W,后來變成了310W)。

2020年華為被列入實體清單后,臺積電那邊的先進(jìn)工藝就用不了。于是,華為與中芯國際(SMIC)合作,采用他們的N+1工藝(等效7nm),推出了910B。

910B優(yōu)化了架構(gòu)設(shè)計,提升了能效比,芯片尺寸為21.32mm×31.22mm,F(xiàn)P16算力約320TFLOPS,INT8算力約640TOPS。顯存為64GB HBM2e,顯存帶寬400GB/s。

910B也分為B1/B2/B3。910B3引入了HBM3e內(nèi)存,帶寬提升至1.2TB/s,支持萬億參數(shù)模型訓(xùn)練。

最近這兩年,華為又推出了昇騰910C。

昇騰910C采用中芯國際的7nm(N+2)工藝,晶體管數(shù)量達(dá)到530億。

910C采用了類似B200的雙die封裝設(shè)計(將兩顆獨立的芯片die分別放置在各自的中介層,再通過有機(jī)基板將兩個中介層連接起來),通過把兩顆昇騰910B整合到一起,實現(xiàn)了性能的提升。

這種封裝方式雖然在芯片間互聯(lián)帶寬上可能低于英偉達(dá)的先進(jìn)封裝方案,但具有更低的成本、更高的良率以及更快的量產(chǎn)速度。

業(yè)界估測,910C在FP16精度下的單卡算力能達(dá)到800TFLOPS左右,大概是英偉達(dá)H100芯片(2022年推出)的80%。

值得一提的是,910C的芯片邏輯面積大約比H100多60%。這意味著910C在架構(gòu)效率和設(shè)計優(yōu)化方面, 與H100依然存在差距。

910C的HBM高帶寬內(nèi)存仍然來自海外廠商(國內(nèi)DRAM制造商長鑫存儲HBM2e相關(guān)技術(shù)還需要再等等)。芯片的整體國產(chǎn)化比例據(jù)說已經(jīng)達(dá)到90%以上。

910C的各方面參數(shù)以及進(jìn)展信息都比較神秘。

根據(jù)網(wǎng)絡(luò)上的不可靠信息,910C于2024年四季度推出樣片,2025年一季度開始量產(chǎn),目前已經(jīng)處于大規(guī)模出貨階段,全年銷量大概在70-80萬顆。

也有不可靠消息指出,2024年910B的出貨量約四十萬張,今年910B出貨量可能與去年持平或略低(約30萬張),而910C的出貨量預(yù)計可能超過40萬張。因此,華為今年910B+910C的整體出貨量可能是70-100萬張。

出貨量和產(chǎn)能也有很大關(guān)系。中芯國際N+2工藝良率去年只有20%,今年據(jù)說已經(jīng)達(dá)到40-50%,分配給910C的產(chǎn)能貌似是2.6萬片晶圓/月(數(shù)據(jù)不靠譜,僅供參考,與我無關(guān))。

價格方面,910B的均價據(jù)說大約是11萬/片,910C可能是18-20萬/片。網(wǎng)上很多文章說910C價格是1800美元,我覺得不靠譜。相比之下,英偉達(dá)H100的市場價格,大約是2.5-3萬美元/張。

值得一提的是,華為前段時間推出的CloudMatrix 384超節(jié)點,由384顆昇騰910C芯片構(gòu)建,系統(tǒng)性能比英偉達(dá)的GB200 NVL72更強(qiáng)。

這屬于典型的“群毆”模式。雖然單芯片的性能打不過,但通過系統(tǒng)層面的創(chuàng)新,組成更大規(guī)模的集群,也能一定程度彌補(bǔ)差距,滿足算力需求。

在連接方面,需要提一下華為自研的HCCS高速互連接口。

昇騰910集成了HCCS、PCIe 4.0和RoCE v2接口,可以靈活高效地實現(xiàn)橫向擴(kuò)展(Scale Out)和縱向擴(kuò)展(Scale Up)。

HCCS對標(biāo)的是英偉達(dá)的NVLINK,能夠給內(nèi)核、設(shè)備、集群提供系統(tǒng)內(nèi)存的一致訪問。在單一鏈路的單向/雙向互聯(lián)帶寬上,HCCS有顯著優(yōu)勢,可以有效提升多個Al芯片協(xié)同訓(xùn)練的能力。

910C之后,據(jù)說還有910D,采用5nm制程,4Die封裝,支持FP8。今年5-6月份回片,預(yù)期2026Q2-Q3大規(guī)模量產(chǎn)。這個消息的來源不可靠,同樣僅供參考。

再往后,華為可能就會推出昇騰920系列,采用下一代工藝,更先進(jìn)制程,努力縮小和英偉達(dá)的差距。

哦,對了,差點忘了說,華為除了昇騰310和910之外,其實還有昇騰610。

昇騰610也稱為MDC610,是智能駕駛芯片,用于華為自己的智能駕駛平臺(MDC)。根據(jù)資料顯示,昇騰610采用了7nm制程,AI算力達(dá)到200TOPS@INT8或100TFLOPS@FP16,目前已經(jīng)實現(xiàn)量產(chǎn)。

█ 昇騰硬件體系

基于昇騰芯片,華為開發(fā)了AI算力板卡、服務(wù)器、集群等一系列硬件產(chǎn)品,如下圖所示:


這些硬件覆蓋了邊緣推理、云端推理、云端訓(xùn)練三大場景,可以滿足不同行業(yè)用戶的AI計算需求。

Atlas 200I DK A2,是面向開發(fā)者的高性能AI開發(fā)套件,集成了昇騰310芯片,內(nèi)置2個Al core,可支持128位寬的LPDDR4X,最大算力為22TOPS。

Atlas 300T訓(xùn)練卡,基于昇騰910芯片,集成32個達(dá)芬奇AI核+16個TaiShan核,能夠提供280TFLOPS FP16 算力,并集成了一枚100GE RoCE v2網(wǎng)卡,支持PCIe 4.0和1*100G RoCE高速接口。內(nèi)存規(guī)格方面,包括32GB的HBM和16GB的DDR4。

Atlas 300T A2訓(xùn)練卡,強(qiáng)化了高速接口和對PCIe 5.0的支持,集成20個AI 核、8個CPU核、1*200GE RoCE,提供280TFLOPS FP16 算力。

Atlas 300I推理卡,采用了4個昇騰310,可以實現(xiàn)快速高效的推理計算、圖像識別及視頻處理等工作,支持多種規(guī)格的H.264、H.265視頻編解碼。

Atlas 300I Pro推理卡,采用24GB LPDDR4X,單卡最大提供140TOPS INT8 算力。

Atlas 300I Duo推理卡,采用48GB LPDDR4X,總帶寬 408GB/s,從表觀上看是兩顆昇騰310的組合產(chǎn)品,單卡最大提供280TOPS INT8 算力。

Atlas 500 A2智能小站,是面向邊緣應(yīng)用的產(chǎn)品。

Atlas 800訓(xùn)練服務(wù)器,采用了8顆昇騰910(NPU)+4顆鯤鵬920(CPU),廣泛應(yīng)用于深度學(xué)習(xí)模型開發(fā)和訓(xùn)練,

Atlas 800推理服務(wù)器,最大可支持8個Atlas 300l推理卡,廣泛應(yīng)用于數(shù)據(jù)中心側(cè)的AI推理場景。

Atlas 900是Al智算集群,包括了數(shù)千顆昇騰芯片,總算力達(dá)到256~1024P FLOPS@FP16,相當(dāng)于50萬臺PC的計算能力。

Atlas 900集群由Atlas 900 PoD集群基礎(chǔ)單元組成。每個單元就是一個機(jī)柜,搭載超了32顆鯤鵬920,47U高度可最大提供20.4PFLOPS@FP16的算力。機(jī)柜采用液冷散熱,最大功耗為46KW。

好啦,以上就是關(guān)于華為昇騰硬件體系的全部介紹。

歡迎糾錯,也歡迎補(bǔ)充更多信息!謝謝!

參考資料:

1、《昇騰計算產(chǎn)業(yè)發(fā)展白皮書》,華為&信通院;

2、《昇騰發(fā)力鑄造國產(chǎn)算力基石》,國投證券;

3、《昇騰萬里,力算未來》,華安證券;

4、《華為昇騰:國產(chǎn) AI 算力“扛旗者”》,民生證券;

5、《華為昇騰服務(wù)器研究框架》,浙商證券;

6、《“鯤鵬”展翅,“昇騰”萬里》,東莞證券;

7、科技分析師Lennart Heim (@ohlennart) 在X平臺發(fā)布的分析文章

8、《華為發(fā)布全球算力最強(qiáng) AI 處理器,達(dá)芬奇架構(gòu)巨無霸芯片昇騰 910 問世!》,新智元;

9、《解讀神秘的華為昇騰910》,周博洋,知乎;

10、華為官網(wǎng)、華為云社區(qū)。

華為

華為

華為創(chuàng)立于1987年,是全球領(lǐng)先的ICT(信息與通信)基礎(chǔ)設(shè)施和智能終端提供商。目前華為約有19.7萬員工,業(yè)務(wù)遍及170多個國家和地區(qū),服務(wù)全球30多億人口。華為致力于把數(shù)字世界帶入每個人、每個家庭、每個組織,構(gòu)建萬物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權(quán)利,成為智能世界的前提和基礎(chǔ);為世界提供最強(qiáng)算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強(qiáng)大的數(shù)字平臺而變得敏捷、高效、生機(jī)勃勃;通過AI重新定義體驗,讓消費者在家居、出行、辦公、影音娛樂、運動健康等全場景獲得極致的個性化智慧體驗。

華為創(chuàng)立于1987年,是全球領(lǐng)先的ICT(信息與通信)基礎(chǔ)設(shè)施和智能終端提供商。目前華為約有19.7萬員工,業(yè)務(wù)遍及170多個國家和地區(qū),服務(wù)全球30多億人口。華為致力于把數(shù)字世界帶入每個人、每個家庭、每個組織,構(gòu)建萬物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權(quán)利,成為智能世界的前提和基礎(chǔ);為世界提供最強(qiáng)算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強(qiáng)大的數(shù)字平臺而變得敏捷、高效、生機(jī)勃勃;通過AI重新定義體驗,讓消費者在家居、出行、辦公、影音娛樂、運動健康等全場景獲得極致的個性化智慧體驗。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專家、行業(yè)分析師、自媒體作者,《智聯(lián)天下:移動通信改變中國》叢書作者。通信行業(yè)13年工作經(jīng)驗,曾長期任職于中興通訊股份有限公司,從事2/3/4G及5G相關(guān)技術(shù)領(lǐng)域方面的研究,曾擔(dān)任中興通訊核心網(wǎng)產(chǎn)品線產(chǎn)品經(jīng)理、能力提升總監(jiān)、中興通訊學(xué)院二級講師、中興通訊高級主任工程師,擁有豐富的行業(yè)經(jīng)驗和積累。