• 正文
    • 一、什么是“Custom Silicon”?
    • 二、Arm的商業(yè)模式是什么?是否提供芯片定制服務(wù)?
    • 三、什么是Arm?CSS?
    • 四、小米玄戒O1是否基于Arm CSS for Client?
    • 五、玄戒O1究竟做了哪些關(guān)鍵自研工作?
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

不是Arm CSS定制!小米玄戒O1究竟自研了什么?

05/26 12:45
1091
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

近日,備受爭(zhēng)議的小米首款旗艦SoC玄戒O1在正式發(fā)布之后,依然是爭(zhēng)議不斷。最新的質(zhì)疑稱,玄戒O1并不是小米自研的,而是由Arm公司為小米定制的。起因是,Arm官網(wǎng)近日發(fā)布了一篇題為《XRING O1 Custom Silicon from Xiaomi is Powered by the Arm Compute Platform》的新聞稿(已刪除),常規(guī)翻譯過來的意思就是“小米的XRING O1定制芯片由Arm計(jì)算平臺(tái)提供支持”,并稱這“標(biāo)志著小米與Arm合作15年,小米的第一個(gè)定制芯片為下一代設(shè)備帶來了先進(jìn)的AI和性能提升?!?/p>

于是乎很多的網(wǎng)友質(zhì)疑玄戒O1并不是購買了Arm的IP來自己研發(fā)設(shè)計(jì)的,而是由Arm基于其CSS?for Client(面向客戶端的 Arm 計(jì)算子系統(tǒng) )為小米定制的。那么,事實(shí)究竟如何呢?下面芯智訊就結(jié)合已有的公開信息和我們通過采訪了解到的相關(guān)信息來解讀一下:

一、什么是“Custom Silicon”?

雖然Arm官網(wǎng)發(fā)布的關(guān)于小米玄戒O1的文章當(dāng)中用了“Custom Silicon”這個(gè)英文詞組,按照字面意思似乎是“定制芯片”,然而實(shí)際上,在半導(dǎo)體行業(yè)當(dāng)中,“Custom Silicon”指的是“高度自定義的芯片”。這一點(diǎn)Arm在其官網(wǎng)上其實(shí)就有介紹?!癈ustom Silicon”是指:“專為特定應(yīng)用或用戶設(shè)計(jì)的集成電路 (ASIC)。與為現(xiàn)成通用目的而生產(chǎn)的傳統(tǒng)芯片不同,Custom Silicon 經(jīng)過優(yōu)化,可滿足獨(dú)特的性能、功耗和功能要求。通用芯片提供的配置選項(xiàng)有限,例如 CPU 核心數(shù)量和功耗設(shè)置,而“Custom Silicon”則允許更深入的定制,例如 I/O 功能、內(nèi)存接口和特定工作負(fù)載的加速器。這種定制可以根據(jù)特定用例提升性能和效率?!?/p>

還進(jìn)一步指出,相對(duì)于架構(gòu)是固定的,并適用于更通用應(yīng)用的標(biāo)準(zhǔn)芯片設(shè)計(jì)來說,“Custom Silicon”允許設(shè)計(jì)人員針對(duì)特定工作負(fù)載優(yōu)化芯片的各個(gè)方面,包括內(nèi)存、電源管理和處理速度進(jìn)行優(yōu)化。此外,與通用的標(biāo)準(zhǔn)芯片相比,“Custom Silicon”能夠幫助企業(yè)實(shí)現(xiàn)更高的性能、更低的功耗、更佳的功能集成度和更強(qiáng)的安全性。能夠根據(jù)特定需求定制芯片設(shè)計(jì),為企業(yè)帶來競(jìng)爭(zhēng)優(yōu)勢(shì)。Arm還舉例稱,亞馬遜自研的 AWS Graviton 處理器就是專為云計(jì)算打造的“Custom Silicon”,具有優(yōu)化的內(nèi)存加密和能效。另一個(gè)例子是亞馬遜的 AWS Nitro DPU,它也是“Custom Silicon”,能夠更高效地處理存儲(chǔ)、網(wǎng)絡(luò)和安全問題。

亞馬遜云科技也在其官網(wǎng)上對(duì)于Graviton 處理器介紹中指出,“它(Graviton處理器)是亞馬遜云科技基于Arm針對(duì)云計(jì)算優(yōu)化 Neoverse(Arm面向服務(wù)器/數(shù)據(jù)中心端的IP核) 系列架構(gòu)設(shè)計(jì),并結(jié)合亞馬遜云科技用戶使用經(jīng)驗(yàn)從業(yè)務(wù)負(fù)載角度做了定制和優(yōu)化?!?/p>

顯然,從Arm官方和亞馬遜官方的介紹來看,作為“Custom Silicon”的AWS Graviton 處理器并不是Arm來為亞馬遜定制的處理器,而是亞馬遜基于Arm提供的面向數(shù)據(jù)中心的Neoverse系列IP核設(shè)計(jì),結(jié)合了亞馬遜用戶需求來定制和優(yōu)化的一款處理器。

同理,小米玄戒O1作為一款“Custom Silicon”也只是基于Arm提供的面向移動(dòng)終端的處理器IP設(shè)計(jì),然后結(jié)合了小米面向自身客戶需求進(jìn)行了一些列的定制和優(yōu)化的一款處理器。

二、Arm的商業(yè)模式是什么?是否提供芯片定制服務(wù)?

Arm公司是一家半導(dǎo)體IP設(shè)計(jì)公司,其本身不制造、也不銷售任何實(shí)物芯片,只是設(shè)計(jì)自己的半導(dǎo)體IP,并通過將其授權(quán)給客戶來獲得收入。這些IP包括指令集架構(gòu)、微處理器、圖形核心、NPU(神經(jīng)網(wǎng)絡(luò)處理器)核心、互連架構(gòu)等等。

具體來說,Arm業(yè)務(wù)主要有四大類:

1、指令集架構(gòu)授權(quán)(Architectural License):客戶可基于Arm指令集自主設(shè)計(jì)芯片架構(gòu),比如蘋果、高通華為。

2、IP核授權(quán)(IP Core License):客戶直接使用Arm設(shè)計(jì)好的IP內(nèi)核,比如Cortex-A系列CPU內(nèi)核、Mali系列GPU內(nèi)核、Ethos系列NPU內(nèi)核。

3、計(jì)算子系統(tǒng)(CSS)許可包。

4、技術(shù)咨詢服務(wù)。

IP核授權(quán)主要包含兩種類型:

一種是軟核授權(quán),提供寄存器傳輸級(jí)(RTL)源代碼,客戶可進(jìn)行代碼級(jí)的單元測(cè)試,可以自行完成邏輯設(shè)計(jì)和物理設(shè)計(jì);

另一種則是硬核授權(quán),即該內(nèi)核IP是已經(jīng)完成了晶體管的布局布線的物理版圖,并且與相關(guān)晶圓廠的特定制造工藝進(jìn)行了綁定,是經(jīng)過優(yōu)化驗(yàn)證的,通常以 GDSII 文件或等效文件的形式提供給客戶。雖然,客戶無法對(duì)其進(jìn)行修改,但可以直接拿來集成到自己的SoC設(shè)計(jì)當(dāng)中,并交由代工廠制造,可以大幅縮短開發(fā)周期,風(fēng)險(xiǎn)也較低。

IP授權(quán)收費(fèi)模式

IP授權(quán)主要分為前期授權(quán)費(fèi),以及根據(jù)每顆芯片的售價(jià)按比例收抽取版稅(royalty)。指令集授權(quán)則是一次性買斷。

那么,Arm是否有芯片定制服務(wù)呢?嚴(yán)格來說,Arm并沒有對(duì)外提供芯片定制服務(wù),因?yàn)閷?duì)于一款芯片來說,光有CPU/GPU等核心IP是遠(yuǎn)遠(yuǎn)不夠的。而且,Arm作為一家上市公司來說,也從未在財(cái)報(bào)當(dāng)中披露其有給客戶專門定制SoC的服務(wù)。

實(shí)際上,半導(dǎo)體行業(yè)有很多專門為客戶提供芯片定制服務(wù)的企業(yè),比如創(chuàng)意電子、世芯、博通、Marvell、芯原股份等,其中一個(gè)關(guān)鍵因素在于,他們手中都擁有豐富的半導(dǎo)體IP和芯片設(shè)計(jì)和流片經(jīng)驗(yàn),以及能夠拿到很多晶圓廠端的資源支持。而據(jù)芯智訊了解,目前能從臺(tái)積電拿到產(chǎn)能支持的后端芯片設(shè)計(jì)服務(wù)廠商就只有創(chuàng)意電子、世芯、博通和Marvell四家公司。

當(dāng)然,Arm也希望針對(duì)客戶的需求來發(fā)展類似半定制化的IP整合包服務(wù),即提供Arm計(jì)算子系統(tǒng)(CSS)平臺(tái),甚至是有計(jì)劃自研芯片來直接銷售給客戶。

在2024年12月,Arm與高通的關(guān)于技術(shù)授權(quán)問題的訴訟庭審當(dāng)中,高通就指控稱,Arm正在為客戶端和數(shù)據(jù)中心處理器以及其他用例提供Arm計(jì)算子系統(tǒng)(CSS),存在與客戶競(jìng)爭(zhēng)的嫌疑。

同時(shí),高通的法律團(tuán)隊(duì)出示了Arm 首席執(zhí)行官 René Haas為 Arm 董事會(huì)準(zhǔn)備的一份文件,表明Arm還在考慮設(shè)計(jì)自己的芯片直接提供給客戶,這將使其成為包括高通在內(nèi)的客戶的主要競(jìng)爭(zhēng)對(duì)手。

René Haas則駁斥了這些說法,稱雖然 Arm 正在探索各種商機(jī),但Arm不制造芯片,也從未涉足過這個(gè)行業(yè)。

不過,今年2月,英國《金融時(shí)報(bào)》爆料稱,Arm正在開發(fā)自己的芯片,首款自研芯片最快會(huì)在今年夏天推出,將由臺(tái)積電代工,Meta可能將會(huì)成為首批客戶之一。

所以,實(shí)際上目前Arm并沒有對(duì)外提供定制芯片服務(wù),而Arm計(jì)算子系統(tǒng)(CSS)也并不是給客戶定制的,而是將Arm現(xiàn)有的CPU等IP整合成一個(gè)系統(tǒng)平臺(tái)來進(jìn)行銷售。

三、什么是Arm?CSS?

Arm CSS全稱是計(jì)算子系統(tǒng)(Compute Subsystem),最早是在2023年針對(duì)Arm Neoverse 基礎(chǔ)設(shè)施產(chǎn)品推出的計(jì)算子系統(tǒng) (CSS) ,首款產(chǎn)品是 Arm Neoverse CSS N2。根據(jù)當(dāng)時(shí)的Arm產(chǎn)品管理高級(jí)總監(jiān) Jeff Defilippi介紹,所謂的Neoverse CSS實(shí)際上是Arm?Neoverse系列多核設(shè)計(jì),包括了將CPU、互連、虛擬化 IP 要求等整合在一起,進(jìn)行驗(yàn)證,并將其作為生產(chǎn)就緒的 RTL 可交付成果交付給客戶。除了 RTL 之外,Arm還提供與之相關(guān)的額外的實(shí)現(xiàn)包、平面圖、實(shí)現(xiàn)腳本以及達(dá)到該性能所需的物理 IP 庫以及設(shè)計(jì)所需的功耗范圍,以及完整的軟件參考堆棧。

根據(jù)Jeff Defilippi當(dāng)時(shí)的說法,客戶通過使用Arm提供的CSS包來進(jìn)行芯片開發(fā),與使用普通 IP 許可證來進(jìn)行開發(fā)相比,可以節(jié)省80個(gè)工程師一年時(shí)間的開發(fā)。而且保留了相當(dāng)?shù)淖杂啥?。(?yīng)該是指也可以軟核交付,客戶可以進(jìn)一步開發(fā)和優(yōu)化設(shè)計(jì))

顯然,Arm CSS并不是以交鑰匙的方式去幫助客戶直接定制芯片,而是為客戶提供了多核集群的系統(tǒng)級(jí)解決方案,客戶不需要再購買單獨(dú)的購買不同類型的IP核來進(jìn)行多核集群的系統(tǒng)搭建,可以直接選擇Arm的CSS包來進(jìn)行開發(fā),并且客戶還能在這個(gè)基礎(chǔ)上繼續(xù)進(jìn)行定制開發(fā)自己的SoC。

而Arm高管關(guān)于采用CSS平臺(tái)研發(fā)比普通IP許可研發(fā)方式“可以節(jié)省80個(gè)工程師一年時(shí)間的開發(fā)”的說法也印證了這一點(diǎn)。因?yàn)?,一款旗艦手機(jī)SoC的研發(fā)至少需要接近1000人的研發(fā)團(tuán)隊(duì)經(jīng)過兩三年的研發(fā),如果使用Arm CSS平臺(tái)只是能節(jié)省80個(gè)工程師一年的工作量,怎么能將該芯片稱之為完全是交由Arm定制的呢?更何況一款旗艦SoC當(dāng)中,除了CPU/GPU之外,還有很多其他的功能模塊。

Arm的Neoverse CSS解決方案在服務(wù)器市場(chǎng)獲得成功之后,在2024年5月底,Arm正式發(fā)布了首款面向智能手機(jī)和PC等終端產(chǎn)品的 Arm 計(jì)算子系統(tǒng) —— Arm CSS for Client。

根據(jù)Arm官網(wǎng)的介紹,Arm CSS for Client整合了最新的 Armv9.2 指令集的 CPU 集群,包括最高性能的 Cortex-X925 CPU、最高效的 Cortex-A725 CPU、更新后的 Arm Cortex-A520 CPU,以及性能最高、效率最高的 GPU——Arm Immortalis-G925 GPU 等,并通過Arm CoreLink CI-700進(jìn)行互聯(lián)。

同時(shí),Arm CSS for Client還引入了在3nm上優(yōu)化的生產(chǎn)就緒、硬化的CPU和GPU核心實(shí)現(xiàn)。這些可在多個(gè)晶圓代工使用,提供了最大的靈活性。CSS for Client還可使用CSS RTL改進(jìn)在3nm芯片上提供一流的PPA。

總結(jié)來說就是,Arm CSS for Client是一個(gè)整合了Arm最新的X925超大核、X725大核、A520能效核和G925 GPU核心及互聯(lián)多核解決方案包,并且該解決方案是經(jīng)過各晶圓廠3nm制程優(yōu)化驗(yàn)證的,可以直接提供硬核交付。

值得一提的是,Arm在2024年宣布推出Arm CSS for Client的新聞稿中,聯(lián)發(fā)科技資深副總經(jīng)理、無線通信事業(yè)部總經(jīng)理徐敬全博士當(dāng)時(shí)就表示,“天璣 9400將搭載最新的Armv9 Cortex-X925 CPU 和 Arm Immortalis-G925 GPU客戶端解決方案。我們與 Arm 保持著長(zhǎng)期而緊密的合作關(guān)系,致力于不斷提升移動(dòng)芯片的性能和功能,共同推動(dòng)計(jì)算技術(shù)的快速發(fā)展。”

同時(shí),vivo首席芯片規(guī)劃專家夏曉菲也表示:“vivo 非常注重用戶體驗(yàn),在 Arm CSS 的技術(shù)基礎(chǔ)之上,我們與 Arm 的密切合作,共同推動(dòng)開發(fā)者生態(tài),使手機(jī)更流暢更好用,同時(shí)也為設(shè)備端帶來了前沿的 AI 體驗(yàn)?!?/p>

隨后,vivo X200 系列旗艦級(jí)首發(fā)搭載了聯(lián)發(fā)科的天璣9400。

那么,聯(lián)發(fā)科天璣9400是否是采用了Arm CSS for Client解決方案呢?

Arm在2025年2月5日發(fā)布的“2025財(cái)年第三季度電話財(cái)報(bào)會(huì)議”記錄當(dāng)中就有明確提到,“天璣9400?SoC基于我們的CSS for Client,其中包括Arm Cortex-X925 CPU和Immortalis-G925 GPU?!?/p>

顯然,聯(lián)發(fā)科天璣9400就是基于Arm?CSS for Client平臺(tái)打造的,所以其X925大核也是基于Arm公布的3.6GHz標(biāo)準(zhǔn)主頻。那么,天璣9400是Arm給聯(lián)發(fā)科定制的芯片嗎?顯然不是!

而且,Arm還指出,“芯片復(fù)雜性的增加正在推動(dòng)頂級(jí)超大規(guī)模制造商在最新的Armv9和CSS上‘Custom Silicon’(面向自己的用戶需求自定義芯片)。我們正在通過AWS Graviton、微軟Cobalt、谷歌Axion和英偉達(dá)基于基Arm技術(shù)的Grace芯片在數(shù)據(jù)中心獲得份額。”

顯然,AWS Graviton、微軟Cobalt、谷歌Axion和英偉達(dá)Grace CPU也都被Arm定義為“Custom Silicon”。這些芯片也并不是Arm為他們定制的,而是他們基于Arm的IP來自己設(shè)計(jì)的。

值得一提的是,網(wǎng)上也有不少網(wǎng)友認(rèn)為,小米玄戒O1可能是基于“Arm Total Design”(Arm全面設(shè)計(jì))項(xiàng)目推出的。

這里需要指出的是,Arm Total Design實(shí)際上是為了助力 Arm 服務(wù)器 CPU 廠商的芯片設(shè)計(jì)而推出的。2023 年 10 月,Arm整合了特殊應(yīng)用 IC (ASIC) 設(shè)計(jì)公司、IP 供應(yīng)商、電子設(shè)計(jì)自動(dòng)化 (EDA) 工具供應(yīng)商、晶圓廠與固件開發(fā)商等業(yè)界領(lǐng)導(dǎo)企業(yè)資源,推出了Arm Total Design,主要是致力于加速并簡(jiǎn)化面向數(shù)據(jù)中心的 Neoverse CSS 構(gòu)架系統(tǒng)的開發(fā),協(xié)助各方進(jìn)行創(chuàng)新、加速產(chǎn)品上市時(shí)程,并降低打造客制化芯片所需的成本與阻力。

簡(jiǎn)單來說,Arm Total Design為了助力亞馬遜、谷歌、微軟等云廠商加快自己的Arm服務(wù)器CPU設(shè)計(jì),不僅提供Arm?Neoverse CSS解決方案,而且還整合了他們可能會(huì)需要的芯片設(shè)計(jì)服務(wù)公司、IP供應(yīng)商、EDA工具商、晶圓廠等相關(guān)的資源。但是這也并不是Arm來為客戶提供一站式的芯片設(shè)計(jì)服務(wù)。

2024年 6 月,聯(lián)發(fā)科就有宣布加入Arm Total Design生態(tài)項(xiàng)目,這也引發(fā)了當(dāng)時(shí)關(guān)于聯(lián)發(fā)科可能將進(jìn)軍數(shù)據(jù)中心市場(chǎng)的相關(guān)報(bào)道。

另外,可以明確的一點(diǎn)是,Arm Total Design至今都是圍繞著數(shù)據(jù)中心市場(chǎng),根本沒有面向智能手機(jī)/PC等客戶端市場(chǎng)推出。所以,小米也不可能因?yàn)樵O(shè)計(jì)手機(jī)芯片玄戒O1而加入面向數(shù)據(jù)中心的Arm Total Design項(xiàng)目。

四、小米玄戒O1是否基于Arm CSS for Client?

從玄戒O1所采用的3nm制程以及2個(gè)Cortex-X925超大核、4個(gè)Cortex-A725大核、2個(gè)Cortex-A725能效大核、2個(gè)Cortex-A520能效小核,以及G925 GPU核心的集群組合來看,確實(shí)有可能是采用了Arm CSS for Client解決方案。

不過,據(jù)安謀科技的人向芯智訊透露,據(jù)其了解,小米玄戒O1并不是基于Arm CSS for Client平臺(tái)方案。芯智訊也聯(lián)系了小米集團(tuán)副總裁、玄戒負(fù)責(zé)人朱丹進(jìn)行求證,對(duì)方表示,小米是買的Arm IP軟核授權(quán),“CPU/GPU多核及訪存的系統(tǒng)級(jí)設(shè)計(jì)完全由小米自主研發(fā),后端設(shè)計(jì)也是完全由小米自主研發(fā),并非是基于Arm CSS軟核或硬核方案?!边@里有必要介紹一下一款芯片的設(shè)計(jì)流程,主要可以分為前端設(shè)計(jì)和后端設(shè)計(jì)兩個(gè)部分。

前端設(shè)計(jì)主要包括:

1、規(guī)格與功能定義:確定芯片需要什么樣的性能、要做到什么樣的功耗、成本需要控制在多少等;

2、系統(tǒng)設(shè)計(jì):確定芯片架構(gòu)、業(yè)務(wù)模塊、供電等系統(tǒng)級(jí)設(shè)計(jì),比如用什么IP、多個(gè)核心、多個(gè)叢集、配置多少緩存、怎么互聯(lián)等;

3、代碼描述:將芯片的具體電路進(jìn)行RTL級(jí)別的代碼描述;

4、邏輯綜合:將所設(shè)計(jì)數(shù)字電路的高抽象級(jí)描述,經(jīng)過布爾函數(shù)化簡(jiǎn)、優(yōu)化后,轉(zhuǎn)換到邏輯門級(jí)別的電路連線網(wǎng)表的過程,以確保電路在面積、時(shí)序等目標(biāo)參數(shù)上達(dá)到標(biāo)準(zhǔn);

5、仿真驗(yàn)證:利用計(jì)算機(jī)軟件、模型和算法來模擬和分析電路設(shè)計(jì)的準(zhǔn)確性和穩(wěn)定性。

顯然,對(duì)于玄戒O1來說,前端設(shè)計(jì)主要是在完成對(duì)于芯片的規(guī)格和功能定義之后,對(duì)于Arm IP以及自研或第三方IP的選擇,拿到對(duì)應(yīng)的RTL之后,再進(jìn)行邏輯綜合并進(jìn)行仿真驗(yàn)證。這部分的工作量其實(shí)并不太大,更大的工作量實(shí)際都集中在后端設(shè)計(jì)上。

后端設(shè)計(jì)主要包括:按照既定的目標(biāo)PPACR(Power、Performance、Area、Cost、Reliability)的限制,借助EDA在硅片面積內(nèi),對(duì)電路進(jìn)行布局/(FloorPlan&Place)、布線(Routing)以及時(shí)鐘樹綜合(CTS),將門級(jí)網(wǎng)表轉(zhuǎn)化為GDS(Geometry Data Standard)物理版圖。

此后進(jìn)行簽核驗(yàn)證,對(duì)布線后的物理版圖進(jìn)行功能和時(shí)序上的全面驗(yàn)證,如設(shè)計(jì)規(guī)則查驗(yàn)(Design Rule Check)、版圖和電路比對(duì)(Layout Versus Schematic) 、時(shí)序靜態(tài)分析(Static Timing Analysis , STA)、功耗分析(Power Analysis)等,確保最終物理版圖滿足設(shè)計(jì)需求。

需要指出的是,后端設(shè)計(jì)同樣是不斷迭代的過程,仿真驗(yàn)證不滿足要求,同樣需重復(fù)前序流程。仿真驗(yàn)證沒有問題之后,才會(huì)進(jìn)行流片。

五、玄戒O1究竟做了哪些關(guān)鍵自研工作?

正如前面所介紹的那樣,如果小米玄戒O1采用了Arm CSS for Client的硬化IP,那么就等于是省去了整個(gè)核心的CPU計(jì)算集群很多后端設(shè)計(jì)工作,雖然可以縮短開發(fā)周期,并降低開發(fā)風(fēng)險(xiǎn),但是也就無法對(duì)整個(gè)核心的CPU計(jì)算集群進(jìn)行修改或加入自研的技術(shù),以進(jìn)一步提升性能和功耗表現(xiàn)。1、三大自研技術(shù)提升至3.9GHz主頻

Arm在發(fā)布Cortex-X925超大核時(shí)公布的信息是,該CPU內(nèi)核主頻最高可達(dá)3.8GHz(常規(guī)為3.6GHz),而玄戒O1公布的Cortex-X925超大核之則實(shí)現(xiàn)高達(dá)3.9GHz的主頻,這正是得益于小米自研的邊緣供電技術(shù)、自研標(biāo)準(zhǔn)單元(StdCell)和自研高速寄存器的加持。

據(jù)朱丹向芯智訊介紹,傳統(tǒng)芯片的超大核采用MTCMOS方式供電,邏輯計(jì)算單元周圍分布著錯(cuò)綜復(fù)雜的供電網(wǎng)絡(luò),成千上萬的供電單元散布在邏輯計(jì)算單元中間,導(dǎo)致邏輯計(jì)算單元之間的距離疏遠(yuǎn)。通俗來說,從邏輯計(jì)算單元A到邏輯計(jì)算單元B,需要繞路。而玄戒O1在X925超大核上設(shè)計(jì)了全新的邊緣供電技術(shù),將供電單元統(tǒng)一集中到超大核兩側(cè),再通過立體空間組網(wǎng)供電的方式,實(shí)現(xiàn)了電源的均流。這樣核心內(nèi)部的邏輯計(jì)算單元就更加致密,相互之間的物理距離更近,在保證高質(zhì)量電源供給的前提下,時(shí)鐘速度可以得到提升。

同時(shí),小米為了實(shí)現(xiàn)玄戒O1的性能指標(biāo),在晶圓廠基于3nm工藝提供的1500多種各式各樣的標(biāo)準(zhǔn)Cell(門級(jí)電路是有多個(gè)晶體管組成的,而Cell是由門級(jí)電路組成的具備基礎(chǔ)功能的最小單元)基礎(chǔ)上,重新設(shè)計(jì)了480多種組合邏輯和時(shí)序邏輯單元,并且應(yīng)用在了CPU內(nèi)部最關(guān)鍵的路徑上,這也是讓玄戒O1的超大核頻率能夠提升到3.9GHz的關(guān)鍵。此外,小米芯片研發(fā)團(tuán)隊(duì)針對(duì)不滿足性能條件的關(guān)鍵路徑,逐條打開,調(diào)整寄存器內(nèi)部?jī)杉?jí)鎖存器(Latch)的工作邏輯,調(diào)整兩級(jí)Latch 的時(shí)鐘延遲,讓前一級(jí)路徑時(shí)序 margin更大,同時(shí)不影響下一級(jí)路徑時(shí)序。通過小米自研的全新的高速寄存器,將不滿足3.9GHz(256皮秒)的1000條關(guān)鍵路徑進(jìn)行提速,最終讓玄戒O1的超大核主頻得以提高至3.9GHz。2、超低功耗設(shè)計(jì)

除了利用自研技術(shù)提升玄戒O1的CPU性能之外,小米還在改進(jìn)玄戒O1的能效表現(xiàn)上下了非常大的功夫。

根據(jù)小米披露的信息來看,玄戒O1的四個(gè)A725性能大核在持續(xù)高性能的情況下,其功耗表現(xiàn)是優(yōu)于同樣是3nm的蘋果A18 Pro大核;同樣,玄戒O1的2個(gè)低功耗A725核心+2個(gè)A520核心在能效表現(xiàn)上也優(yōu)于蘋果A18 Pro的能效核。

首先,在CPU集群設(shè)計(jì)上,玄戒O1并沒有采用常見的“2+4+2”的三叢集設(shè)計(jì),而是采用了“2+4+2+2”的組合,其中2顆A520+2顆低主頻的A725形成4核雙能效叢集,相比傳統(tǒng)的“2+4+2”三叢集設(shè)計(jì),各場(chǎng)景功耗降低了2%-6%。

其次,小米芯片團(tuán)隊(duì)還針對(duì)玄戒O1整個(gè)SoC全局進(jìn)行4級(jí)低功耗系統(tǒng)劃分,玄戒O1可以根據(jù)用戶的使用狀態(tài),在Level 0 到Level 3四種狀態(tài)自由切換,通過90+電源域分區(qū)控制,各個(gè)模塊非用即關(guān),可以大大降低了日常使用中因?yàn)樾酒O(shè)計(jì)不合理導(dǎo)致的功耗浪費(fèi)。

第三,眾所周知,對(duì)于芯片來說,工作電壓越低,功耗就越低,但是電壓過低又會(huì)影響性能。所以,找到不同CPU內(nèi)核的電壓和能效的平衡點(diǎn),則是優(yōu)化功耗的一個(gè)關(guān)鍵手段。對(duì)此,玄戒O1對(duì)CPU每個(gè)核心的每一個(gè)頻點(diǎn),都進(jìn)行了系統(tǒng)化的VF掃頻,在固定電壓(V)下,尋找到能效最高的頻率點(diǎn)位(Freq)。而掃頻的過程,需要貫穿前端設(shè)計(jì)和后端設(shè)計(jì),不斷仿真驗(yàn)證進(jìn)行迭代。

據(jù)了解,玄戒O1經(jīng)過998種方案迭代,才固定了能效最優(yōu)的物理電路版圖,將CPU的每一個(gè)核心做到了極致,讓每一個(gè)點(diǎn)位都找到能效最高的頻率值,能效曲線表現(xiàn)更優(yōu),在相同性能下電壓更低,A725和A520核心下探到0.5V的超低工作電壓。

第四,小米芯片研發(fā)團(tuán)隊(duì)為了進(jìn)一步降低工作電壓,還在玄戒O1內(nèi)部集成了25個(gè)性能傳感器和22個(gè)溫度傳感器,可精準(zhǔn)感知芯片內(nèi)部不同區(qū)域、不同子系統(tǒng)的局部體質(zhì)差異,在滿足性能的前提下,進(jìn)一步降低工作電壓,最終讓0.5V的最低工作電壓,進(jìn)一步下探到0.46V,據(jù)說是做到了行業(yè)最低。這也成就了玄戒O1在保持高性能下,出色的低功耗表現(xiàn)。

3、軟硬深度協(xié)同的性能調(diào)度設(shè)計(jì)

由于玄戒O1采用的是“2+4+2+2”的四叢集CPU設(shè)計(jì),這也意味著要想用好這個(gè)四叢集CPU,就必須要做到針對(duì)不同的需求場(chǎng)景能夠?qū)崿F(xiàn)快速的最優(yōu)的調(diào)度,比如選擇合適的CPU內(nèi)核,并選擇合適的工作電壓和工作頻率,否則就容易出現(xiàn)不必要的CPU計(jì)算資源的浪費(fèi)或者計(jì)算資源不足而導(dǎo)致的卡頓。

而傳統(tǒng)的CPU調(diào)度大多是通過軟件來實(shí)現(xiàn)的,并且也是由CPU來運(yùn)行軟件調(diào)度算法,這就造成了CPU既要執(zhí)行當(dāng)前的任務(wù),還要分心來做額外的調(diào)度計(jì)算,不僅會(huì)帶來延遲,還可能降低調(diào)度的精準(zhǔn)度,因?yàn)轭~外的調(diào)度計(jì)算本身也會(huì)被系統(tǒng)識(shí)別為工作負(fù)載。

為了解決這個(gè)問題,玄戒O1在CPU內(nèi)部全新設(shè)計(jì)了獨(dú)立的硬件級(jí)的微控單元,專門進(jìn)行調(diào)度計(jì)算。不僅能夠精準(zhǔn)地監(jiān)控SoC的負(fù)載狀態(tài),而且無需CPU計(jì)算,從而以更低的性能開銷,快速調(diào)頻,讓CPU調(diào)度延遲從16ms降低至2ms。

此外,面對(duì)游戲等固定周期的場(chǎng)景,小米芯片研發(fā)團(tuán)隊(duì)還為玄戒O1還帶來了更精準(zhǔn)的聯(lián)合一體化調(diào)頻措施。

傳統(tǒng)SoC的調(diào)頻措施采用的是“試錯(cuò)式調(diào)頻”,比如性能不足時(shí),就提高頻頻,性能過剩了再降低頻率,頻率降多了出現(xiàn)卡頓,然后又再提高頻率。這也意味著這種傳統(tǒng)的SoC調(diào)頻措施很容易出現(xiàn)計(jì)算資源的浪費(fèi),導(dǎo)致功耗的增加。

對(duì)此,由于小米芯片研發(fā)團(tuán)隊(duì)此前通過掃頻的方式,掌握了每個(gè)核心的每個(gè)工作頻率點(diǎn)位下的功耗表現(xiàn),因此可以保證性能的前提下,一次性一體化調(diào)整各關(guān)鍵器件(CPU、GPU、L3、DDR、MainBus)的頻率,獲得“滿足性能需求同時(shí)功耗最低”的SoC各單元的頻點(diǎn)組合,找到全局最優(yōu)解。

4、超大緩存設(shè)計(jì)

玄戒O1在CPU內(nèi)部配備了超大容量多級(jí)緩存。其中,在二級(jí)緩存上,每個(gè)X925核心配備2MB L2緩存,每個(gè)A725核心均配備1MB L2緩存,A520核心共享512KB L2緩存,共計(jì)10.5MB L2緩存,并且還配備了16MB L3緩存,使得整個(gè)CPU的緩存容量達(dá)到了26.6MB。

作為對(duì)比,聯(lián)發(fā)科天璣9400的L2緩存總計(jì)為7MB,L3緩存為12MB;高通驍龍8至尊版則配備24MB L2緩存(沒有L3緩存)。

玄戒O1憑借充足的緩存可以高效存儲(chǔ)高頻數(shù)據(jù),降低核心訪問DDR讀取數(shù)據(jù)的次數(shù),從而提升核心間數(shù)據(jù)流轉(zhuǎn)效率、提升最終用戶體驗(yàn),降低功耗。但是這樣做的代價(jià)是大緩存會(huì)提升成本并占據(jù)較大的面積,以玄戒O1的L3緩存面積為例,其甚至超過兩顆X925核心的面積之和。

這似乎也可以解釋,同樣臺(tái)積電N3E制程的加持下,未集成基帶的玄戒O1的晶體管數(shù)量(190億顆)比集成了5G基帶的天璣9400的291億顆晶體管少了34.7%,而面積卻只少了13.5%。

5、自研第四代ISP技術(shù)

小米早在2019年就開始了自研ISP(圖像信號(hào)處理器)芯片的研發(fā)。2021年3月底,小米首款自研ISP芯片澎湃C1正式推出并商用。隨后,小米自研ISP芯片又持續(xù)迭代,今年年初發(fā)布的小米15 Ultra就集成了澎湃C3芯片。

玄戒O1則進(jìn)一步集成了小米自研的第四代ISP技術(shù),采用全新的三段式ISP處理管線(Pipeline)設(shè)計(jì),相對(duì)于行業(yè)常規(guī)的兩段式處理管線設(shè)計(jì),能夠有效提升ISP處理管線的靈活性,便于更多影像算法的Raw域遷移,對(duì)Raw域原始數(shù)據(jù)進(jìn)行算法處理,帶來高速高畫質(zhì)的影像體驗(yàn)。

此外,三段式設(shè)計(jì),同樣利于降低ISP功耗,降低對(duì)整個(gè)芯片的面積占用。相機(jī)CMOS傳感器的速度遠(yuǎn)快于ISP,將一級(jí)流水和二級(jí)流水?dāng)嚅_,一方面能夠保持一級(jí)流水的高速高頻狀態(tài),用以匹配CMOS。而斷開的二級(jí)流水和三級(jí)流水都可以同相機(jī)CMOS的時(shí)序解耦,避免整個(gè)ISP的處理管線都處于高頻高速狀態(tài),降低功耗。同時(shí)二三級(jí)流水更「低速」就意味著面積更加小巧,玄戒O1的ISP面積僅為傳統(tǒng)旗艦芯片的60%。

在性能上,玄戒O1的ISP每秒可以處理高達(dá)87億個(gè)像素,單攝最大可支持兩億像素,三攝同開最大支持6400萬+5000萬+5000萬。內(nèi)置獨(dú)立3A加速單元,自動(dòng)對(duì)焦、曝光、白平衡速度最高可提升100%,讓相機(jī)啟動(dòng)、相機(jī)連拍以及連拍后預(yù)覽全面提速。

此外,玄戒O1的ISP內(nèi)部新增兩大畫質(zhì)增強(qiáng)硬件:1、實(shí)時(shí)多幀HDR融合單元,不僅為視頻帶來更高的動(dòng)態(tài)范圍,全新的局部對(duì)齊技術(shù)可以大幅度降低鬼影;2、Al智能降噪單元,利用CNN模型網(wǎng)絡(luò)對(duì) Raw域視頻畫面進(jìn)行逐幀降噪處理,信噪比最高可提升13dB(信噪比提升約20倍)。憑借新增的兩大畫質(zhì)增強(qiáng)硬件,可以支持手機(jī)實(shí)現(xiàn)全焦段超級(jí)夜景視頻,暗光視頻畫面更加清晰銳利,而且第三方應(yīng)用也可直接調(diào)用優(yōu)秀的夜景視頻能力。

6、自研NPU,100+常見AI算子硬化

目前端側(cè)支持生成式AI功能已經(jīng)成為了旗艦手機(jī)SoC的標(biāo)配能力,而這就需要有強(qiáng)大的NPU內(nèi)核來進(jìn)行支持。

據(jù)了解,玄戒O1內(nèi)置了6核心旗艦 NPU,集成Scalar標(biāo)量加速器、Vector 矢量加速器和Tensor張量加速器,NPU算力可達(dá)44TOPS。作為對(duì)比,蘋果A18 Pro的AI算力只有35TOPS。雖然驍龍8至尊版和天璣9400的NPU的具體算力官方并未公布,但是高通面向AI PC的驍龍X Elite的NPU算力也才45 TOPS。

此外,玄戒O1的NPU還配備了10MB專屬大緩存,并針對(duì)AI影像算法、AI應(yīng)用算法中經(jīng)常使用的100多種基礎(chǔ)算子進(jìn)行硬化。對(duì)比傳統(tǒng)軟件計(jì)算,算子硬化通過專門的硬件加速,可大幅提升計(jì)算效率,對(duì)CNN、Transformer、Stable Diffusion等模型均有不同程度的加速。

如果搭配小米第三代端側(cè)模型,玄戒O1能夠帶來速度更快同時(shí)功耗更低的端側(cè)AI體驗(yàn)。據(jù)芯智訊了解,玄戒O1配合小米第三代端側(cè)模型在AI文本潤色任務(wù)處理上,速度可達(dá)62.13 Tokens/s,是iPhone 16 Pro Max的135%,但功耗僅60%。

7、其他

除了上述已經(jīng)用于玄戒O1的小米自研技術(shù)之外,小米在此前的發(fā)布會(huì)上也公布了其自研的4G手表芯片玄戒T1,這也反應(yīng)了小米在自研4G基帶芯片技術(shù)上的突破,雖然目前這還只是一款4G Cat.1基帶芯片,但是這也為后續(xù)自研更高速率的4G基帶芯片,乃至未來的5G基帶芯片帶來了可能。

另據(jù)芯智訊了解,目前小米還在自研DDR接口IP等其他相關(guān)自研IP,未來都有可能整合進(jìn)自己的玄戒系列SoC當(dāng)中。

小結(jié):

總結(jié)來說,Arm雖然在去年推出了CSS for Client平臺(tái),但是這并不是為客戶去定制整個(gè)SoC,而是為客戶提供CPU、GPU多核集群的系統(tǒng)級(jí)解決方案,并且可以綁定制程工藝的硬核方式進(jìn)行交付,客戶可以直接將Arm提供的CSS硬核包集成到自己的SoC設(shè)計(jì)當(dāng)中,這樣就減少了CPU/GPU這個(gè)核心計(jì)算模塊的后端設(shè)計(jì)工作,降低開發(fā)難度、縮短開發(fā)周期、降低研發(fā)投入。

但是,從前面的介紹我們不難看出,小米芯片研發(fā)團(tuán)隊(duì)并沒有采用Arm?CSS for Client平臺(tái)的軟核或硬核方案,而是單獨(dú)買的最新的CPU、GPU內(nèi)核IP授權(quán),并且小米也確實(shí)在CPU系統(tǒng)設(shè)計(jì)當(dāng)中加入不少自己的技術(shù),比如自研的邊緣供電技術(shù)、自研標(biāo)準(zhǔn)單元(StdCell)、自研的高速寄存器、將CPU工作電源降低到0.46V的低功耗設(shè)計(jì)、面向CPU調(diào)度計(jì)算的獨(dú)立的硬件級(jí)微控制單元和一體化調(diào)頻方案等。

目前幾乎所有的智能手機(jī)芯片都是基于Arm架構(gòu)的,其中絕大多數(shù)都是基于Arm的公版CPU+GPU IP核,少部分采用的是Arm公版CPU或基于公版CPU魔改+第三方(比如Imagination)GPU或自研GPU(比如高通部分芯片)。而采用Arm指令集授權(quán)來自研CPU內(nèi)核IP的手機(jī)芯片廠商更是少之又少,目前主要有蘋果、高通和華為,其中高通最新的驍龍8至尊版才完全轉(zhuǎn)向了自研的Oryon CPU內(nèi)核,華為則是自麒麟9000S才轉(zhuǎn)向自研的Taishan CPU內(nèi)核。

玄戒作為小米于2021年重新組建芯片研發(fā)團(tuán)隊(duì)之后推出的第一款SoC芯片,采用Arm公版的CPU/GPU內(nèi)核IP也并不丟人,因?yàn)槁沸枰徊讲降貋碜撸瑳]有多代芯片的持續(xù)迭代,沒有把CPU/GPU技術(shù)吃透,就不可能有自研CPU/GPU內(nèi)核。

此外,對(duì)于一款旗艦SoC來說,僅有CPU/GPU計(jì)算核心是不夠的,還需要圖像信號(hào)處理器(ISP)、DSP數(shù)字信號(hào)處理器)、NPU、內(nèi)存與存儲(chǔ)控制器、多媒體編解碼器無線模塊(WiFi/藍(lán)牙等)、基帶(Modem)、電源管理、傳感器中樞(Sensor Hub)、高速接口等一些列的IP來共同實(shí)現(xiàn)。

因此,芯片設(shè)計(jì)廠商即使買來了Arm公版CPU/GPU內(nèi)核,也依然還是需要去完成手機(jī)SoC所必須的其他功能模塊的開發(fā)。雖然上述這些模塊也有一些第三方的IP供應(yīng)商,但是要找到最適合自己IP,并整合到SoC系統(tǒng)當(dāng)中,完成優(yōu)化和驗(yàn)證,實(shí)現(xiàn)既定的規(guī)格和功能定義目標(biāo)仍有很多的工作要做,這并不是像搭積木那樣的簡(jiǎn)單。

特別是在越尖端制程工藝節(jié)點(diǎn)上,可以選擇的第三方IP供應(yīng)商就會(huì)更少,甚至可能都沒有符合自身需求的第三方的供應(yīng)商。數(shù)年前,OPPO芯片產(chǎn)品高級(jí)總監(jiān)姜波在接受芯智訊采訪時(shí)就曾表示,OPPO首款6nm的影像NPU——MariSilicon X時(shí),需要可以用于6nm節(jié)點(diǎn)的高速MIPI接口IP,雖然也有一些第三方供應(yīng)商,但是可選擇范圍較小,且依然是滿足不了OPPO估算的數(shù)據(jù)量要求,最終被迫選擇了自研MIPI IP。

所幸的是,玄戒O1這款芯片當(dāng)中,除了有在Arm?CPU系統(tǒng)設(shè)計(jì)當(dāng)中加入不少自己的技術(shù)之外,也有自研ISP和NPU IP。

另外,小米除了已有的自研快充芯片(澎湃P系列)、電池管理芯片(澎湃G系列)、信號(hào)增強(qiáng)芯片(澎湃T系列)、4G基帶芯片(玄戒T1)之外,似乎還在研發(fā)DDR接口IP等其他的自研IP,憑借在這些方面技術(shù)積累,后續(xù)一些技術(shù)也有望被整合到未來的旗艦級(jí)玄戒SoC當(dāng)中,推動(dòng)玄戒SoC的全自研技術(shù)占比逐步提升。

作者:芯智訊-浪客劍

小米

小米

小米是全球第四大智能手機(jī)制造商,在30余個(gè)國家和地區(qū)的手機(jī)市場(chǎng)進(jìn)入了前五名,特別是在印度,連續(xù)5個(gè)季度保持手機(jī)出貨量第一。通過獨(dú)特的“生態(tài)鏈模式”,小米投資、帶動(dòng)了更多志同道合的創(chuàng)業(yè)者,同時(shí)建成了連接超過1.3億臺(tái)智能設(shè)備的IoT平臺(tái)。

小米是全球第四大智能手機(jī)制造商,在30余個(gè)國家和地區(qū)的手機(jī)市場(chǎng)進(jìn)入了前五名,特別是在印度,連續(xù)5個(gè)季度保持手機(jī)出貨量第一。通過獨(dú)特的“生態(tài)鏈模式”,小米投資、帶動(dòng)了更多志同道合的創(chuàng)業(yè)者,同時(shí)建成了連接超過1.3億臺(tái)智能設(shè)備的IoT平臺(tái)。收起

查看更多

相關(guān)推薦