• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

特斯拉數(shù)據(jù)訓(xùn)練用芯片Dojo D1與傳統(tǒng)巨頭相比相去甚遠(yuǎn)

2022/09/19
2119
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論
在8月底的Hot Chips 34大會(huì)上,特斯拉公布了其數(shù)據(jù)訓(xùn)練用芯片Dojo更進(jìn)一步的細(xì)節(jié),和AMD的消費(fèi)級(jí)顯卡RX6900 XT相比算力有差距,而特斯拉的Dojo價(jià)格估計(jì)至少是AMD RX6900 XT顯卡芯片的10倍以上。

特斯拉、英偉達(dá)和AMD之AI訓(xùn)練芯片對(duì)比

 
 

AMD具備壓倒性絕對(duì)優(yōu)勢(shì),不過(guò)MI250已對(duì)中國(guó)禁運(yùn)。臺(tái)積電是最大受益者,高端AI芯片被臺(tái)積電壟斷,市場(chǎng)占有率至少在95%以上。英偉達(dá)的A100推出比較早,是在2020年初推出的,其余都是2021年推出的。AMD的MI250最晚推出,其時(shí)間在2021年11月。

 
特斯拉的Dojo完全是內(nèi)部自用,對(duì)外銷售的話,性價(jià)比太低,不可能有市場(chǎng)。同時(shí)其為了達(dá)到最高的存儲(chǔ)性能,使用了SRAM,但缺點(diǎn)就是容量很低,不到0.5GB。不可能運(yùn)行大的模型,讓其適用范圍非常窄小,完全沒(méi)有考慮市場(chǎng)需求,而AMD和英偉達(dá)充分考慮了市場(chǎng)需求。
在去年特斯拉推出的整個(gè)系統(tǒng)級(jí)方案,見(jiàn)下圖。

這個(gè)是臺(tái)積電最昂貴的InFO_SoW技術(shù),每個(gè)Dojo包含25顆D1芯片。一個(gè)晶圓就是一個(gè)系統(tǒng),就是一個(gè)AI訓(xùn)練盒子。臺(tái)積電原型達(dá)到49個(gè),特斯拉的Dojo是25個(gè)。臺(tái)積電的核心優(yōu)勢(shì)不是3納米或2納米的先進(jìn)工藝,而是芯片的3D系統(tǒng)級(jí)封裝,單憑這一項(xiàng),足以秒殺三星,即便三星量產(chǎn)0.5納米,沒(méi)有先進(jìn)封裝的幫助,高性能芯片還是95%在臺(tái)積電下單。SoW是整體冷盤,不像以前的方案,只有一條線,散熱效率大大提升,此外也可以用水冷散熱。最高支持1500瓦功率,不過(guò)價(jià)格極高,從研發(fā)完成只有特斯拉一個(gè)客戶。
InFO_SoW 示意圖

今年特斯拉推出了簡(jiǎn)化版Dojo,只包含兩個(gè)芯片,稱之為V1 Dojo Interface Processor(下簡(jiǎn)稱V1 Dojo),似乎有意對(duì)外銷售。

上面的兩個(gè)大芯片就是V1 Dojo,這個(gè)類似英偉達(dá)DPU的概念。

與2021年的Tile構(gòu)成完整的系統(tǒng)。

具體系統(tǒng)搭配示例

這個(gè)V1 Dojo從外觀就可以看出使用了HBM,此外推測(cè)V1 Dojo芯片也是三星代工的。

V1 Dojo應(yīng)該可以做推理用,但估計(jì)特斯拉的第二代FSD即HW4.0的芯片還不會(huì)用HBM,太貴了。

接下來(lái)我們回頭看D1的微架構(gòu),D1的微架構(gòu)參考了很早以前IBM的cell SPE.

 

2005年推出的IBM Cell 處理器具有八個(gè)“協(xié)同處理元件”(Synergistic Processing Elements)或 SPE,由一個(gè)功能齊全的CPU內(nèi)核(“電源處理元件”或 PPE:Power Processing Element)控制。Dojo與SPE有很多相似之處。Dojo和SPE都針對(duì)矢量處理進(jìn)行了優(yōu)化,并且依賴于單獨(dú)的主機(jī)處理器進(jìn)行工作分配。在Dojo或SPE上運(yùn)行的代碼不能直接訪問(wèn)系統(tǒng)內(nèi)存。相反,應(yīng)用程序預(yù)計(jì)主要在一小部分本地SRAM中工作。此本地SRAM由軟件管理,不能用作緩存。如果需要來(lái)自主存儲(chǔ)器的數(shù)據(jù),則必須使用DMA操作將其引入。不過(guò)IBM Cell的目標(biāo)市場(chǎng)是游戲機(jī),有點(diǎn)和GPU競(jìng)爭(zhēng)的意味,2017年IBM推出TrueNorth真北,當(dāng)時(shí)還有意進(jìn)軍智能汽車領(lǐng)域,不過(guò)真北也很快被英偉達(dá)的GPU所淹沒(méi)。

Dojo是一個(gè)8路解碼,4路超線程SMT,因?yàn)樯岵患?,運(yùn)行在保守的2 GHz。它有點(diǎn)像GPU,有354核心,但更像CPU,因?yàn)槠鋼碛芯哂蠧PU風(fēng)格的pipeline,使其比GPU更能容忍不同的算法和分支代碼。Dojo的指令集在標(biāo)量方面類似于RISC-V,但Tesla的工程師添加了一組自定義向量指令,專注于加速機(jī)器學(xué)習(xí)

8路解碼是目前CPU的天花板,這是決定CPU性能的最關(guān)鍵之處。ARM每年擠牙膏式升級(jí)就是如此,2012年的A53是2路,同年的高性能版A57是3路,2015年的A72還是3路,2018年的A76是4路,2020年A78還是4路,同年的X1是5路,而服務(wù)器版的ARM如英偉達(dá)下一代自動(dòng)駕駛用的Atlan用的ARM波塞冬架構(gòu),最高已經(jīng)有8路。當(dāng)然擴(kuò)展解碼路數(shù)也不是那么簡(jiǎn)單,整體設(shè)計(jì)會(huì)因此復(fù)雜度大幅度增加,面積增加,進(jìn)而導(dǎo)致成本增加,解決辦法就是更先進(jìn)的制造工藝,這也是ARM的每一代都需要搭配更先進(jìn)的制造工藝才能行,否則成本大增。

 

特斯拉在這里用詞含糊不清,8路解碼來(lái)達(dá)到每周期兩線程,讓人懷疑實(shí)際上是4路解碼,另外一個(gè)線程是虛擬出來(lái)的。

 

每個(gè)核心直接使用1.25MB的SRAM,而不是CPU用的那么復(fù)雜的多級(jí)緩存設(shè)置和多種緩存設(shè)置。

 

特斯拉采用傳統(tǒng)的2D mesh網(wǎng)絡(luò)做NOC。NOC即片上網(wǎng)絡(luò)。片上網(wǎng)絡(luò)有很多種,有星形(Star)連接、環(huán)形(Ring)連接和網(wǎng)格(Mesh)連接,2D mesh是成本最低的一種,也是比較早的一種,特斯拉可能是模仿了IBM的真北TrueNorth,真北也是2D mesh,連接了4096核心。國(guó)內(nèi)大多是采用Arteris的NOC,黑芝麻、杰發(fā)科技、地平線、芯擎、瑞芯微、國(guó)民技術(shù)、華為、全志、炬力、展訊都是如此。Arteris曾經(jīng)是高通的子公司,后獨(dú)立上市。英特爾在2019年收購(gòu)了Netspeed,F(xiàn)acebook在2019年收購(gòu)了Sonics,這兩家的NoC使用面遠(yuǎn)不及高通的Arteris。

 

354個(gè)核心通過(guò)2D mesh連接。

 

特斯拉增加了三條指令集,特別針對(duì)矢量做了處理。

特斯拉自己打造訓(xùn)練數(shù)據(jù)中心,推測(cè)其主要還是為了將特斯拉打造成科技巔峰公司的形象,讓特斯拉的科技粉絲越來(lái)越多,最終的結(jié)果是特斯拉品牌溢價(jià)率極高,再普通的產(chǎn)品,加上特斯拉的品牌都是無(wú)價(jià)之寶。這比花幾十億做廣告的效果要好得多。

 
特斯拉

特斯拉

Tesla 致力于通過(guò)電動(dòng)汽車、太陽(yáng)能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。

Tesla 致力于通過(guò)電動(dòng)汽車、太陽(yáng)能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄