從GPU到AI基礎(chǔ)設(shè)施,英偉達(dá)的戰(zhàn)略眼光早已超越了系統(tǒng)供應(yīng)商、數(shù)據(jù)中心方案提供商,鎖定了數(shù)萬億美元價(jià)值的AI基礎(chǔ)設(shè)施行業(yè)。
在Computex2025開幕演講中,英偉達(dá)CEO黃仁勛開門見山地宣稱,英偉達(dá)在實(shí)現(xiàn)從GPU到AI基礎(chǔ)設(shè)施的轉(zhuǎn)型。
黃仁勛不無調(diào)侃地說起剛剛創(chuàng)辦英偉達(dá)時(shí)的愿景,當(dāng)時(shí),他認(rèn)為公司所面臨的市場(chǎng)很巨大,是價(jià)值3億美元的芯片行業(yè)。而后來看到,數(shù)據(jù)中心是價(jià)值1萬億美元的機(jī)會(huì)。
隨著AI發(fā)展到今天,不論是定位于生產(chǎn)token的“AI工廠”或是AI基礎(chǔ)設(shè)施企業(yè),所面臨的都是數(shù)萬億美元的價(jià)值。
“我向大家保證,10年后,你們?cè)倩厥讜r(shí),會(huì)發(fā)現(xiàn)AI已經(jīng)融入一切,我們也需要AI無處不在。就像互聯(lián)網(wǎng)、電力,這就是我們今天所構(gòu)建的‘工廠’,它不像過去的數(shù)據(jù)中心,而是AI工廠”,黃仁勛強(qiáng)調(diào)。
英偉達(dá)的“來時(shí)路”和“未來途”
黃仁勛表示,當(dāng)天的主題演講,雖然90%的內(nèi)容都不是GeForce,但都與GeForce有關(guān)。
正是Geforce 系列奠定了英偉達(dá)在圖形處理領(lǐng)域的地位,并將CUDA推向了世界。他主題演講中所展現(xiàn)的視頻,僅有10%的像素經(jīng)過渲染,其余90%都由AI推測(cè)完成,也就是英偉達(dá)有名的DLSS神經(jīng)渲染技術(shù)。
GeForce將AI推向了世界,AI也徹底改變了GeForce。
如果說GeForce是英偉達(dá)的“來時(shí)路”,那么,AI基礎(chǔ)設(shè)施正是英偉達(dá)努力抵達(dá)的“未來途”。
通往AI基礎(chǔ)設(shè)施的重大戰(zhàn)略動(dòng)向
黃仁勛在Computex主題演講上介紹了一系列重大進(jìn)展,包括Blackwell GB300、RTX Pro 系列服務(wù)器、Omniverse 數(shù)字孿生技術(shù)、開源人形機(jī)器人Isaac Groot N1.5 平臺(tái)等等。不過,我們著重關(guān)注一下英偉達(dá)在通往AI基礎(chǔ)設(shè)施這個(gè)目標(biāo)的重大戰(zhàn)略動(dòng)向,主要包括:NVLink Fusion、Grace Blackwell系統(tǒng)和DGX Cloud Lepton平臺(tái)。
NVLink Fusion:打開英偉達(dá)AI生態(tài)系統(tǒng),瞄準(zhǔn)AI工廠規(guī)?;枨?/strong>
NVLink作為英偉達(dá)專有的高速互連技術(shù),一直是其AI系統(tǒng)性能優(yōu)勢(shì)的關(guān)鍵差異化因素。最新宣布的NVLink Fusion,則可以說是進(jìn)一步打開了英偉達(dá)生態(tài)的大門,拓展至合作伙伴半定制的AI基礎(chǔ)設(shè)施解決方案中。
黃仁勛解釋了如何將NVLink Fusion與其他公司的定制ASIC集成:"現(xiàn)在,我們使你能夠在計(jì)算層面上進(jìn)行混搭。這就是你使用定制ASIC所做的事情。我們有很棒的合作伙伴,他們正在與我們合作,將你的專用TPU、專用ASIC或?qū)S眉铀倨骷傻酱笠?guī)模系統(tǒng)中。我們創(chuàng)建了一個(gè)NVLink芯片組,基本上是一個(gè)直接靠近你芯片的交換機(jī)。也有IP可用于集成到你的半定制ASIC中。然后,它可以直接放入計(jì)算板中,融入英偉達(dá)的AI超級(jí)計(jì)算機(jī)生態(tài)系統(tǒng)。"
這也意味著,即使用戶的AI基礎(chǔ)設(shè)施中不全是英偉達(dá)的產(chǎn)品,可能有其他的CPU、ASIC等,通過NVLink芯片組,或是IP集成的方式,都可以使用NVLink基礎(chǔ)設(shè)施和生態(tài)系統(tǒng)。
MediaTek、Marvell、Alchip Technologies、Astera Labs、Synopsys 和 Cadence 是首批采用 NVLink Fusion 的廠商,可支持定制化芯片縱向擴(kuò)展(Scale-up)以滿足模型訓(xùn)練和代理式 AI 推理等要求嚴(yán)苛的工作負(fù)載的需求。
使用 NVLink Fusion,富士通和 Qualcomm CPU 還可與 NVIDIA GPU 進(jìn)行整合,以構(gòu)建高性能的 NVIDIA AI 工廠。
藉由NVLink Fusion開放生態(tài)系統(tǒng),是英偉達(dá)非常明智的一步棋,它正是瞄準(zhǔn)了AI工廠的規(guī)?;枨螅约爱悩?gòu)計(jì)算的多樣化需求,通過發(fā)揮其性能優(yōu)勢(shì)和生態(tài)粘性,形成超大規(guī)模集群支持,擴(kuò)大AI工廠的應(yīng)用邊界,打造其AI基礎(chǔ)設(shè)施的不可替代性。
Grace Blackwell實(shí)現(xiàn)“巨型計(jì)算機(jī)”愿景,支撐AI推理范式升級(jí)
新的計(jì)算架構(gòu)Grace Blackwell——是英偉達(dá)通往AI基礎(chǔ)設(shè)施的重要橋梁。
黃仁勛說:"過去三年,我們一直在開發(fā)一個(gè)新的計(jì)算機(jī)系統(tǒng),使我們能夠進(jìn)行推理時(shí)間擴(kuò)展,或者說極快地思考。因?yàn)楫?dāng)你思考時(shí),你實(shí)際上是在你的頭腦中生成大量的'tokens',生成大量的想法,并在產(chǎn)生答案之前在大腦中進(jìn)行迭代。所以,過去的一次性AI現(xiàn)在將變成思考AI、推理AI、推理時(shí)間擴(kuò)展AI,這將需要更多的計(jì)算。" Grace Blackwell——正是為了應(yīng)對(duì)AI推理時(shí)間擴(kuò)展的挑戰(zhàn)而設(shè)計(jì)的。
Grace Blackwell系統(tǒng)有兩大能力非常關(guān)鍵:scale up和scale out。黃仁勛解釋了這兩個(gè)概念的區(qū)別:"scale up意味著將一臺(tái)計(jì)算機(jī)變成一臺(tái)巨型計(jì)算機(jī);scale out是將一臺(tái)計(jì)算機(jī)連接到多臺(tái)計(jì)算機(jī),讓工作在多臺(tái)不同的計(jì)算機(jī)上完成。scale out很容易,scale up極其困難。因?yàn)榻ㄔ斐桨雽?dǎo)體物理極限的更大計(jì)算機(jī)是極其困難的,這正是Grace Blackwell所做的?!?/p>
傳統(tǒng)計(jì)算架構(gòu)由于受限于芯片制程、散熱和互聯(lián)帶寬,無法通過簡(jiǎn)單堆疊硬件提升性能。而Grace Blackwell通過創(chuàng)新的芯片設(shè)計(jì)和NVLink技術(shù),將單機(jī)算力推向了新高度。
據(jù)介紹,Grace Blackwell 已全面投入生產(chǎn),并于2月開始交付。英偉達(dá)將于今年第三季度推出GB300硬件系統(tǒng),配備升級(jí)版Blackwell芯片,其推理性能提升了1.5倍,HBM內(nèi)存容量增加了1.5倍,網(wǎng)絡(luò)連接能力翻倍,整體性能都得到加強(qiáng)。
對(duì)于打造AI基礎(chǔ)設(shè)施這個(gè)宏圖愿景來說,Grace Blackwell具有技術(shù)和商業(yè)的雙重意義:技術(shù)方面,它突破單機(jī)算力極限,實(shí)現(xiàn)了“巨型計(jì)算機(jī)”愿景,支撐AI從預(yù)測(cè)到思考的范式升級(jí);商業(yè)方面,它將繼續(xù)幫助英偉達(dá)鎖定超大規(guī)??蛻?,與合作伙伴共建以Grace Blackwell為核心的AI基礎(chǔ)設(shè)施。
DGX Cloud Lepton平臺(tái):將全球開發(fā)者與數(shù)萬顆GPU連接起來
隨著英偉達(dá)逐年高漲的財(cái)報(bào),其GPU的安裝基礎(chǔ)也越來越遍布全球。這其中有一個(gè)價(jià)值閉環(huán)可以思考一下:GPU安裝基數(shù)越大,參與其中的開發(fā)人員就越多;軟件生態(tài)發(fā)展,會(huì)吸引更多開發(fā)者主動(dòng)構(gòu)建針對(duì)英偉達(dá)GPU的加速庫,豐富的庫和工具鏈?zhǔn)归_發(fā)者能夠快速部署高性能AI應(yīng)用;當(dāng)開發(fā)者通過庫實(shí)現(xiàn)更復(fù)雜的模型,用戶對(duì)算力的需求呈指數(shù)級(jí)增長(zhǎng),將會(huì)推動(dòng)更多GPU部署或是升級(jí)至最先進(jìn)的GPU產(chǎn)品。
你是否注意到了這個(gè)閉環(huán)中最核心的環(huán)節(jié)?沒錯(cuò),就是開發(fā)者。對(duì)于英偉達(dá)構(gòu)建全球AI工廠、打造全球AI基礎(chǔ)設(shè)施的宏大愿景中,開發(fā)者是一個(gè)不變的核心。
在英偉達(dá)的多個(gè)產(chǎn)品使命中,DGX Cloud的目的是讓全球開發(fā)者能夠無縫連接所有計(jì)算資源。而當(dāng)前,開發(fā)者面臨的挑戰(zhàn)在于:如何快速獲取、發(fā)現(xiàn)和準(zhǔn)備算力,并實(shí)現(xiàn)跨多個(gè)云服務(wù)商的工作負(fù)載。
為此,英偉達(dá)最新推出了DGX Cloud Lepton平臺(tái),這是一個(gè)能夠?qū)⑷蜷_發(fā)者與數(shù)萬顆GPU連接起來的計(jì)算平臺(tái)。這些GPU可從全球云服務(wù)提供商網(wǎng)絡(luò)獲取,用于構(gòu)建代理和物理AI應(yīng)用程序。
DGX Cloud Lepton平臺(tái)提供跨開發(fā)、訓(xùn)練和推理的統(tǒng)一體驗(yàn),開發(fā)者可以直接通過市場(chǎng)從參與的云服務(wù)提供商購買GPU容量,或自帶計(jì)算集群,提高了生產(chǎn)力和靈活性。它也支持在多云和混合環(huán)境中以最小的操作負(fù)擔(dān)部署AI應(yīng)用,使用集成服務(wù)進(jìn)行推理、測(cè)試和訓(xùn)練工作負(fù)載。并且,開發(fā)者可以快速訪問特定區(qū)域的GPU資源,確保遵守?cái)?shù)據(jù)主權(quán)法規(guī),并滿足敏感工作負(fù)載的低延遲要求。
包括CoreWeave、Crusoe、Firmus、富士康(Foxconn)、GMI Cloud、Lambda、Nebius、Nscale、軟銀(Softbank Corp.)和Yotta Data Services在內(nèi)的NVIDIA云合作伙伴(NCPs),將在DGX Cloud Lepton市場(chǎng)上提供基于NVIDIA Blackwell架構(gòu)及其他NVIDIA GPU的算力資源。
黃仁勛表示:“DGX Cloud Lepton將全球GPU云服務(wù)商與AI開發(fā)者連接在一起。我們與NCPs共同打造的行星級(jí)AI工廠,將成為未來AI創(chuàng)新的核心基礎(chǔ)設(shè)施。”
正如黃仁勛所介紹,DGX Cloud Lepton是一個(gè)典型的以AI為核心的軟件平臺(tái),通過智能化能力使資源訪問和部署變得無縫化,并支持在全球范圍內(nèi)自動(dòng)擴(kuò)展工作負(fù)載。
此外,開發(fā)者可以按需選擇部署區(qū)域——例如,若需低延遲的推理服務(wù),可選擇靠近用戶的區(qū)域。這種跨云編排能力此前一直是開發(fā)者的痛點(diǎn),而該平臺(tái)的目標(biāo)正是簡(jiǎn)化這一流程。
寫在最后
構(gòu)建全球AI工廠,是英偉達(dá)近年來攜手云合作伙伴不斷推進(jìn)的一個(gè)重大舉措,本質(zhì)上來看,這也標(biāo)志著從傳統(tǒng)數(shù)據(jù)中心向?qū)锳I工作負(fù)載設(shè)計(jì)的基礎(chǔ)設(shè)施的根本轉(zhuǎn)變。
在這個(gè)宏大藍(lán)圖中,英偉達(dá)需要對(duì)很多產(chǎn)品進(jìn)行規(guī)?;?、標(biāo)準(zhǔn)化的探索,才能構(gòu)筑全球AI基礎(chǔ)設(shè)施這個(gè)牢固的底座。比如CUDA、NVLINK Fusion、DGX Cloud Lepton、以及作為重要支撐的Grace Blackwell,還有本文沒有展開介紹的高性能網(wǎng)絡(luò)、各種豐富的軟件庫、工具等等,只有所有這些因素形成一個(gè)有機(jī)整體,才能構(gòu)筑強(qiáng)有力的AI基礎(chǔ)設(shè)施,真正通往未來AI。