隨著DeepSeek等大模型與生成式AI的快速演進,智能機器人、智能化科研、數(shù)字孿生、智慧城市、虛擬現(xiàn)實等應(yīng)用場景日益豐富,智算需求呈“井噴式”增長,傳統(tǒng)數(shù)據(jù)中心建設(shè)模式已難以滿足新的發(fā)展要求,智算中心建設(shè)正成為數(shù)字經(jīng)濟蓬勃發(fā)展的新引擎。本文聚焦智算中心發(fā)展新形勢,從彈性靈活、集約部署、綠色低碳、高效智能等維度深入分析基礎(chǔ)設(shè)施建設(shè)模式的新變化,探究未來技術(shù)演進方向,以期為智算中心的建設(shè)與發(fā)展提供參考。
01
新形勢催生智算中心新變革
在政策層面,國家對算力中心PUE(電能利用效率)的管控持續(xù)加碼,綠色低碳成為智算中心建設(shè)的剛性約束。2024年,國家發(fā)展改革委、工業(yè)和信息化部等部門發(fā)布《數(shù)據(jù)中心綠色低碳發(fā)展專項行動計劃》,明確提出到2025年底,新建及改擴建大型和超大型數(shù)據(jù)中心PUE降至1.25以內(nèi),國家樞紐節(jié)點數(shù)據(jù)中心項目PUE不高于1.2,可再生能源利用率年均增長10%,平均單位算力的能效和碳效顯著提高。智算中心因高密度算力設(shè)備運行與高散熱需求,能耗顯著高于傳統(tǒng)數(shù)據(jù)中心,需要通過液冷散熱、余熱回收、AI能效優(yōu)化等技術(shù)革新,以及綠電交易、分布式儲能等能源管理模式創(chuàng)新,降低PUE、CUE(碳排放效率),構(gòu)建符合國家政策要求的綠色低碳基礎(chǔ)設(shè)施。
在技術(shù)層面,上層業(yè)務(wù)需求倒逼智算中心“風、火、水、電”等底層基礎(chǔ)設(shè)施加速變革。一方面,AI計算任務(wù)的復(fù)雜性和數(shù)據(jù)量的爆炸性增長,要求AI芯片具備更強處理能力和更高運算效率,其設(shè)計不斷向更高集成度、更多核芯數(shù)、更高頻率的方向發(fā)展,計算能力提升的同時功耗顯著增加。另一方面,智算中心業(yè)務(wù)不確定性強、迭代變化快、流量峰谷波動顯著,對供電制冷、監(jiān)控運維等配套系統(tǒng)帶來多重挑戰(zhàn)。因此,實現(xiàn)基礎(chǔ)設(shè)施、服務(wù)器、芯片、網(wǎng)絡(luò)、應(yīng)用間的高效協(xié)同與耦合成為重要方向。
彈性靈活
高密度集群化部署使得供電制冷系統(tǒng)的復(fù)雜程度顯著增加。一方面,GPU芯片的熱設(shè)計功耗從過去的百瓦級向千瓦級躍遷,單個機柜功率密度攀升至30~200千瓦,單體樓宇負載或達兆瓦級,亟需新型高效的供電架構(gòu)。另一方面,智算中心的運算任務(wù)會使設(shè)備負載動態(tài)變化,如大規(guī)模AI模型訓練時服務(wù)器集群的耗電量急劇上升,處理日常數(shù)據(jù)任務(wù)時負載相對較低。業(yè)務(wù)量波動和高功耗特性,驅(qū)動智算中心供電制冷系統(tǒng)須具備彈性靈活、快速響應(yīng)業(yè)務(wù)變化的能力。
機房基礎(chǔ)設(shè)施應(yīng)綜合考慮算力演進,適配多樣化算力需求,按需支持多功率密度、多種制冷方案的彈性匹配。在規(guī)劃設(shè)計方面,冷源、電源、機房應(yīng)適當預(yù)留容量或空間,如增加地板出線孔數(shù)量、設(shè)計容量冗余、確保制冷方式兼容性、實施智能電力管理等。在末端部署上,機柜可采用智能小母線和智能PDU(電源分配單元)實現(xiàn)精細化電力分配、實時監(jiān)測及智能化能源管理,提高配電系統(tǒng)的靈活性和運行效率。電力模塊可采用“旁路滿載供電+電池放電逆變補電”的混合模式,確保供電穩(wěn)定。制冷方式可根據(jù)訓練和推理業(yè)務(wù)的占比情況,選擇適當比例的風液融合方案,構(gòu)建機柜微模塊、供電模塊、制冷模塊共用冷源,風冷、水冷、液冷同源且按需分配的架構(gòu),以支持算力的彈性部署與迭代演進。中國聯(lián)通粵港澳大灣區(qū)樞紐(韶關(guān))智算中心大規(guī)模集成AI調(diào)優(yōu)、智能小母線、光伏、儲能等技術(shù),實現(xiàn)機房靈活部署、多場景設(shè)計及高擴展性,可適配4~20kW功率并為液冷高功率需求預(yù)留空間。
集約部署
AI服務(wù)場景業(yè)務(wù)要求響應(yīng)速度快,建設(shè)模式呈現(xiàn)集約部署趨勢。首先是建設(shè)部署預(yù)制化。傳統(tǒng)數(shù)據(jù)中心建設(shè)周期長,通常需要三年以上,難以適應(yīng)當前算力技術(shù)快速迭代和業(yè)務(wù)智能化升級需求。預(yù)制化模式通過標準化設(shè)計、工廠預(yù)制和現(xiàn)場組裝,實現(xiàn)隨需部署與彈性擴展,在有效縮短建設(shè)周期的同時減少建設(shè)過程碳排放,更能適應(yīng)技術(shù)發(fā)展和市場需要。中聯(lián)數(shù)據(jù)烏蘭察布亞信數(shù)據(jù)港園區(qū)1號智算中心在建設(shè)過程中采用模塊化設(shè)計,部署預(yù)制式氟泵空調(diào)機組、集裝箱式柴油發(fā)電機組。
其次是產(chǎn)品設(shè)備集成化。以基礎(chǔ)設(shè)施層供電系統(tǒng)為例,電力模塊將電源轉(zhuǎn)換單元、控制電路、保護裝置、監(jiān)測傳感器等供電相關(guān)組件整合成功能完備的模塊化單元,打破傳統(tǒng)供電系統(tǒng)中各組件獨立設(shè)置、相互連接的模式,實現(xiàn)供電功能的高度集成與優(yōu)化。華為融合極簡電力模塊解決方案采用高密UPS和開創(chuàng)式融合架構(gòu)設(shè)計,通過銅排預(yù)制縮短供電鏈路。維諦技術(shù)的Liebert@APM2系列大功率模塊化UPS憑借超高雙變換系統(tǒng)效率、較小占地面積和豐富靈活的配置,顯著節(jié)約了運營成本。在IT層,應(yīng)統(tǒng)籌規(guī)劃軟硬件集成,使基礎(chǔ)設(shè)施與IT設(shè)備適配,避免重復(fù)建設(shè)和資源浪費,確保高效算力輸出。目前,規(guī)劃建設(shè)和設(shè)備部署的協(xié)同設(shè)計,以及供電制冷等機房基礎(chǔ)設(shè)施如何更好匹配業(yè)務(wù)發(fā)展,進而支撐算存網(wǎng)發(fā)揮最大性能,也是重要的研究方向。
綠色低碳
中國信通院數(shù)據(jù)顯示,截至2024年底,我國算力中心用電量超過1660億kWh,未來幾年仍將高速增長,2030年或超過4000億kWh。智算中心的綠色低碳發(fā)展趨勢正驅(qū)動商業(yè)模式創(chuàng)新:綠色低碳不僅是用戶選購智算中心及算力服務(wù)的重要考量,也是企業(yè)服務(wù)方案的核心競爭力,應(yīng)從基礎(chǔ)設(shè)施、IT設(shè)備到算力平臺、應(yīng)用,進行全方位、全流程、全技術(shù)棧的能效優(yōu)化與碳排放管理。在基礎(chǔ)設(shè)施層,可通過布局綠色能源、開展綠電交易、應(yīng)用“源網(wǎng)荷儲”等技術(shù),實現(xiàn)算力與綠色能源的協(xié)同發(fā)展。合盈數(shù)據(jù)在張家口地區(qū)開拓“綠電供綠產(chǎn)”模式,依托區(qū)域內(nèi)的可再生能源、新型電力系統(tǒng)及儲能配套設(shè)施,結(jié)合創(chuàng)新節(jié)能減排技術(shù),使合盈數(shù)據(jù)(懷來)科技產(chǎn)業(yè)園實現(xiàn)充足穩(wěn)定的綠電供應(yīng),CUE值處于較低水平。
在IT設(shè)備層,多項政策強調(diào)提升算力能效和碳效水平,應(yīng)關(guān)注AI芯片、CPU、顯存、帶寬等設(shè)備的利用率,持續(xù)優(yōu)化單位能耗的算力輸出,充分發(fā)揮算力性能,減少算力設(shè)備的無效、低效運行時間。在平臺側(cè),應(yīng)通過靈活的算力資源選擇與遷移能力、算力編排管理系統(tǒng)、碳排放監(jiān)測與統(tǒng)計平臺等,適應(yīng)不斷變化的應(yīng)用需求和能效要求。螞蟻集團GreenOps綠色減碳平臺有效解決了大規(guī)模集群資源合理分配、分鐘級有效調(diào)度、智能流量預(yù)測等行業(yè)難題,顯著提升了資源利用率。從2017年到2023年,螞蟻集團服務(wù)器CPU利用率增長了5倍。
高效智能
隨著技術(shù)的飛速發(fā)展,運維架構(gòu)也歷經(jīng)了顯著變革。早期傳統(tǒng)運維架構(gòu)主要依靠人工運維,運維人員需要手動執(zhí)行服務(wù)器配置、軟件部署、故障排查等各類任務(wù),效率低下且易出錯。面對算力中心現(xiàn)場生產(chǎn)和遠程集中化管理的運維需求,可借助動環(huán)監(jiān)控、高效智能的DCIM等平臺或工具,通過運維大模型等算法整合的方式實現(xiàn)自動化、智能化運維,并對執(zhí)行過程進行監(jiān)管。
在全面擁抱AI的今天,為確保智算中心滿足AI業(yè)務(wù)高并發(fā)、海量數(shù)據(jù)處理、實時性要求高、模型迭代頻繁的需求,行業(yè)應(yīng)監(jiān)控更多維度指標:不僅要關(guān)注服務(wù)器CPU、內(nèi)存等常規(guī)指標,更要重點監(jiān)控GPU利用率、顯存占用、網(wǎng)絡(luò)帶寬時延等關(guān)鍵指標,同時跟蹤模型訓練進度、推理準確率等業(yè)務(wù)指標。因此,亟須構(gòu)建更完善的聯(lián)動運維機制,整合供電制冷、“算存運”等多源數(shù)據(jù),實現(xiàn)智能分析與快速響應(yīng),以滿足AI業(yè)務(wù)對智算中心的復(fù)雜運維需求。例如,普洛斯懷來大數(shù)據(jù)科技產(chǎn)業(yè)園采用自研GLP DCBASE智慧化運營系統(tǒng),通過AI智能算法高效耦合運維管理系統(tǒng),切實滿足用戶快速部署大規(guī)模算力集群的應(yīng)用場景需求。
總體來看,智算中心歷經(jīng)早期探索、技術(shù)生態(tài)大爆發(fā)階段,隨著新變革的推進,今后將提供更成熟的社會級服務(wù)(如圖1所示)。
智算中心演進的三個階段
02
圍繞六大特征持續(xù)演進
隨著上層業(yè)務(wù)愈加復(fù)雜多元,智算中心算力性能和服務(wù)等軟能力輸出備受關(guān)注。智算中心將呈現(xiàn)高算力、高安全、高可用、高能效、智運營、優(yōu)服務(wù)六大特征。在高算力方面,綜合考量現(xiàn)存容量與帶寬、互聯(lián)技術(shù)及系統(tǒng)架構(gòu)設(shè)計等因素下的真實有效算力表現(xiàn)。在高安全方面,從網(wǎng)絡(luò)、數(shù)據(jù)、應(yīng)用等層面構(gòu)建完善的安全保障體系。在高可用方面,構(gòu)建資源管控、故障分級、故障檢測修復(fù)等全套能力,延長無故障運行時間。在高能效方面,從硬件、軟件、平臺、應(yīng)用等維度構(gòu)建全方位能效管理體系,優(yōu)化單位算力的能效與碳效。在智運營方面,通過智能化管理平臺、運維大模型等工具,實現(xiàn)從數(shù)據(jù)采集到預(yù)測性維護全流程的數(shù)智化。在優(yōu)服務(wù)方面,適配業(yè)務(wù)場景提供靈活彈性的算存運服務(wù),開展數(shù)據(jù)處理、模型遷移開發(fā)等,提高算力普適普惠服務(wù)水平。
未來,智算中心將圍繞上述六大特征持續(xù)演進,成熟度內(nèi)涵從基礎(chǔ)設(shè)施、IT設(shè)備、軟件平臺向應(yīng)用領(lǐng)域拓展,各系統(tǒng)高效協(xié)同與耦合的趨勢不斷深化,從而推動智算產(chǎn)業(yè)高質(zhì)量發(fā)展。
*本文刊載于《通信世界》總第970期 2025年6月25日 第12期原文標題:《智算中心建設(shè)模式的顛覆與重構(gòu)》