克雷西 發(fā)自 凹非寺,量子位 | 公眾號 QbitAI
“在AI時代,我們必須全面提升先進存力?!?/p>
這就是平頭哥半導體產品總監(jiān)周冠鋒,在中國存儲界的盛會MemoryS 2025存儲峰會上給出的關于AI存力發(fā)展的號召。
要知道,相比于各種形態(tài)的算力設施,存儲設備在AI基礎設施當中受到的關注是相對較少的——
顯然,人們從未滿足于算力的發(fā)展水平,但在聚光燈效應之下,存力發(fā)展更加不充分的現狀卻沒有得到充分重視。
實際上,如果把AI算力比作水力發(fā)電,那么存儲就像水庫,同樣會對AI等各種大規(guī)模數據應用形成制約。
2018年成立的平頭哥,憑借自研的SSD主控芯片鎮(zhèn)岳510,已經成為存儲設施建設的重要力量。
在這屆峰會上,AI存力的發(fā)展建設成為了重要議題,在諸多與會者面前,平頭哥展示出了AI存力的鎮(zhèn)岳510方案。
不讓存儲拖AI的后腿
上線一年多的鎮(zhèn)岳510,帶來了商業(yè)化落地的新進展——
鎮(zhèn)岳510已在阿里云的EBS規(guī)?;暇€,大幅提升了整體系統的IOPS和吞吐帶寬,更大幅優(yōu)化IO延遲,相當于在同等資源條件下,幫助阿里云EBS客戶承載更多訪問量,間接實現降本增效。
更重要的是,鎮(zhèn)岳510也讓跑在阿里云EBS業(yè)務上的客戶應用獲得了更快的響應,從而贏得了更好的用戶體驗。
云計算場景之外,平頭哥也為SSD整盤廠商提供了新的選擇。
例如憶恒創(chuàng)源的PBlaze7 7A40系列SSD產品,就基于鎮(zhèn)岳510打造,成為業(yè)界首款具有100萬IOPS的4K隨機寫性能的企業(yè)級SSD產品;
得瑞領新剛剛發(fā)布的旗下首款PCIe 5.0高性能企業(yè)級NVMe SSD D8436/D8456系列,也利用鎮(zhèn)岳510,相比上一代PCIe4.0產品實現了70%性能功耗比的提升。
高IO吞吐、高傳輸帶寬、低IO延時……一系列特性都瞄準了存力發(fā)展不足給AI帶來的制約。
那么,SSD對于AI應用來說都起到了什么樣的關鍵作用呢?
運算、傳輸、存儲……馮·諾依曼的計算機設計思想將AI基礎設施的運轉劃分出了多個流程,既相對獨立,各個環(huán)節(jié)之間又彼此關聯。
就以大模型為例,其訓練過程中的GPU的利用率,直接受限于數據的供給速度。并且由于SSD的I/O延遲(50-100 μs)遠高于DRAM延遲(50-100 ns),數據從存儲到內存的傳輸,正是大模型訓練數據供給速度的瓶頸。
到了推理階段,很多行業(yè)大模型需要在極短時間內進行實施決策,也需要更高的數據訪問速度和更低的數據時延。
此外,在AI大模型的訓練和部署中會間歇性的大量寫入Checkpoint檢查點環(huán)節(jié),存儲設備需要具備所需的高寫入吞吐量。
反過來看,在算力一定的情況下,提高存儲設備的數據供給速度,就能拉高單位算力的利用效率,節(jié)省出算力時間。
上個月的DeepSeek開源周中,DeepSeek在最后一天開源了3FS文件系統,就是一個有效例證。3FS的目標就是把SSD的帶寬利用率提升到極致,從而降低模型的訓練總成本。
這還是在存儲能力本身沒有提高情況下的結果,如果存儲設備自身的能力得到提升,那么對AI訓練的降本增效更加有所裨益。并且相比于堆更多算力,對存力地提升也是一種更加經濟的選擇。
所以,周冠鋒認為,DeepSeek的3FS,一方面在刺激著AI從業(yè)者將存儲設施升級到性能更高的PCIe 5.0接口設備,另一方面也在激勵做存力的廠商進一步提高其產品的性能。
也就是說,DeepSeek將作為催化劑,同時從需求和供給兩側,推動改善存力設備相對于算力發(fā)展的不足。更為有利的是,DeepSeek這個“催化劑”帶來的這波新機遇,剛好貼合了SSD行業(yè)固有的演進節(jié)奏。
周冠鋒介紹,結合SSD行業(yè)固有的節(jié)奏,以及服務器、CPU他們的演進節(jié)奏,2025年會是PCIe 5服務器的大規(guī)模上線的崛起之年。這樣的節(jié)奏,剛好匹配了基于鎮(zhèn)岳510的SSD大規(guī)模上線的節(jié)奏。
實際上,SSD是一個長周期行業(yè),鎮(zhèn)岳510早在2021年開始立項,當時就定下了PCIe 5的接口方案,讓鎮(zhèn)岳510在產品上市之后剛好匹配市場需求。這對從業(yè)者的前瞻性視野和對行業(yè)規(guī)律的精準把握,無疑都具有極高的要求。
而現在,鎮(zhèn)岳510在阿里云EBS的上線,以及合作伙伴整盤產品的推出,已經證明了平頭哥的這個選擇,給鎮(zhèn)岳510帶來了成功。
當然,如果說前瞻性的視野為平頭哥找到了成功的方向,那么還需要有足夠的驅動力,才能走向成功。
這個驅動力,無疑就是技術。
存儲主控的“六邊形戰(zhàn)士”
在鎮(zhèn)岳510的研發(fā)過程中,平頭哥進行了芯片架構和算法的全面創(chuàng)新。
鎮(zhèn)岳510采用平頭哥自研緊耦合芯片架構,能夠適應AI等高性能應用場景。
它可以對SSD任務進行高度抽象,將表項管理、隊列管理、Buffer管理等可固化任務硬化為加速算子,以提升性能,地址分配、錯誤處理等FTL關鍵任務則運行于CPU,以保持靈活性。
鎮(zhèn)岳510每秒可處理高達340萬次IO,相當于1萬塊高性能機械硬盤(HDD)的性能總和,數據帶寬達到了14GByte/s。
同時鎮(zhèn)岳510還支持最新的PCle 5.0主機接口以及DDR5.0內存接口,進一步提升了芯片的數據吞吐速率。
延時上,鎮(zhèn)岳510實現了4μs的超低時延,比業(yè)界主流降低30%以上;在阿里云EBS上的實測結果也表明,鎮(zhèn)岳510將讀寫混合99.99%長尾延時降低了92%。
這得益于平頭哥創(chuàng)新的IO自動化處理機制,將前端IO的解析與處理交由專用硬件模塊自動完成,也得益于芯片的實現了IO/SYS/GC全鏈路隔離,極大地降低這些任務之間的相互干擾。
此外,平頭哥也提前預見AI的發(fā)展會對IO模型帶來的差異,采取了靈活性的設計,使得一年多之后的今天仍然能夠適配已經今非昔比的AI場景,讓AI發(fā)展不再受制于先進存力的短缺。
在準確率上,鎮(zhèn)岳510實現了低至10^-18的UBER(不可修復的錯誤比特率),相當于每讀取百億億筆數據,才可能有一筆數據糾錯失敗,比業(yè)內標桿領先了一個數量級。
因為在算法層面,鎮(zhèn)岳510采用了平頭哥自研的高性能LDPC(奇偶校驗碼)糾錯算法,編碼效率逼近香農極限,同時還利用TappingSet消除算法,消除工作過程中產生的譯碼環(huán),從而將ErrorFloor降低一個數量級。
平頭哥還自研了閃存電壓預測算法,采取拋物線擬合方式,在各種閃存的不同工況、壽命、溫度等條件下,準確預測閃存電壓漂移,進一步降低LDPC解碼器的輸入誤碼率。
另外,鎮(zhèn)岳510也更加節(jié)能,每瓦功耗可提供42萬筆的IO訪問。
以一個部署了10萬塊SSD的數據中心為例,相比目前主流的PCIe 4.0 SSD,鎮(zhèn)岳510在相同的性能下,僅主控芯片即每年節(jié)省260萬度電,相當于2.6萬塊100度汽車電池的總能量。并且,選擇更加節(jié)能的存儲芯片,不僅是出于電力成本或環(huán)境保護。
算力設備進步的同時,功耗和發(fā)熱也大幅增加,在算力設別擁有絕對話語權的背景之下,有限的散熱能力也會被優(yōu)先分配給算力設備,使得存力設備不得不在功耗上做出升級。
劈開行業(yè)應用的存力枷鎖
平頭哥擁有更多基礎設施、應用場景,可通過阿里云業(yè)務對其產品進行實際驗證。在驗證取得成功之后,平頭哥也希望推動存力生態(tài)建設,拓展行業(yè)合作,將先進存力帶到更多應用場景。
比如在金融行業(yè),一個微小的錯誤就有可能帶來不可挽回的損失,因而可靠、安全是最重要的指標;
在智能電力調度當中,需要根據情況進行實時決策研判,低延時就成了最關鍵的考量;
還有在搜索行業(yè),并發(fā)量大又成了一個典型特征,給IOPS帶來了更大的需求;
除此之外,在不同行業(yè)間,甚至行業(yè)內部,對成本的把控同樣是要考慮的問題……
所以,平頭哥把鎮(zhèn)岳510做成了集容量、時延、成本、能效、可靠和帶寬于一體的“六邊形戰(zhàn)士”,在硬件上對每個行業(yè)的不同需求都能夠提供保障。
結合鎮(zhèn)岳510的靈活性設計,就可以再根據行業(yè)特點,通過不同的固件軟件對行業(yè)看中的最關鍵因素進行專門化增強,從而游刃有余地走向千行百業(yè)。
總之,平頭哥憑借著全面的技術和算法創(chuàng)新,突破了各行各業(yè)先進存力發(fā)展的瓶頸,未來將全面加速創(chuàng)新。
不難看出,平頭哥在先進存力上,展現出了十足的野望——
劈開行業(yè)應用的存力枷鎖,將先進存力推向百業(yè)千行。
時間上,平頭哥趕上了存儲設備迭代與AI在千行百業(yè)的廣泛落地的雙重機遇;資源方面,平頭哥的阿里背景也給其提供了堅實的保障;
再看平頭哥自身,也對存力發(fā)展的規(guī)律有著全面的把握和前瞻性的眼光,并同時在軟硬件上不斷創(chuàng)新;天時地利人和之下,平頭哥立志要成為這一波存力設備升級換代潮當中的引領者。
低調的平頭哥,這次注定要高調地將先進存力SSD這塊短板補上。