作者 |??ZeR0,編輯?|??漠影
AI是第三次計算革命,而中國是最佳的孵化地。
2024年轉眼已經過了一半,從Sora模型引起開年轟動至今,生成式AI領域生出許多新變數。
一些預言陸續(xù)被現實驗證:國內AI視頻生成模型進展飛速,手機和PC大廠掀起AI狂歡,AI新硬件曇花一現,智算建設大潮將英偉達送入3萬億美元市值俱樂部,熱錢持續(xù)涌向AI創(chuàng)企……一些國內限定的現象級事件出現:AI賣課先賺到第一桶金,上下文長度卷向1000萬漢字,大模型價格戰(zhàn)瘋狂開打,AI黏土特效風靡社交網絡,AI Infra創(chuàng)企們忙著把大模型成本打下來……
燒錢與賺錢、動力與陷阱、技術突破與應用變革……圍繞這些AI發(fā)展必經的權衡選擇,中國在AI領域最早投資且布局最豐富的投資機構攢了個局,把十多家中國通用大模型、多模態(tài)大模型、AI Infra、具身智能、生成式AI應用的活躍創(chuàng)業(yè)者們聚集在一起,集中輸出他們的思考與洞見。一切都在被AI改造,沒有什么能阻擋Scaling Law的步伐,但對AGI的長期信仰尚不足以掩蓋眼前現實的商業(yè)化困境,業(yè)界還在等待一個真正屬于大模型時代的超級應用的誕生。以下是信息干貨:
01.生成式AI應用落地需解決三大問題,多模態(tài)應用創(chuàng)企比例上升
啟明創(chuàng)投從2013年開始系統(tǒng)性布局AI領域,至今已超過50個項目上投資超過60億元人民幣或等值美元,其中近20家在二級市場上市或成長為獨角獸企業(yè)。在其投資企業(yè)中,有10家中國大語言模型、多模態(tài)模型或具身智能模型研發(fā)領域的領軍企業(yè),數量居全國之首。
在啟明創(chuàng)投主管合伙人周志峰看來,生成式AI應用落地仍需解決三個問題:
1、降低模型使用成本。未來一兩年,生成式AI仍有巨大的成本下降空間,下降到1/1000是大概率事件。成本越低,AI技術落地才會更容易。
2、提升大模型的效果。大模型幻覺問題不可避免,另外兩個效果問題也很重要:一個是用戶向某個語言模型或產品提出誤導性問題后,模型應該怎么回答;二是大模型應用在具體場景下生成的回答或內容,對這個場景來說是否準確和合適。
3、增強用戶留存率。第一波生成式AI應用的留存率相對較低,跟互聯網頭部應用沒法比。怎樣讓大家真正把生成式AI產品變成生活或工作的一部分,無論是Save Time還是Kill Time,是接下來發(fā)展的重要問題。
據啟明創(chuàng)投統(tǒng)計分析,生成式AI正在三個“C領域”——Copilot(生產力工具)、Creativity(創(chuàng)意)、Companionship(陪伴)獲得了大量用戶的青睞,正在經歷從提高效率(Save Time)類應用向獲得愉悅(Kill Time)類應用的轉變。這與當年互聯網應用的發(fā)展軌跡類似。去年啟明創(chuàng)投對當前發(fā)展階段生成式AI產業(yè)脈絡的梳理,這個三層架構至今也沒有太大的變化。今天依然可以順著這樣的脈絡繼續(xù)投資。
根據啟明創(chuàng)投去年對兩百多家中國生成式AI企業(yè)的深度交流后進行的統(tǒng)計,當時企業(yè)以生產力工具為主,46%的企業(yè)都做Save Time類應用。
這也比較符合技術發(fā)展趨勢,當技術不夠成熟時,先會誕生出一些開發(fā)工具,提供給比較專業(yè)的用戶使用。其他領域包括Chatbot、智能助手、娛樂應用等,占比都不是很大。在基礎架構方面,去年創(chuàng)企主要是研發(fā)基礎模型的企業(yè)和一些做大模型分布式訓練平臺的企業(yè)。到今年上半年,根據啟明創(chuàng)投對深度交流過的400余家AI創(chuàng)業(yè)企業(yè)的統(tǒng)計,多模態(tài)應用的比例呈上升趨勢,出現許多基于AI大模型技術的新應用類別,同時更多創(chuàng)企深耕某個垂直行業(yè)和場景,而基礎設施層的技術創(chuàng)業(yè)方向也更加多元化。
02.2024生成式AI十大展望:多智能體技術飛躍,視頻生成將全面爆發(fā)
2024年,周志峰認為生成式AI的技術底座還在高速動態(tài)發(fā)展中,視覺語言模型、MoE、Agent、RAG等技術方向都在快速發(fā)展。啟明創(chuàng)投如今提出新的生成式AI十個展望:
1、當前生成式AI的兩大核心技術GPT和擴散模型將逐步融合,激發(fā)全新模型能力;
2、高質量數據的獲取和組織將顯著影響新一代模型,合成數據在預訓練中的占比將大幅提升;
3、多智能體(Multi-Agent)技術將飛躍,通過優(yōu)化協作和分工顯著提升生成式AI效率和效果;
4、將出現圖像和文本的統(tǒng)一連續(xù)表示,并且基于此的圖文聯合擴散模型將達到GPT-4o級別能力;
5、圖像和視頻隱空間表示的壓縮率提升五倍以上,從而使生成速度提升5倍以上;
6、3年內視頻生成將全面爆發(fā),結合3D能力,可控的視頻生成將對影視、動畫、短片的生產模式帶來變革;
7、我們將見證壓縮更多模態(tài)信息的超級多模態(tài)大模型,如文本、圖像、語音、音樂、3D、傳感器數據(控制信號、眼動信號、手勢信息、雷達信號等);
8、生成式AI打通了人類語言與機器語言的轉換通道,命令機器完成復雜任務的成本將顯著降低,帶來巨大的生產力變革;
9、端側推理會有巨大增長,來自三個因素的疊加:推理優(yōu)化算法+端側推理芯片+端側大模型;
10、AI將在多個數字化水平較高的行業(yè)中占據主導地位,并將重塑絕大部分企業(yè)軟件。
03.熱錢投向生成式AI應用
從創(chuàng)業(yè)和投資角度來看,AI領域機會很大。據摩根士丹利的數據及啟明創(chuàng)投科技團隊的分析和評估,僅是2023年,全球一級市場在AI領域的投資金額達到了224億美元,超過了過去十年加起來的總和。224億美元中,超過2/3的錢投向從事基礎設施或模型研發(fā)的企業(yè),約20%投向生成式AI應用企業(yè)。周志峰預測今年及未來兩三年,兩者的比例會顯著轉變,越來越多的資金將投給應用企業(yè)。
去年世界人工智能大會上提起生成式AI的典型應用主要有三個:ChatGPT、Character.ai、和Midjourney。而今年,AI應用已經品類眾多。
啟明創(chuàng)投在AI領域的投資策略已經發(fā)生演變,從將AI視為一個技術或一個垂直領域去進行投資,轉變?yōu)閷⑵湟暈榛A能力、去尋找其在千行百業(yè)落地的巨大潛力,今年起重點關注7類生成式AI應用:垂直行業(yè)AI(Vertical AI),企業(yè)AI (Enterprise AI), AI交互平臺,AI內容平臺,AI工具,AI游戲,AI硬件。“從投資數量上來講,未來我們投資的企業(yè)80%都會是生成式AI的應用公司?!敝苤痉逭f。他認為生成式AI仍處在其發(fā)展周期的早期階段,相較于互聯網浪潮中應用的落地時間點,當前AI浪潮中應用的爆發(fā)預計將會顯著提前。
與互聯網時代不同,AI的應用不需要等待5~8年才會迎來大規(guī)模爆發(fā)。這是因為過去幾十年,互聯網、移動互聯網、大數據、云計算等技術的飛速發(fā)展已經為整個生態(tài)系統(tǒng)奠定了堅實基礎。因此AI應用將會與底層技術同步發(fā)展,我們目前既處于互聯網90年代那樣的基礎設施建設階段,同時也接近于2000年左右的應用發(fā)展水平。生成式AI應用企業(yè)從0到1的成長時間比其他領域更長,需要同時克服TPF(技術-產品契合度)和PMF(產品-市場契合度)兩大挑戰(zhàn)。
所以,創(chuàng)始團隊需要更大的耐心和決心,理解技術(技術的邊際)、理解產品(原生AI產品的新特點和新分發(fā)機制)、理解世界(全球化發(fā)展的機會)。周志峰將生成式AI創(chuàng)業(yè)者歸納為三類典型畫像:一是AI科學家,來自研究機構或科技大廠的AI研發(fā)部門;二是產業(yè)專家,對某個行業(yè)特別了解,或是產品、運營等的高手;三是新銳創(chuàng)業(yè)者,有越來越多的95后甚至00后的創(chuàng)業(yè)者。
在技術還未成熟時找到合適的產品形態(tài)。三類創(chuàng)始人都有各自明顯的優(yōu)點和缺點。目前來看AI科學家創(chuàng)始人占比約1/3,這說明技術浪潮還處于發(fā)展早期階段,這類人群對技術底座的邊界掌握地更精準,對技術發(fā)展的感知也更敏捷。周志峰認為在未來兩三年,第二類、第三類創(chuàng)始人的占比會持續(xù)顯著上升,并成為主流。
04.AI原生應用落地遇難點,AGI發(fā)展需要多種方法融合
多家AI創(chuàng)企在本月發(fā)布新品。無問芯穹發(fā)布了全球首個支持單任務千卡規(guī)模異構芯片混合訓練平臺;階躍星辰發(fā)布了三款Step系列通用大模型新品,全面升級通用大模型底座能力;無限光年發(fā)布了光語大模型,灰盒可信,百億參數模型優(yōu)于超大規(guī)模模型GPT-4 Turbo。
大模型的訓練和推理都需要強大的算力資源支撐。在無問芯穹聯合創(chuàng)始人、CEO夏立雪看來,AI Native應用落地面臨4個關鍵Infra問題:1)激活“沉睡芯片”并促進異構算力整合;2)提升多種計算卡大模型計算性能;3)為大規(guī)模訓練集群穩(wěn)定訓/推夯實基座;4)更為高效地利用有限的端側計算資源。
階躍星辰創(chuàng)始人、CEO姜大昕認為,探索AGI路徑,“Scaling Law”和“多模態(tài)”相輔相成、缺一不可,兩個方向齊頭并進,最終到達AGI。他相信Scaling Law依然奏效,模型性能仍在隨著參數量、數據量和計算量的增加呈冪次方增長。他相信多模態(tài)是構建世界模型的基礎能力,也是通向AGI的必經之路,從算法角度可以分為三個階段:第一個階段是模擬世界;第二個階段是探索世界,將大模型與具身智能結合;最終階段是大模型要歸納和總結物理世界的規(guī)律,發(fā)現人類尚未發(fā)現的規(guī)律。這三個階段不是依次展開,而是可以并行發(fā)展,但進化速度可能不同。
復旦大學浩清特聘教授、上??茖W智能研究院院長、無限光年創(chuàng)始人漆遠認為Scaling Law并不會直接引領達到AGI,AGI的目標是發(fā)現復雜世界的未知規(guī)律,而當前大模型都高度依賴數據,而未知規(guī)律可能缺乏海量數據支撐。據他分析,目前大模型主要是聯結學派的“黑盒”概率預測,如果將符號計算與大模型相結合,就能同時具備慢思考的“白盒”邏輯能力,兩種方法的融合是AGI發(fā)展的重要方向,實現“灰盒”可信。
深度學習能實現數據擬合,且可以延展至數據沒有的地方,當知識規(guī)則和關鍵數據矛盾時,能夠調整知識規(guī)則,擺脫數據依賴。“灰盒”可以通過符號計算與神經網絡的結合,應對大模型的幻覺問題和垂直領域的專業(yè)問題。
05.AI超級應用何時出現?面臨哪些挑戰(zhàn)?
對于AI超級應用何時出現,周志峰分享了他很喜歡的一個西方樂隊的一句經典歌詞:“我們只需要一點點耐心。”“超級應用的來臨,不會是貝多芬的《命運交響曲》,一上來就是強烈的節(jié)奏,一種命運在敲門的感覺。應用的孕育是漸進式的,更像是《梁?!?,先是隱隱約約的鼓聲,慢慢一支長笛漸強地引入,再到后面的小提琴主題段落?!彼劦溃拔覀兘裉煲呀浤軌蚵牭紸I應用隱隱約約的鼓點從遠方傳來,讓我們大家都保持一點耐心,共同期待那些卓越的應用的誕生。”1、未來生成式AI產業(yè)有望誕生哪些超級應用?智譜AI COO張帆認為,大模型的核心在于提升人機交互的帶寬,每次交互帶寬的提升都會重構用戶需求和應用方式。企業(yè)和開發(fā)者能通過MaaS平臺降低使用和訓練模型的成本,更容易地探索和構建超級應用。在他看來,未來幾年內可能出現顛覆性的超級應用,但這些應用往往難以預先設計,而是通過不斷迭代逐步出現。AI時代將涌現出許多難以想象的應用。這一過程需要算力、網絡、硬件水平和用戶習慣的提升,以及遵循從小規(guī)模應用開始逐步發(fā)展的原則。米粿AI的目標是成為AI漫畫和動漫平臺的領軍者,致力于結合AI技術與內容生產。米粿AI創(chuàng)始人、CEO丁黎預測未來幾年內,繪圖、漫畫和2D動畫等領域將會出現顛覆性的超級應用。悉之智能專注于AI教育,悉之智能創(chuàng)始人、CEO孫一喬預測,未來超級應用應從需求出發(fā),垂直解決問題,教育是很有潛力的領域,教育領域頻次高、需求剛性,易出現AI超級應用。無限光年COO朱劍雄認為,未來幾年內,超級應用將在多個領域涌現。從PC互聯網時代到移動互聯網時代,流量入口的轉變提供了參考,大模型時代也會出現類似的趨勢,場景服務能力深厚的公司可能會成長為超級應用。2、生成式AI超級應用需克服哪些挑戰(zhàn)?談及挑戰(zhàn),丁黎認為與行業(yè)從業(yè)者形成友好生態(tài)系統(tǒng)非常重要。當前AI創(chuàng)業(yè)需要高資本和高技術門檻,團隊需團結合作,共同應對挑戰(zhàn),才能在激烈的市場競爭中脫穎而出。朱劍雄提到產品經理的角色和要求發(fā)生了變化?,F在的產品經理不僅要定義場景和需求,還需將這些信息傳遞給大模型,進行評測和驗證。既懂模型又懂客戶的產品經理目前市場上較為稀缺,但隨著時間推移,這一問題將逐漸得到改善。銜遠科技首席算法科學家丁寧則分享了兩個慣性陷阱:資源慣性和技術慣性。他還提到數據缺失問題,特別是負信號比例高的場景缺乏高質量數據,是未來的一個關鍵挑戰(zhàn)。
06.探路具身智能:途徑、難點與終局
具身智能也是產學界共同關注的熱點,關于技術路徑、落地方向、通用機器人的終極形態(tài)等問題,有很多不同的聲音。清華大學助理教授、星動紀元創(chuàng)始人陳建宇相信人形機器人會是通用機器人的終極形態(tài),不僅因為雙足與雙手的純人形形態(tài)與現有環(huán)境的兼容性更好,在訓練數據獲取上也更容易從人類世界中進行遷移,未來機器人有望在各類任務上都做到極致性能。
在技術范式上,端到端大腦小腦融合方案會是未來很重要的研究方向,僅僅用人類語言作為大小腦之間的傳輸界面效果有限,可以借鑒目前自動駕駛中的端到端聯合訓練,物理層面數據直接反饋給圖文大模型將更好提升整體模型效果。陳建宇提出在不久的將來,也許可以設計一種機器人的圖靈測試,有一個機器人和人來進行交互,背后可能是智能的自主控制也可能是人類遙操作,當技術發(fā)展到很難分辨機器人的背后是人工智能還是人類遙操作時,可能便是機器人真正實現智能與通用的那一天。
上海交通大學教授、穹徹智能聯合創(chuàng)始人盧策吾是世界范圍內第一位由機器人來給自己刮胡子的人類。他認為具身智能的終局需要綜合考慮技術的迭代和商業(yè)的需求,具身智能作為承載硬件的軟件算法歡迎各種類型的機器人形態(tài)。對于具體的技術路徑,具身智能算法需要兩個核心要素,分別是能夠感知和理解世界的世界模型,以及具有強魯棒性的技能操作模型。
在操作模型中,力反饋機制十分重要,不僅是在圖像維度之外增加了一個交互維度,同時也可以減少對世界模型毫秒級別決策的依賴。穹徹智能展示的削黃瓜、疊衣服等技能都說明了操作模型具有魯棒性后可以大大拓展?jié)撛诘膽每臻g。銀河通用前段時間發(fā)布了首代具有泛化性的具身大模型機器人。北京大學助理教授、北大-銀河通用聯合實驗室主任王鶴認為,人形機器人是未來整個通用機器人市場的最大公約數,但在邁向這個終極目標的過程中,需要每一步都有健康的商業(yè)模式讓機器人真正進入場景,上半身擬人下半身底盤會是三年內最可能落地的實際方案。
從技術角度,銀河通用非常關注小腦層面的技能控制模型如何實現足夠的泛化和通用。針對小腦技能,銀河通用自研合成了千萬級的場景數據及十億級的抓取數據,在合成數據的訓練下,銀河通用機器人已實現抓取隨機放置的透明、高光等物體的成功率在95%以上。
具身智能機器人何時才能真正進入嚴肅場景,進行商業(yè)化量產落地?需要克服哪些挑戰(zhàn)?王鶴談到能落地的機器人需要足夠低的成本和足夠高的耐用性,這些都是需要技術公司不斷打磨硬件和供應鏈能力,而國內創(chuàng)企具有天然優(yōu)勢。
盧策吾補充說,還要快速POC,只有開箱即用才能快速規(guī)模化,對于成本硬件的駕馭能力和靈活組裝能力是降低成本的關鍵,“大腦”要足夠通用,落地的成本才夠低。陳建宇對國內發(fā)展具身智能的前景保持樂觀,認為每個創(chuàng)業(yè)公司都應該思考如何利用中國市場的優(yōu)勢,最大化撬動國內供應鏈的優(yōu)勢,打造具有全球化競爭力的硬件產品。
07.結語:AI計算新浪潮,看中國
在周志峰看來,將邊際成本降至接近零的維度,恰好是評判一項技術能否成為最大的科技浪潮的關鍵標準,微處理器、互聯網、人工智能是過去五十年科技發(fā)展史上最大的三個浪潮。微處理器將計算的邊際成本降到非常低,互聯網把分發(fā)成本降為零,生成式AI的核心是把數字化內容創(chuàng)作的邊際成本幾乎降為零,由此看來AI技術一定會釋放巨大的價值。AI是第三次計算革命,而中國是最佳的孵化地。
中國的顯著優(yōu)勢是擁有龐大市場,而每次出現重大的科技變革和范式轉移時,中國都是孕育新一代偉大企業(yè)的最好溫床。根據斯坦福大學HAI研究院發(fā)布的《2024年人工智能指數報告》,2022年中國在AI領域的專利數占全球的61.1%,大幅超過美國的20.9%。美國保爾森基金會Marco Polo智庫的全球AI人才報告顯示,中國在全球頂尖AI學者的占比從2019年的29%上升到2022年的47%,是人才最豐富的區(qū)域。
中國在應用方面也經驗豐富,在移動互聯網時代成功打造了眾多被廣泛使用的明星應用,為中國引領新一波AI原生應用的浪潮奠定了堅實的基礎。根據啟明創(chuàng)投科技投資團隊的統(tǒng)計,2010年以后成立且至今月活躍用戶數超過5000萬的應用,被其定義為“超級應用”,中國團隊或企業(yè)一共打造了30余個。對比而言,美國團隊或企業(yè)一共打造了7個。“在互聯網和移動互聯網時代中國已經孕育出了眾多科技巨頭,在生成式AI時代中這一現象必將重現。我相信中國新一代的偉大的科技公司已經在形成中?!敝苤痉逭f。