• 正文
    • 打造具身智能的“安卓系統(tǒng)”
    • 從看視頻到學(xué)技能
    • 開源路線和產(chǎn)業(yè)博弈
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

對(duì)話智源研究院王仲遠(yuǎn):做具身智能的“安卓系統(tǒng)”,而非專用的“iOS”

7小時(shí)前
81
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者Yoky,郵箱yokyliu@pingwest.com

大模型的發(fā)展正在遭遇瓶頸。隨著互聯(lián)網(wǎng)文本數(shù)據(jù)被大規(guī)模消耗,基于數(shù)字世界訓(xùn)練的AI模型性能提升速度明顯放緩。與此同時(shí),物理世界中蘊(yùn)藏著數(shù)字世界數(shù)百倍甚至千倍的多模態(tài)數(shù)據(jù),這些數(shù)據(jù)遠(yuǎn)未被有效利用,成為AI發(fā)展的下一個(gè)重要方向。

在2025北京智源大會(huì)上,智源研究院發(fā)布了“悟界”系列大模型,試圖推動(dòng)AI從數(shù)字世界邁向物理世界,實(shí)現(xiàn)所謂的物理AGI。這一系列包含原生多模態(tài)世界模型Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2,覆蓋從宏觀到微觀的物理世界認(rèn)知。

然而,物理AGI面臨著實(shí)實(shí)在在的技術(shù)困境。當(dāng)前具身智能陷入一個(gè)“死循環(huán)”:硬件不成熟導(dǎo)致數(shù)據(jù)稀缺,數(shù)據(jù)稀缺使得模型能力有限,模型能力弱又影響落地應(yīng)用,最終阻礙產(chǎn)業(yè)規(guī)?;l(fā)展。如何破解這一循環(huán)?數(shù)據(jù)從何而來?跨本體泛化如何實(shí)現(xiàn)?

在智源大會(huì)前夕,硅星人與智源研究院院長(zhǎng)王仲遠(yuǎn)進(jìn)行了深度對(duì)話,探討物理AGI從概念到現(xiàn)實(shí)需要跨越哪些關(guān)鍵門檻,以及智源的技術(shù)路徑能否為這一變革提供可行的解決方案。

打造具身智能的“安卓系統(tǒng)”

1. 從'悟道'到'悟界'的命名變化,反映了智源對(duì)大模型技術(shù)發(fā)展趨勢(shì)怎樣的判斷?這種轉(zhuǎn)變的底層邏輯是什么?

王仲遠(yuǎn):“悟界”的“界”,代表著對(duì)于虛實(shí)世界邊界的突破,代表對(duì)物理世界的賦能,是向物理AGI方向的邁進(jìn)。

這種轉(zhuǎn)變背后有深層的技術(shù)判斷。我們堅(jiān)定的認(rèn)為大模型的技術(shù)還遠(yuǎn)沒有到發(fā)展的盡頭。過往所說的“百模大戰(zhàn)”更多的是大語言模型的競(jìng)爭(zhēng),而大語言模型受限于互聯(lián)網(wǎng)數(shù)據(jù)的使用,基礎(chǔ)模型性能雖然還在提升,但提升速度不如以前。

解決大語言模型性能提升瓶頸的解法有很多。一是通過強(qiáng)化學(xué)習(xí),在后訓(xùn)練和推理上提升,例如O1、O3、O4、R1。二是數(shù)據(jù)合成。還有一個(gè)方向就是多模態(tài)。我們堅(jiān)定的認(rèn)為在全世界范圍內(nèi),多模態(tài)數(shù)據(jù)是文字?jǐn)?shù)據(jù)的百倍千倍乃至萬倍甚至更多,這些數(shù)據(jù)遠(yuǎn)沒有被很有效利用。

在去年的智源大會(huì)上,我們已經(jīng)對(duì)大模型的技術(shù)路線進(jìn)行了預(yù)判,認(rèn)為會(huì)從大語言模型往多模態(tài),尤其是原生多模態(tài)世界模型的方向發(fā)展。原生多模態(tài)世界模型本質(zhì)上是為了讓人工智能感知和理解物理世界,進(jìn)而推進(jìn)和物理世界的交互。

2.?原生多模態(tài)模型的本質(zhì)是構(gòu)建“世界模型”么?是追求對(duì)物理規(guī)律的極致建模?還是構(gòu)建具身智能的認(rèn)知框架?

王仲遠(yuǎn)“世界模型”在世界范圍內(nèi)沒有共同的定義,有很多名稱--“空間智能”、“時(shí)空智能”等。我們將Emu3命名為“原生多模態(tài)世界模型”時(shí),是認(rèn)為它能通過單一模型捕捉世界的規(guī)律,不僅僅是物理世界的規(guī)律,還能融合豐富的多模態(tài)數(shù)據(jù),例如人類與世界交互產(chǎn)生的腦電信號(hào)等,世界的多模態(tài)符號(hào)非常豐富,遠(yuǎn)不止圖像、文字、聲音和視頻。智源的“原生多模態(tài)世界模型”代表的更多是人工智能對(duì)世界的探索。

“讀萬卷書,更需要行萬里路”,如果一個(gè)人從出生就沒有見過世界,即使讀到了博士,對(duì)世界的理解依然是片面的。大模型技術(shù)過往基于互聯(lián)網(wǎng)數(shù)據(jù),尤其是互聯(lián)網(wǎng)文本數(shù)據(jù)訓(xùn)練而來,固然對(duì)知識(shí)的理解很強(qiáng),但對(duì)真實(shí)世界的運(yùn)作規(guī)律并不理解。AI從數(shù)字世界跨向物理世界時(shí)必須突破數(shù)字世界的隔閡,最重要的隔閡和邊界是空間和時(shí)間的感知。

3.?物理世界的多模態(tài)是哪些模態(tài)?我看到見微Brainμ的模態(tài)就是收集神經(jīng)信號(hào),未來AI是否可以突破人類的感知限制?

王仲遠(yuǎn):當(dāng)然,“世界模型”到底包含什么,除了時(shí)間和空間,還有不同模態(tài)數(shù)據(jù),例如腦信號(hào)數(shù)據(jù)、各種傳感器數(shù)據(jù)等,真實(shí)世界模型復(fù)雜性更高。

見微Brainμ模型,將fMRI、EEG、雙光子等神經(jīng)科學(xué)與腦醫(yī)學(xué)相關(guān)的腦信號(hào)統(tǒng)一token化,實(shí)現(xiàn)多模態(tài)腦信號(hào)與文本、圖像等模態(tài)的多向映射,。

Brainμ整合了神經(jīng)科學(xué)領(lǐng)域多個(gè)大型公開數(shù)據(jù)集和多個(gè)合作實(shí)驗(yàn)室的高質(zhì)量神經(jīng)科學(xué)數(shù)據(jù),完成了超過100萬單位的神經(jīng)信號(hào)預(yù)訓(xùn)練。

Brainμ可同步處理多類編解碼任務(wù),兼容多物種動(dòng)物模型(包括小鼠 狨猴 獼猴)與人類數(shù)據(jù),實(shí)現(xiàn)科學(xué)數(shù)據(jù)注釋、交互式科學(xué)結(jié)論解讀、大腦感覺信號(hào)重建及模擬刺激信號(hào)生成。。

具身智能領(lǐng)域會(huì)有更多的模態(tài),比如說3D信號(hào)、時(shí)空信號(hào)等,都可以作為一種模態(tài)。各種傳感器的數(shù)據(jù),這些都屬于物理世界的一種模態(tài)。真實(shí)的世界模型的復(fù)雜性會(huì)更強(qiáng)。

現(xiàn)在很多多模態(tài)模型,看到這個(gè)咖啡杯在桌子上,會(huì)描述“咖啡杯在桌上,這個(gè)咖啡杯是白色的,上面有一些文字”,但是人類看到首先有空間的認(rèn)知是“咖啡杯在桌子的邊緣,很危險(xiǎn)”。現(xiàn)在絕大部分多模態(tài)大模型不具備這樣的判斷能力。

機(jī)器人操作時(shí)就應(yīng)該從邊緣往里拿,而不是從里往外拿,因?yàn)橐慌鼍蜁?huì)跌落,這個(gè)跌落就包含時(shí)間序列的預(yù)測(cè),咖啡杯有可能掉下去甚至弄臟地板,這就是時(shí)空智能預(yù)測(cè),是智源所探索的多模態(tài)世界模型的能力。

4.?RoboBrain 2.0在技術(shù)架構(gòu)上與其他具身智能模型的本質(zhì)區(qū)別是什么?為什么選擇跨本體通用而非專用優(yōu)化的路線?

王仲遠(yuǎn)智源具身大腦RoboBrain能夠跨本體,目前沒有幾家公司能夠真正做到這一點(diǎn),就好比IOS系統(tǒng)只能在iPhone使用,但安卓系統(tǒng)能在不同的手機(jī)上運(yùn)行。智源是一家科研機(jī)構(gòu),希望構(gòu)建面向不同硬件本體使用的具身大模型,這是我們的理念。

RoboBrain能夠適配各種構(gòu)型的機(jī)器人,包括機(jī)械臂、輪式單臂、輪式雙臂、雙足、四足等等。RoboBrain 2.0相比于RoboBrain 1.0的基于Prompt的多機(jī)任務(wù)規(guī)劃?rùn)C(jī)制和初級(jí)空間理解能力,進(jìn)一步擴(kuò)展了基于多本體-環(huán)境動(dòng)態(tài)建模的多機(jī)協(xié)同規(guī)劃能力,可實(shí)時(shí)構(gòu)建包含本體定位的場(chǎng)景圖(Scene Graph),并自動(dòng)完成跨本體的任務(wù)規(guī)劃。

當(dāng)前,具身智能的VLA模型泛化性不夠,也許能把咖啡端得很好,但并不能很好地解決其他泛化任務(wù)。具身智能或者機(jī)器人2.0時(shí)代,最重要的是能突破專有任務(wù),達(dá)到一定的泛化性,再到未來具備更通用、跨領(lǐng)域的泛化性,這需要一定的發(fā)展過程。我們堅(jiān)定認(rèn)為,人工智能正在加速?gòu)臄?shù)字世界走向物理世界,而真正的物理AGI需要的是能夠跨越不同硬件平臺(tái)的通用智能。

很多具身智能的機(jī)器人創(chuàng)業(yè)公司不具備模型研發(fā)能力,因?yàn)槟P脱邪l(fā)的成本、對(duì)人才的需求極高。智源通過開源,和更多的產(chǎn)業(yè)方合作,能夠促進(jìn)整個(gè)產(chǎn)業(yè)健康有序的發(fā)展。這就是智源做跨本體通用具身模型的價(jià)值所在。

從看視頻到學(xué)技能

5.?我似乎聽到一個(gè)矛盾,您一直強(qiáng)調(diào)機(jī)器人模型需要泛化能力,但這需要大量數(shù)據(jù)支撐?,F(xiàn)實(shí)中具身智能數(shù)據(jù)稀缺是公認(rèn)難題,智源如何解決數(shù)據(jù)量不足與泛化需求的難題?

王仲遠(yuǎn):具身智能目前存在循環(huán)悖論,具身能力不足限制了真機(jī)數(shù)據(jù)的采集,數(shù)據(jù)稀缺導(dǎo)致模型能力弱、落地難,無法進(jìn)一步提升能力。破解問題的方法有很多,不同的參與方有不同的解法。比如,硬件成本越來越低,如果能夠做到幾千塊錢一臺(tái)機(jī)器人,大家買的可能性比一百萬一臺(tái)機(jī)器人的可能性大很多。

真實(shí)世界的數(shù)據(jù)很重要,但是是否足以訓(xùn)練出來一個(gè)有價(jià)值的模型,這在學(xué)術(shù)界是有爭(zhēng)議的,仿真數(shù)據(jù)是其中一條路徑。

智源走的是大模型的路線,更多依靠的是互聯(lián)網(wǎng)數(shù)據(jù)幫助機(jī)器人學(xué)習(xí)智能。例如,今年春節(jié),我觀察一個(gè)小女孩是怎么學(xué)習(xí)的,她刷了很多短視頻,就學(xué)會(huì)了拆糖果、撕包裝紙,把5顆藍(lán)莓串在一根牙簽上,這是沒有任何大人教給她的。她通過視頻學(xué)習(xí)到可能的技能,再通過實(shí)踐即強(qiáng)化學(xué)習(xí)去嘗試,可能失敗了幾次繼續(xù)嘗試,最后成功完成了任務(wù),這就是強(qiáng)化學(xué)習(xí)的本質(zhì)。所以,學(xué)習(xí)海量已有的數(shù)據(jù),再通過強(qiáng)化學(xué)習(xí)和少量真實(shí)世界的數(shù)據(jù)不斷訓(xùn)練它的能力,不斷突破具身智能的發(fā)展上限,這和大模型發(fā)展路線不謀而合,基礎(chǔ)能力到一定程度后通過強(qiáng)化學(xué)習(xí)進(jìn)一步激發(fā)它的智能。

6.?從互聯(lián)網(wǎng)視頻數(shù)據(jù)學(xué)習(xí)具身技能,實(shí)際效果如何?像您舉得例子,簡(jiǎn)單的動(dòng)作可以學(xué)會(huì),但到復(fù)雜的行動(dòng)時(shí),模型還能通過這種路徑實(shí)現(xiàn)么?

王仲遠(yuǎn)現(xiàn)在具身關(guān)注點(diǎn)聚焦在基礎(chǔ)模型的推理和深度思考的能力。

具身基礎(chǔ)模型意味著訓(xùn)練時(shí)并不會(huì)考慮那么多任務(wù),具體落地應(yīng)用時(shí)可能針對(duì)特定的任務(wù)采集數(shù)據(jù)。

當(dāng)小腦技能不那么強(qiáng)時(shí),可能采集幾十條、上百條數(shù)據(jù)就能使其初步具備某種程度的泛化性。當(dāng)然,理想狀態(tài)下是什么數(shù)據(jù)都不用采集就具備泛化能力,但是這個(gè)周期很更長(zhǎng),短期內(nèi)無法實(shí)現(xiàn)。

VLA以及真正意義上端到端具身大模型需要時(shí)間沉淀。

學(xué)習(xí)海量已有的數(shù)據(jù),再通過強(qiáng)化學(xué)習(xí)和少量真實(shí)世界的數(shù)據(jù)不斷訓(xùn)練模型能力,有可能突破具身智能的發(fā)展瓶頸,但需要一個(gè)發(fā)展過程。

開源路線和產(chǎn)業(yè)博弈

7.?在智源大會(huì)中,智源推出SaaS平臺(tái)和MCP的產(chǎn)業(yè)價(jià)值是什么?背后呈現(xiàn)什么樣的系統(tǒng)思考?

王仲遠(yuǎn):跨本體具身大小腦協(xié)作框架RoboOS 2.0是全球首個(gè)具身智能Saas平臺(tái),可實(shí)現(xiàn)無服務(wù)器一站式輕量化機(jī)器人本體部署;同時(shí),RoboOS 2.0是全球首個(gè)支持MCP的跨本體大小腦協(xié)同框架,旨在打造具身智能領(lǐng)域的“應(yīng)用商店”,相同型號(hào)的機(jī)器人本體可直接下載和部署不同開發(fā)者開發(fā)的小腦技能,基于RoboOS 2.0框架完成大小腦整合,小腦技能一鍵注冊(cè)無需開發(fā)適配,代碼開放量?jī)H為原來的1/10。

相對(duì)于RoboOS 1.0,RoboOS 2.0對(duì)端到端推理鏈路進(jìn)行了優(yōu)化,整體性能提升30%,全鏈路平均響應(yīng)時(shí)延低至3ms以下,,端云通信效率提升了27倍;在功能層面,RoboOS 2.0新增了多本體時(shí)空記憶場(chǎng)景圖(Scene Graph)共享機(jī)制,支持動(dòng)態(tài)環(huán)境下的實(shí)時(shí)感知與建模;同時(shí)引入多粒度任務(wù)監(jiān)控模塊,實(shí)現(xiàn)任務(wù)閉環(huán)反饋,有效提升機(jī)器人任務(wù)執(zhí)行的穩(wěn)定性與成功率。RoboOS采取的是端云協(xié)同策略,將具身大腦RoboBrain部署在云端,小腦模型部署在本體上。RoboBrain 2.0,除了7B,還有32B,模型更大,能力更強(qiáng),但能夠繼續(xù)保持端云協(xié)同。當(dāng)然,在一些實(shí)際場(chǎng)景里也需要將具身大腦部署在本體上。

8.?當(dāng)前具身智能賽道上,科研機(jī)構(gòu)、大廠、創(chuàng)業(yè)公司各有什么優(yōu)勢(shì)和局限?智源作為非營(yíng)利科研機(jī)構(gòu),如何在這個(gè)競(jìng)爭(zhēng)激烈的賽道中發(fā)揮獨(dú)特價(jià)值?

王仲遠(yuǎn)智源一直有明確的定位——做高校做不了,企業(yè)不愿意做的事情,預(yù)研和探索前沿技術(shù)路徑。

僅從探索的先進(jìn)性來講,智源和國(guó)內(nèi)很多科研機(jī)構(gòu)以及國(guó)際大廠并沒有大的區(qū)別,也沒有明顯的劣勢(shì),但是智源的獨(dú)特性在于,取得了原生多模態(tài)世界模型底層架構(gòu)、腦科學(xué)多模態(tài)通用基礎(chǔ)模型的突破等。

具身智能領(lǐng)域,中國(guó)獨(dú)特的優(yōu)勢(shì)在于制造業(yè)、豐富的場(chǎng)景、政策支持,使得產(chǎn)業(yè)加速發(fā)展。智源所做的具身大模型、多模態(tài)基礎(chǔ)模型,都正在促進(jìn)整個(gè)產(chǎn)業(yè)更快地發(fā)展。

大語言模型相比去年發(fā)展勢(shì)頭更好,模型效果更佳,這是一個(gè)相對(duì)確定的技術(shù)路線,已經(jīng)開始轉(zhuǎn)化成產(chǎn)業(yè)、場(chǎng)景,這都是中國(guó)的優(yōu)勢(shì)。在一些新的方向,比如多模態(tài)、世界模型,各自有特點(diǎn)。

9.?未來3年具身智能最可能在哪個(gè)領(lǐng)域產(chǎn)生突破性的規(guī)?;瘧?yīng)用?

王仲遠(yuǎn)我覺得未來3年,具身智能最可能在工業(yè)制造和服務(wù)機(jī)器人這兩個(gè)領(lǐng)域產(chǎn)生突破性的規(guī)?;瘧?yīng)用。

從技術(shù)成熟度來看,工業(yè)場(chǎng)景相對(duì)更容易實(shí)現(xiàn)突破。因?yàn)楣I(yè)環(huán)境相對(duì)結(jié)構(gòu)化,任務(wù)相對(duì)標(biāo)準(zhǔn)化,而且對(duì)成本的承受能力更強(qiáng)。我們現(xiàn)在看到很多具身智能創(chuàng)業(yè)公司都在往工業(yè)方向去做,這不是偶然的。

但我要強(qiáng)調(diào)的是,現(xiàn)在的具身智能還處在一個(gè)相對(duì)早期的階段。我們看到很多所謂的VLA模型,它不具備泛化性,能夠在某個(gè)特定任務(wù)上做得很好,但實(shí)際上并不能夠很好地去解決其他更加泛化的任務(wù)。

具身智能要突破專用任務(wù),到具備一定的泛化性,再到未來能夠具備各種泛化性,這是一個(gè)需要發(fā)展的過程。我們堅(jiān)定認(rèn)為,人工智能正在加速?gòu)臄?shù)字世界走向物理世界,但這個(gè)過程需要時(shí)間的沉淀。

相關(guān)推薦

  • 具身是具身,智能是智能
    文章
    956
    05/22 10:25
  • 華為再落子,機(jī)器人賽道“暗流涌動(dòng)”
  • 感算控一體化 為旌科技推出高性能具身智能芯片
    文章
    1180
    05/15 12:20
  • 架構(gòu)創(chuàng)新 愛芯元智驅(qū)動(dòng)具身智能普惠化
    文章
    999
    05/15 12:15