• 正文
    • 智商突圍
    • 蒙特卡洛突破
    • 破局與遠見
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

她如何把“系統(tǒng)2”帶給了大模型 |對話微軟亞洲研究院張麗

05/26 11:15
197
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

量子位智庫,量子位 | 公眾號 QbitAI

2023年,業(yè)界還在卷Scaling Law,不斷突破參數(shù)規(guī)模和數(shù)據(jù)規(guī)模時,微軟亞洲研究院張麗團隊就選擇了另一條路徑。

早在OpenAI o1發(fā)布前,張麗團隊就開始探索大模型深度推理能力。

System2這個原屬認知科學的詞匯最早由她及團隊引入大模型領域。

最近,她們通過蒙特卡洛搜索算法7B模型實現(xiàn)了o1級別的數(shù)學推理能力。

rStar—Math的發(fā)布引發(fā)學術圈內外的廣泛討論。

在當前基于PPO/GRPO強化學習路線主導的當下,她們的工作又將帶來哪些新的可能性?

本期「大模型創(chuàng)新架構」主題訪談,量子位邀請到rStar-Math作者微軟亞洲研究院首席研究員張麗,聊聊突破大模型智商上限、獎勵模型以及System2背后的故事。

張麗,MSRA系統(tǒng)研究組首席研究員,微軟LongRoPE及rStar系列工作項目leader。

以下為量子位rStar-Math作者微軟亞洲研究院首席研究員張麗的對話實錄整理:

智商突圍

量子位:能簡單介紹下rStar-Math的核心工作嗎?當初為什么選擇這個研究方向?

MSRA張麗:一直以來我們主要沿著如何提升大語言模型的智商這個大方向在持續(xù)做研究,具體分兩個方向:

一個是讓模型具備無限且持久的記憶能力,另一個是提升模型的深度推理邏輯思考能力。

我們2025年1月發(fā)布的rStar-Math工作,簡單說是第一個公開通過蒙特卡洛搜索算法,讓7B模型實現(xiàn)了接近OpenAI o1級別的數(shù)學推理能力的工作。

我們當時做這個工作的時候,整個行業(yè)趨勢還是在卷scaling law,認為模型size越大,數(shù)據(jù)量越多,效果越好。

但我們發(fā)現(xiàn),盡管隔一段時間就有新體量的模型推出,但實際上模型的數(shù)學深度推理能力一直沒有顯著提升。

量子位:在2024年o1還沒發(fā)布時你們就開始做System2了嗎?

MSRA張麗:對,應該是2023年5月份左右。

2022年11月ChatGPT出來時,大家都被震驚了,但是我們發(fā)現(xiàn)它仍然在有些方面做得不夠好。

作為研究員,我們比較注重邏輯推理思考能力,所以很自然會希望大語言模型能像我們一樣具備很強的推理能力。

我們最初的思路是兩點:

一是希望模型在解題時能夠利用很長的“草稿紙”,所以我們做了LongRoPE,拓展大模型長文本的推理窗口。

二是要有效利用這個草稿紙,這就需要像人一樣的深度推理思考方式,這就有了rStar系列工作。

量子位:最早將System2這個人腦認知科學詞匯引入大模型領域的是誰?

MSRA張麗:可能是我們吧。更準確地說,當我們想定義這種能力時,從人腦認知科學中找到了這個可以類比的詞。

量子位:當時為什么認為System2會是未來非常重要的研究方向?

MSRA張麗:我們覺得,大語言模型真正要落地應用,或者實現(xiàn)通用,其他能力可能都好說,智商或推理能力才是最關鍵因素。

看各行各業(yè)的頂尖人才,他們的專業(yè)領域不同,有人擅長解數(shù)學題,有人擅長寫代碼,有人寫作或口才好,但本質上他們都有很強的推理能力,這就是智商。

大模型有了這個基礎,再去做其他應用,讓大模型落地或提高社會生產(chǎn)力,都會變得簡單得多。

量子位:rStar-Math在研究過程中模型自己涌現(xiàn)出了self-reflection能力,這意味著什么?

MSRA張麗:這其實并不是有意為之,是意外收獲。后來想想,可能間接驗證了self-reflection是提升大模型智商的關鍵能力這一點。

這種自我修正或自我反思是人類做很多事情都會使用的思維方式,可以說是一種必備能力。

我們確實沒有刻意追求復現(xiàn)“aha moment”,但這在當時確實是個機會,很多團隊都想復現(xiàn),最后發(fā)現(xiàn)強化學習可以激發(fā)出這種能力。

量子位:激發(fā)大模型self-reflection能力的關鍵是什么?

MSRA張麗:我個人認為,大模型預訓練數(shù)據(jù)中本來就包含人類自我反思過程的信息。

互聯(lián)網(wǎng)上的大量數(shù)據(jù)中會自然混入一些這樣的內容,因為這是人類基本的高級思考模式。

大模型經(jīng)過預訓練記住這些模式后,強化學習或蒙特卡洛搜索算法會將這種能力激發(fā)出來。

在解決復雜問題過程中,模型發(fā)現(xiàn)用了self-reflection后效果更好,蒙特卡洛算法就會把這些標記為高質量數(shù)據(jù);

如果是強化學習,模型發(fā)現(xiàn)用了self-reflection后能答對,就會給這個策略更高分數(shù)最終結果都是讓模型涌現(xiàn)出這種能力。

蒙特卡洛突破

量子位:rStar-Math發(fā)布后反響很大,有什么印象深刻的反饋嗎?

MSRA張麗:確實rStar-Math比我們之前的工作受到了更多關注,完全超出了我的預期。

我想可能是因為當時o1已經(jīng)出來好幾個月,但還沒有哪份公開的報告能說清楚它是怎么做到的。

我知道有很多人也在用類似的蒙特卡洛搜索算法,但沒有達到o1水平的效果。

而我們恰好做到了,而且方法上有一些創(chuàng)新,可能是這個原因會突然受到關注。

感覺有點“破圈”效應。學術圈通常只有做同方向的人才會關注你的工作,但那時很多不做這個方向的同事朋友都發(fā)微信說某某看了我們工作想認識一下,這種情況很少見。

還有很多媒體,國內外的,都要采訪我們。在X上也有大量討論,一些人給了很高評價,認為用7B模型就能達到OpenAI o1級別表現(xiàn)非常不可思議。

也有人討論2025年會不會是小模型的時代,還引發(fā)了關于scaling law與其他路線的新一輪辯論。

量子位:有沒有遇到質疑的聲音?

MSRA張麗:當然有,大概分兩個階段。

一開始在DeepSeek R1Kimi 1.5出來之前,主要質疑是“小模型能力怎么會這么強”以及“這個方法能否泛化到其他任務”,所以后來我們開源了代碼和數(shù)據(jù)。

后來,DeepSeek R1和Kimi 1.5出來了,有人開始討論復現(xiàn)OpenAI o1效果到底是否真的需要蒙特卡洛搜索。這些質疑都很合理,因為每個人觀點不同。

量子位:蒙特卡洛搜索算法的獎勵模型和傳統(tǒng)Best of N獎勵模型的根本區(qū)別是什么?

MSRA張麗:根本區(qū)別是蒙特卡洛搜索算法的獎勵模型是步驟級別的,是過程獎勵模型

Best of N是結果獎勵模型,不關注過程,所以蒙特卡洛搜索算法效果更好。

量子位:為什么蒙特卡洛搜索算法在小模型上表現(xiàn)這么好?效果會不會僅限于小模型?

MSRA張麗:它在小模型上表現(xiàn)優(yōu)異,反而說明了它有很大潛力。

我們2024年8月發(fā)布初版rStar時就發(fā)現(xiàn)了蒙特卡洛算法潛力巨大。

當時我們沒有進行任何訓練,甚至沒有訓練獎勵模型,只是在小模型上應用蒙特卡洛搜索算法,發(fā)現(xiàn)效果非常好,甚至能與做了特殊微調后的模型效果相當。

因為System2是更高級的思維模式,有一定門檻,策略模型不能太差,而小模型作為策略模型本身就較弱。

所以為了解決小模型效果不理想的問題,如幻覺等,我們唯一做的就是加了code-augmented CoT,盡量讓蒙特卡洛搜索算法效果發(fā)揮到極致。

量子位:在你們的工作發(fā)布前,蒙特卡洛搜索算法是主流方案嗎?

MSRA張麗:之前它不是很主流,但學術界確實有一些工作開始關注這個方向。

量子位:o1及你們的工作發(fā)布后,這種方法變得更主流了嗎?

MSRA張麗:目前還沒看到這種趨勢,大多數(shù)人還是在做強化學習。不過我知道一些其他領域的人也在嘗試蒙特卡洛搜索算法。

由于我們的工作受到關注,有人聯(lián)系我們,希望將這種方法應用到金融醫(yī)療領域。一些實際場景需要較小的模型,他們可能會考慮我們的方法。

量子位:你們做了scaling law實驗嗎?有看到你們的工作隨著參數(shù)量增加效果的變化趨勢嗎?

MSRA張麗:目前我們最大只做到7B,然后向下做了scaling down,嘗試了3.8B1.5B。

總體觀察到的趨勢是參數(shù)規(guī)模越大,效果越好。

如果模型size固定,我相信蒙特卡洛搜索算法比當前基于強化學習或蒸餾的方法潛力更高。

量子位:rStar-Math在合成數(shù)據(jù)方面效果這么好,背后原因是什么?

MSRA張麗:主要有兩點。第一是code-augmented CoT,雖然最初是為小模型設計的,但對更大模型也有用。

當然這種方法以前就有,叫Tool-Integrity Reasoning (TIR)。

第二是我們用了過程獎勵模型配合蒙特卡洛搜索算法,會做很多rollout,給不同步驟和每個trace打分。

即使是正確的trace中,我們也會挑選出更優(yōu)的步驟,這相當于做了很好的數(shù)據(jù)篩選。

量子位:您認為獎勵模型的重要性未來會成為共識嗎?對獎勵模型的研究會增多嗎?

MSRA張麗:我覺得會?,F(xiàn)實中有很多任務沒有明確標準答案,很難用簡單規(guī)則評價。

比如寫作,你幾乎無法用幾條規(guī)則判斷好壞,肯定需要一個更強的獎勵模型來打分。

對于復雜邏輯推理問題,比如數(shù)學證明也很難做好的獎勵模型,因為它不只是結果對就行,必須每一步證明都正確,需要一個非常嚴格的過程獎勵。

如果只用基于結果的強化學習,很可能出現(xiàn)證明結果正確但過程錯誤的情況。

要在提升大模型智商這個方向繼續(xù)前進,一個優(yōu)秀的過程獎勵模型是必不可少的。

量子位:為什么優(yōu)化策略模型比優(yōu)化獎勵模型更快?

MSRA張麗:首先,獎勵模型比策略模型更難做。獎勵模型是強化學習多年來始終未完全解決的問題。

很難找到一個好的獎勵模型或獎勵函數(shù)去給動作或策略打分。

其次,獎勵模型在強化學習中容易出現(xiàn)reward hacking問題。策略模型可能會用各種方法騙過獎勵模型,實際上輸出的答案并不好。

這導致強化學習無法持續(xù)進行,所以很多做強化學習的研究者會拿掉獎勵模型,但本質上還是因為獎勵模型目前沒有很好的解決方案。

對于數(shù)學這樣的高難度問題,獎勵模型更難構建。

在一般問題中,獎勵模型不那么準確可能還能接受,但在數(shù)學問題中,一步錯誤就會導致最終答案完全錯誤。

量子位:rStar-Math對數(shù)學推理之外的其他任務有泛化性嗎?

MSRA張麗:我認為它有很強的泛化潛力。

rStar-Math本質上是一種思路,我只需要知道每次rollout的結果是對還是錯就可以應用。

當最終結果正確時,我就認為這次rollout中的每個步驟都有貢獻,就會返回給它們打分,然后進行更多rollout。

如果中間某個節(jié)點每次都能導向正確答案,那可能是個正確步驟;如果經(jīng)常導向錯誤答案,可能就是錯誤步驟。

打完分后,我就能收集數(shù)據(jù)構造過程獎勵模型,這就是rStar-Math的核心思想。

它唯一的門檻是在rollout到根節(jié)點時需要判斷這次outcome是否正確,這個門檻并不高,所以應用場景其實很廣,泛化性沒有問題。

破局與遠見

量子位:rStar-Math開源后,行業(yè)有什么反響?

MSRA張麗:我們當然希望它能有更廣泛的應用,或者有人基于我們的代碼在更大模型上嘗試。

目前有一些第三方聯(lián)系我們,比如有家公司想用這個模型做數(shù)學AI教育,還有國外一些知名實驗室希望在代碼類和數(shù)學證明方面合作。

有趣的是,還有一家智能車廠商聯(lián)系我們,希望用我們的算法在他們的模型上復現(xiàn),讓我們幫助解答一些問題。

量子位:您看好rStar-Math在工業(yè)級模型上落地嗎?在通用場景中,蒙特卡洛搜索算法的搜索空間會不會太大?

MSRA張麗:對于很簡單的問題,確實沒必要用這么復雜的方法。

蒙特卡洛搜索算法最初因AlphaGo而火,它可能天然更適合復雜任務。

對通用任務,它可以用但不一定是必要的。普通大模型一次回答可能就足夠接受,不需要再用System2去多次搜索。

多搜索幾次可能找到比一次回答更好的答案,但兩者差距可能不大,從性價比上考慮可能必要性不會特別高

量子位:下一步的研究會更關注長文本還是深推理?

MSRA張麗:關于長文本,我們之前做LongRoPE時從算法層面提供了讓預訓練模型文本窗口可以拓展到無限的方案。

也在微軟的phi系列模型上得到了驗證。

但要真正擴展到那么長的長度,還需要解決效率問題以及長文本數(shù)據(jù)算力問題,這些不是我當前階段關注的重點。

我們目前更關注推理能力的提升,也就是深推理這方面。

量子位:會繼續(xù)研究獎勵模型嗎?

MSRA張麗:下一步我們可能會做三件事。

第一是繼續(xù)優(yōu)化獎勵模型

第二是進一步提升策略模型能力,希望它能學會更像人類的高級推理方式,比如主動提問或self-reflection之外的其他推理方式。

第三擴展任務領域,除了數(shù)學外,我們還想擴展到高難度的代碼推理任務,最終實現(xiàn)通用的深度推理能力。

量子位:解數(shù)學題一定是智商要求最高的任務嗎?

MSRA張麗:我認為是的。數(shù)學推理基本上是大語言模型中最要求程序執(zhí)行能力邏輯嚴謹性的任務類型。

有些證明題數(shù)學家需要花幾百年才能證明出來,我個人認為它應該是智能天花板的一種表現(xiàn)

量子位:有種說法認為大家對提升數(shù)學能力的研究更多是因為它結果唯一、數(shù)據(jù)全且易驗證,數(shù)學能力一定代表智商天花板嗎?

MSRA張麗:數(shù)學任務確實更容易著手研究,效果更容易驗證,但要真正提升數(shù)學推理能力并不容易。

比如FrontierMath這個高難度數(shù)學基準測試,由多名數(shù)學家出題,目前最強的模型在上面的準確率也只有2%左右。

當前數(shù)學研究更多是因為數(shù)據(jù)相對豐富,條件比較成熟,判定好壞更明確

有些非證明題甚至不需要看步驟,看答案對不對就可以了,所以可能給人感覺大模型數(shù)學能力好做。

人類的其他復雜任務可能現(xiàn)在各方面研究條件還不夠成熟,所以感覺大家都在做數(shù)學能力

但真正讓大模型成為數(shù)學家可信賴的助手,這條路還很長。

論文:https://arxiv.org/abs/2501.04519

微軟

微軟

微軟(Microsoft)是一家美國跨國科技企業(yè),由比爾·蓋茨和保羅·艾倫于1975年4月4日創(chuàng)立。公司總部設立在華盛頓州雷德蒙德(Redmond,鄰近西雅圖),以研發(fā)、制造、授權和提供廣泛的電腦軟件服務業(yè)務為主。 最為著名和暢銷的產(chǎn)品為Windows操作系統(tǒng)和Office系列軟件,是全球最大的電腦軟件提供商、世界PC(Personal Computer,個人計算機)軟件開發(fā)的先導。

微軟(Microsoft)是一家美國跨國科技企業(yè),由比爾·蓋茨和保羅·艾倫于1975年4月4日創(chuàng)立。公司總部設立在華盛頓州雷德蒙德(Redmond,鄰近西雅圖),以研發(fā)、制造、授權和提供廣泛的電腦軟件服務業(yè)務為主。 最為著名和暢銷的產(chǎn)品為Windows操作系統(tǒng)和Office系列軟件,是全球最大的電腦軟件提供商、世界PC(Personal Computer,個人計算機)軟件開發(fā)的先導。收起

查看更多

相關推薦