• 正文
    • 01.訓(xùn)練1.2萬道數(shù)學(xué)題大模型監(jiān)督小模型訓(xùn)練
    • 02.過程監(jiān)督整體效果優(yōu)于結(jié)果監(jiān)督解決方案更多效果更好
    • 03.數(shù)學(xué)外224道問題評估過程監(jiān)督效果更優(yōu)
    • 04.結(jié)語:AI可解釋性研究亟需加速
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

OpenAI煉出最強數(shù)學(xué)解題模型,擊碎AI瞎說的臭毛病

2023/06/02
1218
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

訓(xùn)練1萬多道數(shù)學(xué)題后,OpenAIChatGPT的做數(shù)學(xué)題水平直線上升。

智東西6月1日報道,凌晨,OpenAI官方博客發(fā)布新的研究進展,在數(shù)學(xué)推理能力上,研究人員正在通過過程監(jiān)督的獎勵模型揪出大型語言模型的邏輯錯誤。

大型語言模型在執(zhí)行復(fù)雜多步推理能力上有了很大提高,但有時候仍會產(chǎn)生邏輯錯誤,這種錯誤通常被稱為“幻覺”。這也是阻礙通用人工智能時代到來的關(guān)鍵一步。而這種幻覺現(xiàn)在有望被結(jié)果監(jiān)督、過程監(jiān)督的獎勵模型打破。

具體方法是,研究人員使用模型思維鏈的最終結(jié)果對結(jié)果監(jiān)督的獎勵模型(ORM)進行訓(xùn)練,而過程監(jiān)督的獎勵模型(PRM)會接收思維鏈中每一步的反饋訓(xùn)練。過程監(jiān)督相比于結(jié)果監(jiān)督的優(yōu)勢在于,它會直接獎勵遵循一致的思維鏈模型,并且因為過程中的每個步驟都受到了精確的監(jiān)督,能指出發(fā)生錯誤的確切位置,其結(jié)果也更容易被人類解讀,因此可以更直接地獎勵大型語言模型遵循人類認可的思維鏈。

OpenAI的研究人員對結(jié)果監(jiān)督和過程監(jiān)督進行了更詳細的比較,他們使用了更強大的基礎(chǔ)模型GPT-4、更多的人類反饋,并在MATH數(shù)據(jù)集上進行了訓(xùn)練和測試。基于上述條件,研究人員證明了,過程監(jiān)督的獎勵模型能解決MATH測試集代表性子集中78.2%的問題。

01.訓(xùn)練1.2萬道數(shù)學(xué)題大模型監(jiān)督小模型訓(xùn)練

在測試過程中,結(jié)果監(jiān)督可以在沒有人為干預(yù)的情況下提供,因為MATH數(shù)據(jù)集中的所有問題都有可自動檢查的答案。但過程監(jiān)督需要依靠人工數(shù)據(jù)標(biāo)注器來標(biāo)注模型生成的解決方案中每個步驟的重要性。

研究人員就在大規(guī)模和小規(guī)模兩種情況下進行實驗,在大規(guī)模訓(xùn)練下,研究人員基于GPT-4進行微調(diào),但這一情況下,過程監(jiān)督和獎勵監(jiān)督的訓(xùn)練集數(shù)據(jù)沒有完全重合,無法直接比較。因此,研究人員對模型進行了小規(guī)模訓(xùn)練以進行直接比較。

為了降低人工反饋的成本,他們使用大型語言模型來監(jiān)督小型語言模型訓(xùn)練。在每個模型上,研究人員使用一個固定的模型來生成所有的解決方案,這個固定模型就是生成器。為了收集過程監(jiān)督數(shù)據(jù),研究人員向人類數(shù)據(jù)標(biāo)注器提供了大規(guī)模生成器采樣的數(shù)學(xué)問題的解決方案步驟。

人類數(shù)據(jù)標(biāo)注器就會為每個步驟分配一個Positive、Negative、Neutral的標(biāo)簽,Positive代表該步驟正確、合理,Negative代表不正確、不合理,Neutral表示有歧義。Positive:這個問題中,GPT-4在第7、8步時執(zhí)行猜測,這也是大型語言模型容易產(chǎn)生幻覺的常見地方,即聲稱某個猜測是正確的,但這里沒有發(fā)生錯誤:

Negative:下面這個問題中,第七個步驟,GPT-4進行了錯誤的簡化表達,獎勵模型指出了錯誤:

Neutral:第13步中,GPT-4試圖通過組合相似的項來簡化等式,它將“12x”正確移動到了左邊,并進行了組合,右邊的項沒有改變,獎勵模型沒有辨認出這個錯誤:

研究人員將這一帶有標(biāo)簽的步驟數(shù)據(jù)集稱為PRM800K,包含針對12000個問題,75000個解決方案以及80萬步驟的標(biāo)簽。其中包含4500道MATH數(shù)據(jù)集中的問題。

02.過程監(jiān)督整體效果優(yōu)于結(jié)果監(jiān)督解決方案更多效果更好

結(jié)果監(jiān)督的獎勵模型中,研究人員從生成器中為每個問題均勻采樣固定數(shù)量的答案,并訓(xùn)練獎勵模型預(yù)測每個答案是正確或不正確。實際操作過程中,研究人員會通過自動檢查最終答案來確定正確性,并使用獎勵模型在最終token處的預(yù)測作為解決方案的總體得分。但這種自動評分機制并不完全可靠,該機制無法對通過錯誤推理得出正確答案的解決方案作出合理判斷。過程監(jiān)督的獎勵模型會預(yù)測每個步驟中最后一個token的正確性。如下圖所示,過程監(jiān)督的獎勵模型對同一問題的兩個解決方案評分,左邊的解決方案正確,右邊不正確。綠色標(biāo)注是高分數(shù),紅色標(biāo)注是低分數(shù),獎勵模型能正確識別右邊解決方案中的錯誤位置。

研究人員使用來自MATH測試集的問題來評估其過程監(jiān)督和結(jié)果監(jiān)督獎勵模型,為每個問題生成許多解決方案,然后選擇每個獎勵模型排名最高的解決方案。下圖顯示了最終達到正確答案的所選解決方案的百分比,過程監(jiān)督獎勵模型整體表現(xiàn)更好,并且隨著研究人員對每個問題的解決方案考慮范圍擴大,其性能差距也會擴大。因此,研究人員認為,過程監(jiān)督獎勵模型更加可靠。

03.數(shù)學(xué)外224道問題評估過程監(jiān)督效果更優(yōu)

研究人員還研究了主動學(xué)習(xí)的影響,他們估計主動學(xué)習(xí)可以使過程監(jiān)督的數(shù)據(jù)效率提高2.6倍。此外,為了探究獎勵模型的泛化性,研究人員還對224道STEM問題進行了大規(guī)模的過程監(jiān)督、結(jié)果監(jiān)督評估,包括AP物理、AP微積分、AP化學(xué)、AMC10和AMC12考試,其中,過程監(jiān)督的表現(xiàn)優(yōu)于結(jié)果監(jiān)督。

并且過程監(jiān)督更有可能產(chǎn)生可解釋的推理,因為它會鼓勵大型語言模型遵循人類確認的邏輯思考過程。在某些情況下,更安全的人工智能系統(tǒng)方法會導(dǎo)致其性能下降,會產(chǎn)生對齊稅(alignment tax)成本,也就是大型語言模型要和人類的價值觀對齊,這在一定程度上會約束大型語言模型的想象力。OpenAI研究人員的結(jié)果表明,在數(shù)學(xué)領(lǐng)域,過程監(jiān)督實際上會產(chǎn)生負對齊稅。目前尚不清楚這些結(jié)果能否完全推廣到數(shù)學(xué)以外的領(lǐng)域,但研究人員認為,如果這些結(jié)果具有普遍性,過程監(jiān)督就提供了一種比結(jié)果監(jiān)督更高效、更一致的方法。

04.結(jié)語:AI可解釋性研究亟需加速

上個月,OpenAI用GPT-4來自動解釋GPT-2的行為的研究打開了大模型思考黑盒,此次,在數(shù)學(xué)推理能力上,研究人員又通過過程獎勵模型使得大模型的思考過程變得可追蹤、可糾錯,這些研究都使得AI的可解釋性有了更大的進步空間。

從結(jié)果來看,過程監(jiān)督獎勵模型的效果目前只在數(shù)學(xué)推理領(lǐng)域得到有效印證,但正如OpenAI的研究人員所說,目前的研究方向?qū)τ谶^程監(jiān)督在其他領(lǐng)域的影響以及未來的工作很重要。這些研究未來可以讓大模型在內(nèi)容生成、理解上展現(xiàn)出強大能力的同時,其“思考過程”也能被檢測出是否有偏見或錯誤,從而讓大模型的黑盒變得更加透明。

作者?|??程茜
編輯?|??心緣

 

相關(guān)推薦