作者:王符偉
還記得第一次和ChatGPT聊天時的詫異嗎?它像個無所不知的“百事通”,不僅能陪你談天說地、寫詩作文,還能幫你查資料、寫代碼……流暢的對話、精準的回答,常常讓我們?nèi)滩蛔「袊@:“ChatGPT為什么這么聰明?”
人工智能領(lǐng)域?qū)<摇ⅰ洞笤挻笳Z言模型》作者王符偉對此進行了一番專業(yè)、有趣的拆解——用趣味漫畫的形式,解讀LLM的學習數(shù)據(jù)從何而來,又是怎樣實現(xiàn)精準溝通的?
LLM的學習數(shù)據(jù)從何而來?
在LLM領(lǐng)域,ChatGPT作為AI領(lǐng)域的杰出代表,它們通過深度學習和強化學習等先進技術(shù),從互聯(lián)網(wǎng)這片浩瀚的信息海洋中汲取知識。這些模型的學習過程,本質(zhì)上是對網(wǎng)絡(luò)上海量數(shù)據(jù)的深度挖掘與理解。以ChatGPT為例,它不僅展現(xiàn)了驚人的文本生成能力,還能夠根據(jù)上下文進行智能對話,這背后離不開其龐大的數(shù)據(jù)基礎(chǔ)。
那么,ChatGPT究竟學習了哪些數(shù)據(jù)呢?根據(jù)相關(guān)學術(shù)研究,這類模型主要依賴于被稱為“公共爬取”的數(shù)據(jù)集。這一數(shù)據(jù)集是通過特定的技術(shù)手段,如網(wǎng)絡(luò)爬蟲,從互聯(lián)網(wǎng)上廣泛收集并整理得到的。這些爬蟲程序會遍歷網(wǎng)頁,提取文本信息,并將其匯總成龐大的數(shù)據(jù)庫。此外,像維基百科這樣的知名在線百科全書,以及部分經(jīng)過精心挑選的離線數(shù)據(jù),也是LLM學習的重要資源(見圖1)。
圖1,ChatGPT的出色表現(xiàn)離不開其龐大的數(shù)據(jù)基礎(chǔ)。這強調(diào)了數(shù)據(jù)在驅(qū)動AI進步中的核心作用
在數(shù)據(jù)規(guī)模上,這些模型處理的數(shù)據(jù)量堪稱驚人。在過濾之前,原始數(shù)據(jù)的容量高達45TB,這相當于數(shù)千萬本普通書籍的信息量。然而,為了確保模型的準確性和可靠性,研究人員會對這些數(shù)據(jù)進行嚴格的篩選和清洗,去除不相關(guān)、低質(zhì)量或不適宜的內(nèi)容。經(jīng)過這一系列的預(yù)處理后,最終用于模型訓練的數(shù)據(jù)量約為570GB,盡管有所縮減,但仍然是一個極為龐大的數(shù)字。
如果將整個網(wǎng)絡(luò)空間比作一個無垠的圖書館,那么ChatGPT就像是位不知疲倦的讀者,他瀏覽過圖書館中的絕大多數(shù)書籍,對網(wǎng)絡(luò)上公開的教材、資料了如指掌。正是這種對海量數(shù)據(jù)的深度學習和理解,使得ChatGPT能夠在瞬間生成高質(zhì)量、富有洞察力的文章,為人類的知識獲取和交流提供了全新的可能。
國內(nèi)的LLM,如文心一言(文小言)等,學習數(shù)據(jù)的來源主要依托于百度多年的搜索引擎積累,學習的數(shù)據(jù)包括大規(guī)模的自然語言文本語料庫、多樣化的數(shù)據(jù)集等。這些數(shù)據(jù)源包括公開的文本數(shù)據(jù)集、專業(yè)的數(shù)據(jù)集、用戶生成的數(shù)據(jù)以及通過特定技術(shù)手段收集的數(shù)據(jù)等。這些數(shù)據(jù)為模型提供了豐富多樣的訓練素材,有助于提升模型的性能和泛化能力。
LLM通過深度學習提高精度
在探索LLM精確度提升的道路上,機器學習與強化學習已經(jīng)展現(xiàn)出了令人矚目的成效。這些顯著進步的背后,與深度學習領(lǐng)域的蓬勃發(fā)展緊密相連。深度學習,這一受到人腦工作機制啟發(fā)而誕生的技術(shù),成為我們理解LLM性能飛躍不可或缺的背景知識。簡而言之,正是深度學習的不斷演進,為機器學習與強化學習在提升LLM精確度上提供了強大的支撐與無限可能。
在機器學習的廣闊天地里,有一個專業(yè)術(shù)語叫作“特征量”,它就像是給數(shù)據(jù)打上的標簽,幫助機器理解和判斷。而深度學習,作為機器學習家族中的一位明星成員,有著獨特的魅力:它不需要人類事先設(shè)計好特征量,而是能夠自己學習并掌握這些關(guān)鍵信息,就像是一個聰明的學生,不需要預(yù)先培訓,就能在實踐中逐漸摸索出學習的門道。
說到深度學習的應(yīng)用,垃圾郵件檢測就是一個生動的例子(見圖2)。隨著電子郵件在日常生活中的普及,垃圾郵件也如影隨形,數(shù)量龐大,讓人頭疼。傳統(tǒng)的識別方法漸漸顯得力不從心,難以準確區(qū)分哪些是有用的信息,哪些是煩人的垃圾。這時候,深度學習就發(fā)揮了它的強項—強大的模式識別能力和自動特征提取能力,就像是一雙火眼金睛,能迅速準確地識別出垃圾郵件,讓我們的郵箱更加清爽整潔。深度學習不僅讓機器變得更加智能,也在我們的日常生活中發(fā)揮著越來越重要的作用,幫助我們更好地應(yīng)對各種挑戰(zhàn)。
圖2,垃圾郵件檢測是深度學習的一個重要應(yīng)用領(lǐng)域,但并非其唯一應(yīng)用。在實際應(yīng)用中,還需要結(jié)合其他技術(shù)和策略來提高檢測的準確性和效率
確實,深度學習的能力聽起來相當神奇,它確實能夠自動完成“貼標簽”這樣的任務(wù)。這背后的奧秘,在于深度學習借鑒了人腦的工作原理。我們的大腦里有著數(shù)不盡的神經(jīng)細胞,它們之間通過神經(jīng)突觸相互連接,傳遞信息,讓我們能夠思考、感知世界。深度學習正是受到這種結(jié)構(gòu)的啟發(fā),創(chuàng)造出了“神經(jīng)網(wǎng)絡(luò)”這一模型。這個模型就像是一個微型的電子大腦,它有著層層疊疊的結(jié)構(gòu),每一層都能捕捉到數(shù)據(jù)中的不同特征。當數(shù)據(jù)輸入到這個神經(jīng)網(wǎng)絡(luò)中時,它就像大腦一樣開始工作,自動地分析、學習,并給數(shù)據(jù)貼上正確的標簽。正因為模仿了人腦的結(jié)構(gòu),所以才能像人類一樣獨立進行判斷。圖3是神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),一個一個的圓圈相當于人腦中的細胞,連接細胞的線相當于神經(jīng)突觸。
圖3
神經(jīng)網(wǎng)絡(luò)模仿了人腦的構(gòu)造,在被稱為“中間層”的地方進行各種判斷。因其內(nèi)部工作無法展現(xiàn),也被稱為“隱藏層”,是一種所謂的“黑匣子”操作
深度學習,這一術(shù)語直觀地揭示了其核心理念—“深度”,意味著學習過程深入到了數(shù)據(jù)的多個層次。在這一框架下,自然語言等輸入信息首先被機器所理解并接納,隨后這些信息會穿越一系列中間處理層,也就是我們通常所說的隱藏層。以垃圾郵件識別為例,這些隱藏層負責分析輸入數(shù)據(jù),識別出是否蘊含垃圾郵件的特征,并將這一判斷結(jié)果傳遞到最終的輸出層。
觀察圖示,不難發(fā)現(xiàn),眾多類似人類腦細胞的節(jié)點構(gòu)成了這些中間層,它們緊密相連,協(xié)同工作,使得計算機能夠模擬出類似人類的思考與判斷過程。正是由于這種從輸入到輸出的多層次結(jié)構(gòu),深度學習才得名如此。
深度學習具備強大的綜合分析能力,能夠考慮多種因素,做出接近人類判斷的結(jié)論。然而,這并不意味著深度學習在所有情況下都是最優(yōu)選擇。實際應(yīng)用中,根據(jù)具體需求和場景,其他方法有時可能達到更高的精確度。因此,在選擇是否采用深度學習方法時,必須充分考慮實際目標和條件。
深度學習的中間層工作方式對于外界而言往往如同一個神秘的“黑匣子”(見圖4)。這些層級通過復雜的計算和數(shù)據(jù)處理,對輸入信息進行逐層分析和轉(zhuǎn)換,但具體是如何做出判斷并導出最終輸出的,這一過程并不直觀,也難以用簡單的語言完全解釋清楚。這確實成為將AI技術(shù)應(yīng)用于商業(yè)領(lǐng)域時的一個重要課題。
圖4 黑匣子特性使得深度學習的決策過程難以直觀理解和解釋。需要不斷探索和開發(fā)新的方法和技術(shù),以提高深度學習模型的解釋性和透明度
換句話說,深度學習在做出判斷時所依據(jù)的維度和邏輯,往往隱藏在大量的參數(shù)和算法之中,難以直接觀察和解釋。這種“黑匣子”特性,雖然賦予了深度學習強大的數(shù)據(jù)處理和模式識別能力,但同時也帶來了透明度和可解釋性方面的挑戰(zhàn)。因此,如何更好地理解和解釋深度學習的決策過程,是當前AI研究中的一個重要方向。
換句話說,深度學習在做出判斷時所依據(jù)的維度和邏輯,往往隱藏在大量的參數(shù)和算法之中,難以直接觀察和解釋。這種“黑匣子”特性,雖然賦予了深度學習強大的數(shù)據(jù)處理和模式識別能力,但同時也帶來了透明度和可解釋性方面的挑戰(zhàn)。因此,如何更好地理解和解釋深度學習的決策過程,是當前AI研究中的一個重要方向。
導入那些無法揭示其內(nèi)在邏輯與結(jié)構(gòu)的數(shù)據(jù)處理機制,確實伴隨著一定的風險,這一點構(gòu)成了眾多觀察者對“黑匣子”式AI系統(tǒng)普遍持有的疑慮核心。因此,近年來,一個新興領(lǐng)域—可解釋的人工智能(XAI)逐漸成為科研與應(yīng)用領(lǐng)域的焦點。XAI致力于使AI系統(tǒng)的決策過程變得透明且可理解,從而增強人類對AI決策的信任與接納(見圖)。
圖5 XAI的崛起推動技術(shù)范式從工具論轉(zhuǎn)向責任論,要求開發(fā)者通過可解釋邏輯主動擔責,打破算法黑箱的正確默認。這一轉(zhuǎn)型催生了“AI倫理師”新角色,專職開展算法合規(guī)性審查與公平性評估,體現(xiàn)技術(shù)治理向過程透明和價值對齊的深化
以電子郵件過濾為例,傳統(tǒng)的AI系統(tǒng)可能會自動將某些郵件標記為垃圾郵件,而用戶卻無從知曉這一判斷的依據(jù)。而在XAI的框架下,系統(tǒng)能夠具體展示那些導致郵件被判定為垃圾的關(guān)鍵詞匯或特征,使得決策過程一目了然。這種透明度的提升,對于消除“因為是AI的決定,所以就盲目接受”的心態(tài)至關(guān)重要,尤其在商業(yè)環(huán)境中,這種心態(tài)往往是不切實際的。當人類能夠理解和認同AI的決策邏輯時,不僅增強了AI技術(shù)的可信度,也極大地拓寬了其應(yīng)用范圍。更進一步,如果AI系統(tǒng)能夠提供詳盡的解釋,那么這些系統(tǒng)被創(chuàng)造性地應(yīng)用于更多場景的可能性便顯著增加,從而促進技術(shù)與社會經(jīng)濟的深度融合。然而,值得注意的是,追求可解釋性并非毫無代價。在實際應(yīng)用中,準確性與可解釋性之間往往存在微妙的平衡關(guān)系。商業(yè)決策者在部署AI系統(tǒng)時,必須根據(jù)具體目標和情境,審慎地權(quán)衡這兩者的重要性。在某些情況下,可能需要犧牲一定的可解釋性以換取更高的準確性;而在其他場景下,增強可解釋性則可能成為優(yōu)先考慮的因素,以確保決策過程的公正性、合規(guī)性及用戶的接受度。因此,如何在準確性與可解釋性之間找到最佳平衡點,是推動XAI發(fā)展、實現(xiàn)AI技術(shù)廣泛且負責任應(yīng)用的關(guān)鍵所在。
一本書搞定大語言模型!用趣味漫畫解析ChatGPT、DeepSeek等主流大模型的核心機制!
▊《大話大語言模型》,王符偉 曹宇
本書全面介紹大語言模型(Large Language Model,LLM)的前世今生、工作原理、應(yīng)用實踐及未來趨勢。
全書共4篇:基礎(chǔ)篇追溯了大語言模型的起源與興起,深度揭秘了其工作原理,并對當前現(xiàn)狀與研發(fā)競賽進行深入分析,同時展望了其未來發(fā)展前景。進階篇聚焦于模型規(guī)?;⑻崾竟こ?、思維鏈推理等關(guān)鍵技術(shù),詳細介紹了以ChatGPT為代表的大語言模型背后的技術(shù)原理,并探討問答系統(tǒng)在實際應(yīng)用中的落地實踐。高階篇深入剖析了Transformer架構(gòu)與預(yù)訓練模型的核心機制,探討微調(diào)技巧在提升模型性能中的作用,以及大語言模型在多領(lǐng)域的應(yīng)用實踐,同時構(gòu)建和完善了大語言模型的API生態(tài)體系。展望篇探討了大語言模型如何重塑互聯(lián)網(wǎng)格局,驅(qū)動各行業(yè)創(chuàng)新升級及其面臨的社會挑戰(zhàn)與應(yīng)對策略,展望了以DeepSeek為代表的大語言模型對未來技術(shù)發(fā)展與人們生活方式可能帶來的深遠變革。
撰 ?稿 ?人:楊健亭責任編輯: 李馨馨審 ?核 ?人:曹新宇