科學(xué)發(fā)展,有時(shí)理論先行,有時(shí)則工程先出成果。隨著大語言模型的成功,工程師們熱衷于尋找其數(shù)學(xué)根據(jù)。事實(shí)上,特立獨(dú)行的數(shù)學(xué)家所羅門諾夫(1926—2009)在20世紀(jì)60年代初期就為大模型奠定了數(shù)學(xué)基礎(chǔ)。如今,他的理論開始被重新發(fā)現(xiàn),并被期待能進(jìn)一步為未來指明方向。毫無疑問,所羅門諾夫可算是大語言模型的先知。
1956年,人工智能兩位先驅(qū)麥卡錫和明斯基在達(dá)特茅斯學(xué)院召開夏季研討會(huì),這標(biāo)志著AI作為一門獨(dú)立學(xué)科的建立。最認(rèn)真對(duì)待會(huì)議的就是所羅門諾夫,他在達(dá)特茅斯待了整整一個(gè)暑假。
位于美國新罕布什爾州漢諾威鎮(zhèn)的達(dá)特茅斯學(xué)院。
所羅門諾夫1947年進(jìn)入芝加哥大學(xué)隨費(fèi)米主修物理,只獲得碩士學(xué)位就離開象牙塔,開始了他半工半學(xué)、快樂但并不富貴的一生。在芝加哥求學(xué)期間,對(duì)他影響最大的是哲學(xué)家卡爾納普??柤{普的《概率的邏輯基礎(chǔ)》一書被所羅門諾夫深研,受其影響,歸納推理成為他畢生的研究方向。順便說一句,另一位AI開拓者司馬賀(中國科學(xué)院外籍院士、諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者)也聽過卡爾納普的數(shù)理邏輯課,從而萌生對(duì)機(jī)器定理證明的興趣。
1952年所羅門諾夫結(jié)識(shí)了麥卡錫,那時(shí)后者還是普林斯頓大學(xué)數(shù)學(xué)系的博士生。麥卡錫認(rèn)為所有數(shù)學(xué)問題都可以表達(dá)為圖靈機(jī)求逆,而這正是所羅門諾夫想解決的歸納推理問題。所羅門諾夫認(rèn)為麥卡錫的問題可以轉(zhuǎn)化成“給定一個(gè)序列的初始段,求這個(gè)序列的后續(xù)”,即通過為已知數(shù)據(jù)建模,預(yù)測(cè)未來數(shù)據(jù)。反過來,麥卡錫則把所羅門諾夫的思想通俗解釋為“假設(shè)發(fā)現(xiàn)一座老房子里有一臺(tái)計(jì)算機(jī)正打印你說的序列,并接近序列的末尾,馬上就要打印下一個(gè)字符,你敢打賭它會(huì)打印正確的字符嗎?”用今天ChatGPT的術(shù)語來說,這就是“預(yù)測(cè)下一個(gè)詞元”。
不久,所羅門諾夫又認(rèn)識(shí)了語言學(xué)家喬姆斯基,這是他后來把語言作為研究例子的起點(diǎn)。
法國數(shù)學(xué)家博雷爾1913年考慮過這樣一個(gè)問題:讓猴子在打字機(jī)上隨意敲字,能敲出《哈姆雷特》嗎?博雷爾認(rèn)為概率極小,但不是絕對(duì)不可能,這被稱為“無限猴子定理”。阿根廷作家博爾赫斯的短篇小說集《小徑分岔的花園》中收錄了一篇哲理小說“巴比倫圖書館”,文中設(shè)想一個(gè)完美的圖書館,可以收藏由字母枚舉產(chǎn)生的所有可能的書。這些思想實(shí)驗(yàn)都可以被看作是所羅門諾夫歸納法的特例。
達(dá)特茅斯會(huì)議結(jié)束前,所羅門諾夫?qū)懞靡黄P(guān)于歸納推理的備忘錄,給參會(huì)人員傳閱。明斯基2011年回憶:“正是這篇文章讓我從神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)向符號(hào)的思想”。但值得玩味的是,明斯基這一轉(zhuǎn)向使得神經(jīng)網(wǎng)絡(luò)的研究停滯了20年,而最終又是神經(jīng)網(wǎng)絡(luò)首先實(shí)現(xiàn)所羅門諾夫歸納法。所羅門諾夫經(jīng)過10年的深思熟慮,在1964年正式發(fā)表《歸納推理的形式理論》一文,奠定了60年后大語言模型的理論基礎(chǔ)。
20世紀(jì)50年代,蘇聯(lián)數(shù)學(xué)家柯爾莫格羅夫?qū)π畔⒄摵透怕收撚羞^深刻評(píng)價(jià):“信息論在邏輯上先于概率論,而不是以后者為基礎(chǔ)。”他認(rèn)為圖靈機(jī)比信息論更基礎(chǔ):一段信息所包含的信息量,可用最短生成這段信息的程序的長(zhǎng)度衡量。這就是所謂“柯爾莫格羅夫復(fù)雜性”,它和所羅門諾夫歸納法是等價(jià)的。柯爾莫格羅夫在文章中引用所羅門諾夫的理論,使得他在蘇聯(lián)的名聲比在西方更響亮??聽柲窳_夫的幾位學(xué)生設(shè)立柯爾莫格羅夫獎(jiǎng)?wù)?,第一屆獲獎(jiǎng)?wù)呔褪撬_門諾夫。
出生于阿根廷的猶太裔美國理論計(jì)算機(jī)科學(xué)家格里高里·蔡廷,只上了一年大學(xué)就輟學(xué)了。他19歲時(shí)獨(dú)立地把所羅門諾夫和柯爾莫格羅夫的思想又“發(fā)明”了一遍。他的論文審稿人已知道柯爾莫格羅夫的工作并告知蔡廷,于是,蔡廷在1966年發(fā)表論文時(shí),以腳注形式承認(rèn)了柯氏的工作。
所羅門諾夫、柯爾莫格羅夫和蔡廷等人發(fā)明算法信息論的過程,頗有點(diǎn)像上世紀(jì)30年代,哥德爾、丘奇和圖靈等人發(fā)現(xiàn)丘奇—圖靈論題的過程:每項(xiàng)獨(dú)立工作都是等價(jià)的。
時(shí)間到了2024年,理論計(jì)算機(jī)科學(xué)家李明獲得了有信息科技諾貝爾獎(jiǎng)之譽(yù)的麥克道爾獎(jiǎng),頒獎(jiǎng)辭中提到李明對(duì)所羅門諾夫—柯爾莫格羅夫—蔡廷理論的推廣。李明和另一位科學(xué)家維特涅合著的《柯爾莫格羅夫復(fù)雜性及其應(yīng)用》則被譽(yù)為該領(lǐng)域的《圣經(jīng)》。
大語言模型成功后,人們困惑為什么其底層架構(gòu)的發(fā)明者谷歌反而落后于OpenAI。一種解釋是谷歌的算法框架缺乏OpenAI框架所具備的堅(jiān)實(shí)數(shù)學(xué)基礎(chǔ),即所羅門諾夫歸納法。OpenAI首席科學(xué)家蘇茨凱弗之前對(duì)此含糊其辭,直到2023年才明確透露,所羅門諾夫—柯爾莫格羅夫—蔡廷理論正是其數(shù)學(xué)基礎(chǔ)。大語言模型重新激活了這一具有60年歷史的理論。值得一提的是,所羅門諾夫很早就意識(shí)到人工智能的安全問題,并提出“無限點(diǎn)”概念,該概念后被改稱為“奇點(diǎn)”。
20世紀(jì)60年代,美國軍方停止資助民間的獨(dú)立科研,所羅門諾夫被迫成立他自己的咨詢公司“牛橋”(牛津+劍橋的簡(jiǎn)稱)以獲取不多的政府研究經(jīng)費(fèi)維持生計(jì),公司只有他自己一個(gè)雇員。他的學(xué)術(shù)自傳《算法概率論的發(fā)現(xiàn)》歷經(jīng)修訂,最新一版在他去世后被收錄在為紀(jì)念他而設(shè)立的網(wǎng)站上。這樣一位人工智能歷史上最重要的科學(xué)家,一生都沒有固定工作,也沒有子嗣,但他很快樂。他的太太格蕾絲在悼念他的文章中說,認(rèn)識(shí)他的年輕人都認(rèn)為他是最快樂的長(zhǎng)輩。
所羅門諾夫還是學(xué)術(shù)共同體“通用人工智能”(AGI)的創(chuàng)始人之一,他2008年參加AGI第一次會(huì)議,2009年去世。2010年AGI會(huì)議就是為了紀(jì)念他,會(huì)上晚輩們研讀了他的最后一篇文章《算法概率論與AGI》。
回顧所羅門諾夫歸納法的發(fā)展過程,再來看大語言模型,我們會(huì)覺得也許不是理論落后于實(shí)踐,而是太超前了。
(作者單位:烏鎮(zhèn)智庫)
舉報(bào)郵箱:jubao@people.cn
違法和不良信息舉報(bào)電話:010-65363263
由《環(huán)球人物》雜志社有限公司主管、主辦
Copyright ? 2015-2024 globalpeople.com.cn.
版權(quán)所有:環(huán)球人物網(wǎng)