科學(xué)發(fā)展,有時(shí)理論先行,有時(shí)則工程先出成果。隨著大語(yǔ)言模型的成功,工程師們熱衷于尋找其數(shù)學(xué)根據(jù)。事實(shí)上,特立獨(dú)行的數(shù)學(xué)家所羅門(mén)諾夫(1926—2009)在20世紀(jì)60年代初期就為大模型奠定了數(shù)學(xué)基礎(chǔ)。如今,他的理論開(kāi)始被重新發(fā)現(xiàn),并被期待能進(jìn)一步為未來(lái)指明方向。毫無(wú)疑問(wèn),所羅門(mén)諾夫可算是大語(yǔ)言模型的先知。
1956年,人工智能兩位先驅(qū)麥卡錫和明斯基在達(dá)特茅斯學(xué)院召開(kāi)夏季研討會(huì),這標(biāo)志著AI作為一門(mén)獨(dú)立學(xué)科的建立。最認(rèn)真對(duì)待會(huì)議的就是所羅門(mén)諾夫,他在達(dá)特茅斯待了整整一個(gè)暑假。
位于美國(guó)新罕布什爾州漢諾威鎮(zhèn)的達(dá)特茅斯學(xué)院。
所羅門(mén)諾夫1947年進(jìn)入芝加哥大學(xué)隨費(fèi)米主修物理,只獲得碩士學(xué)位就離開(kāi)象牙塔,開(kāi)始了他半工半學(xué)、快樂(lè)但并不富貴的一生。在芝加哥求學(xué)期間,對(duì)他影響最大的是哲學(xué)家卡爾納普??柤{普的《概率的邏輯基礎(chǔ)》一書(shū)被所羅門(mén)諾夫深研,受其影響,歸納推理成為他畢生的研究方向。順便說(shuō)一句,另一位AI開(kāi)拓者司馬賀(中國(guó)科學(xué)院外籍院士、諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者)也聽(tīng)過(guò)卡爾納普的數(shù)理邏輯課,從而萌生對(duì)機(jī)器定理證明的興趣。
1952年所羅門(mén)諾夫結(jié)識(shí)了麥卡錫,那時(shí)后者還是普林斯頓大學(xué)數(shù)學(xué)系的博士生。麥卡錫認(rèn)為所有數(shù)學(xué)問(wèn)題都可以表達(dá)為圖靈機(jī)求逆,而這正是所羅門(mén)諾夫想解決的歸納推理問(wèn)題。所羅門(mén)諾夫認(rèn)為麥卡錫的問(wèn)題可以轉(zhuǎn)化成“給定一個(gè)序列的初始段,求這個(gè)序列的后續(xù)”,即通過(guò)為已知數(shù)據(jù)建模,預(yù)測(cè)未來(lái)數(shù)據(jù)。反過(guò)來(lái),麥卡錫則把所羅門(mén)諾夫的思想通俗解釋為“假設(shè)發(fā)現(xiàn)一座老房子里有一臺(tái)計(jì)算機(jī)正打印你說(shuō)的序列,并接近序列的末尾,馬上就要打印下一個(gè)字符,你敢打賭它會(huì)打印正確的字符嗎?”用今天ChatGPT的術(shù)語(yǔ)來(lái)說(shuō),這就是“預(yù)測(cè)下一個(gè)詞元”。
不久,所羅門(mén)諾夫又認(rèn)識(shí)了語(yǔ)言學(xué)家喬姆斯基,這是他后來(lái)把語(yǔ)言作為研究例子的起點(diǎn)。
法國(guó)數(shù)學(xué)家博雷爾1913年考慮過(guò)這樣一個(gè)問(wèn)題:讓猴子在打字機(jī)上隨意敲字,能敲出《哈姆雷特》嗎?博雷爾認(rèn)為概率極小,但不是絕對(duì)不可能,這被稱為“無(wú)限猴子定理”。阿根廷作家博爾赫斯的短篇小說(shuō)集《小徑分岔的花園》中收錄了一篇哲理小說(shuō)“巴比倫圖書(shū)館”,文中設(shè)想一個(gè)完美的圖書(shū)館,可以收藏由字母枚舉產(chǎn)生的所有可能的書(shū)。這些思想實(shí)驗(yàn)都可以被看作是所羅門(mén)諾夫歸納法的特例。
達(dá)特茅斯會(huì)議結(jié)束前,所羅門(mén)諾夫?qū)懞靡黄P(guān)于歸納推理的備忘錄,給參會(huì)人員傳閱。明斯基2011年回憶:“正是這篇文章讓我從神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)向符號(hào)的思想”。但值得玩味的是,明斯基這一轉(zhuǎn)向使得神經(jīng)網(wǎng)絡(luò)的研究停滯了20年,而最終又是神經(jīng)網(wǎng)絡(luò)首先實(shí)現(xiàn)所羅門(mén)諾夫歸納法。所羅門(mén)諾夫經(jīng)過(guò)10年的深思熟慮,在1964年正式發(fā)表《歸納推理的形式理論》一文,奠定了60年后大語(yǔ)言模型的理論基礎(chǔ)。
20世紀(jì)50年代,蘇聯(lián)數(shù)學(xué)家柯?tīng)柲窳_夫?qū)π畔⒄摵透怕收撚羞^(guò)深刻評(píng)價(jià):“信息論在邏輯上先于概率論,而不是以后者為基礎(chǔ)。”他認(rèn)為圖靈機(jī)比信息論更基礎(chǔ):一段信息所包含的信息量,可用最短生成這段信息的程序的長(zhǎng)度衡量。這就是所謂“柯?tīng)柲窳_夫復(fù)雜性”,它和所羅門(mén)諾夫歸納法是等價(jià)的???tīng)柲窳_夫在文章中引用所羅門(mén)諾夫的理論,使得他在蘇聯(lián)的名聲比在西方更響亮???tīng)柲窳_夫的幾位學(xué)生設(shè)立柯?tīng)柲窳_夫獎(jiǎng)?wù)?,第一屆獲獎(jiǎng)?wù)呔褪撬_門(mén)諾夫。
出生于阿根廷的猶太裔美國(guó)理論計(jì)算機(jī)科學(xué)家格里高里·蔡廷,只上了一年大學(xué)就輟學(xué)了。他19歲時(shí)獨(dú)立地把所羅門(mén)諾夫和柯?tīng)柲窳_夫的思想又“發(fā)明”了一遍。他的論文審稿人已知道柯?tīng)柲窳_夫的工作并告知蔡廷,于是,蔡廷在1966年發(fā)表論文時(shí),以腳注形式承認(rèn)了柯氏的工作。
所羅門(mén)諾夫、柯?tīng)柲窳_夫和蔡廷等人發(fā)明算法信息論的過(guò)程,頗有點(diǎn)像上世紀(jì)30年代,哥德?tīng)?、丘奇和圖靈等人發(fā)現(xiàn)丘奇—圖靈論題的過(guò)程:每項(xiàng)獨(dú)立工作都是等價(jià)的。
時(shí)間到了2024年,理論計(jì)算機(jī)科學(xué)家李明獲得了有信息科技諾貝爾獎(jiǎng)之譽(yù)的麥克道爾獎(jiǎng),頒獎(jiǎng)辭中提到李明對(duì)所羅門(mén)諾夫—柯?tīng)柲窳_夫—蔡廷理論的推廣。李明和另一位科學(xué)家維特涅合著的《柯?tīng)柲窳_夫復(fù)雜性及其應(yīng)用》則被譽(yù)為該領(lǐng)域的《圣經(jīng)》。
大語(yǔ)言模型成功后,人們困惑為什么其底層架構(gòu)的發(fā)明者谷歌反而落后于OpenAI。一種解釋是谷歌的算法框架缺乏OpenAI框架所具備的堅(jiān)實(shí)數(shù)學(xué)基礎(chǔ),即所羅門(mén)諾夫歸納法。OpenAI首席科學(xué)家蘇茨凱弗之前對(duì)此含糊其辭,直到2023年才明確透露,所羅門(mén)諾夫—柯?tīng)柲窳_夫—蔡廷理論正是其數(shù)學(xué)基礎(chǔ)。大語(yǔ)言模型重新激活了這一具有60年歷史的理論。值得一提的是,所羅門(mén)諾夫很早就意識(shí)到人工智能的安全問(wèn)題,并提出“無(wú)限點(diǎn)”概念,該概念后被改稱為“奇點(diǎn)”。
20世紀(jì)60年代,美國(guó)軍方停止資助民間的獨(dú)立科研,所羅門(mén)諾夫被迫成立他自己的咨詢公司“牛橋”(牛津+劍橋的簡(jiǎn)稱)以獲取不多的政府研究經(jīng)費(fèi)維持生計(jì),公司只有他自己一個(gè)雇員。他的學(xué)術(shù)自傳《算法概率論的發(fā)現(xiàn)》歷經(jīng)修訂,最新一版在他去世后被收錄在為紀(jì)念他而設(shè)立的網(wǎng)站上。這樣一位人工智能歷史上最重要的科學(xué)家,一生都沒(méi)有固定工作,也沒(méi)有子嗣,但他很快樂(lè)。他的太太格蕾絲在悼念他的文章中說(shuō),認(rèn)識(shí)他的年輕人都認(rèn)為他是最快樂(lè)的長(zhǎng)輩。
所羅門(mén)諾夫還是學(xué)術(shù)共同體“通用人工智能”(AGI)的創(chuàng)始人之一,他2008年參加AGI第一次會(huì)議,2009年去世。2010年AGI會(huì)議就是為了紀(jì)念他,會(huì)上晚輩們研讀了他的最后一篇文章《算法概率論與AGI》。
回顧所羅門(mén)諾夫歸納法的發(fā)展過(guò)程,再來(lái)看大語(yǔ)言模型,我們會(huì)覺(jué)得也許不是理論落后于實(shí)踐,而是太超前了。
(作者單位:烏鎮(zhèn)智庫(kù))
舉報(bào)郵箱:jubao@people.cn
違法和不良信息舉報(bào)電話:010-65363263
由《環(huán)球人物》雜志社有限公司主管、主辦
Copyright ? 2015-2024 globalpeople.com.cn.
版權(quán)所有:環(huán)球人物網(wǎng)