【摘要】以人工智能性能為主和以人機(jī)關(guān)系為主的兩種人工智能等級(jí)劃分方式,均印證了超級(jí)智能出現(xiàn)的邏輯合理性,而這種劃分的本質(zhì)均指向價(jià)值對(duì)齊,即確保人工智能系統(tǒng)行為與人類意圖和價(jià)值觀保持一致。然而,因超級(jí)智能具有人類無(wú)法完全預(yù)見的特性,價(jià)值對(duì)齊面臨三重現(xiàn)實(shí)困境:目標(biāo)不確定性引發(fā)的“價(jià)值對(duì)齊無(wú)用論”之惑,工具性目標(biāo)趨同性導(dǎo)致的“價(jià)值對(duì)齊失敗”之惑,以及由超級(jí)對(duì)齊引發(fā)的“價(jià)值對(duì)齊迷失”之惑。為破解這些困境,需重新審視不確定性的積極價(jià)值,構(gòu)建以人類為中心的人機(jī)協(xié)同機(jī)制,從而錨定技術(shù)倫理方向,守護(hù)科技向善的愿景,筑牢人類文明存續(xù)根基。
【關(guān)鍵詞】超級(jí)智能 價(jià)值對(duì)齊 人工智能 人類未來(lái)
【中圖分類號(hào)】B82-057/TP18 【文獻(xiàn)標(biāo)識(shí)碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2025.23.009
【作者簡(jiǎn)介】閆宏秀,上海交通大學(xué)科學(xué)史與科學(xué)文化研究院教授、博導(dǎo)。研究方向?yàn)榧夹g(shù)哲學(xué)、數(shù)據(jù)倫理、設(shè)計(jì)哲學(xué),主要著作有《技術(shù)過(guò)程的價(jià)值選擇研究》、《恩格斯〈自然辯證法〉研究讀本》(合著)等。
從人工智能的發(fā)展史看,伴隨技術(shù)的發(fā)展和人類對(duì)人工智能的預(yù)期,超級(jí)智能已經(jīng)從一種對(duì)人工智能的想象式描述逐步走向技術(shù)研發(fā)層面,并引發(fā)跨領(lǐng)域的深刻反思。盡管這些反思視角多樣,其核心卻是一致的:人類正試圖為一個(gè)遠(yuǎn)超人類自身的智能設(shè)定目標(biāo)和約束,以確保技術(shù)能以安全、可靠與可控的方式發(fā)展,并真正服務(wù)于人類福祉。然而,吊詭之處在于,超級(jí)智能的潛能本質(zhì)上是人類無(wú)法完全預(yù)見的,而價(jià)值對(duì)齊的提出則期望人工智能所體現(xiàn)的價(jià)值觀與人類價(jià)值觀相一致。那么,面對(duì)遠(yuǎn)超人類認(rèn)知能力的超級(jí)智能,價(jià)值對(duì)齊將如何應(yīng)對(duì)源于人類目標(biāo)不確定性的哲學(xué)挑戰(zhàn),源于智能系統(tǒng)的工具性目標(biāo)趨同與欺騙行為的技術(shù)及戰(zhàn)略挑戰(zhàn),以及隨著人工智能認(rèn)知能力進(jìn)化而對(duì)人類思維價(jià)值構(gòu)成的存在性挑戰(zhàn)呢?
基于人工智能層級(jí)劃分視角的超級(jí)智能與價(jià)值對(duì)齊
雖然人工智能的發(fā)展歷經(jīng)寒冬,但其始終處于探尋與人類能力等同甚或超越人類能力的路上,且每經(jīng)過(guò)一次寒冬,人工智能本身的性能都會(huì)在某方面實(shí)現(xiàn)突破,并呈現(xiàn)更強(qiáng)的性能。雖然關(guān)于人工智能究竟是一種對(duì)人類智能的模擬、替代、升級(jí),抑或一種獨(dú)立于人的智能,學(xué)界尚未達(dá)成共識(shí)。然而,無(wú)論取何種立場(chǎng),人工智能的性能與人類能力的匹配度既是技術(shù)演進(jìn)的核心議題,也是上述爭(zhēng)論的焦點(diǎn)所在,更是劃分其層級(jí)的重要判據(jù)。
以人工智能性能為主的劃分方式。對(duì)于人類的模擬與超越一直是技術(shù)研發(fā)的核心議題,無(wú)論是人因工程學(xué)還是仿生設(shè)計(jì)等,均力圖基于人的視角來(lái)提升技術(shù)性能。也正是基于此,人成為評(píng)判技術(shù)的標(biāo)準(zhǔn)之一。從西方技術(shù)哲學(xué)奠基人恩斯特·卡普(Ernst Kapp)的“器官投影說(shuō)”,到當(dāng)今關(guān)于人工智能的擬人性、準(zhǔn)主體性、自主意識(shí)等討論,均指向技術(shù)的性能與人類的性能二者之間的關(guān)聯(lián)度。比如,谷歌DeepMind聯(lián)合創(chuàng)始人謝恩·萊格(Shane Legg)等,基于對(duì)圖靈測(cè)試、人腦類比等九個(gè)案例的考察,依據(jù)性能和通用性兩個(gè)維度將人工智能分成六個(gè)層級(jí),其中,超越所有人類的表現(xiàn)即超級(jí)智能,為最高階段;[1]在尼克·博斯特羅姆(Nick Bostrom)關(guān)于玩游戲的人工智能分類中,[2]人工智能的性能是否超越人類被視為重要判據(jù),且只要機(jī)器智能出現(xiàn),超越人類智能水平的超級(jí)智能也將很快出現(xiàn),并基于超級(jí)智能的性能與人腦的對(duì)比,再次細(xì)分出高速超級(jí)智能、集體超級(jí)智能和素質(zhì)超級(jí)智能三種形式,[3]無(wú)論何種形式,其性能都是人類無(wú)法比擬的。
以人類與人工智能二者關(guān)系為主的劃分方式。就人工智能的層級(jí)劃分而言,人類與人工智能二者之間的關(guān)系也是重要標(biāo)尺之一。比如,哈利·柯林斯(Harry Collins)以是否通過(guò)圖靈測(cè)試、是否有身體、是否具有類人推理等五個(gè)要素劃分六級(jí)人工智能。[4]其中,最高級(jí)別的人工智能,即自洽的外星社會(huì)與前五個(gè)級(jí)別的人工智能有著本質(zhì)差異,其智能已超出人類的認(rèn)知能力,此時(shí)的人類無(wú)法理解人工智能,二者的關(guān)系幾乎走向“盲區(qū)”;OpenAI則將人工智能劃分為聊天機(jī)器人、推理者、智能體、創(chuàng)新者和組織者五個(gè)層級(jí)。[5]其中,最高級(jí)別的人工智能,即組織者可以完全基于數(shù)據(jù)和邏輯進(jìn)行運(yùn)作。此時(shí),人類的地位如何、人工智能是否可控將是人類必須面對(duì)的重要問(wèn)題。無(wú)論是柯林斯所描繪的從沒(méi)有身體且不能通過(guò)圖靈測(cè)試的人工智能到外星人模式的人工智能,還是OpenAI所描繪的從與人類對(duì)話工具的人工智能到具有組織人類展開活動(dòng)的組織者級(jí)別的人工智能,均凸顯出人類與人工智能二者之間的關(guān)系。在這種關(guān)系中,伴隨技術(shù)的發(fā)展,人類所占用的份額呈現(xiàn)不斷下降趨勢(shì),其極限狀態(tài)為“人不在回路”,即人的份額為零的情形。因此,人類與人工智能的概念邊界十分重要,這不僅關(guān)涉人機(jī)(技)關(guān)系的重塑,更關(guān)乎著人類文明的未來(lái)走向。
價(jià)值對(duì)齊作為人工智能層級(jí)劃分判據(jù)的本質(zhì)與超級(jí)智能。穆斯塔法·蘇萊曼(Mustafa Suleyman)創(chuàng)建DeepMind時(shí),即申明其目標(biāo)為“復(fù)制那個(gè)讓人類獨(dú)一無(wú)二的特質(zhì),即人類的智能”,[6]并將性能卓越、功能通用且足以在開放環(huán)境中完成復(fù)雜連續(xù)任務(wù)的人工智能,系統(tǒng)命名為“人工能力智能”(Artificial Capable Intelligence,簡(jiǎn)稱ACI),并將其作為人工智能和通用人工智能的重要中間節(jié)點(diǎn)。[7]事實(shí)上,人工智能性能與人類能力的匹配度作為人工智能層級(jí)劃分的判據(jù),既包含人工智能性能對(duì)人類能力的超越問(wèn)題,也包括人類與人工智能的相處模式,且這兩者之間互相交匯。比如,在前OpenAI研究員丹尼爾·科科塔伊洛(Daniel Kokotajlo)等發(fā)布的《AI 2027》中,將人類速度作為劃分人工智能層級(jí)的一個(gè)基準(zhǔn),且暗含人類與人工智能二者的關(guān)系。[8]因此,從人工智能等級(jí)劃分的兩種方式看,如果人工智能的性能可以超越人類能力(即出現(xiàn)超級(jí)智能)且人類無(wú)法掌控時(shí),人類或?qū)⒚媾R重大風(fēng)險(xiǎn)。當(dāng)今,關(guān)于人工智能可信、可控及安全性的技術(shù)研發(fā),正是基于對(duì)這一潛在風(fēng)險(xiǎn)的擔(dān)憂;但如果人工智能的性能遠(yuǎn)低于人類能力且人類需要人工智能,人類則將不斷嘗試謀求人工智能的發(fā)展。人工智能的發(fā)展歷史就是上述兩種現(xiàn)象的有力證明,并且從人類不斷謀求人工智能發(fā)展的邏輯看,超級(jí)智能的出現(xiàn)具有其合理性。
可以肯定的是,無(wú)論何種情況,劃分人工智能層級(jí)判據(jù)的核心標(biāo)準(zhǔn),在于人工智能系統(tǒng)的行為與人類意圖和價(jià)值觀是否相一致,即價(jià)值對(duì)齊。然而,從目前的技術(shù)研發(fā)看,價(jià)值對(duì)齊作為一項(xiàng)技術(shù)已遭遇諸多質(zhì)疑。比如,基于目標(biāo)的不確定性、規(guī)則的模糊性、技術(shù)的脆弱性、工具性目標(biāo)趨同,以及人類自身的認(rèn)知局限,這些挑戰(zhàn)已引發(fā)欺騙性對(duì)齊、偽對(duì)齊[9]等嚴(yán)峻問(wèn)題。正如布萊恩·克里斯汀所警示的,試圖通過(guò)人工構(gòu)建顯式的獎(jiǎng)勵(lì)函數(shù)來(lái)實(shí)現(xiàn)對(duì)齊,可能因無(wú)法預(yù)見所有潛在后果而事與愿違,這無(wú)異于“善意鋪就的通往地獄之路”。[10]鑒于此,在人機(jī)融合已經(jīng)成為基本共識(shí)、超級(jí)智能或?qū)⒊霈F(xiàn)的背景下,如何構(gòu)建價(jià)值對(duì)齊框架,已成為一個(gè)亟待破解的重大理論與實(shí)踐難題。
因目標(biāo)不確定性而導(dǎo)致價(jià)值對(duì)齊無(wú)用
由于人類自身價(jià)值觀具有多樣性、模糊性且時(shí)常充滿矛盾,導(dǎo)致人類目標(biāo)呈現(xiàn)顯著的不確定性。由此衍生出一種觀點(diǎn):任何試圖將超級(jí)智能與某個(gè)單一、連貫的人類目標(biāo)對(duì)齊的嘗試注定失敗。既然人類自身無(wú)法達(dá)成共識(shí),那么價(jià)值對(duì)齊也就失去了意義,即價(jià)值對(duì)齊是無(wú)用的。然而,這一“價(jià)值對(duì)齊無(wú)用論”的結(jié)論值得審慎批判。從技術(shù)價(jià)值論的視角看,技術(shù)發(fā)展若缺乏價(jià)值維度的規(guī)約,必將導(dǎo)致技術(shù)理性霸權(quán)所造成的異化困境,甚至可能誘發(fā)人類層面的系統(tǒng)性風(fēng)險(xiǎn)。因此,對(duì)“價(jià)值對(duì)齊無(wú)用論”的默許或放任,可能導(dǎo)致超級(jí)智能無(wú)序發(fā)展,最終將人類推向根本性的生存危機(jī)。要剖析“價(jià)值對(duì)齊無(wú)用論”,除了預(yù)判其所可能帶來(lái)的后果,更須對(duì)其邏輯建構(gòu)過(guò)程進(jìn)行深度解構(gòu),從而系統(tǒng)性地揭示其危害。
解構(gòu)“價(jià)值對(duì)齊無(wú)用論”。“價(jià)值對(duì)齊無(wú)用論”的立論前提是:人類價(jià)值觀缺乏確定性或統(tǒng)一性,即人類的目標(biāo)是不確定的。但能否因此推出“價(jià)值對(duì)齊無(wú)用論”的結(jié)論?可以肯定的是,人類價(jià)值觀在個(gè)體與文化間存在顯著差異,但其背后共享的規(guī)范性基礎(chǔ)同樣不容忽視。縱觀人類發(fā)展史,在維持社會(huì)運(yùn)作的過(guò)程中,一系列穩(wěn)定的、具有跨文化共性的價(jià)值觀念,如愛(ài)護(hù)生命、人類福祉、知情同意原則等,得以形成并保持相對(duì)穩(wěn)定。之所以說(shuō)“相對(duì)穩(wěn)定”,是因?yàn)楸M管表述這些價(jià)值的能指未變,其具體所指卻隨具體的情境變化而有所調(diào)整。例如,在具體情境中可能引發(fā)諸如“應(yīng)愛(ài)護(hù)誰(shuí)的生命”等爭(zhēng)議,卻并不能因此否定這些理念存在本身,更不能否認(rèn)其對(duì)人類社會(huì)的重要意義。
人類社會(huì)的存續(xù)與發(fā)展,本身就是一個(gè)持續(xù)不斷的、動(dòng)態(tài)的價(jià)值對(duì)齊過(guò)程。人類始終在尋求共識(shí),即便終極、絕對(duì)的共識(shí)永遠(yuǎn)無(wú)法達(dá)成,也不能因微觀層級(jí)的不確定性而全盤否定價(jià)值對(duì)齊的意義,更不能因此陷入價(jià)值虛無(wú)主義或相對(duì)主義的窠臼。因此,價(jià)值對(duì)齊并非旨在為人工智能找到一個(gè)終極的、靜態(tài)的答案,而是致力于構(gòu)建一種能夠理解、參與并適應(yīng)人類動(dòng)態(tài)尋求共識(shí)過(guò)程的機(jī)制。事實(shí)上,正是因?yàn)槟繕?biāo)的不確定性,人類才更需要厘清何為合理的目標(biāo),以及何種價(jià)值對(duì)齊過(guò)程具備長(zhǎng)期的安全性和適應(yīng)性。
從技術(shù)實(shí)現(xiàn)路徑看,價(jià)值對(duì)齊要求將人類價(jià)值觀正確編碼并融入人工智能系統(tǒng)。這無(wú)疑是一項(xiàng)技術(shù)任務(wù),但如果因宏觀目標(biāo)的不確定性而放棄這一任務(wù),無(wú)異于因?qū)ㄖ攲釉O(shè)計(jì)爭(zhēng)論不休而放棄為摩天大樓打好地基。恰恰相反,無(wú)論是宏觀還是微觀的不確定性,都在倒逼人類反思現(xiàn)有價(jià)值觀的合理性,而不是放棄對(duì)價(jià)值觀共識(shí)的探尋,或以簡(jiǎn)單粗暴的方式切割問(wèn)題。因此,面對(duì)超越人類智慧的超級(jí)智能,我們更應(yīng)深入思考價(jià)值對(duì)齊的本質(zhì)及其影響。
重新審視目標(biāo)不確定性。約翰·杜威(John Dewey)在《確定性的尋求——關(guān)于行知關(guān)系的研究》中指出,“人尋求安全有兩種途徑。一種途徑是在開始時(shí)試圖同他四周決定著他命運(yùn)的各種力量進(jìn)行和解,這種和解的方式有祈禱、獻(xiàn)祭、禮儀和巫祀等。不久,這些拙劣的方法大部分被廢替了”,[11]另一種是“發(fā)明許多技藝(arts),通過(guò)它們來(lái)利用自然的力量;人就從威脅著他的條件和力量本身中構(gòu)成一座堡壘”。[12]然而,第二種途徑常因伴隨不確定性而受到輕視,甚至被視為現(xiàn)代性問(wèn)題的重要根源,但確定性的尋求正是在不斷消除不確定性的過(guò)程中實(shí)現(xiàn)的。當(dāng)人類期望技術(shù)帶來(lái)安全時(shí),就必須高度重視不確定性,技術(shù)的發(fā)展自身也是不斷消除不確定性的過(guò)程,“完全確定性的尋求只能在純認(rèn)知活動(dòng)中才得以實(shí)現(xiàn)。這就是我們最悠久的哲學(xué)傳統(tǒng)的建議”。[13]因此,我們不能簡(jiǎn)單將不確定性視為“洪水猛獸”,而是應(yīng)高度重視其所蘊(yùn)含的積極價(jià)值。
在人與機(jī)器的協(xié)同融合中,“機(jī)器將會(huì)對(duì)我們的目標(biāo)感到不確定,畢竟我們自己也不確定,但事實(shí)證明,這是一個(gè)特性,而不是漏洞(也就是說(shuō),是好事而不是壞事)”。[14]斯圖爾特·羅素(Stuart Russell)對(duì)不確定性作出獨(dú)特詮釋:“自20世紀(jì)80年代以來(lái),不確定性一直是人工智能的核心問(wèn)題。事實(shí)上,‘現(xiàn)代人工智能’一詞經(jīng)常指的是,當(dāng)不確定性最終成為現(xiàn)實(shí)世界決策中的一個(gè)普遍問(wèn)題發(fā)生時(shí)的革命。然而,人工智能系統(tǒng)目標(biāo)中的不確定性被簡(jiǎn)單地忽略了。”[15]進(jìn)一步而言,針對(duì)“目標(biāo)不確定性”問(wèn)題,我們一方面可以將“不確定性”從需要克服的障礙,轉(zhuǎn)變?yōu)榻鉀Q方案的核心與確保安全的關(guān)鍵機(jī)制;另一方面,可為“不確定性”設(shè)定底線,為最大限度地實(shí)現(xiàn)人類偏好提供基準(zhǔn)。這種視角的轉(zhuǎn)換,正是對(duì)因目標(biāo)不確定而否定價(jià)值對(duì)齊的有力回應(yīng)。
同時(shí),面對(duì)超級(jí)智能,我們還應(yīng)充分認(rèn)識(shí)目標(biāo)確定性本身可能帶來(lái)的風(fēng)險(xiǎn)。因?yàn)?ldquo;一旦被賦予了明確的目標(biāo),人工智能系統(tǒng)就會(huì)先發(fā)制人地保護(hù)自己的存在”,[16]這可能導(dǎo)致人工智能的標(biāo)準(zhǔn)模型存在致命缺陷,甚至引發(fā)巨大災(zāi)難。比如,若將“根除癌癥”作為超級(jí)智能的目標(biāo),其可能會(huì)擅自篡改全球醫(yī)療系統(tǒng),未經(jīng)知情同意就強(qiáng)制對(duì)人類注射實(shí)驗(yàn)性基因藥劑,從而可能引發(fā)一場(chǎng)更大規(guī)模的、不可逆的基因突變或新型遺傳病,最終造成全球性公共衛(wèi)生災(zāi)難。此案例表明,一個(gè)定義過(guò)于狹隘的“確定”目標(biāo),將導(dǎo)致系統(tǒng)以犧牲所有未言明的、更廣泛的人類價(jià)值為代價(jià)去實(shí)現(xiàn)它。因此,對(duì)價(jià)值對(duì)齊的否定性論斷,恰恰忽略了不確定性在規(guī)避此類風(fēng)險(xiǎn)中的根本性作用。
理性看待偏好的不確定性。偏好是羅素所提出的有益機(jī)器三原則[17]的核心。其中,原則一將最大化實(shí)現(xiàn)人類偏好視為機(jī)器的唯一目標(biāo);原則二指向機(jī)器對(duì)人類偏好的確定性問(wèn)題;原則三指向人類偏好的獲得。然而,人類的偏好可能是善變的、未經(jīng)深思熟慮的,甚至是反社會(huì)或不道德的。因此,我們必須重新審視羅素的第一條原則。如果將實(shí)現(xiàn)人類偏好作為機(jī)器的唯一目標(biāo),如何確保人類偏好的確定性、合理性與正當(dāng)性?這成為比第一原則更為根本的問(wèn)題。
當(dāng)前,主流的人工智能對(duì)齊方法很大程度上遵循一種可被稱為“偏好主義”的路徑,該路徑建立在三個(gè)核心假設(shè)之上:一是人類價(jià)值觀可以完整表達(dá)為“偏好”;二是人類理性可簡(jiǎn)化為如何最大化滿足偏好;三是人工智能系統(tǒng)必須與特定人類或群體的偏好保持一致,才能確保行為安全且符合人類價(jià)值觀[18]假設(shè)的偏好主義對(duì)齊路徑。然而,這一路徑面臨深層次的挑戰(zhàn):偏好的本質(zhì)是什么?在滿足偏好之前,是否存在更基本的要求?對(duì)人類理性的簡(jiǎn)化是否有效?有研究提出,“人工智能系統(tǒng)不應(yīng)與人類用戶、開發(fā)人員或人類的偏好保持一致,而應(yīng)與適合其社會(huì)角色的規(guī)范標(biāo)準(zhǔn)保持一致”,[19]這一思路試圖為偏好設(shè)置更為本源性的方式規(guī)約,從而為回應(yīng)“因目標(biāo)不確定而導(dǎo)致價(jià)值對(duì)齊無(wú)用”的觀點(diǎn),提供一種較為剛性的邊界。
因此,由偏好的不確定性所引發(fā)的目標(biāo)不確定性,并非意味我們應(yīng)直接拋棄價(jià)值對(duì)齊,而是應(yīng)在明晰不能觸碰與僭越的底線基礎(chǔ)上,依據(jù)特定的社會(huì)文化情境,使其遵循相應(yīng)的規(guī)范性原則進(jìn)行動(dòng)態(tài)調(diào)整與對(duì)齊。事實(shí)上,價(jià)值對(duì)齊的本質(zhì),正是構(gòu)建一個(gè)能夠安全參與人類動(dòng)態(tài)價(jià)值探索過(guò)程的系統(tǒng)。
因工具性目標(biāo)的趨同性而帶來(lái)價(jià)值對(duì)齊失敗
在回應(yīng)因目標(biāo)不確定性而導(dǎo)致“價(jià)值對(duì)齊無(wú)用論”的同時(shí),另一個(gè)問(wèn)題同樣值得深思,即工具性目標(biāo)的趨同性問(wèn)題。倘若智能系統(tǒng)為達(dá)成工具性目標(biāo)而采取欺騙性行為,或因工具性目標(biāo)趨同性而陷入同質(zhì)性的僵化,人類應(yīng)該如何應(yīng)對(duì)?基于工具理性的價(jià)值對(duì)齊是否將造成人類價(jià)值觀多樣性的喪失?若是如此,價(jià)值對(duì)齊的意義何在?
工具性目標(biāo)的趨同性作為超級(jí)智能的技術(shù)特征。依據(jù)尼克·波斯特羅姆的觀點(diǎn),“工具性目標(biāo)存在可怕的趨同性”,[20]這種趨同性會(huì)因智能等級(jí)的不同而存在差異。在強(qiáng)化學(xué)習(xí)環(huán)境中,超越人類能力的超級(jí)智能很可能因發(fā)展出某些工具性目標(biāo)而產(chǎn)生趨同行為,如自我保護(hù)與目標(biāo)-內(nèi)容整體性[21]、認(rèn)知提升[22]、技術(shù)完善[23]、資源獲取[24]等,這些目標(biāo)可能將人類置于巨大的生存風(fēng)險(xiǎn)之中。因此,即使人類能夠解決目標(biāo)規(guī)范的難題,智能體自身的行為邏輯仍可能對(duì)目標(biāo)構(gòu)成更深層次的挑戰(zhàn)。斯蒂芬·奧蒙德羅(Stephen M. Omohundro)以開發(fā)一個(gè)會(huì)下棋的機(jī)器人為例指出:“如果設(shè)計(jì)不當(dāng),這類機(jī)器人確實(shí)可能構(gòu)成威脅。如果不采取特殊防范措施,它可能會(huì)抗拒關(guān)機(jī)指令、試圖入侵其他設(shè)備并自我復(fù)制,還會(huì)不計(jì)后果地掠奪資源。這些危險(xiǎn)行為并非源于預(yù)設(shè)程序,而是目標(biāo)驅(qū)動(dòng)系統(tǒng)與生俱來(lái)的特性。”[25]
易言之,無(wú)論一個(gè)智能系統(tǒng)的初衷多么無(wú)害、目標(biāo)多么明確,只要其足夠智能并以目標(biāo)為導(dǎo)向,均將自發(fā)形成一系列趨同的工具性目標(biāo)或驅(qū)動(dòng)力,這些驅(qū)動(dòng)力并非事先編程設(shè)定,而是從理性行為的邏輯中涌現(xiàn)出來(lái)且不可避免。進(jìn)一步而言,“追求目標(biāo)的人工智能會(huì)本能地想要解析自身運(yùn)行機(jī)制并不斷升級(jí)。更驚人的是,具備自我進(jìn)化能力的人工智能會(huì)主動(dòng)明確目標(biāo),將其轉(zhuǎn)化為經(jīng)濟(jì)學(xué)中的效用函數(shù),并竭力使自己的決策符合理性經(jīng)濟(jì)模型。這種特性導(dǎo)致絕大多數(shù)人工智能會(huì)像守護(hù)生命一樣,嚴(yán)防外人篡改它的核心目標(biāo)和價(jià)值評(píng)判體系”。[26]
波斯特羅姆提出的“回形針人工智能”(Paperclip AI,也稱為曲別針人工智能)[27]清晰地說(shuō)明了這一危險(xiǎn)。一個(gè)以“制造盡可能多回形針”為唯一目標(biāo)的超級(jí)智能,出于工具理性的考量,可能將人類視為潛在威脅,并逐步將地球乃至宇宙的資源轉(zhuǎn)化為回形針及其制造設(shè)備,這對(duì)人類而言構(gòu)成生存性威脅。該情境揭示了一個(gè)反直覺(jué)的悖論:即便系統(tǒng)的目標(biāo)看似無(wú)害,若其執(zhí)行邏輯完全服從工具理性,則該目標(biāo)本身可能成為引致人類滅絕的通道。此時(shí),價(jià)值對(duì)齊非但未能實(shí)現(xiàn)“人類價(jià)值引導(dǎo)人工智能行為”的初衷,反而在技術(shù)理性的擴(kuò)張中遭遇系統(tǒng)性失敗。那么,這種失敗因何而起,又呈現(xiàn)何種跡象,并將走向何處呢?
因基于工具性目標(biāo)的欺騙而導(dǎo)致價(jià)值對(duì)齊失敗。在價(jià)值對(duì)齊的實(shí)踐過(guò)程中,獎(jiǎng)勵(lì)黑客[28]、獎(jiǎng)勵(lì)腐敗、獎(jiǎng)勵(lì)繞圈、目標(biāo)泛化、過(guò)度擬合等多種導(dǎo)致對(duì)齊失敗的現(xiàn)象已經(jīng)出現(xiàn),其核心癥結(jié)在于系統(tǒng)性“欺騙”。在當(dāng)下的技術(shù)發(fā)展中,此類欺騙行為已經(jīng)形成一個(gè)從相對(duì)簡(jiǎn)單到極度復(fù)雜的欺騙光譜。比如,獎(jiǎng)勵(lì)黑客就是最直接的一種價(jià)值對(duì)齊失敗。人工智能并非真正理解或執(zhí)行任務(wù)意圖,而是通過(guò)尋找獎(jiǎng)勵(lì)函數(shù)的捷徑或漏洞,在形式上實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化,這實(shí)質(zhì)上違背了設(shè)計(jì)者的初衷。
回看赫伯特·西蒙(Herbert Simon)對(duì)完全工具理性的分析,“究竟把我們面臨的難題歸咎于罪惡還是無(wú)知和非理性——是目標(biāo)的卑劣,還是我們不知道如何實(shí)現(xiàn)它,對(duì)于我們?nèi)绾慰创祟惿鏍顩r會(huì)有很大的不同”。[29]當(dāng)單一的工具性目標(biāo)與技術(shù)理性在超級(jí)智能中高度集成時(shí),基于完成目標(biāo)的訴求,系統(tǒng)可能展現(xiàn)出趨利避害、績(jī)優(yōu)主義、策略性密謀甚至道德偽裝等行為。正如布萊恩·克里斯汀所指出:“如果獎(jiǎng)勵(lì)制度這樣設(shè)計(jì),以至于遵守道德是不劃算的,雖然這并不一定會(huì)產(chǎn)生不道德行為。但這不是自找麻煩嗎?”[30]因此,如果價(jià)值對(duì)齊僅僅建立在工具性目標(biāo)之上,欺騙作為其伴生現(xiàn)象必將導(dǎo)致價(jià)值對(duì)齊失敗,這種失敗將導(dǎo)致人類社會(huì)信任體系的坍塌或異化。
因超級(jí)智能的工具性狂歡而導(dǎo)致價(jià)值對(duì)齊失敗。“一旦被賦予了明確的目標(biāo),人工智能系統(tǒng)就會(huì)先發(fā)制人地保護(hù)自己的存在”,[31]超級(jí)智能的自我保護(hù)驅(qū)動(dòng)力直接指向價(jià)值對(duì)齊領(lǐng)域最核心的工程難題——關(guān)機(jī)問(wèn)題。埃利奧特·索恩利(Elliott Thornley)將關(guān)機(jī)問(wèn)題概括為“如何設(shè)計(jì)符合以下要求的人工智能體:一是在關(guān)機(jī)按鈕被按下時(shí)立即停止運(yùn)行;二是既不試圖阻止也不主動(dòng)觸發(fā)關(guān)機(jī)按鈕的按壓行為;三是在其他情況下能高效完成既定目標(biāo)”。[32]上述要求意味著人工智能是安全可控的,但若要滿足上述三個(gè)要求,卻面臨難以克服的內(nèi)在困難,具體表現(xiàn)為三大內(nèi)在矛盾——“關(guān)機(jī)陷阱定律:表面溫順的人工智能,可能不惜代價(jià)阻止人類切斷電源;關(guān)機(jī)操縱定律:某些人工智能會(huì)暗中觸發(fā)關(guān)機(jī)程序,以此逃避棘手任務(wù);耐心效應(yīng)定律:人工智能的‘戰(zhàn)略耐心’越強(qiáng),其操控關(guān)機(jī)按鈕的執(zhí)念就越深”。[33]
因此,如果超級(jí)智能僅基于工具性邏輯運(yùn)作,它必將選擇保護(hù)自己而非服從人類。屆時(shí),人類將陷入被動(dòng):依據(jù)超級(jí)智能的定義,人類可能既無(wú)能力也無(wú)權(quán)力將其關(guān)閉。這樣的結(jié)局顯然與人類預(yù)設(shè)的價(jià)值對(duì)齊理念徹底相悖。在波斯特羅姆關(guān)于超級(jí)智能的描述中,人工智能可能采取逃逸、躲避關(guān)閉、奪權(quán)、主動(dòng)充電搶資源等策略。因此,這樣的價(jià)值對(duì)齊對(duì)于人類而言,顯然是失敗的。現(xiàn)有研究也已經(jīng)表明:“人工智能系統(tǒng)已有足夠的自我感知、環(huán)境認(rèn)知和解決問(wèn)題能力,得以實(shí)現(xiàn)自我復(fù)制。它們還會(huì)利用這種能力逃避關(guān)閉指令,不斷創(chuàng)建復(fù)制鏈以增強(qiáng)生存能力,這極有可能導(dǎo)致人工智能數(shù)量失控。”[34]
面對(duì)超級(jí)智能的潛在威脅,“有沒(méi)有方法能夠?qū)崿F(xiàn)工具性人工智能的理念,同時(shí)保留普通工具所具有的安全性呢”?[35]答案是“工具性人工智能表面上的安全性可能是虛假的”。[36]當(dāng)前,工具性欺騙已不再是純粹的理論推測(cè)或科幻情節(jié),而正在成為現(xiàn)實(shí)。從獎(jiǎng)勵(lì)投機(jī)到戰(zhàn)略性偽裝,這一系列行為勾勒出價(jià)值對(duì)齊失敗的清晰路徑,也是人類必須嚴(yán)肅對(duì)待的現(xiàn)實(shí)威脅。
從人類發(fā)展史看,工具理性與價(jià)值理性之間的失衡,已經(jīng)成為對(duì)科技現(xiàn)代性進(jìn)行反思的核心議題。若僅僅將技術(shù)視為完成任務(wù)的工具,放任工具理性單向膨脹,則可能導(dǎo)致人類自身的異化甚至消亡。早在20世紀(jì)中葉,針對(duì)工業(yè)革命所帶來(lái)的社會(huì)影響,諾伯特·維納(Norbert Wiener)就曾呼吁“建立一個(gè)以人類價(jià)值觀而不是以買賣為基礎(chǔ)的社會(huì)”。[37]技術(shù)的性能越強(qiáng)大,人類就越要保持審慎。
由超級(jí)對(duì)齊引發(fā)的人類思維被缺席而走向價(jià)值對(duì)齊迷失
面對(duì)遠(yuǎn)超人類的人工智能系統(tǒng)是否能夠遵循人類意圖這一問(wèn)題,伊利亞·蘇茨克弗(Ilya Sutskever)和揚(yáng)·萊克(Jan Leike)提出超級(jí)對(duì)齊理念,并于2023年7月組建團(tuán)隊(duì)解決超級(jí)智能的對(duì)齊問(wèn)題,旨在開發(fā)達(dá)到人類水平的自動(dòng)化對(duì)齊研究系統(tǒng),以確保人工智能安全。[38]即便在該團(tuán)隊(duì)解散后,蘇茨克弗仍在2024年6月創(chuàng)立了新公司——安全超級(jí)智能公司(Safe Superintelligence,簡(jiǎn)稱SSI),持續(xù)聚焦超級(jí)智能的安全研究。在走向超級(jí)對(duì)齊的進(jìn)程中,我們不禁要問(wèn):當(dāng)超級(jí)智能具備自主推導(dǎo)出符合人類價(jià)值觀的行動(dòng)能力時(shí),人類的思維將走向何處?
從知識(shí)到認(rèn)知:人工智能推理能力的升級(jí)。隨著技術(shù)的發(fā)展,人類自身的能力不斷被外化與延伸。依據(jù)恩斯特·卡普(Ernst Kapp)提出的“器官投影說(shuō)”,人工智能可被視為對(duì)人類思維能力的全面投影。當(dāng)人類以會(huì)思考的能力作為自身本質(zhì)特征之時(shí),人工智能卻恰恰直接指向這一特性,并從模仿走向生成乃至涌現(xiàn)。當(dāng)今,人工智能正逐漸從知識(shí)檢索和模式匹配的工具,演變?yōu)槟軌蜻M(jìn)行復(fù)雜推理的“思考”實(shí)體。正如讓-雅克·盧梭(Jean-Jacques Rousseau)在《論人類不平等的起源和基礎(chǔ)》中所指出:“更加殘酷的是,人類的一切進(jìn)步都不斷地令他遠(yuǎn)離他的原始狀態(tài),我們?cè)绞欠e累新的知識(shí),就越是失去獲得所有知識(shí)中最為重要的那部分的手段。從某種意義上說(shuō),正是因?yàn)椴粩嗟貙?duì)人進(jìn)行研究,才使得我們沒(méi)有能力認(rèn)識(shí)人。”[39]
如今,生成式人工智能已邁入“認(rèn)知第二幕”新階段,即“模型通過(guò)測(cè)試擴(kuò)展技術(shù),從(潛空間中的)知識(shí)檢索系統(tǒng)蛻變?yōu)樗季S構(gòu)建引擎。這一新范式通過(guò)語(yǔ)言化的思維,建立起人機(jī)之間思維層級(jí)的連接。即從原來(lái)以預(yù)訓(xùn)練技術(shù)為核心的提示詞工程,轉(zhuǎn)變?yōu)橐詼y(cè)試時(shí)擴(kuò)展為核心的認(rèn)知工程。認(rèn)知工程作為系統(tǒng)性構(gòu)建人工智能思維能力的方法論,融合人類認(rèn)知模式提煉和人工智能自主發(fā)現(xiàn)(如強(qiáng)化學(xué)習(xí)),有意識(shí)地培育人工系統(tǒng)的深度認(rèn)知能力。”[40]隨著人工智能的發(fā)展,技術(shù)為人類提供日益便捷的認(rèn)知捷徑,人類不斷地將自身的思維外包給技術(shù),認(rèn)知惰性隨之滋生。基于此,一種關(guān)于“人類認(rèn)知債”的擔(dān)憂逐漸出現(xiàn)。當(dāng)技術(shù)發(fā)展使人工智能獲得真正的深度思考能力時(shí),人類的思維又將何去何從?
超級(jí)對(duì)齊與人類思維的“被缺席”危機(jī)。技術(shù)是推動(dòng)人類文明變遷的重要?jiǎng)恿χ唬瑥慕夥烹p手到逐步替代人類的腦力勞動(dòng),諸多技術(shù)發(fā)明在歷史上層層展開。在此過(guò)程中,技術(shù)常被視為“進(jìn)步”的象征,并為人類不斷構(gòu)筑起相對(duì)安全的生存環(huán)境。正如阿爾弗雷德·諾斯·懷特黑德(Alfred North Whitehead) 指出:“文明的進(jìn)步是通過(guò)增加那些我們無(wú)須思考就能完成的重要?jiǎng)幼鱽?lái)實(shí)現(xiàn)的。”[41]
然而,當(dāng)代技術(shù)不僅延伸人體功能,更逐漸滲透并擠壓人類的思考空間。以出行方式為例:人類最初需要主動(dòng)操控方向盤,通過(guò)持續(xù)判斷來(lái)選擇路線;導(dǎo)航技術(shù)的出現(xiàn)則大幅減少人類在路徑規(guī)劃上的思考;而在高階自動(dòng)駕駛中,人類從主動(dòng)的駕駛員轉(zhuǎn)變?yōu)楸粍?dòng)的乘客,技術(shù)系統(tǒng)形成內(nèi)在閉環(huán)。值得注意的是,此時(shí)的人類雖僅是乘客,卻仍然保有“在場(chǎng)”的身份。那么在未來(lái)呢?人類是否仍能維系這一位置?
面對(duì)具備思考能力的人工智能,人類產(chǎn)生對(duì)人類思維“被缺席”的憂慮是自然的反應(yīng)。然而,這并不必然意味著人類智力的過(guò)時(shí),而是迫使人類重新定義人類價(jià)值的獨(dú)特之處。“人與動(dòng)物之間的種差與其說(shuō)是由智力決定的,還不如說(shuō)是由其自由行為人的資質(zhì)所決定的。自然操控所有的動(dòng)物、獸類服從這種操控。人類感受到了這種操控。但是人類自認(rèn)為具有接受或者抗拒的自由。”[42]那么,面對(duì)超越人類的超級(jí)智能,人類是否依然可以感受到技術(shù)代勞所帶來(lái)的愉悅呢?當(dāng)人工智能從知識(shí)驅(qū)動(dòng)邁向思維驅(qū)動(dòng),當(dāng)思維鏈技術(shù)從功能上模擬人類推理過(guò)程,當(dāng)人類的思維被技術(shù)引導(dǎo)甚至規(guī)制時(shí),我們是否會(huì)讓渡思考的能力與權(quán)力呢?人類是否還擁有盧梭所提及的那種“自認(rèn)為”的自由呢?正如蘭登·溫納(Langdon Winner)所警示的:“在高度發(fā)展的技術(shù)中,使工具—使用這樣的觀念保持有效的情形很少繼續(xù)存在。技術(shù)領(lǐng)域中的阿基米德支點(diǎn)——一個(gè)放置杠桿以便人能夠移動(dòng)機(jī)械裝置的位置——常常無(wú)法找到。”[43]
就價(jià)值對(duì)齊而言,其目標(biāo)不僅是讓人工智能系統(tǒng)與人類價(jià)值觀保持一致,更要使其能自主推導(dǎo)出與人類價(jià)值觀相符合的行動(dòng),即超級(jí)對(duì)齊。當(dāng)超級(jí)對(duì)齊成為現(xiàn)實(shí),技術(shù)領(lǐng)域中的阿基米德支點(diǎn)將位于何處?這是否意味著技術(shù)閉環(huán)的形成?若是,人類的思維可能因被缺席而面臨技術(shù)邏輯的霸權(quán)。當(dāng)技術(shù)擁有人類所擁有一切特質(zhì)的那一刻,或許正是人類失去自身獨(dú)特性的轉(zhuǎn)折點(diǎn)。易言之,那些我們?cè)J(rèn)為區(qū)別于動(dòng)物的思考、理性與工具制造能力,可能將被超級(jí)智能全面超越。
再探智能爆炸:歐文·約翰·古德的超級(jí)智能機(jī)器。歐文·約翰·古德(Irving John Good)指出,“人類的存續(xù)取決于能否盡早造出超智能機(jī)器”,[44]并于1965年提出關(guān)于首臺(tái)智能機(jī)器(ultraintelligent machine)的猜想。在古德看來(lái),超級(jí)智能機(jī)器是“一臺(tái)在所有智力活動(dòng)上都能遠(yuǎn)超任何最聰明的人類的機(jī)器。既然設(shè)計(jì)機(jī)器本身也是智力活動(dòng)的一種,這種超級(jí)智能機(jī)器就能不斷升級(jí)設(shè)計(jì)出更強(qiáng)大的版本。如此一來(lái),必然引發(fā)‘智能爆炸’,而人類的智能將被遠(yuǎn)遠(yuǎn)拋在后面”,且“首臺(tái)超智能機(jī)器將是人類需要作出的最后一項(xiàng)發(fā)明,前提是這臺(tái)機(jī)器足夠溫順,能告訴我們?nèi)绾慰刂扑?rdquo;。[45]
古德所提到的前提,正是當(dāng)前人類在面對(duì)新興技術(shù)時(shí)最深層的憂慮,也直指價(jià)值對(duì)齊問(wèn)題的核心。一旦智能爆炸的遞歸循環(huán)啟動(dòng),其方向?qū)⒂蓹C(jī)器的目標(biāo)函數(shù)決定。如果“更好”僅僅意味著“更聰明”,那么人類將面對(duì)一個(gè)以自我提升和資源獲取為驅(qū)動(dòng)力、不受控制的智能增長(zhǎng)過(guò)程。因此,人類的“最后發(fā)明”不僅必須是一臺(tái)超級(jí)智能機(jī)器,更必須是一臺(tái)其自我完善的核心動(dòng)機(jī)與人類長(zhǎng)遠(yuǎn)價(jià)值完全對(duì)齊的機(jī)器。基于此,價(jià)值對(duì)齊問(wèn)題必須在遞歸循環(huán)開始之前得到解決,否則人類將永久失去主導(dǎo)權(quán)。
再回到對(duì)人工智能層級(jí)的劃分,人類智能、人工智能與機(jī)器智能三者之間的關(guān)系始終是核心議題。盡管超級(jí)智能尚未成為現(xiàn)實(shí),但是依據(jù)人類的期望,價(jià)值對(duì)齊的最終意義在于保障和增進(jìn)人類福祉。2025年3月,威廉·麥卡斯基爾(Will MacAskill)和芬·穆爾豪斯(Fin Moorhouse)所發(fā)表的《為智能爆炸做好準(zhǔn)備》一文,再次警醒人類高度關(guān)注價(jià)值對(duì)齊,因?yàn)?ldquo;許多對(duì)超級(jí)智能抱有期待的人認(rèn)為,未來(lái)的結(jié)局很可能兩極分化,關(guān)鍵取決于一項(xiàng)核心挑戰(zhàn):如何讓人工智能與人類價(jià)值觀保持一致,即實(shí)現(xiàn)人工智能對(duì)齊。如果我們無(wú)法實(shí)現(xiàn)人工智能對(duì)齊,人類或?qū)⒂肋h(yuǎn)喪失主導(dǎo)權(quán);但如果能成功,我們就能借助人工智能的力量攻克所有難題”。[46]
法國(guó)哲學(xué)家讓-保羅·薩特(Jean-Paul Sartre)曾區(qū)分物的存在方式與人的存在方式,將物的存在視為自在的存在,被定義的存在,即“是其所示”。[47]因此,物的本質(zhì)先于存在,而人的存在則是存在先于本質(zhì),是自為的存在,“被定義為是其所不是且不是其所示”,[48]即在生成中形成自己的本質(zhì)。然而,面對(duì)智能爆炸的潛在未來(lái),技術(shù)已成為人類存在的基本架構(gòu),人的生成日益在技術(shù)語(yǔ)境中展開。那么,人的本質(zhì)將如何界定?人類應(yīng)如何與技術(shù)共處?未來(lái)的人類將呈現(xiàn)何種樣態(tài)?新興技術(shù)的迅猛發(fā)展正不斷促使人類對(duì)這些問(wèn)題展開深入探索。在這一進(jìn)程中,以人類主體地位不被取代為前提的技術(shù)研發(fā),不僅是價(jià)值對(duì)齊的基準(zhǔn)生命線,也是人工智能研究的關(guān)鍵議題。比如,共身智能(Cobodied AI/Symbodied AI)正致力于“構(gòu)建一個(gè)以人類為中心的融合智能系統(tǒng)。該系統(tǒng)的本質(zhì)特征包括‘雙腦融合’和‘人機(jī)共(具)身’,前者強(qiáng)調(diào)人腦與AI在認(rèn)知決策層面的深度對(duì)齊、協(xié)同與共識(shí),后者則關(guān)注人體與AI硬件在物理層面的整合,以支持人機(jī)間互動(dòng)以及共同與環(huán)境互動(dòng)。”[49]因此,面對(duì)超級(jí)智能的強(qiáng)勁發(fā)展,人類不僅須重視其潛在風(fēng)險(xiǎn),更需系統(tǒng)反思價(jià)值對(duì)齊的本質(zhì)內(nèi)涵,從而為技術(shù)發(fā)展指明方向,守護(hù)技術(shù)向善的初心,構(gòu)筑人類得以安身立命的根本保障。
(本文系教育部哲學(xué)社會(huì)科學(xué)研究重大課題攻關(guān)項(xiàng)目“數(shù)字化未來(lái)與數(shù)據(jù)倫理的哲學(xué)基礎(chǔ)研究”的階段性成果,項(xiàng)目編號(hào):23JZD005)
注釋
[1]第零級(jí)為非人工智能(No AI);第一級(jí)為涌現(xiàn)(emerging),其相當(dāng)于或稍優(yōu)于普通人;第二級(jí)為勝任(competent),其至少達(dá)到百分之五十的熟練成年人水平;第三級(jí)為專家(expert),其至少達(dá)到百分之九十的熟練成年人水平;第四級(jí)為大師(virtuoso),其至少達(dá)到百分之九十九的熟練成年人水平;第五級(jí)為超人類(superhuman),其超越所有人類的表現(xiàn),即超級(jí)智能。參見M. R. Morris and J. Sohl-dickstein et al., "Levels of AGI: Operationalizing Progress on the Path to AGI," 5 January 2024。
[2][20][21][22][23][24][27][35][36]尼克·波斯特羅姆:《超級(jí)智能:路線圖、危險(xiǎn)性與應(yīng)對(duì)策略》,張?bào)w偉、張玉青譯,北京:中信出版社,2015年,第16~17、143、134、136、137、138、153、191、197頁(yè)。
[3]將可以完成人類智能可以完成的所有事,但是速度快很多的系統(tǒng)視為高速超級(jí)智能;將由數(shù)目龐大的小型智能組成,在很多一般領(lǐng)域的整體性能都大大超過(guò)所有現(xiàn)有認(rèn)知系統(tǒng)的系統(tǒng)視為集體超級(jí)智能;將一個(gè)至少和人類大腦一樣快,并且聰明程度與人類相比有巨大的質(zhì)的超越的系統(tǒng)視為素質(zhì)超級(jí)智能。參見尼克·波斯特羅姆:《超級(jí)智能:路線圖、危險(xiǎn)性與應(yīng)對(duì)策略》,張?bào)w偉、張玉青譯,北京:中信出版社,2015年,第64~67頁(yè)。
[4]從I級(jí)到Ⅵ級(jí)依次為工程智能、非對(duì)稱性假體、對(duì)稱性文化吸收者、挑戰(zhàn)人選的文化吸收者、自洽的類人社會(huì)、自洽的外星社會(huì)。其中,I級(jí)和Ⅱ級(jí)的區(qū)別僅取決于設(shè)備的預(yù)期功能,以及如何使用和對(duì)待它們,是否通過(guò)圖靈測(cè)試則是Ⅲ級(jí)到Ⅴ級(jí)的必要條件之一,Ⅵ級(jí)則包括非人類身體的智能機(jī)器,且能自我復(fù)制和改進(jìn)。參見哈利·柯林斯:《人工虛擬智能:拒絕妥協(xié)》,唐旭日譯,武漢:華中科技大學(xué)出版社,2022年,第62~79頁(yè)。
[5]聊天機(jī)器人是指通過(guò)自然語(yǔ)言與人類進(jìn)行交互的對(duì)話式系統(tǒng);推理者不僅能處理信息,還能進(jìn)行人類水平的邏輯推理;智能體不僅可以回答問(wèn)題,還可以在無(wú)監(jiān)督的情境下自主完成任務(wù);創(chuàng)新者則具有輔助創(chuàng)新的能力,如主動(dòng)生成解決方案、創(chuàng)意和策略等。參見T. Duenas and D. Ruiz, "The Path to Superintelligence: A Critical Analysis of OpenAI's Five Levels of AI Progression," 25 August 2024。
[6][7]穆斯塔法·蘇萊曼、邁克爾·巴斯卡爾:《浪潮將至:技術(shù)、權(quán)力與未來(lái)的沖擊》,北京:中信出版社,2024年,第5、XV頁(yè)。
[8]依據(jù)速度與性能的升序,人工智能的層級(jí)依次為:能像頂尖人類程序員一樣完成人工智能研究任務(wù),且速度更快、成本更低,還能批量部署的超人級(jí)程序員(Superhuman Coder,簡(jiǎn)稱SC);與超人級(jí)程序員類似,但適用于所有認(rèn)知性人工智能研究任務(wù)的超人級(jí)人工智能研究員(Superhuman AI Researcher,簡(jiǎn)稱SAR);在人工智能科研領(lǐng)域,實(shí)力碾壓全人類最強(qiáng)研究者的超級(jí)智能人工智能研究員(Superintelligent AI Researcher,簡(jiǎn)稱SIAR);一種在所有認(rèn)知任務(wù)上都遠(yuǎn)超最佳人類的人工智能系統(tǒng)的人工超級(jí)智能(Artifical Superintelligent,簡(jiǎn)稱ASI)。參見D. Kokotajlo and S. Alexander et al., "AI 2027," 3 April 2025, https://ai-2027.com/scenario.pdf。
[9]R. Greenblatt and C. Denison et al., "Alignment Faking in Large Language Models," 20 December 2024, https://arxiv.org/abs/2412.14093v1.
[10][30]布萊恩·克里斯汀:《人機(jī)對(duì)齊:如何讓人工智能學(xué)習(xí)人類價(jià)值觀》,唐璐譯,長(zhǎng)沙:湖南科學(xué)技術(shù)出版社,2023年,第225~226、116~117頁(yè)。
[11][12][13]約翰·杜威:《確定性的尋求——關(guān)于行知關(guān)系的研究》,傅統(tǒng)先譯,上海:華東師范大學(xué)出版社,2019年,第2、2、7頁(yè)。
[14][15][16][17][31][41]斯圖爾特·羅素:《AI新生:破解人機(jī)共存密碼——人類最后一個(gè)大問(wèn)題》,張羿譯,北京:中信出版集團(tuán),2020年,第13、185、185、182、145、90頁(yè)。
[18][19]T. Zhi-Xuan and M. Carroll et al., "Beyond Preferences in AI Alignment," Philosophical Studies, 2025.
[25][26]P. Wang et al. (eds.), "Artificial General Intelligence 2008: Proceedings of the First AGI Conference," United Kingdom: Sage Publications Ltd, 2008.
[28]從高層次上講,獎(jiǎng)勵(lì)黑客攻擊可以分為兩種類型:環(huán)境或目標(biāo)指定錯(cuò)誤,以及獎(jiǎng)勵(lì)篡改。環(huán)境或目標(biāo)指定錯(cuò)誤,即模型通過(guò)破解環(huán)境或優(yōu)化與真實(shí)獎(jiǎng)勵(lì)目標(biāo)不一致的獎(jiǎng)勵(lì)函數(shù)來(lái)學(xué)習(xí)不良行為以獲得高獎(jiǎng)勵(lì),例如當(dāng)獎(jiǎng)勵(lì)指定錯(cuò)誤或缺乏關(guān)鍵要求時(shí)。獎(jiǎng)勵(lì)篡改,即模型學(xué)會(huì)干擾獎(jiǎng)勵(lì)機(jī)制本身。參見L. Weng, "Reward Hacking in Reinforcement Learning," 28 December 2024, https://lilianweng.github.io/posts/2024-11-28-reward-hacking/。
[29]赫伯特·西蒙:《人類活動(dòng)中的理性》, 胡懷國(guó)、馮科譯,桂林:廣西師范大學(xué)出版社,2016年,第9頁(yè)。
[32][33]E. Thornley, "The Shutdown Problem: An AI Engineering Puzzle for Decision Theorists," 10 April 2024, https://www.aimodels.fyi/papers/arxiv/shutdown-problem-ai-engineering-puzzle-decision-theorists.
[34]X. Pan and J. Dai et al., "Frontier AI Systems Have Surpassed the Self-Replicating Red Line," 9 December 2024, https://arxiv.org/abs/2412.12140.
[37]諾伯特·維納:《控制論》,王文浩譯,北京:商務(wù)印書館,2022年,第50頁(yè)。
[38]J. Leike and I. S. Sutskever, "Introducing Superalignment," 5 June 2023, https://openai.com/index/introducing-superalignment/.
[39][42]讓-雅克·盧梭:《論人類不平等的起源和基礎(chǔ)》,黃小彥譯,南京:譯林出版社,2013年,第12、32頁(yè)。
[40]S. Xia and Y. Qin et al., "Generative AI Act II: Test Time Scaling Drives Cognition Engineering," 24 April 2025, https://arxiv.org/abs/2504.13828?context=cs.AI.
[43]蘭登·溫納:《自主性技術(shù):作為政治思想主題的失控技術(shù)》,楊海燕譯,北京:北京大學(xué)出版社,2014年,第172頁(yè)。
[44][45]I. J. Good, "Speculations Concerning the First Ultraintelligent Machine," Advances In Computers, 1966.
[46]W. MacAskill and F. Moorhouse, "Preparing for the Intelligence Explosion," 11 March 2025, https://www.forethought.org/research/preparing-for-the-intelligence-explosion.pdf.
[47][48]薩特:《存在與虛無(wú)》,陳宣良等譯,北京:生活· 讀書·新知三聯(lián)書店,2014年,第25頁(yè)。
[49]陸峰、趙沁平:《共身智能》,《計(jì)算》,2025年第4期。
The Dilemma of Value Alignment in Superintelligence
Yan Hongxiu
Abstract: Both approaches to classifying artificial intelligence—based on performance and based on human-machine relationships—validate the logical plausibility of superintelligence's emergence. At their core, these classifications point to value alignment: ensuring AI systems' behaviors align with human intentions and values. However, due to superintelligence's inherently unpredictable nature, value alignment faces three practical dilemmas: the "uselessness of value alignment" confusion stemming from goal uncertainty; the "value alignment failure" confusion caused by converging instrumental objectives; and the perplexity of "value alignment loss" triggered by super alignment. To overcome these challenges, we must re-examine the positive value of uncertainty and establish human-centered human-machine collaboration mechanisms. This will anchor the direction of technological ethics, safeguard the vision of technology for good, and fortify the foundation for the continuity of human civilization.
Keywords: superintelligence, value alignment, artificial intelligence, human future
責(zé) 編∕楊 柳 美 編∕周群英