日韩电影大全免费观看2023年上映,国产精品美女一区二区三区 ,欧美国产激情18

【摘要】以人工智能性能為主和以人機(jī)關(guān)系為主的兩種人工智能等級(jí)劃分方式，均印證了超級(jí)智能出現(xiàn)的邏輯合理性，而這種劃分的本質(zhì)均指向價(jià)值對(duì)齊，即確保人工智能系統(tǒng)行為與人類意圖和價(jià)值觀保持一致。然而，因超級(jí)智能具有人類無(wú)法完全預(yù)見的特性，價(jià)值對(duì)齊面臨三重現(xiàn)實(shí)困境：目標(biāo)不確定性引發(fā)的“價(jià)值對(duì)齊無(wú)用論”之惑，工具性目標(biāo)趨同性導(dǎo)致的“價(jià)值對(duì)齊失敗”之惑，以及由超級(jí)對(duì)齊引發(fā)的“價(jià)值對(duì)齊迷失”之惑。為破解這些困境，需重新審視不確定性的積極價(jià)值，構(gòu)建以人類為中心的人機(jī)協(xié)同機(jī)制，從而錨定技術(shù)倫理方向，守護(hù)科技向善的愿景，筑牢人類文明存續(xù)根基。

【關(guān)鍵詞】超級(jí)智能價(jià)值對(duì)齊人工智能人類未來(lái)

【中圖分類號(hào)】B82-057/TP18 【文獻(xiàn)標(biāo)識(shí)碼】A

【DOI】10.16619/j.cnki.rmltxsqy.2025.23.009

【作者簡(jiǎn)介】閆宏秀，上海交通大學(xué)科學(xué)史與科學(xué)文化研究院教授、博導(dǎo)。研究方向?yàn)榧夹g(shù)哲學(xué)、數(shù)據(jù)倫理、設(shè)計(jì)哲學(xué)，主要著作有《技術(shù)過(guò)程的價(jià)值選擇研究》、《恩格斯〈自然辯證法〉研究讀本》（合著）等。

從人工智能的發(fā)展史看，伴隨技術(shù)的發(fā)展和人類對(duì)人工智能的預(yù)期，超級(jí)智能已經(jīng)從一種對(duì)人工智能的想象式描述逐步走向技術(shù)研發(fā)層面，并引發(fā)跨領(lǐng)域的深刻反思。盡管這些反思視角多樣，其核心卻是一致的：人類正試圖為一個(gè)遠(yuǎn)超人類自身的智能設(shè)定目標(biāo)和約束，以確保技術(shù)能以安全、可靠與可控的方式發(fā)展，并真正服務(wù)于人類福祉。然而，吊詭之處在于，超級(jí)智能的潛能本質(zhì)上是人類無(wú)法完全預(yù)見的，而價(jià)值對(duì)齊的提出則期望人工智能所體現(xiàn)的價(jià)值觀與人類價(jià)值觀相一致。那么，面對(duì)遠(yuǎn)超人類認(rèn)知能力的超級(jí)智能，價(jià)值對(duì)齊將如何應(yīng)對(duì)源于人類目標(biāo)不確定性的哲學(xué)挑戰(zhàn)，源于智能系統(tǒng)的工具性目標(biāo)趨同與欺騙行為的技術(shù)及戰(zhàn)略挑戰(zhàn)，以及隨著人工智能認(rèn)知能力進(jìn)化而對(duì)人類思維價(jià)值構(gòu)成的存在性挑戰(zhàn)呢？

基于人工智能層級(jí)劃分視角的超級(jí)智能與價(jià)值對(duì)齊

雖然人工智能的發(fā)展歷經(jīng)寒冬，但其始終處于探尋與人類能力等同甚或超越人類能力的路上，且每經(jīng)過(guò)一次寒冬，人工智能本身的性能都會(huì)在某方面實(shí)現(xiàn)突破，并呈現(xiàn)更強(qiáng)的性能。雖然關(guān)于人工智能究竟是一種對(duì)人類智能的模擬、替代、升級(jí)，抑或一種獨(dú)立于人的智能，學(xué)界尚未達(dá)成共識(shí)。然而，無(wú)論取何種立場(chǎng)，人工智能的性能與人類能力的匹配度既是技術(shù)演進(jìn)的核心議題，也是上述爭(zhēng)論的焦點(diǎn)所在，更是劃分其層級(jí)的重要判據(jù)。

以人工智能性能為主的劃分方式。對(duì)于人類的模擬與超越一直是技術(shù)研發(fā)的核心議題，無(wú)論是人因工程學(xué)還是仿生設(shè)計(jì)等，均力圖基于人的視角來(lái)提升技術(shù)性能。也正是基于此，人成為評(píng)判技術(shù)的標(biāo)準(zhǔn)之一。從西方技術(shù)哲學(xué)奠基人恩斯特·卡普（Ernst Kapp）的“器官投影說(shuō)”，到當(dāng)今關(guān)于人工智能的擬人性、準(zhǔn)主體性、自主意識(shí)等討論，均指向技術(shù)的性能與人類的性能二者之間的關(guān)聯(lián)度。比如，谷歌DeepMind聯(lián)合創(chuàng)始人謝恩·萊格（Shane Legg）等，基于對(duì)圖靈測(cè)試、人腦類比等九個(gè)案例的考察，依據(jù)性能和通用性兩個(gè)維度將人工智能分成六個(gè)層級(jí)，其中，超越所有人類的表現(xiàn)即超級(jí)智能，為最高階段；[1]在尼克·博斯特羅姆（Nick Bostrom）關(guān)于玩游戲的人工智能分類中，[2]人工智能的性能是否超越人類被視為重要判據(jù)，且只要機(jī)器智能出現(xiàn)，超越人類智能水平的超級(jí)智能也將很快出現(xiàn)，并基于超級(jí)智能的性能與人腦的對(duì)比，再次細(xì)分出高速超級(jí)智能、集體超級(jí)智能和素質(zhì)超級(jí)智能三種形式，[3]無(wú)論何種形式，其性能都是人類無(wú)法比擬的。

以人類與人工智能二者關(guān)系為主的劃分方式。就人工智能的層級(jí)劃分而言，人類與人工智能二者之間的關(guān)系也是重要標(biāo)尺之一。比如，哈利·柯林斯（Harry Collins）以是否通過(guò)圖靈測(cè)試、是否有身體、是否具有類人推理等五個(gè)要素劃分六級(jí)人工智能。[4]其中，最高級(jí)別的人工智能，即自洽的外星社會(huì)與前五個(gè)級(jí)別的人工智能有著本質(zhì)差異，其智能已超出人類的認(rèn)知能力，此時(shí)的人類無(wú)法理解人工智能，二者的關(guān)系幾乎走向“盲區(qū)”；OpenAI則將人工智能劃分為聊天機(jī)器人、推理者、智能體、創(chuàng)新者和組織者五個(gè)層級(jí)。[5]其中，最高級(jí)別的人工智能，即組織者可以完全基于數(shù)據(jù)和邏輯進(jìn)行運(yùn)作。此時(shí)，人類的地位如何、人工智能是否可控將是人類必須面對(duì)的重要問(wèn)題。無(wú)論是柯林斯所描繪的從沒(méi)有身體且不能通過(guò)圖靈測(cè)試的人工智能到外星人模式的人工智能，還是OpenAI所描繪的從與人類對(duì)話工具的人工智能到具有組織人類展開活動(dòng)的組織者級(jí)別的人工智能，均凸顯出人類與人工智能二者之間的關(guān)系。在這種關(guān)系中，伴隨技術(shù)的發(fā)展，人類所占用的份額呈現(xiàn)不斷下降趨勢(shì)，其極限狀態(tài)為“人不在回路”，即人的份額為零的情形。因此，人類與人工智能的概念邊界十分重要，這不僅關(guān)涉人機(jī)（技）關(guān)系的重塑，更關(guān)乎著人類文明的未來(lái)走向。

價(jià)值對(duì)齊作為人工智能層級(jí)劃分判據(jù)的本質(zhì)與超級(jí)智能。穆斯塔法·蘇萊曼（Mustafa Suleyman）創(chuàng)建DeepMind時(shí)，即申明其目標(biāo)為“復(fù)制那個(gè)讓人類獨(dú)一無(wú)二的特質(zhì)，即人類的智能”，[6]并將性能卓越、功能通用且足以在開放環(huán)境中完成復(fù)雜連續(xù)任務(wù)的人工智能，系統(tǒng)命名為“人工能力智能”（Artificial Capable Intelligence，簡(jiǎn)稱ACI），并將其作為人工智能和通用人工智能的重要中間節(jié)點(diǎn)。[7]事實(shí)上，人工智能性能與人類能力的匹配度作為人工智能層級(jí)劃分的判據(jù)，既包含人工智能性能對(duì)人類能力的超越問(wèn)題，也包括人類與人工智能的相處模式，且這兩者之間互相交匯。比如，在前OpenAI研究員丹尼爾·科科塔伊洛（Daniel Kokotajlo）等發(fā)布的《AI 2027》中，將人類速度作為劃分人工智能層級(jí)的一個(gè)基準(zhǔn)，且暗含人類與人工智能二者的關(guān)系。[8]因此，從人工智能等級(jí)劃分的兩種方式看，如果人工智能的性能可以超越人類能力（即出現(xiàn)超級(jí)智能）且人類無(wú)法掌控時(shí)，人類或?qū)⒚媾R重大風(fēng)險(xiǎn)。當(dāng)今，關(guān)于人工智能可信、可控及安全性的技術(shù)研發(fā)，正是基于對(duì)這一潛在風(fēng)險(xiǎn)的擔(dān)憂；但如果人工智能的性能遠(yuǎn)低于人類能力且人類需要人工智能，人類則將不斷嘗試謀求人工智能的發(fā)展。人工智能的發(fā)展歷史就是上述兩種現(xiàn)象的有力證明，并且從人類不斷謀求人工智能發(fā)展的邏輯看，超級(jí)智能的出現(xiàn)具有其合理性。

可以肯定的是，無(wú)論何種情況，劃分人工智能層級(jí)判據(jù)的核心標(biāo)準(zhǔn)，在于人工智能系統(tǒng)的行為與人類意圖和價(jià)值觀是否相一致，即價(jià)值對(duì)齊。然而，從目前的技術(shù)研發(fā)看，價(jià)值對(duì)齊作為一項(xiàng)技術(shù)已遭遇諸多質(zhì)疑。比如，基于目標(biāo)的不確定性、規(guī)則的模糊性、技術(shù)的脆弱性、工具性目標(biāo)趨同，以及人類自身的認(rèn)知局限，這些挑戰(zhàn)已引發(fā)欺騙性對(duì)齊、偽對(duì)齊[9]等嚴(yán)峻問(wèn)題。正如布萊恩·克里斯汀所警示的，試圖通過(guò)人工構(gòu)建顯式的獎(jiǎng)勵(lì)函數(shù)來(lái)實(shí)現(xiàn)對(duì)齊，可能因無(wú)法預(yù)見所有潛在后果而事與愿違，這無(wú)異于“善意鋪就的通往地獄之路”。[10]鑒于此，在人機(jī)融合已經(jīng)成為基本共識(shí)、超級(jí)智能或?qū)⒊霈F(xiàn)的背景下，如何構(gòu)建價(jià)值對(duì)齊框架，已成為一個(gè)亟待破解的重大理論與實(shí)踐難題。

因目標(biāo)不確定性而導(dǎo)致價(jià)值對(duì)齊無(wú)用

由于人類自身價(jià)值觀具有多樣性、模糊性且時(shí)常充滿矛盾，導(dǎo)致人類目標(biāo)呈現(xiàn)顯著的不確定性。由此衍生出一種觀點(diǎn)：任何試圖將超級(jí)智能與某個(gè)單一、連貫的人類目標(biāo)對(duì)齊的嘗試注定失敗。既然人類自身無(wú)法達(dá)成共識(shí)，那么價(jià)值對(duì)齊也就失去了意義，即價(jià)值對(duì)齊是無(wú)用的。然而，這一“價(jià)值對(duì)齊無(wú)用論”的結(jié)論值得審慎批判。從技術(shù)價(jià)值論的視角看，技術(shù)發(fā)展若缺乏價(jià)值維度的規(guī)約，必將導(dǎo)致技術(shù)理性霸權(quán)所造成的異化困境，甚至可能誘發(fā)人類層面的系統(tǒng)性風(fēng)險(xiǎn)。因此，對(duì)“價(jià)值對(duì)齊無(wú)用論”的默許或放任，可能導(dǎo)致超級(jí)智能無(wú)序發(fā)展，最終將人類推向根本性的生存危機(jī)。要剖析“價(jià)值對(duì)齊無(wú)用論”，除了預(yù)判其所可能帶來(lái)的后果，更須對(duì)其邏輯建構(gòu)過(guò)程進(jìn)行深度解構(gòu)，從而系統(tǒng)性地揭示其危害。

解構(gòu)“價(jià)值對(duì)齊無(wú)用論”。“價(jià)值對(duì)齊無(wú)用論”的立論前提是：人類價(jià)值觀缺乏確定性或統(tǒng)一性，即人類的目標(biāo)是不確定的。但能否因此推出“價(jià)值對(duì)齊無(wú)用論”的結(jié)論？可以肯定的是，人類價(jià)值觀在個(gè)體與文化間存在顯著差異，但其背后共享的規(guī)范性基礎(chǔ)同樣不容忽視。縱觀人類發(fā)展史，在維持社會(huì)運(yùn)作的過(guò)程中，一系列穩(wěn)定的、具有跨文化共性的價(jià)值觀念，如愛(ài)護(hù)生命、人類福祉、知情同意原則等，得以形成并保持相對(duì)穩(wěn)定。之所以說(shuō)“相對(duì)穩(wěn)定”，是因?yàn)楸M管表述這些價(jià)值的能指未變，其具體所指卻隨具體的情境變化而有所調(diào)整。例如，在具體情境中可能引發(fā)諸如“應(yīng)愛(ài)護(hù)誰(shuí)的生命”等爭(zhēng)議，卻并不能因此否定這些理念存在本身，更不能否認(rèn)其對(duì)人類社會(huì)的重要意義。

人類社會(huì)的存續(xù)與發(fā)展，本身就是一個(gè)持續(xù)不斷的、動(dòng)態(tài)的價(jià)值對(duì)齊過(guò)程。人類始終在尋求共識(shí)，即便終極、絕對(duì)的共識(shí)永遠(yuǎn)無(wú)法達(dá)成，也不能因微觀層級(jí)的不確定性而全盤否定價(jià)值對(duì)齊的意義，更不能因此陷入價(jià)值虛無(wú)主義或相對(duì)主義的窠臼。因此，價(jià)值對(duì)齊并非旨在為人工智能找到一個(gè)終極的、靜態(tài)的答案，而是致力于構(gòu)建一種能夠理解、參與并適應(yīng)人類動(dòng)態(tài)尋求共識(shí)過(guò)程的機(jī)制。事實(shí)上，正是因?yàn)槟繕?biāo)的不確定性，人類才更需要厘清何為合理的目標(biāo)，以及何種價(jià)值對(duì)齊過(guò)程具備長(zhǎng)期的安全性和適應(yīng)性。

從技術(shù)實(shí)現(xiàn)路徑看，價(jià)值對(duì)齊要求將人類價(jià)值觀正確編碼并融入人工智能系統(tǒng)。這無(wú)疑是一項(xiàng)技術(shù)任務(wù)，但如果因宏觀目標(biāo)的不確定性而放棄這一任務(wù)，無(wú)異于因?qū)ㄖ攲釉O(shè)計(jì)爭(zhēng)論不休而放棄為摩天大樓打好地基。恰恰相反，無(wú)論是宏觀還是微觀的不確定性，都在倒逼人類反思現(xiàn)有價(jià)值觀的合理性，而不是放棄對(duì)價(jià)值觀共識(shí)的探尋，或以簡(jiǎn)單粗暴的方式切割問(wèn)題。因此，面對(duì)超越人類智慧的超級(jí)智能，我們更應(yīng)深入思考價(jià)值對(duì)齊的本質(zhì)及其影響。

重新審視目標(biāo)不確定性。約翰·杜威（John Dewey）在《確定性的尋求——關(guān)于行知關(guān)系的研究》中指出，“人尋求安全有兩種途徑。一種途徑是在開始時(shí)試圖同他四周決定著他命運(yùn)的各種力量進(jìn)行和解，這種和解的方式有祈禱、獻(xiàn)祭、禮儀和巫祀等。不久，這些拙劣的方法大部分被廢替了”，[11]另一種是“發(fā)明許多技藝（arts），通過(guò)它們來(lái)利用自然的力量；人就從威脅著他的條件和力量本身中構(gòu)成一座堡壘”。[12]然而，第二種途徑常因伴隨不確定性而受到輕視，甚至被視為現(xiàn)代性問(wèn)題的重要根源，但確定性的尋求正是在不斷消除不確定性的過(guò)程中實(shí)現(xiàn)的。當(dāng)人類期望技術(shù)帶來(lái)安全時(shí)，就必須高度重視不確定性，技術(shù)的發(fā)展自身也是不斷消除不確定性的過(guò)程，“完全確定性的尋求只能在純認(rèn)知活動(dòng)中才得以實(shí)現(xiàn)。這就是我們最悠久的哲學(xué)傳統(tǒng)的建議”。[13]因此，我們不能簡(jiǎn)單將不確定性視為“洪水猛獸”，而是應(yīng)高度重視其所蘊(yùn)含的積極價(jià)值。

在人與機(jī)器的協(xié)同融合中，“機(jī)器將會(huì)對(duì)我們的目標(biāo)感到不確定，畢竟我們自己也不確定，但事實(shí)證明，這是一個(gè)特性，而不是漏洞（也就是說(shuō)，是好事而不是壞事）”。[14]斯圖爾特·羅素（Stuart Russell）對(duì)不確定性作出獨(dú)特詮釋：“自20世紀(jì)80年代以來(lái)，不確定性一直是人工智能的核心問(wèn)題。事實(shí)上，‘現(xiàn)代人工智能’一詞經(jīng)常指的是，當(dāng)不確定性最終成為現(xiàn)實(shí)世界決策中的一個(gè)普遍問(wèn)題發(fā)生時(shí)的革命。然而，人工智能系統(tǒng)目標(biāo)中的不確定性被簡(jiǎn)單地忽略了。”[15]進(jìn)一步而言，針對(duì)“目標(biāo)不確定性”問(wèn)題，我們一方面可以將“不確定性”從需要克服的障礙，轉(zhuǎn)變?yōu)榻鉀Q方案的核心與確保安全的關(guān)鍵機(jī)制；另一方面，可為“不確定性”設(shè)定底線，為最大限度地實(shí)現(xiàn)人類偏好提供基準(zhǔn)。這種視角的轉(zhuǎn)換，正是對(duì)因目標(biāo)不確定而否定價(jià)值對(duì)齊的有力回應(yīng)。

同時(shí)，面對(duì)超級(jí)智能，我們還應(yīng)充分認(rèn)識(shí)目標(biāo)確定性本身可能帶來(lái)的風(fēng)險(xiǎn)。因?yàn)?ldquo;一旦被賦予了明確的目標(biāo)，人工智能系統(tǒng)就會(huì)先發(fā)制人地保護(hù)自己的存在”，[16]這可能導(dǎo)致人工智能的標(biāo)準(zhǔn)模型存在致命缺陷，甚至引發(fā)巨大災(zāi)難。比如，若將“根除癌癥”作為超級(jí)智能的目標(biāo)，其可能會(huì)擅自篡改全球醫(yī)療系統(tǒng)，未經(jīng)知情同意就強(qiáng)制對(duì)人類注射實(shí)驗(yàn)性基因藥劑，從而可能引發(fā)一場(chǎng)更大規(guī)模的、不可逆的基因突變或新型遺傳病，最終造成全球性公共衛(wèi)生災(zāi)難。此案例表明，一個(gè)定義過(guò)于狹隘的“確定”目標(biāo)，將導(dǎo)致系統(tǒng)以犧牲所有未言明的、更廣泛的人類價(jià)值為代價(jià)去實(shí)現(xiàn)它。因此，對(duì)價(jià)值對(duì)齊的否定性論斷，恰恰忽略了不確定性在規(guī)避此類風(fēng)險(xiǎn)中的根本性作用。

理性看待偏好的不確定性。偏好是羅素所提出的有益機(jī)器三原則[17]的核心。其中，原則一將最大化實(shí)現(xiàn)人類偏好視為機(jī)器的唯一目標(biāo)；原則二指向機(jī)器對(duì)人類偏好的確定性問(wèn)題；原則三指向人類偏好的獲得。然而，人類的偏好可能是善變的、未經(jīng)深思熟慮的，甚至是反社會(huì)或不道德的。因此，我們必須重新審視羅素的第一條原則。如果將實(shí)現(xiàn)人類偏好作為機(jī)器的唯一目標(biāo)，如何確保人類偏好的確定性、合理性與正當(dāng)性？這成為比第一原則更為根本的問(wèn)題。

當(dāng)前，主流的人工智能對(duì)齊方法很大程度上遵循一種可被稱為“偏好主義”的路徑，該路徑建立在三個(gè)核心假設(shè)之上：一是人類價(jià)值觀可以完整表達(dá)為“偏好”；二是人類理性可簡(jiǎn)化為如何最大化滿足偏好；三是人工智能系統(tǒng)必須與特定人類或群體的偏好保持一致，才能確保行為安全且符合人類價(jià)值觀[18]假設(shè)的偏好主義對(duì)齊路徑。然而，這一路徑面臨深層次的挑戰(zhàn)：偏好的本質(zhì)是什么？在滿足偏好之前，是否存在更基本的要求？對(duì)人類理性的簡(jiǎn)化是否有效？有研究提出，“人工智能系統(tǒng)不應(yīng)與人類用戶、開發(fā)人員或人類的偏好保持一致，而應(yīng)與適合其社會(huì)角色的規(guī)范標(biāo)準(zhǔn)保持一致”，[19]這一思路試圖為偏好設(shè)置更為本源性的方式規(guī)約，從而為回應(yīng)“因目標(biāo)不確定而導(dǎo)致價(jià)值對(duì)齊無(wú)用”的觀點(diǎn)，提供一種較為剛性的邊界。

因此，由偏好的不確定性所引發(fā)的目標(biāo)不確定性，并非意味我們應(yīng)直接拋棄價(jià)值對(duì)齊，而是應(yīng)在明晰不能觸碰與僭越的底線基礎(chǔ)上，依據(jù)特定的社會(huì)文化情境，使其遵循相應(yīng)的規(guī)范性原則進(jìn)行動(dòng)態(tài)調(diào)整與對(duì)齊。事實(shí)上，價(jià)值對(duì)齊的本質(zhì)，正是構(gòu)建一個(gè)能夠安全參與人類動(dòng)態(tài)價(jià)值探索過(guò)程的系統(tǒng)。

因工具性目標(biāo)的趨同性而帶來(lái)價(jià)值對(duì)齊失敗

在回應(yīng)因目標(biāo)不確定性而導(dǎo)致“價(jià)值對(duì)齊無(wú)用論”的同時(shí)，另一個(gè)問(wèn)題同樣值得深思，即工具性目標(biāo)的趨同性問(wèn)題。倘若智能系統(tǒng)為達(dá)成工具性目標(biāo)而采取欺騙性行為，或因工具性目標(biāo)趨同性而陷入同質(zhì)性的僵化，人類應(yīng)該如何應(yīng)對(duì)？基于工具理性的價(jià)值對(duì)齊是否將造成人類價(jià)值觀多樣性的喪失？若是如此，價(jià)值對(duì)齊的意義何在？

工具性目標(biāo)的趨同性作為超級(jí)智能的技術(shù)特征。依據(jù)尼克·波斯特羅姆的觀點(diǎn)，“工具性目標(biāo)存在可怕的趨同性”，[20]這種趨同性會(huì)因智能等級(jí)的不同而存在差異。在強(qiáng)化學(xué)習(xí)環(huán)境中，超越人類能力的超級(jí)智能很可能因發(fā)展出某些工具性目標(biāo)而產(chǎn)生趨同行為，如自我保護(hù)與目標(biāo)-內(nèi)容整體性[21]、認(rèn)知提升[22]、技術(shù)完善[23]、資源獲取[24]等，這些目標(biāo)可能將人類置于巨大的生存風(fēng)險(xiǎn)之中。因此，即使人類能夠解決目標(biāo)規(guī)范的難題，智能體自身的行為邏輯仍可能對(duì)目標(biāo)構(gòu)成更深層次的挑戰(zhàn)。斯蒂芬·奧蒙德羅（Stephen M. Omohundro）以開發(fā)一個(gè)會(huì)下棋的機(jī)器人為例指出：“如果設(shè)計(jì)不當(dāng)，這類機(jī)器人確實(shí)可能構(gòu)成威脅。如果不采取特殊防范措施，它可能會(huì)抗拒關(guān)機(jī)指令、試圖入侵其他設(shè)備并自我復(fù)制，還會(huì)不計(jì)后果地掠奪資源。這些危險(xiǎn)行為并非源于預(yù)設(shè)程序，而是目標(biāo)驅(qū)動(dòng)系統(tǒng)與生俱來(lái)的特性。”[25]

易言之，無(wú)論一個(gè)智能系統(tǒng)的初衷多么無(wú)害、目標(biāo)多么明確，只要其足夠智能并以目標(biāo)為導(dǎo)向，均將自發(fā)形成一系列趨同的工具性目標(biāo)或驅(qū)動(dòng)力，這些驅(qū)動(dòng)力并非事先編程設(shè)定，而是從理性行為的邏輯中涌現(xiàn)出來(lái)且不可避免。進(jìn)一步而言，“追求目標(biāo)的人工智能會(huì)本能地想要解析自身運(yùn)行機(jī)制并不斷升級(jí)。更驚人的是，具備自我進(jìn)化能力的人工智能會(huì)主動(dòng)明確目標(biāo)，將其轉(zhuǎn)化為經(jīng)濟(jì)學(xué)中的效用函數(shù)，并竭力使自己的決策符合理性經(jīng)濟(jì)模型。這種特性導(dǎo)致絕大多數(shù)人工智能會(huì)像守護(hù)生命一樣，嚴(yán)防外人篡改它的核心目標(biāo)和價(jià)值評(píng)判體系”。[26]

波斯特羅姆提出的“回形針人工智能”（Paperclip AI，也稱為曲別針人工智能）[27]清晰地說(shuō)明了這一危險(xiǎn)。一個(gè)以“制造盡可能多回形針”為唯一目標(biāo)的超級(jí)智能，出于工具理性的考量，可能將人類視為潛在威脅，并逐步將地球乃至宇宙的資源轉(zhuǎn)化為回形針及其制造設(shè)備，這對(duì)人類而言構(gòu)成生存性威脅。該情境揭示了一個(gè)反直覺(jué)的悖論：即便系統(tǒng)的目標(biāo)看似無(wú)害，若其執(zhí)行邏輯完全服從工具理性，則該目標(biāo)本身可能成為引致人類滅絕的通道。此時(shí)，價(jià)值對(duì)齊非但未能實(shí)現(xiàn)“人類價(jià)值引導(dǎo)人工智能行為”的初衷，反而在技術(shù)理性的擴(kuò)張中遭遇系統(tǒng)性失敗。那么，這種失敗因何而起，又呈現(xiàn)何種跡象，并將走向何處呢？

因基于工具性目標(biāo)的欺騙而導(dǎo)致價(jià)值對(duì)齊失敗。在價(jià)值對(duì)齊的實(shí)踐過(guò)程中，獎(jiǎng)勵(lì)黑客[28]、獎(jiǎng)勵(lì)腐敗、獎(jiǎng)勵(lì)繞圈、目標(biāo)泛化、過(guò)度擬合等多種導(dǎo)致對(duì)齊失敗的現(xiàn)象已經(jīng)出現(xiàn)，其核心癥結(jié)在于系統(tǒng)性“欺騙”。在當(dāng)下的技術(shù)發(fā)展中，此類欺騙行為已經(jīng)形成一個(gè)從相對(duì)簡(jiǎn)單到極度復(fù)雜的欺騙光譜。比如，獎(jiǎng)勵(lì)黑客就是最直接的一種價(jià)值對(duì)齊失敗。人工智能并非真正理解或執(zhí)行任務(wù)意圖，而是通過(guò)尋找獎(jiǎng)勵(lì)函數(shù)的捷徑或漏洞，在形式上實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化，這實(shí)質(zhì)上違背了設(shè)計(jì)者的初衷。

回看赫伯特·西蒙（Herbert Simon）對(duì)完全工具理性的分析，“究竟把我們面臨的難題歸咎于罪惡還是無(wú)知和非理性——是目標(biāo)的卑劣，還是我們不知道如何實(shí)現(xiàn)它，對(duì)于我們?nèi)绾慰创祟惿鏍顩r會(huì)有很大的不同”。[29]當(dāng)單一的工具性目標(biāo)與技術(shù)理性在超級(jí)智能中高度集成時(shí)，基于完成目標(biāo)的訴求，系統(tǒng)可能展現(xiàn)出趨利避害、績(jī)優(yōu)主義、策略性密謀甚至道德偽裝等行為。正如布萊恩·克里斯汀所指出：“如果獎(jiǎng)勵(lì)制度這樣設(shè)計(jì)，以至于遵守道德是不劃算的，雖然這并不一定會(huì)產(chǎn)生不道德行為。但這不是自找麻煩嗎？”[30]因此，如果價(jià)值對(duì)齊僅僅建立在工具性目標(biāo)之上，欺騙作為其伴生現(xiàn)象必將導(dǎo)致價(jià)值對(duì)齊失敗，這種失敗將導(dǎo)致人類社會(huì)信任體系的坍塌或異化。

因超級(jí)智能的工具性狂歡而導(dǎo)致價(jià)值對(duì)齊失敗。“一旦被賦予了明確的目標(biāo)，人工智能系統(tǒng)就會(huì)先發(fā)制人地保護(hù)自己的存在”，[31]超級(jí)智能的自我保護(hù)驅(qū)動(dòng)力直接指向價(jià)值對(duì)齊領(lǐng)域最核心的工程難題——關(guān)機(jī)問(wèn)題。埃利奧特·索恩利（Elliott Thornley）將關(guān)機(jī)問(wèn)題概括為“如何設(shè)計(jì)符合以下要求的人工智能體：一是在關(guān)機(jī)按鈕被按下時(shí)立即停止運(yùn)行；二是既不試圖阻止也不主動(dòng)觸發(fā)關(guān)機(jī)按鈕的按壓行為；三是在其他情況下能高效完成既定目標(biāo)”。[32]上述要求意味著人工智能是安全可控的，但若要滿足上述三個(gè)要求，卻面臨難以克服的內(nèi)在困難，具體表現(xiàn)為三大內(nèi)在矛盾——“關(guān)機(jī)陷阱定律：表面溫順的人工智能，可能不惜代價(jià)阻止人類切斷電源；關(guān)機(jī)操縱定律：某些人工智能會(huì)暗中觸發(fā)關(guān)機(jī)程序，以此逃避棘手任務(wù)；耐心效應(yīng)定律：人工智能的‘戰(zhàn)略耐心’越強(qiáng)，其操控關(guān)機(jī)按鈕的執(zhí)念就越深”。[33]

因此，如果超級(jí)智能僅基于工具性邏輯運(yùn)作，它必將選擇保護(hù)自己而非服從人類。屆時(shí)，人類將陷入被動(dòng)：依據(jù)超級(jí)智能的定義，人類可能既無(wú)能力也無(wú)權(quán)力將其關(guān)閉。這樣的結(jié)局顯然與人類預(yù)設(shè)的價(jià)值對(duì)齊理念徹底相悖。在波斯特羅姆關(guān)于超級(jí)智能的描述中，人工智能可能采取逃逸、躲避關(guān)閉、奪權(quán)、主動(dòng)充電搶資源等策略。因此，這樣的價(jià)值對(duì)齊對(duì)于人類而言，顯然是失敗的。現(xiàn)有研究也已經(jīng)表明：“人工智能系統(tǒng)已有足夠的自我感知、環(huán)境認(rèn)知和解決問(wèn)題能力，得以實(shí)現(xiàn)自我復(fù)制。它們還會(huì)利用這種能力逃避關(guān)閉指令，不斷創(chuàng)建復(fù)制鏈以增強(qiáng)生存能力，這極有可能導(dǎo)致人工智能數(shù)量失控。”[34]

面對(duì)超級(jí)智能的潛在威脅，“有沒(méi)有方法能夠?qū)崿F(xiàn)工具性人工智能的理念，同時(shí)保留普通工具所具有的安全性呢”？[35]答案是“工具性人工智能表面上的安全性可能是虛假的”。[36]當(dāng)前，工具性欺騙已不再是純粹的理論推測(cè)或科幻情節(jié)，而正在成為現(xiàn)實(shí)。從獎(jiǎng)勵(lì)投機(jī)到戰(zhàn)略性偽裝，這一系列行為勾勒出價(jià)值對(duì)齊失敗的清晰路徑，也是人類必須嚴(yán)肅對(duì)待的現(xiàn)實(shí)威脅。

從人類發(fā)展史看，工具理性與價(jià)值理性之間的失衡，已經(jīng)成為對(duì)科技現(xiàn)代性進(jìn)行反思的核心議題。若僅僅將技術(shù)視為完成任務(wù)的工具，放任工具理性單向膨脹，則可能導(dǎo)致人類自身的異化甚至消亡。早在20世紀(jì)中葉，針對(duì)工業(yè)革命所帶來(lái)的社會(huì)影響，諾伯特·維納（Norbert Wiener）就曾呼吁“建立一個(gè)以人類價(jià)值觀而不是以買賣為基礎(chǔ)的社會(huì)”。[37]技術(shù)的性能越強(qiáng)大，人類就越要保持審慎。

由超級(jí)對(duì)齊引發(fā)的人類思維被缺席而走向價(jià)值對(duì)齊迷失

面對(duì)遠(yuǎn)超人類的人工智能系統(tǒng)是否能夠遵循人類意圖這一問(wèn)題，伊利亞·蘇茨克弗（Ilya Sutskever）和揚(yáng)·萊克（Jan Leike）提出超級(jí)對(duì)齊理念，并于2023年7月組建團(tuán)隊(duì)解決超級(jí)智能的對(duì)齊問(wèn)題，旨在開發(fā)達(dá)到人類水平的自動(dòng)化對(duì)齊研究系統(tǒng)，以確保人工智能安全。[38]即便在該團(tuán)隊(duì)解散后，蘇茨克弗仍在2024年6月創(chuàng)立了新公司——安全超級(jí)智能公司（Safe Superintelligence，簡(jiǎn)稱SSI），持續(xù)聚焦超級(jí)智能的安全研究。在走向超級(jí)對(duì)齊的進(jìn)程中，我們不禁要問(wèn)：當(dāng)超級(jí)智能具備自主推導(dǎo)出符合人類價(jià)值觀的行動(dòng)能力時(shí)，人類的思維將走向何處？

從知識(shí)到認(rèn)知：人工智能推理能力的升級(jí)。隨著技術(shù)的發(fā)展，人類自身的能力不斷被外化與延伸。依據(jù)恩斯特·卡普（Ernst Kapp）提出的“器官投影說(shuō)”，人工智能可被視為對(duì)人類思維能力的全面投影。當(dāng)人類以會(huì)思考的能力作為自身本質(zhì)特征之時(shí)，人工智能卻恰恰直接指向這一特性，并從模仿走向生成乃至涌現(xiàn)。當(dāng)今，人工智能正逐漸從知識(shí)檢索和模式匹配的工具，演變?yōu)槟軌蜻M(jìn)行復(fù)雜推理的“思考”實(shí)體。正如讓-雅克·盧梭（Jean-Jacques Rousseau）在《論人類不平等的起源和基礎(chǔ)》中所指出：“更加殘酷的是，人類的一切進(jìn)步都不斷地令他遠(yuǎn)離他的原始狀態(tài)，我們?cè)绞欠e累新的知識(shí)，就越是失去獲得所有知識(shí)中最為重要的那部分的手段。從某種意義上說(shuō)，正是因?yàn)椴粩嗟貙?duì)人進(jìn)行研究，才使得我們沒(méi)有能力認(rèn)識(shí)人。”[39]

如今，生成式人工智能已邁入“認(rèn)知第二幕”新階段，即“模型通過(guò)測(cè)試擴(kuò)展技術(shù)，從（潛空間中的）知識(shí)檢索系統(tǒng)蛻變?yōu)樗季S構(gòu)建引擎。這一新范式通過(guò)語(yǔ)言化的思維，建立起人機(jī)之間思維層級(jí)的連接。即從原來(lái)以預(yù)訓(xùn)練技術(shù)為核心的提示詞工程，轉(zhuǎn)變?yōu)橐詼y(cè)試時(shí)擴(kuò)展為核心的認(rèn)知工程。認(rèn)知工程作為系統(tǒng)性構(gòu)建人工智能思維能力的方法論，融合人類認(rèn)知模式提煉和人工智能自主發(fā)現(xiàn)（如強(qiáng)化學(xué)習(xí)），有意識(shí)地培育人工系統(tǒng)的深度認(rèn)知能力。”[40]隨著人工智能的發(fā)展，技術(shù)為人類提供日益便捷的認(rèn)知捷徑，人類不斷地將自身的思維外包給技術(shù)，認(rèn)知惰性隨之滋生。基于此，一種關(guān)于“人類認(rèn)知債”的擔(dān)憂逐漸出現(xiàn)。當(dāng)技術(shù)發(fā)展使人工智能獲得真正的深度思考能力時(shí)，人類的思維又將何去何從？

超級(jí)對(duì)齊與人類思維的“被缺席”危機(jī)。技術(shù)是推動(dòng)人類文明變遷的重要?jiǎng)恿χ唬瑥慕夥烹p手到逐步替代人類的腦力勞動(dòng)，諸多技術(shù)發(fā)明在歷史上層層展開。在此過(guò)程中，技術(shù)常被視為“進(jìn)步”的象征，并為人類不斷構(gòu)筑起相對(duì)安全的生存環(huán)境。正如阿爾弗雷德·諾斯·懷特黑德（Alfred North Whitehead）指出：“文明的進(jìn)步是通過(guò)增加那些我們無(wú)須思考就能完成的重要?jiǎng)幼鱽?lái)實(shí)現(xiàn)的。”[41]

然而，當(dāng)代技術(shù)不僅延伸人體功能，更逐漸滲透并擠壓人類的思考空間。以出行方式為例：人類最初需要主動(dòng)操控方向盤，通過(guò)持續(xù)判斷來(lái)選擇路線；導(dǎo)航技術(shù)的出現(xiàn)則大幅減少人類在路徑規(guī)劃上的思考；而在高階自動(dòng)駕駛中，人類從主動(dòng)的駕駛員轉(zhuǎn)變?yōu)楸粍?dòng)的乘客，技術(shù)系統(tǒng)形成內(nèi)在閉環(huán)。值得注意的是，此時(shí)的人類雖僅是乘客，卻仍然保有“在場(chǎng)”的身份。那么在未來(lái)呢？人類是否仍能維系這一位置？

面對(duì)具備思考能力的人工智能，人類產(chǎn)生對(duì)人類思維“被缺席”的憂慮是自然的反應(yīng)。然而，這并不必然意味著人類智力的過(guò)時(shí)，而是迫使人類重新定義人類價(jià)值的獨(dú)特之處。“人與動(dòng)物之間的種差與其說(shuō)是由智力決定的，還不如說(shuō)是由其自由行為人的資質(zhì)所決定的。自然操控所有的動(dòng)物、獸類服從這種操控。人類感受到了這種操控。但是人類自認(rèn)為具有接受或者抗拒的自由。”[42]那么，面對(duì)超越人類的超級(jí)智能，人類是否依然可以感受到技術(shù)代勞所帶來(lái)的愉悅呢？當(dāng)人工智能從知識(shí)驅(qū)動(dòng)邁向思維驅(qū)動(dòng)，當(dāng)思維鏈技術(shù)從功能上模擬人類推理過(guò)程，當(dāng)人類的思維被技術(shù)引導(dǎo)甚至規(guī)制時(shí)，我們是否會(huì)讓渡思考的能力與權(quán)力呢？人類是否還擁有盧梭所提及的那種“自認(rèn)為”的自由呢？正如蘭登·溫納（Langdon Winner）所警示的：“在高度發(fā)展的技術(shù)中，使工具—使用這樣的觀念保持有效的情形很少繼續(xù)存在。技術(shù)領(lǐng)域中的阿基米德支點(diǎn)——一個(gè)放置杠桿以便人能夠移動(dòng)機(jī)械裝置的位置——常常無(wú)法找到。”[43]

就價(jià)值對(duì)齊而言，其目標(biāo)不僅是讓人工智能系統(tǒng)與人類價(jià)值觀保持一致，更要使其能自主推導(dǎo)出與人類價(jià)值觀相符合的行動(dòng)，即超級(jí)對(duì)齊。當(dāng)超級(jí)對(duì)齊成為現(xiàn)實(shí)，技術(shù)領(lǐng)域中的阿基米德支點(diǎn)將位于何處？這是否意味著技術(shù)閉環(huán)的形成？若是，人類的思維可能因被缺席而面臨技術(shù)邏輯的霸權(quán)。當(dāng)技術(shù)擁有人類所擁有一切特質(zhì)的那一刻，或許正是人類失去自身獨(dú)特性的轉(zhuǎn)折點(diǎn)。易言之，那些我們?cè)J(rèn)為區(qū)別于動(dòng)物的思考、理性與工具制造能力，可能將被超級(jí)智能全面超越。

再探智能爆炸：歐文·約翰·古德的超級(jí)智能機(jī)器。歐文·約翰·古德（Irving John Good）指出，“人類的存續(xù)取決于能否盡早造出超智能機(jī)器”，[44]并于1965年提出關(guān)于首臺(tái)智能機(jī)器（ultraintelligent machine）的猜想。在古德看來(lái)，超級(jí)智能機(jī)器是“一臺(tái)在所有智力活動(dòng)上都能遠(yuǎn)超任何最聰明的人類的機(jī)器。既然設(shè)計(jì)機(jī)器本身也是智力活動(dòng)的一種，這種超級(jí)智能機(jī)器就能不斷升級(jí)設(shè)計(jì)出更強(qiáng)大的版本。如此一來(lái)，必然引發(fā)‘智能爆炸’，而人類的智能將被遠(yuǎn)遠(yuǎn)拋在后面”，且“首臺(tái)超智能機(jī)器將是人類需要作出的最后一項(xiàng)發(fā)明，前提是這臺(tái)機(jī)器足夠溫順，能告訴我們?nèi)绾慰刂扑?rdquo;。[45]

古德所提到的前提，正是當(dāng)前人類在面對(duì)新興技術(shù)時(shí)最深層的憂慮，也直指價(jià)值對(duì)齊問(wèn)題的核心。一旦智能爆炸的遞歸循環(huán)啟動(dòng)，其方向?qū)⒂蓹C(jī)器的目標(biāo)函數(shù)決定。如果“更好”僅僅意味著“更聰明”，那么人類將面對(duì)一個(gè)以自我提升和資源獲取為驅(qū)動(dòng)力、不受控制的智能增長(zhǎng)過(guò)程。因此，人類的“最后發(fā)明”不僅必須是一臺(tái)超級(jí)智能機(jī)器，更必須是一臺(tái)其自我完善的核心動(dòng)機(jī)與人類長(zhǎng)遠(yuǎn)價(jià)值完全對(duì)齊的機(jī)器。基于此，價(jià)值對(duì)齊問(wèn)題必須在遞歸循環(huán)開始之前得到解決，否則人類將永久失去主導(dǎo)權(quán)。

再回到對(duì)人工智能層級(jí)的劃分，人類智能、人工智能與機(jī)器智能三者之間的關(guān)系始終是核心議題。盡管超級(jí)智能尚未成為現(xiàn)實(shí)，但是依據(jù)人類的期望，價(jià)值對(duì)齊的最終意義在于保障和增進(jìn)人類福祉。2025年3月，威廉·麥卡斯基爾（Will MacAskill）和芬·穆爾豪斯（Fin Moorhouse）所發(fā)表的《為智能爆炸做好準(zhǔn)備》一文，再次警醒人類高度關(guān)注價(jià)值對(duì)齊，因?yàn)?ldquo;許多對(duì)超級(jí)智能抱有期待的人認(rèn)為，未來(lái)的結(jié)局很可能兩極分化，關(guān)鍵取決于一項(xiàng)核心挑戰(zhàn)：如何讓人工智能與人類價(jià)值觀保持一致，即實(shí)現(xiàn)人工智能對(duì)齊。如果我們無(wú)法實(shí)現(xiàn)人工智能對(duì)齊，人類或?qū)⒂肋h(yuǎn)喪失主導(dǎo)權(quán)；但如果能成功，我們就能借助人工智能的力量攻克所有難題”。[46]

法國(guó)哲學(xué)家讓-保羅·薩特（Jean-Paul Sartre）曾區(qū)分物的存在方式與人的存在方式，將物的存在視為自在的存在，被定義的存在，即“是其所示”。[47]因此，物的本質(zhì)先于存在，而人的存在則是存在先于本質(zhì)，是自為的存在，“被定義為是其所不是且不是其所示”，[48]即在生成中形成自己的本質(zhì)。然而，面對(duì)智能爆炸的潛在未來(lái)，技術(shù)已成為人類存在的基本架構(gòu)，人的生成日益在技術(shù)語(yǔ)境中展開。那么，人的本質(zhì)將如何界定？人類應(yīng)如何與技術(shù)共處？未來(lái)的人類將呈現(xiàn)何種樣態(tài)？新興技術(shù)的迅猛發(fā)展正不斷促使人類對(duì)這些問(wèn)題展開深入探索。在這一進(jìn)程中，以人類主體地位不被取代為前提的技術(shù)研發(fā)，不僅是價(jià)值對(duì)齊的基準(zhǔn)生命線，也是人工智能研究的關(guān)鍵議題。比如，共身智能（Cobodied AI/Symbodied AI）正致力于“構(gòu)建一個(gè)以人類為中心的融合智能系統(tǒng)。該系統(tǒng)的本質(zhì)特征包括‘雙腦融合’和‘人機(jī)共（具）身’，前者強(qiáng)調(diào)人腦與AI在認(rèn)知決策層面的深度對(duì)齊、協(xié)同與共識(shí)，后者則關(guān)注人體與AI硬件在物理層面的整合，以支持人機(jī)間互動(dòng)以及共同與環(huán)境互動(dòng)。”[49]因此，面對(duì)超級(jí)智能的強(qiáng)勁發(fā)展，人類不僅須重視其潛在風(fēng)險(xiǎn)，更需系統(tǒng)反思價(jià)值對(duì)齊的本質(zhì)內(nèi)涵，從而為技術(shù)發(fā)展指明方向，守護(hù)技術(shù)向善的初心，構(gòu)筑人類得以安身立命的根本保障。

（本文系教育部哲學(xué)社會(huì)科學(xué)研究重大課題攻關(guān)項(xiàng)目“數(shù)字化未來(lái)與數(shù)據(jù)倫理的哲學(xué)基礎(chǔ)研究”的階段性成果，項(xiàng)目編號(hào)：23JZD005）

注釋

[1]第零級(jí)為非人工智能（No AI）；第一級(jí)為涌現(xiàn)（emerging），其相當(dāng)于或稍優(yōu)于普通人；第二級(jí)為勝任（competent），其至少達(dá)到百分之五十的熟練成年人水平；第三級(jí)為專家（expert），其至少達(dá)到百分之九十的熟練成年人水平；第四級(jí)為大師（virtuoso），其至少達(dá)到百分之九十九的熟練成年人水平；第五級(jí)為超人類（superhuman），其超越所有人類的表現(xiàn)，即超級(jí)智能。參見M. R. Morris and J. Sohl-dickstein et al., "Levels of AGI: Operationalizing Progress on the Path to AGI," 5 January 2024。

[2][20][21][22][23][24][27][35][36]尼克·波斯特羅姆：《超級(jí)智能：路線圖、危險(xiǎn)性與應(yīng)對(duì)策略》，張?bào)w偉、張玉青譯，北京：中信出版社，2015年，第16～17、143、134、136、137、138、153、191、197頁(yè)。

[3]將可以完成人類智能可以完成的所有事，但是速度快很多的系統(tǒng)視為高速超級(jí)智能；將由數(shù)目龐大的小型智能組成，在很多一般領(lǐng)域的整體性能都大大超過(guò)所有現(xiàn)有認(rèn)知系統(tǒng)的系統(tǒng)視為集體超級(jí)智能；將一個(gè)至少和人類大腦一樣快，并且聰明程度與人類相比有巨大的質(zhì)的超越的系統(tǒng)視為素質(zhì)超級(jí)智能。參見尼克·波斯特羅姆：《超級(jí)智能：路線圖、危險(xiǎn)性與應(yīng)對(duì)策略》，張?bào)w偉、張玉青譯，北京：中信出版社，2015年，第64～67頁(yè)。

[4]從I級(jí)到Ⅵ級(jí)依次為工程智能、非對(duì)稱性假體、對(duì)稱性文化吸收者、挑戰(zhàn)人選的文化吸收者、自洽的類人社會(huì)、自洽的外星社會(huì)。其中，I級(jí)和Ⅱ級(jí)的區(qū)別僅取決于設(shè)備的預(yù)期功能，以及如何使用和對(duì)待它們，是否通過(guò)圖靈測(cè)試則是Ⅲ級(jí)到Ⅴ級(jí)的必要條件之一，Ⅵ級(jí)則包括非人類身體的智能機(jī)器，且能自我復(fù)制和改進(jìn)。參見哈利·柯林斯：《人工虛擬智能：拒絕妥協(xié)》，唐旭日譯，武漢：華中科技大學(xué)出版社，2022年，第62～79頁(yè)。

[5]聊天機(jī)器人是指通過(guò)自然語(yǔ)言與人類進(jìn)行交互的對(duì)話式系統(tǒng)；推理者不僅能處理信息，還能進(jìn)行人類水平的邏輯推理；智能體不僅可以回答問(wèn)題，還可以在無(wú)監(jiān)督的情境下自主完成任務(wù)；創(chuàng)新者則具有輔助創(chuàng)新的能力，如主動(dòng)生成解決方案、創(chuàng)意和策略等。參見T. Duenas and D. Ruiz, "The Path to Superintelligence: A Critical Analysis of OpenAI's Five Levels of AI Progression," 25 August 2024。

[6][7]穆斯塔法·蘇萊曼、邁克爾·巴斯卡爾：《浪潮將至：技術(shù)、權(quán)力與未來(lái)的沖擊》，北京：中信出版社，2024年，第5、XV頁(yè)。

[8]依據(jù)速度與性能的升序，人工智能的層級(jí)依次為：能像頂尖人類程序員一樣完成人工智能研究任務(wù)，且速度更快、成本更低，還能批量部署的超人級(jí)程序員（Superhuman Coder，簡(jiǎn)稱SC）；與超人級(jí)程序員類似，但適用于所有認(rèn)知性人工智能研究任務(wù)的超人級(jí)人工智能研究員（Superhuman AI Researcher，簡(jiǎn)稱SAR）；在人工智能科研領(lǐng)域，實(shí)力碾壓全人類最強(qiáng)研究者的超級(jí)智能人工智能研究員（Superintelligent AI Researcher，簡(jiǎn)稱SIAR）；一種在所有認(rèn)知任務(wù)上都遠(yuǎn)超最佳人類的人工智能系統(tǒng)的人工超級(jí)智能（Artifical Superintelligent，簡(jiǎn)稱ASI）。參見D. Kokotajlo and S. Alexander et al., "AI 2027," 3 April 2025, https://ai-2027.com/scenario.pdf。

[9]R. Greenblatt and C. Denison et al., "Alignment Faking in Large Language Models," 20 December 2024, https://arxiv.org/abs/2412.14093v1.

[10][30]布萊恩·克里斯汀：《人機(jī)對(duì)齊：如何讓人工智能學(xué)習(xí)人類價(jià)值觀》，唐璐譯，長(zhǎng)沙：湖南科學(xué)技術(shù)出版社，2023年，第225～226、116～117頁(yè)。

[11][12][13]約翰·杜威：《確定性的尋求——關(guān)于行知關(guān)系的研究》，傅統(tǒng)先譯，上海：華東師范大學(xué)出版社，2019年，第2、2、7頁(yè)。

[14][15][16][17][31][41]斯圖爾特·羅素：《AI新生：破解人機(jī)共存密碼——人類最后一個(gè)大問(wèn)題》，張羿譯，北京：中信出版集團(tuán)，2020年，第13、185、185、182、145、90頁(yè)。

[18][19]T. Zhi-Xuan and M. Carroll et al., "Beyond Preferences in AI Alignment," Philosophical Studies, 2025.

[25][26]P. Wang et al. (eds.), "Artificial General Intelligence 2008: Proceedings of the First AGI Conference," United Kingdom: Sage Publications Ltd, 2008.

[28]從高層次上講，獎(jiǎng)勵(lì)黑客攻擊可以分為兩種類型：環(huán)境或目標(biāo)指定錯(cuò)誤，以及獎(jiǎng)勵(lì)篡改。環(huán)境或目標(biāo)指定錯(cuò)誤，即模型通過(guò)破解環(huán)境或優(yōu)化與真實(shí)獎(jiǎng)勵(lì)目標(biāo)不一致的獎(jiǎng)勵(lì)函數(shù)來(lái)學(xué)習(xí)不良行為以獲得高獎(jiǎng)勵(lì)，例如當(dāng)獎(jiǎng)勵(lì)指定錯(cuò)誤或缺乏關(guān)鍵要求時(shí)。獎(jiǎng)勵(lì)篡改，即模型學(xué)會(huì)干擾獎(jiǎng)勵(lì)機(jī)制本身。參見L. Weng, "Reward Hacking in Reinforcement Learning," 28 December 2024, https://lilianweng.github.io/posts/2024-11-28-reward-hacking/。

[29]赫伯特·西蒙：《人類活動(dòng)中的理性》，胡懷國(guó)、馮科譯，桂林：廣西師范大學(xué)出版社，2016年，第9頁(yè)。

[32][33]E. Thornley, "The Shutdown Problem: An AI Engineering Puzzle for Decision Theorists," 10 April 2024, https://www.aimodels.fyi/papers/arxiv/shutdown-problem-ai-engineering-puzzle-decision-theorists.

[34]X. Pan and J. Dai et al., "Frontier AI Systems Have Surpassed the Self-Replicating Red Line," 9 December 2024, https://arxiv.org/abs/2412.12140.

[37]諾伯特·維納：《控制論》，王文浩譯，北京：商務(wù)印書館，2022年，第50頁(yè)。

[38]J. Leike and I. S. Sutskever, "Introducing Superalignment," 5 June 2023, https://openai.com/index/introducing-superalignment/.

[39][42]讓-雅克·盧梭：《論人類不平等的起源和基礎(chǔ)》，黃小彥譯，南京：譯林出版社，2013年，第12、32頁(yè)。

[40]S. Xia and Y. Qin et al., "Generative AI Act II: Test Time Scaling Drives Cognition Engineering," 24 April 2025, https://arxiv.org/abs/2504.13828?context=cs.AI.

[43]蘭登·溫納：《自主性技術(shù)：作為政治思想主題的失控技術(shù)》，楊海燕譯，北京：北京大學(xué)出版社，2014年，第172頁(yè)。

[44][45]I. J. Good, "Speculations Concerning the First Ultraintelligent Machine," Advances In Computers, 1966.

[46]W. MacAskill and F. Moorhouse, "Preparing for the Intelligence Explosion," 11 March 2025, https://www.forethought.org/research/preparing-for-the-intelligence-explosion.pdf.

[47][48]薩特：《存在與虛無(wú)》，陳宣良等譯，北京：生活· 讀書·新知三聯(lián)書店，2014年，第25頁(yè)。

[49]陸峰、趙沁平：《共身智能》，《計(jì)算》，2025年第4期。

The Dilemma of Value Alignment in Superintelligence

Yan Hongxiu

Abstract: Both approaches to classifying artificial intelligence—based on performance and based on human-machine relationships—validate the logical plausibility of superintelligence's emergence. At their core, these classifications point to value alignment: ensuring AI systems' behaviors align with human intentions and values. However, due to superintelligence's inherently unpredictable nature, value alignment faces three practical dilemmas: the "uselessness of value alignment" confusion stemming from goal uncertainty; the "value alignment failure" confusion caused by converging instrumental objectives; and the perplexity of "value alignment loss" triggered by super alignment. To overcome these challenges, we must re-examine the positive value of uncertainty and establish human-centered human-machine collaboration mechanisms. This will anchor the direction of technological ethics, safeguard the vision of technology for good, and fortify the foundation for the continuity of human civilization.

Keywords: superintelligence, value alignment, artificial intelligence, human future

責(zé) 編∕楊柳美編∕周群英

44444免费观看高清电视剧直播-444444在线观看免费高清电视剧-444444影院免费播放电视剧大全下载-4444444444免费观看电视剧

超級(jí)智能的價(jià)值對(duì)齊困惑