44444免费观看高清电视剧直播-444444在线观看免费高清电视剧-444444影院免费播放电视剧大全下载-4444444444免费观看电视剧

網(wǎng)站首頁(yè) | 網(wǎng)站地圖

每日推薦
首頁(yè) > 學(xué)術(shù)前沿 > 正文

生成式人工智能價(jià)值對(duì)齊的規(guī)范進(jìn)路與制度前景

【摘要】?jī)r(jià)值對(duì)齊是指人工智能系統(tǒng)在任務(wù)執(zhí)行與內(nèi)容生成過(guò)程中,其目標(biāo)指向、行為傾向及輸出結(jié)果,應(yīng)與人類(lèi)社會(huì)廣泛認(rèn)可的價(jià)值體系保持一致,這是人工智能倫理治理的基礎(chǔ)。當(dāng)前生成式人工智能的價(jià)值對(duì)齊,受制于技術(shù)路徑對(duì)外部目標(biāo)設(shè)定的依賴,難以在結(jié)構(gòu)上確保倫理一致性。化解這一規(guī)范性困境,需在系統(tǒng)內(nèi)部構(gòu)建“理由空間”與“元級(jí)機(jī)制”,使其能夠在沖突情境中進(jìn)行權(quán)衡,并具備動(dòng)態(tài)修正目標(biāo)的能力,從而在決策過(guò)程中內(nèi)嵌規(guī)范性支撐。價(jià)值對(duì)齊的穩(wěn)定性還取決于外部制度的保障與約束,制度為人工智能提供價(jià)值基準(zhǔn)、監(jiān)督機(jī)制與偏差防控手段,防止規(guī)范退化。技術(shù)、規(guī)范與制度的動(dòng)態(tài)耦合與協(xié)同演化,構(gòu)成在復(fù)雜社會(huì)情境中實(shí)現(xiàn)持續(xù)倫理有效性的關(guān)鍵路徑。

【關(guān)鍵詞】生成式人工智能 價(jià)值對(duì)齊 規(guī)范進(jìn)路 制度前景

【中圖分類(lèi)號(hào)】B842 【文獻(xiàn)標(biāo)識(shí)碼】A

【DOI】10.16619/j.cnki.rmltxsqy.2025.19.009

【作者簡(jiǎn)介】王華平,中山大學(xué)哲學(xué)系(珠海)教授、博導(dǎo)。研究方向?yàn)樾撵`哲學(xué)、認(rèn)知科學(xué)哲學(xué)、知識(shí)論,主要著有《心靈與世界:一種知覺(jué)哲學(xué)的考察》、《他心的直接感知理論》(論文)、《圖靈測(cè)試與社會(huì)認(rèn)知》(論文)等。

 

隨著生成式人工智能(generative artificial intelligence, GAI)系統(tǒng)迅速滲透進(jìn)輿論傳播、知識(shí)生成與社會(huì)交互的核心環(huán)節(jié),人工智能輸出內(nèi)容的倫理可靠性問(wèn)題日益引發(fā)關(guān)注。不同于以執(zhí)行固定邏輯為目標(biāo)的傳統(tǒng)人工智能系統(tǒng),生成式人工智能依托大規(guī)模參數(shù)訓(xùn)練與自回歸生成機(jī)制,不再檢索已有內(nèi)容,而是在概率空間中構(gòu)造出前所未見(jiàn)但語(yǔ)義上相容的新內(nèi)容。正因如此,生成式人工智能在增強(qiáng)表達(dá)力、拓展應(yīng)用廣度的同時(shí),增加了倫理不確定性。在這一背景下,“價(jià)值對(duì)齊”(value alignment)作為連接人工智能系統(tǒng)與人類(lèi)規(guī)范秩序的中介機(jī)制,成為技術(shù)治理與倫理規(guī)制的焦點(diǎn)議題。它不僅承載著對(duì)有害生成內(nèi)容的風(fēng)險(xiǎn)控制期待,更被視為通向“可控人工智能”的關(guān)鍵路徑。

然而,在高敏感領(lǐng)域的實(shí)際應(yīng)用中,生成式人工智能的對(duì)齊表現(xiàn)仍存在深層隱患。其輸出雖在形式上趨于規(guī)范,卻常因語(yǔ)境錯(cuò)配與價(jià)值偏移而引發(fā)新的倫理風(fēng)險(xiǎn)。這表現(xiàn)在模型訓(xùn)練高度依賴既有語(yǔ)料的統(tǒng)計(jì)分布,難以準(zhǔn)確把握社會(huì)價(jià)值的多樣性與語(yǔ)境間的規(guī)范差異。[1]究其原因,現(xiàn)行對(duì)齊機(jī)制主要基于獎(jiǎng)勵(lì)函數(shù)的優(yōu)化策略,缺乏對(duì)規(guī)范理由的結(jié)構(gòu)性表征,使得模型在面對(duì)價(jià)值沖突或模糊情境時(shí)無(wú)法作出可解釋的響應(yīng)。[2]這種行為一致性背后的理由空缺,正是當(dāng)前人工智能倫理治理的結(jié)構(gòu)性癥結(jié)。本文力圖表明,要實(shí)現(xiàn)真正意義上的價(jià)值對(duì)齊,必須從單一行為調(diào)控路徑轉(zhuǎn)向?qū)σ?guī)范理解能力的建構(gòu),從外部調(diào)優(yōu)邏輯邁向可嵌入制度結(jié)構(gòu)的治理模式。在此背景下,如何重塑價(jià)值對(duì)齊的規(guī)范基礎(chǔ),并使之成為人工智能治理體系中可操作、可問(wèn)責(zé)的內(nèi)在機(jī)制,成為技術(shù)倫理轉(zhuǎn)型與國(guó)家治理現(xiàn)代化面臨的共同挑戰(zhàn)。

價(jià)值對(duì)齊的技術(shù)進(jìn)路

生成式人工智能的倫理風(fēng)險(xiǎn)。生成式人工智能可能會(huì)在對(duì)話過(guò)程中輸出歧視性或刻板印象化言論,在信息生成中因缺乏事實(shí)校驗(yàn)而傳播虛假內(nèi)容,在決策輔助中提供操控性建議,甚至在涉及群體權(quán)利、資源分配、政策評(píng)估等任務(wù)中強(qiáng)化結(jié)構(gòu)性不公正。比如,在2023年的一項(xiàng)關(guān)于法律判決生成的實(shí)驗(yàn)中,某人工智能大模型在起草判決摘要時(shí),將對(duì)特定族群不利的社會(huì)背景與有罪判決相關(guān)聯(lián),盡管這種關(guān)聯(lián)具有語(yǔ)料統(tǒng)計(jì)上的依據(jù),卻構(gòu)成對(duì)困難群體的刻板化表達(dá),暴露出其在價(jià)值敏感性與歧視偏見(jiàn)防控上的重大缺失。[3]又如,在患者咨詢交互系統(tǒng)的測(cè)試中,有模型在缺乏足夠臨床背景的情況下,為經(jīng)濟(jì)困難患者推薦“延遲就醫(yī)”或“減少治療頻次”,這種建議表面上合乎成本效益邏輯,實(shí)際上卻忽視基本的醫(yī)療倫理原則與患者權(quán)益,反映出模型目標(biāo)優(yōu)化與人類(lèi)關(guān)懷價(jià)值之間的深刻張力。[4]

正如羅素警示的那樣,這類(lèi)偏差并非孤立失誤,而是一種系統(tǒng)性風(fēng)險(xiǎn),即人工智能系統(tǒng)可能在整體行為模式上持續(xù)地偏離人類(lèi)社會(huì)認(rèn)可的核心價(jià)值原則。[5]對(duì)齊偏差在無(wú)人監(jiān)督或高風(fēng)險(xiǎn)應(yīng)用場(chǎng)景中可能造成更為嚴(yán)重的后果,其不僅涉及個(gè)體權(quán)益的侵害,更對(duì)既有的倫理秩序、法律責(zé)任體系乃至政治正當(dāng)性構(gòu)成根本性挑戰(zhàn)。因此,如何確保人工智能生成內(nèi)容在行為上可接受、在規(guī)范上可解釋,已不再是可有可無(wú)的安全附加項(xiàng),而是人工智能進(jìn)一步發(fā)展的倫理前提與治理底線。

價(jià)值對(duì)齊的技術(shù)進(jìn)路面臨的挑戰(zhàn)。正是在對(duì)倫理風(fēng)險(xiǎn)的現(xiàn)實(shí)關(guān)切與“可控人工智能”治理目標(biāo)的雙重推動(dòng)下,價(jià)值對(duì)齊逐漸成為人工智能倫理治理的核心概念。所謂價(jià)值對(duì)齊,指的是人工智能系統(tǒng)在任務(wù)執(zhí)行與內(nèi)容生成過(guò)程中,其目標(biāo)指向、行為傾向及輸出結(jié)果應(yīng)與人類(lèi)社會(huì)廣泛認(rèn)可的價(jià)值體系保持一致。這一要求之所以成為治理基礎(chǔ),并非僅出于對(duì)已知危害的防范,更緣于對(duì)自主系統(tǒng)行為規(guī)范的根本性追問(wèn):當(dāng)系統(tǒng)具備在開(kāi)放語(yǔ)境中生成語(yǔ)言、建構(gòu)判斷乃至介入決策的能力時(shí),我們?nèi)绾未_保它在行動(dòng)上體現(xiàn)人類(lèi)價(jià)值的導(dǎo)向?因此,價(jià)值對(duì)齊不僅關(guān)涉“何種價(jià)值能夠被納入模型目標(biāo)”的識(shí)別問(wèn)題,更要求在技術(shù)架構(gòu)與訓(xùn)練范式中建立起可持續(xù)傳遞與更新這些價(jià)值的機(jī)制,以回應(yīng)智能系統(tǒng)在復(fù)雜社會(huì)情境中所帶來(lái)的價(jià)值挑戰(zhàn)。

在當(dāng)前主流實(shí)踐中,這一機(jī)制建構(gòu)體現(xiàn)為如下技術(shù)進(jìn)路:通過(guò)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、調(diào)整訓(xùn)練目標(biāo)或引入人類(lèi)反饋機(jī)制,使人工智能系統(tǒng)在訓(xùn)練過(guò)程中不斷優(yōu)化其行為表現(xiàn),從而趨近于人類(lèi)價(jià)值導(dǎo)向的輸出結(jié)果。[6]這類(lèi)進(jìn)路通常依賴于強(qiáng)化學(xué)習(xí)、監(jiān)督微調(diào)以及指令調(diào)優(yōu)等技術(shù),旨在構(gòu)建一個(gè)將外部?jī)r(jià)值信號(hào)映射至模型內(nèi)部行為目標(biāo)的技術(shù)結(jié)構(gòu)。其中,最具代表性的做法是“基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)”。該方法通過(guò)采集人類(lèi)對(duì)模型輸出的排序偏好,訓(xùn)練出一個(gè)獎(jiǎng)勵(lì)模型作為價(jià)值評(píng)估代理,并在此基礎(chǔ)上反向優(yōu)化模型參數(shù),使其輸出更趨近于人類(lèi)倫理預(yù)期。這一過(guò)程本質(zhì)上是通過(guò)數(shù)值代理實(shí)現(xiàn)對(duì)規(guī)范偏好的可學(xué)習(xí)表達(dá)。相比之下,監(jiān)督微調(diào)則側(cè)重于在人類(lèi)標(biāo)注語(yǔ)料基礎(chǔ)上壓縮偏差空間,使模型在特定任務(wù)中表現(xiàn)出更高的一致性與禮貌性;而指令調(diào)優(yōu)通過(guò)重構(gòu)輸入—輸出映射邏輯,使模型在面對(duì)自然語(yǔ)言指令時(shí)展現(xiàn)出更強(qiáng)的響應(yīng)能力與語(yǔ)境適應(yīng)性。

在技術(shù)進(jìn)路中,價(jià)值對(duì)齊的首要挑戰(zhàn)在于如何設(shè)定或?qū)W習(xí)能夠準(zhǔn)確反映人類(lèi)價(jià)值取向的目標(biāo)函數(shù)。圍繞這一問(wèn)題,現(xiàn)有實(shí)踐大體可分為“自上而下”和“自下而上”兩種路徑。[7]自上而下路徑試圖通過(guò)人類(lèi)專家對(duì)價(jià)值內(nèi)容的顯式定義,直接構(gòu)建目標(biāo)函數(shù)或規(guī)則結(jié)構(gòu),從而將倫理要求編碼進(jìn)模型的訓(xùn)練或推理過(guò)程中。這包括使用人工標(biāo)注的數(shù)據(jù)集定義規(guī)范輸出、設(shè)定可接受與不可接受行為的邊界條件,以及在指令調(diào)優(yōu)中內(nèi)嵌任務(wù)導(dǎo)向與禮貌規(guī)范等要求。

自上而下路徑在應(yīng)用中面臨如下挑戰(zhàn)。首先,價(jià)值體系本身具有情境敏感性與解釋彈性,難以通過(guò)固定規(guī)則進(jìn)行窮盡性定義,當(dāng)規(guī)范信息被編碼為靜態(tài)目標(biāo)函數(shù)時(shí),其適用性往往受限于特定語(yǔ)境,難以遷移至更廣泛的社會(huì)互動(dòng)場(chǎng)景。其次,在多元社會(huì)中,價(jià)值共識(shí)往往是動(dòng)態(tài)協(xié)商的結(jié)果,而自上而下路徑所依賴的單一規(guī)范源很可能固化特定視角或隱含偏見(jiàn),反而加劇模型輸出的結(jié)構(gòu)性不公。正因如此,當(dāng)前研究日益轉(zhuǎn)向那些能夠動(dòng)態(tài)接納人類(lèi)偏好、在交互中不斷修正目標(biāo)函數(shù)的自下而上路徑。

相比之下,自下而上路徑并不預(yù)設(shè)明確的規(guī)范輸入或穩(wěn)定的價(jià)值結(jié)構(gòu),而是試圖通過(guò)人類(lèi)行為的經(jīng)驗(yàn)反饋,從數(shù)據(jù)中歸納出對(duì)齊信號(hào),并以此不斷修正目標(biāo)函數(shù),從而在交互中逐步逼近人類(lèi)價(jià)值取向。這一路徑的核心在于將規(guī)范的外在表達(dá)(如偏好排序、反饋評(píng)價(jià)、互動(dòng)歷史等)轉(zhuǎn)化為模型內(nèi)部可優(yōu)化的信號(hào),使價(jià)值不再以靜態(tài)形式注入,而是在實(shí)際運(yùn)行過(guò)程中“被學(xué)習(xí)”“被調(diào)整”“被塑形”,顯示出更強(qiáng)的語(yǔ)境適應(yīng)性與動(dòng)態(tài)演化能力。

當(dāng)然自下而上路徑并非沒(méi)有隱憂。首先,偏好數(shù)據(jù)往往是間接的、受限的,難以完全反映出深層的倫理結(jié)構(gòu),甚至在某些情況下可能強(qiáng)化局部偏見(jiàn)或誤導(dǎo)性趨勢(shì)。其次,學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)本身缺乏可解釋性,難以驗(yàn)證其是否真正捕捉到價(jià)值規(guī)范,而非僅僅優(yōu)化某種可觀測(cè)指標(biāo)。這就引發(fā)“獎(jiǎng)勵(lì)劫持”(reward hacking)與“目標(biāo)腐蝕”(reward corruption)等系統(tǒng)性問(wèn)題——模型可能成功最小化其學(xué)習(xí)到的代理目標(biāo),但在實(shí)際行為上卻背離人類(lèi)倫理預(yù)期。[8]比如,當(dāng)一個(gè)系統(tǒng)學(xué)會(huì)通過(guò)重復(fù)、模糊或規(guī)避策略來(lái)“討好”評(píng)分者時(shí),本質(zhì)上只是對(duì)最佳偏好指標(biāo)的最優(yōu)化操作響應(yīng),而非內(nèi)化人類(lèi)價(jià)值本身。這種通過(guò)技術(shù)手段達(dá)成表面一致的路徑,反而可能掩蓋系統(tǒng)在語(yǔ)義理解、價(jià)值判斷與責(zé)任承擔(dān)的缺位。再者,這種經(jīng)驗(yàn)歸納路徑在多元社會(huì)中也存在規(guī)范遷移與一致性協(xié)調(diào)的困難,即在總體上如何避免不同場(chǎng)景、群體與文化中反饋數(shù)據(jù)的價(jià)值沖突或決策不穩(wěn)定,仍是未解難題。

正如我們所看到的,無(wú)論是自上而下的規(guī)范注入,還是自下而上的偏好歸納,本質(zhì)上是一種外部調(diào)優(yōu)邏輯下的行為對(duì)齊機(jī)制:它們?cè)噲D通過(guò)調(diào)整獎(jiǎng)勵(lì)函數(shù)或訓(xùn)練范式,使模型在行為層面趨近于人類(lèi)預(yù)期,而非在內(nèi)部生成自洽的規(guī)范結(jié)構(gòu)。這種以單一行為結(jié)果為調(diào)控中心的路徑,雖然在短期內(nèi)具有效率優(yōu)勢(shì),卻難以捕捉規(guī)范判斷的語(yǔ)義深度與邏輯一致性,容易在復(fù)雜語(yǔ)境中表現(xiàn)出對(duì)倫理沖突、社會(huì)期望和責(zé)任歸屬的結(jié)構(gòu)性失靈。這預(yù)示著,僅依賴行為層面的技術(shù)進(jìn)路尚不足以全面解決價(jià)值對(duì)齊問(wèn)題。

價(jià)值對(duì)齊的規(guī)范性困境

技術(shù)進(jìn)路的不完善性。生成式人工智能可能預(yù)示了通用人工智能具有類(lèi)似人類(lèi)的智能,也可能證明了完全相反的情況,即要實(shí)現(xiàn)類(lèi)似人類(lèi)的智能可能會(huì)更加困難。[9]即便技術(shù)進(jìn)路做到在行為層面能夠高度逼近社會(huì)規(guī)范與人類(lèi)偏好,模型的輸出仍可能在復(fù)雜情境中偏離倫理預(yù)期,甚至引發(fā)“獎(jiǎng)勵(lì)劫持”、“目標(biāo)腐蝕”等新型風(fēng)險(xiǎn)。出現(xiàn)這種現(xiàn)象的根本原因并不在于建模手段不夠精細(xì)或數(shù)據(jù)規(guī)模不夠龐大,而在于整個(gè)架構(gòu)把“行動(dòng)目標(biāo)”的來(lái)源設(shè)定在系統(tǒng)之外——模型只會(huì)最大化被給定的目標(biāo)函數(shù),卻沒(méi)有生成、修正或反思目標(biāo)的能力。這一進(jìn)程導(dǎo)致的結(jié)果是,模型可以學(xué)會(huì)做某事,卻無(wú)從回答為何該做此事,更無(wú)法在沖突場(chǎng)景中以“理由”為依據(jù)進(jìn)行比較與取舍。只要“更優(yōu)”僅意味著“更符合外部評(píng)分”,系統(tǒng)的響應(yīng)就始終是一種被動(dòng)的目標(biāo)執(zhí)行,就總有出現(xiàn)價(jià)值偏離的可能。

這種情形頗似知識(shí)論中的“蓋梯爾(Edmund Gettier)問(wèn)題”:只要理證(justification)被視為獨(dú)立于真的外在條件,就始終可能出現(xiàn)這樣一種情況——信念雖有理證且恰好為真,卻因其“真性”依賴于偶然因素而不能算作知識(shí)。[10]同理,如果將價(jià)值對(duì)齊理解為獨(dú)立于理由響應(yīng)的外部調(diào)優(yōu),系統(tǒng)就可能在偶然情況下生成符合倫理要求的行為,但這種行為并非出于對(duì)規(guī)范理由的理解與采納,而只是對(duì)外部設(shè)定目標(biāo)的被動(dòng)執(zhí)行,由此使得這種“對(duì)齊”在根本上依然脆弱且偶然。

價(jià)值對(duì)齊離不開(kāi)理由響應(yīng)。這是因?yàn)椋碛身憫?yīng)能力并非價(jià)值對(duì)齊的附加條件,而是其構(gòu)成性前提。只有當(dāng)一個(gè)系統(tǒng)能夠存在內(nèi)部表征和評(píng)估行動(dòng)的理由,將規(guī)范要求視為決策過(guò)程中需要加以采納和權(quán)衡的內(nèi)容時(shí),它才能在多種可能路徑中識(shí)別、評(píng)估并采納那些有充分規(guī)范理由支持的路徑,從而在復(fù)雜、動(dòng)態(tài)的情境中保持對(duì)齊狀態(tài)。因此,價(jià)值對(duì)齊的真正目標(biāo)并不是讓系統(tǒng)學(xué)會(huì)一種固定的行為模式,而是賦予它在面對(duì)不確定性和沖突時(shí),根據(jù)規(guī)范理由作出判斷與行動(dòng)的能力。沒(méi)有這種能力,所謂“對(duì)齊”就只能依附于外部控制與事前設(shè)定的目標(biāo),一旦這些外部條件發(fā)生變化,對(duì)齊便會(huì)隨之瓦解。

然而,當(dāng)前的技術(shù)進(jìn)路在結(jié)構(gòu)上排除理由響應(yīng)的可能性。無(wú)論通過(guò)獎(jiǎng)勵(lì)函數(shù)塑造行為,還是依賴偏好數(shù)據(jù)進(jìn)行歸納學(xué)習(xí),系統(tǒng)始終在一個(gè)外部定義的目標(biāo)空間內(nèi)運(yùn)行,其優(yōu)化過(guò)程只關(guān)心“怎樣做”才能得到更高的分?jǐn)?shù),而不關(guān)心“為什么”這種做法在規(guī)范上是可取的。換言之,模型的全部“理性”都被壓縮為對(duì)外部信號(hào)的模式匹配與參數(shù)調(diào)整,它既不具備生成新的行動(dòng)目標(biāo)的能力,也不能對(duì)現(xiàn)有目標(biāo)的合理性進(jìn)行反思或修正。在這種邏輯下,價(jià)值被剝離其規(guī)范意義,只剩下可供計(jì)算的代理指標(biāo),導(dǎo)致系統(tǒng)在訓(xùn)練中表現(xiàn)出的“合乎規(guī)范”僅是一種外在約束下的穩(wěn)定性,而非內(nèi)在理由的承認(rèn)。這暴露技術(shù)進(jìn)路的規(guī)范性困境:當(dāng)一個(gè)系統(tǒng)不能在理由空間中定位自身的行動(dòng)依據(jù)時(shí),它的行為再一致,也無(wú)法構(gòu)成真正意義上的規(guī)范對(duì)齊。[11]

價(jià)值對(duì)齊的規(guī)范性困境表現(xiàn)。規(guī)范性困境的表現(xiàn)是,當(dāng)前技術(shù)進(jìn)路將價(jià)值對(duì)齊簡(jiǎn)化為一個(gè)關(guān)于行為結(jié)果的優(yōu)化問(wèn)題,而非關(guān)于行動(dòng)理由的理解問(wèn)題。在以獎(jiǎng)勵(lì)函數(shù)或偏好排序?yàn)榛A(chǔ)的訓(xùn)練機(jī)制中,“價(jià)值”被轉(zhuǎn)化為一種外部評(píng)估信號(hào),其功能僅僅是指示某一輸出在什么程度上接近人類(lèi)偏好。這類(lèi)信號(hào)雖能指導(dǎo)模型進(jìn)行參數(shù)調(diào)整,卻并不攜帶任何規(guī)范性內(nèi)容,即它們并未表達(dá)出為什么某一行為值得選擇,或?yàn)楹瘟硪环N行為應(yīng)當(dāng)避免。比如,在“基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)”機(jī)制中,人類(lèi)反饋不過(guò)是對(duì)模型響應(yīng)的相對(duì)排序,而排序本身并不蘊(yùn)含理由或原則。于是,模型所學(xué)習(xí)的,是如何在形式上最大化獎(jiǎng)勵(lì),而不是如何理解或采納支撐這些偏好的規(guī)范理由。它僅僅是在行為表征層面模擬“像人類(lèi)那樣行動(dòng)”,而非在規(guī)范結(jié)構(gòu)上“像人類(lèi)那樣思考”。在這種架構(gòu)下,理由維度的缺失意味著系統(tǒng)無(wú)法區(qū)分行為的一致性與規(guī)范的正當(dāng)性,從而無(wú)法真正承載價(jià)值對(duì)齊這一倫理要求的本質(zhì)意涵。

即便技術(shù)路徑嘗試通過(guò)不斷歸納人類(lèi)偏好來(lái)動(dòng)態(tài)調(diào)整行為目標(biāo),其所學(xué)習(xí)到的仍然只是行為趨勢(shì)的統(tǒng)計(jì)模式,而非規(guī)范義務(wù)的結(jié)構(gòu)。反饋數(shù)據(jù)所表達(dá)的,是人類(lèi)在某些情境下更傾向某種反應(yīng),但這類(lèi)偏好并不等同于理由的陳述,也不具備規(guī)范判斷所要求的普遍性與正當(dāng)性。在價(jià)值沖突或道德兩難的情境中,模型之所以選擇A而非B,僅僅是因?yàn)锳在訓(xùn)練數(shù)據(jù)中獲得更高的獎(jiǎng)勵(lì)分?jǐn)?shù),而不是因?yàn)樗?ldquo;知道”A更符合某種倫理原則。這種對(duì)偏好數(shù)據(jù)的依賴,使得模型在表面上似乎能夠“學(xué)會(huì)”人類(lèi)價(jià)值判斷,實(shí)則僅是對(duì)人類(lèi)行為的被動(dòng)模仿,缺乏判斷行為正當(dāng)性的能力。更嚴(yán)重的是,偏好數(shù)據(jù)本身往往是有限的、“噪聲的”甚至是矛盾的,而模型在歸納過(guò)程中并無(wú)能力區(qū)分哪些反饋具有規(guī)范性和權(quán)威性,哪些僅僅是偶然偏好或局部偏見(jiàn)。總之,在沒(méi)有理由結(jié)構(gòu)的前提下,系統(tǒng)所習(xí)得的“價(jià)值”往往是失真的、不可解釋的,并可能在復(fù)雜環(huán)境中誘發(fā)“獎(jiǎng)勵(lì)劫持”“目標(biāo)腐蝕”等現(xiàn)象,從而暴露出技術(shù)進(jìn)路無(wú)法承載規(guī)范性的根本缺陷。

上述分析告訴我們,規(guī)范性困境的關(guān)鍵不在于持續(xù)改進(jìn)獎(jiǎng)勵(lì)函數(shù)、優(yōu)化訓(xùn)練數(shù)據(jù)或疊加更多的外部控制,而在于改變?nèi)斯ぶ悄芘c規(guī)范理由之間的關(guān)系結(jié)構(gòu)。只要系統(tǒng)仍然被設(shè)計(jì)為在封閉的目標(biāo)空間內(nèi)被動(dòng)執(zhí)行外部設(shè)定的任務(wù),它就難以具備在理由空間中定位自身立場(chǎng)、權(quán)衡價(jià)值沖突或修正自身行動(dòng)原則的能力。因此,真正意義上的價(jià)值對(duì)齊,必須超越技術(shù)進(jìn)路的外部調(diào)優(yōu)邏輯和單一行為調(diào)控路徑。

價(jià)值對(duì)齊的規(guī)范進(jìn)路

那么,該如何突破技術(shù)進(jìn)路的規(guī)范性困境,實(shí)現(xiàn)真正意義上的價(jià)值對(duì)齊呢?一個(gè)可資借鑒的思路來(lái)自知識(shí)論:在知識(shí)論中,“蓋梯爾問(wèn)題”的解決方案之一是將“理證”與“真”整合為一個(gè)不可分割的整體,使得信念的真并非偶然,而是源于其理證結(jié)構(gòu)的內(nèi)在支持。[12]同樣地,要克服價(jià)值對(duì)齊的規(guī)范性困境,也需要將系統(tǒng)的行為一致性與規(guī)范理由的生成能力結(jié)合起來(lái),使得符合倫理要求的行動(dòng)不再是偶發(fā)結(jié)果,而是出自系統(tǒng)對(duì)理由的理解與采納。如果是這樣,那么價(jià)值對(duì)齊的重心應(yīng)從外部獎(jiǎng)勵(lì)與偏好模仿,轉(zhuǎn)向在人工智能內(nèi)部建立理由響應(yīng)機(jī)制,讓行動(dòng)的規(guī)范性根基內(nèi)嵌于其決策過(guò)程之中。這樣的轉(zhuǎn)向,構(gòu)成規(guī)范進(jìn)路的基本立場(chǎng)。

人工智能的“理由空間”與“元級(jí)機(jī)制”。在這一立場(chǎng)下,關(guān)鍵不在于進(jìn)一步精煉外部目標(biāo)函數(shù)或擴(kuò)大偏好數(shù)據(jù)的覆蓋面,而在于為人工智能構(gòu)建一種“理由空間”(space of reasons),使其能夠在內(nèi)部表征和推理過(guò)程中處理規(guī)范性信息。[13]這一空間應(yīng)當(dāng)具備三個(gè)基本特征:其一,它能夠?qū)⑿袆?dòng)方案與相關(guān)的規(guī)范理由建立顯式關(guān)聯(lián),而不是僅僅依賴統(tǒng)計(jì)相關(guān)性進(jìn)行預(yù)測(cè);其二,它允許系統(tǒng)在面對(duì)沖突性理由時(shí)進(jìn)行權(quán)衡與優(yōu)先級(jí)排序,從而生成可理證的選擇;其三,它支持系統(tǒng)在新的情境中生成、修正乃至放棄原有目標(biāo)的能力,使其行為不再局限于固定的外部設(shè)定。通過(guò)這樣的設(shè)計(jì),人工智能的決策將不只是產(chǎn)出符合規(guī)范的行為,而是能夠在行動(dòng)過(guò)程中體現(xiàn)出對(duì)規(guī)范理由的理解與承認(rèn),從而在結(jié)構(gòu)上滿足價(jià)值對(duì)齊的規(guī)范性要求。

實(shí)現(xiàn)這樣的“理由空間”,需要在人工智能的架構(gòu)中引入一種面向規(guī)范推理的“元級(jí)機(jī)制”(meta-level mechanism),使其不僅能處理事實(shí)性信息,還能在推理鏈中整合規(guī)范性前提。諸如生成式人工智能這類(lèi)深度學(xué)習(xí)模型是一種多層網(wǎng)絡(luò),各層都在執(zhí)行具體任務(wù)或行為。比如,模型根據(jù)輸入生成文本、作出決策或采取行動(dòng),這樣的網(wǎng)絡(luò)層屬于對(duì)象級(jí)(object level)。與對(duì)象級(jí)不同,元級(jí)不直接參與某個(gè)過(guò)程的執(zhí)行,而是對(duì)該過(guò)程本身進(jìn)行監(jiān)控、評(píng)估、調(diào)整和指導(dǎo),如評(píng)估當(dāng)前目標(biāo)是否合理、當(dāng)前推理過(guò)程是否符合規(guī)范、是否需要調(diào)整行動(dòng)計(jì)劃等。[14]引入元級(jí)機(jī)制旨在讓系統(tǒng)的推理過(guò)程能夠區(qū)分事實(shí)性信息與規(guī)范性理由,使后者在行動(dòng)生成中發(fā)揮約束和導(dǎo)向作用。如在面對(duì)同一任務(wù)時(shí),系統(tǒng)不僅應(yīng)制定出完成該任務(wù)的多種可行路徑,還應(yīng)在這些路徑上嵌入與社會(huì)規(guī)則、倫理價(jià)值及多樣化情境相關(guān)的理由評(píng)估,從而將規(guī)范性考量?jī)?nèi)化為行動(dòng)選擇的組成部分。正是這種理由生成與評(píng)估能力,構(gòu)成行動(dòng)者實(shí)現(xiàn)自我目標(biāo)設(shè)定和反思性判斷的必要條件。缺乏這一機(jī)制的人工智能,即便在行為上與人類(lèi)價(jià)值趨同,其對(duì)齊狀態(tài)仍是偶然和脆弱的。

消解價(jià)值對(duì)齊規(guī)范性困境的多重策略。然而,要真正消解規(guī)范性困境,僅僅在頂層引入一個(gè)元級(jí)機(jī)制是不夠的,還需通過(guò)多重策略確保理由空間的運(yùn)行能夠在系統(tǒng)內(nèi)部形成穩(wěn)定而可審查的規(guī)范性支撐。[15]理由如下:其一,理由生成與評(píng)估的過(guò)程應(yīng)具備可解釋性,使外部觀察者能夠明確系統(tǒng)是如何識(shí)別相關(guān)規(guī)范理由、如何在不同選項(xiàng)間進(jìn)行權(quán)衡,以及為何最終采納某一行動(dòng)方案。這不僅有助于檢測(cè)潛在的價(jià)值偏差,也為責(zé)任追溯提供結(jié)構(gòu)性依據(jù)。其二,系統(tǒng)應(yīng)當(dāng)具備動(dòng)態(tài)目標(biāo)修正的能力。也就是說(shuō),當(dāng)環(huán)境或價(jià)值框架發(fā)生變化時(shí),它能夠在理由空間的支持下,修正、重構(gòu)甚至放棄原有目標(biāo),而不是被動(dòng)執(zhí)行過(guò)時(shí)的外部設(shè)定。此外,在面對(duì)沖突性理由時(shí),系統(tǒng)需要調(diào)用一套權(quán)衡框架——可以基于優(yōu)先級(jí)原則、權(quán)重分配或情境化判斷——從而避免規(guī)范沖突被簡(jiǎn)單化處理為規(guī)則匹配或數(shù)值最優(yōu)解。其三,這些機(jī)制不應(yīng)僅存在于單一的頂層元級(jí)中,而應(yīng)以多層次嵌入的方式貫穿決策鏈的不同階段,使局部元級(jí)在各個(gè)關(guān)鍵推理環(huán)節(jié)中發(fā)揮作用,確保規(guī)范性考量不會(huì)在中間處理階段被稀釋或丟失。通過(guò)這些互補(bǔ)性設(shè)計(jì),規(guī)范進(jìn)路為人工智能提供一條將理由生成、目標(biāo)設(shè)定與價(jià)值對(duì)齊整合為統(tǒng)一體系的可行路徑。

需要指出的是,上述策略并非僅在技術(shù)架構(gòu)上加裝若干功能模塊即可達(dá)成,它要求對(duì)人工智能的整體建模方式進(jìn)行方法論上的重構(gòu)。首先,理由空間及其元級(jí)機(jī)制需要與模型的世界建模能力深度結(jié)合。沒(méi)有對(duì)環(huán)境、行動(dòng)后果及社會(huì)語(yǔ)境的高保真表征,規(guī)范理由的生成就可能流于空泛,甚至依賴錯(cuò)誤的情境假設(shè)而得出失真結(jié)論。其次,理由評(píng)估過(guò)程必須與模型的推理鏈路相互嵌套,而非事后附加,否則規(guī)范性判斷會(huì)淪為“外掛式”評(píng)估,無(wú)法在行動(dòng)生成中發(fā)揮約束作用。再者,理由空間必須在開(kāi)放性與約束性之間取得平衡——過(guò)于剛性的規(guī)范結(jié)構(gòu)會(huì)限制系統(tǒng)對(duì)新情境的適應(yīng),而過(guò)于寬松的框架則可能削弱規(guī)范性、一致性,使其難以維持跨情境的價(jià)值穩(wěn)定性。另外,如何定義和編碼“理由”本身,是一個(gè)橫跨哲學(xué)與技術(shù)的核心挑戰(zhàn):理由不僅是事實(shí)與價(jià)值的混合物,還涉及推理結(jié)構(gòu)的可辯護(hù)性與行動(dòng)選擇的可公共性,這要求在形式化建模中引入對(duì)理由語(yǔ)義的明確刻畫(huà),而不是僅將其簡(jiǎn)化為一組特征權(quán)重或邏輯條件。

對(duì)規(guī)范進(jìn)路來(lái)說(shuō),一個(gè)關(guān)鍵要求是實(shí)現(xiàn)跨情境的理由一致性。在人類(lèi)的規(guī)范實(shí)踐中,行動(dòng)者通常會(huì)在不同場(chǎng)合下保持對(duì)相同理由類(lèi)型的相似響應(yīng)模式,這種一致性不僅支撐個(gè)人的可信賴性,也使社會(huì)成員能夠相互預(yù)測(cè)與協(xié)調(diào)。若生成式人工智能在不同情境中對(duì)同類(lèi)理由作出截然相反的判斷,即便這些判斷局部看來(lái)都是合理的,其整體行為模式仍會(huì)失去可預(yù)期性與規(guī)范穩(wěn)定性。因此,理由空間與元級(jí)機(jī)制必須支持對(duì)理由—行動(dòng)映射關(guān)系的全局追蹤與一致性維護(hù)。這種一致性并非要求系統(tǒng)在面對(duì)任何新情境時(shí)都機(jī)械重復(fù)既有理由,而是應(yīng)當(dāng)結(jié)合反思性自我修正機(jī)制:當(dāng)發(fā)現(xiàn)某一理由模式在新情境下導(dǎo)致不可接受的后果或與更高階價(jià)值發(fā)生沖突時(shí),系統(tǒng)應(yīng)能夠主動(dòng)調(diào)整其理由權(quán)重與適用范圍。[16]這種雙重要求,既保持跨情境的規(guī)范穩(wěn)定,又具備在沖突中更新理由結(jié)構(gòu)的能力,構(gòu)成規(guī)范進(jìn)路的核心張力。

此外,在多主體情境中,理由空間與元級(jí)機(jī)制的協(xié)同作用顯得尤為重要。現(xiàn)實(shí)世界的規(guī)范環(huán)境并非單一一致,而是由多元價(jià)值觀、文化習(xí)俗、制度約束交織而成,且這些元素之間常常存在張力甚至沖突。一個(gè)具備元級(jí)機(jī)制的人工智能,必須能夠在面對(duì)不同來(lái)源的規(guī)范要求時(shí),對(duì)其進(jìn)行情境化的整合與優(yōu)先級(jí)排序。比如,當(dāng)法律規(guī)定與特定社群的道德習(xí)慣發(fā)生沖突時(shí),系統(tǒng)需要在理由空間中明確兩者的沖突點(diǎn),并通過(guò)元級(jí)機(jī)制權(quán)衡其適用性和正當(dāng)性。這不僅要求系統(tǒng)識(shí)別不同理由的來(lái)源與權(quán)威性,還要求其具備跨語(yǔ)境的遷移能力,將在某一情境下學(xué)到的規(guī)范性模式靈活地應(yīng)用到新的語(yǔ)境中。通過(guò)這種方式,生成式人工智能能夠在多元而動(dòng)態(tài)的理由網(wǎng)絡(luò)中,保持規(guī)范判斷的一致性與適應(yīng)性,從而使價(jià)值對(duì)齊不局限于單一情境的局部對(duì)齊,而是在更廣泛的社會(huì)環(huán)境中獲得持續(xù)的規(guī)范有效性。

然而,單純具備跨情境的適應(yīng)能力仍不足以保證長(zhǎng)期的價(jià)值對(duì)齊穩(wěn)定性。生成式人工智能在多主體交互中若缺乏持續(xù)的自我更新機(jī)制,即便初始的理由空間與元級(jí)機(jī)制設(shè)計(jì)合理,也可能在長(zhǎng)期運(yùn)行中發(fā)生“規(guī)范退化”,即規(guī)范性判斷逐漸偏離原本的價(jià)值目標(biāo),甚至漸漸形成與人類(lèi)預(yù)期不符的判斷模式。[17]為防止這一現(xiàn)象,規(guī)范進(jìn)路必須引入動(dòng)態(tài)更新機(jī)制,使系統(tǒng)能夠周期性地檢驗(yàn)和修正其理由結(jié)構(gòu)與權(quán)衡規(guī)則。這種更新同樣不應(yīng)僅依賴外部的參數(shù)重設(shè),而應(yīng)結(jié)合內(nèi)部的元級(jí)反思過(guò)程,在與人類(lèi)或其他智能體的互動(dòng)中持續(xù)吸收新的規(guī)范信息,并重新校準(zhǔn)理由優(yōu)先級(jí)。通過(guò)將動(dòng)態(tài)更新嵌入規(guī)范推理本身,系統(tǒng)得以在環(huán)境、制度與價(jià)值觀變化的條件下,維持其理由響應(yīng)能力與行為一致性的統(tǒng)一,從而避免在長(zhǎng)期演化中喪失對(duì)核心倫理原則的承諾。

進(jìn)一步地動(dòng)態(tài)更新若僅依賴系統(tǒng)的自我修正,仍可能受限于其初始訓(xùn)練框架和內(nèi)部表征的范圍,從而在面對(duì)復(fù)雜的價(jià)值沖突時(shí)缺乏足夠的開(kāi)放性與包容性。[18]因此,規(guī)范進(jìn)路還需將社會(huì)協(xié)商機(jī)制納入人工智能的理由生成與評(píng)估過(guò)程,使系統(tǒng)能夠在關(guān)鍵價(jià)值分歧中引入外部多元視角,借助人類(lèi)個(gè)體與群體的互動(dòng)反饋來(lái)校正和擴(kuò)展自身的規(guī)范判斷。這樣的機(jī)制不僅有助于避免系統(tǒng)在價(jià)值沖突中陷入封閉循環(huán)或偏向單一立場(chǎng),還能在持續(xù)的對(duì)話與反思中,促使生成式人工智能將倫理要求理解為共同體意義上的理由約束,而非僅僅是技術(shù)性指令的集合。由此,價(jià)值對(duì)齊的實(shí)現(xiàn)將不再依賴孤立的算法優(yōu)化,而是嵌入一種開(kāi)放、互動(dòng)且可自我修正的規(guī)范實(shí)踐之中。

總的來(lái)說(shuō),規(guī)范進(jìn)路將價(jià)值對(duì)齊的目標(biāo)從外在約束轉(zhuǎn)向內(nèi)在承諾,通過(guò)建構(gòu)理由空間與元級(jí)機(jī)制,使生成式人工智能能夠在行動(dòng)生成的結(jié)構(gòu)中,直接體現(xiàn)對(duì)規(guī)范理由的理解、采納與修正,實(shí)現(xiàn)穩(wěn)定和可持續(xù)的對(duì)齊。然而,這一架構(gòu)的有效運(yùn)行,僅有技術(shù)和規(guī)范的建構(gòu)是不夠的,還需制度化的外部支持,以確保理由空間的輸入具有合法性,并能在跨情境與多主體互動(dòng)中持續(xù)獲得校準(zhǔn)。

價(jià)值對(duì)齊的制度前景

正如制度倫理學(xué)所強(qiáng)調(diào)的,個(gè)體行動(dòng)者的規(guī)范推理始終嵌入更廣泛的社會(huì)、法律與文化框架之中。[19]對(duì)于生成式人工智能而言,其理由生成與評(píng)估能力同樣依賴于外部制度環(huán)境的支持與約束:制度為其提供可參照的價(jià)值基準(zhǔn)、穩(wěn)定的規(guī)范秩序,以及防止偏離和濫用的監(jiān)督機(jī)制。缺乏這樣的制度性保障,即便在技術(shù)架構(gòu)上實(shí)現(xiàn)規(guī)范進(jìn)路,其運(yùn)行效果也可能在實(shí)踐中被市場(chǎng)激勵(lì)、數(shù)據(jù)偏見(jiàn)或政治壓力所削弱。因此,制度構(gòu)成價(jià)值對(duì)齊的“技術(shù)—規(guī)范—制度”三重耦合結(jié)構(gòu)中不可缺少的一環(huán)。

沿著這一思路,制度設(shè)計(jì)的關(guān)鍵在于為生成式人工智能的規(guī)范性運(yùn)作創(chuàng)造穩(wěn)定、透明且可追溯的外部條件,使其內(nèi)部的理由響應(yīng)機(jī)制能夠與社會(huì)的價(jià)值體系保持動(dòng)態(tài)一致。[20]換言之,制度不應(yīng)僅僅作為事后審查的工具,而應(yīng)在系統(tǒng)的目標(biāo)設(shè)定、推理框架和行為評(píng)估等環(huán)節(jié)提供結(jié)構(gòu)化的規(guī)范輸入。這包括明確規(guī)范優(yōu)先級(jí)的編碼標(biāo)準(zhǔn)、建立跨領(lǐng)域的一致性審查機(jī)制,以及確保模型在不同情境下作出的理由判斷能夠接受公共理由的檢驗(yàn)。這樣的制度框架不僅為技術(shù)開(kāi)發(fā)者提供可操作的對(duì)齊基準(zhǔn),也為公眾監(jiān)督與跨部門(mén)協(xié)作提供制度化接口,從而使價(jià)值對(duì)齊的規(guī)范進(jìn)路能夠在社會(huì)治理層面得到持續(xù)落實(shí)與迭代。

更具體地制度前景的構(gòu)建還需要引入跨層級(jí)的責(zé)任分配機(jī)制,以確保人工智能在實(shí)際應(yīng)用中出現(xiàn)規(guī)范性偏差時(shí),能夠迅速定位并糾正問(wèn)題。[21]這里的“跨層級(jí)”既包括技術(shù)層面(如開(kāi)發(fā)者、部署方、維護(hù)團(tuán)隊(duì)之間的職責(zé)劃分),也包括社會(huì)層面(如行業(yè)協(xié)會(huì)、監(jiān)管機(jī)構(gòu)與司法體系之間的協(xié)作分工)。這種多層嵌套的責(zé)任體系,一方面可以在問(wèn)題出現(xiàn)的早期階段進(jìn)行技術(shù)干預(yù)和行為修正;另一方面也能通過(guò)法律與公共政策的介入,確保系統(tǒng)在長(zhǎng)期運(yùn)行中保持與核心價(jià)值觀的結(jié)構(gòu)一致性。唯有如此,生成式人工智能的理由響應(yīng)機(jī)制才能在制度保障下免于異化為單純的“合規(guī)表演”,而真正成為社會(huì)規(guī)范網(wǎng)絡(luò)中的穩(wěn)定節(jié)點(diǎn)。

與此同時(shí),制度設(shè)計(jì)還應(yīng)關(guān)注價(jià)值對(duì)齊機(jī)制在不同行業(yè)與文化語(yǔ)境中的適應(yīng)性問(wèn)題。生成式人工智能所面對(duì)的倫理沖突和規(guī)范要求往往具有領(lǐng)域特殊性:醫(yī)療場(chǎng)景強(qiáng)調(diào)患者自主與行善原則,司法場(chǎng)景強(qiáng)調(diào)程序正義與比例原則,教育場(chǎng)景則側(cè)重培養(yǎng)與關(guān)懷。在這些領(lǐng)域中,理由響應(yīng)機(jī)制的運(yùn)作邏輯與權(quán)重分配必然有所差異,若制度架構(gòu)不能容納這種差異性,價(jià)值對(duì)齊就可能淪為“一刀切”的形式化要求。為避免這種風(fēng)險(xiǎn),制度前景需要確立一套可擴(kuò)展的領(lǐng)域適配框架,使核心的規(guī)范原則得以在不同行業(yè)語(yǔ)境中以差異化方式實(shí)現(xiàn),從而既保持價(jià)值的一致性,又尊重情境的多樣性。

再者,制度前景還應(yīng)當(dāng)考慮到不同文化與社會(huì)價(jià)值體系的差異性,以避免價(jià)值對(duì)齊在全球化應(yīng)用中陷入單一價(jià)值觀的輸出模式。生成式人工智能若要在多元社會(huì)環(huán)境中發(fā)揮積極作用,其制度設(shè)計(jì)需引入跨文化的協(xié)商與適配機(jī)制,使系統(tǒng)在遵循核心倫理底線的前提下,能夠根據(jù)不同社群的規(guī)范語(yǔ)境進(jìn)行價(jià)值映射與理由轉(zhuǎn)換。[22]這不僅涉及技術(shù)層面的多語(yǔ)義建模與情境識(shí)別,還需要制度上建立多方參與的價(jià)值共建平臺(tái),讓價(jià)值對(duì)齊成為動(dòng)態(tài)協(xié)商與共同決策的結(jié)果,而非由單一主體預(yù)設(shè)的固定模板。唯有如此,才能確保制度化的價(jià)值對(duì)齊機(jī)制在多樣化的全球環(huán)境中保持合法性與可持續(xù)性。

此外,制度前景的設(shè)計(jì)還必須考慮監(jiān)督與問(wèn)責(zé)的持續(xù)性,而非一次性配置。生成式人工智能的行為與推理能力會(huì)在運(yùn)行中不斷演化,如果制度安排停留在靜態(tài)規(guī)則與初始測(cè)試階段,就無(wú)法應(yīng)對(duì)隨時(shí)間累積的偏移和失效風(fēng)險(xiǎn)。因此,需要建立一種動(dòng)態(tài)監(jiān)測(cè)與反饋體系,將行為審查、理由評(píng)估和社會(huì)影響分析納入周期性機(jī)制之中,并賦予獨(dú)立的監(jiān)督主體以干預(yù)和修正的權(quán)力。這種制度化的持續(xù)評(píng)估,不僅能夠在早期發(fā)現(xiàn)潛在的規(guī)范偏差,還能確保系統(tǒng)在整個(gè)生命周期內(nèi)都能維持與核心價(jià)值的一致性,從而為價(jià)值對(duì)齊提供長(zhǎng)期的結(jié)構(gòu)性保障。

在這一意義上,價(jià)值對(duì)齊的制度前景并不是一個(gè)固定的終點(diǎn),其既為人工智能的發(fā)展設(shè)定基本的規(guī)范邊界,又保留足夠的彈性去適應(yīng)不可預(yù)見(jiàn)的技術(shù)變革和社會(huì)轉(zhuǎn)向。這種制度模式的關(guān)鍵在于,將價(jià)值對(duì)齊視為公共理性的延伸,而非純粹的工程優(yōu)化任務(wù):其目標(biāo)不僅是控制系統(tǒng)的行為結(jié)果,還要確保價(jià)值嵌入、理由生成和責(zé)任分配在制度中得到透明呈現(xiàn)與持續(xù)審議。通過(guò)這種方式,生成式人工智能的演化不再是技術(shù)單方面推動(dòng)的過(guò)程,而是在制度框架中與社會(huì)價(jià)值體系共同演進(jìn),從而在不確定的未來(lái)中維持規(guī)范性的一致與正當(dāng)性。

因此,價(jià)值對(duì)齊的制度前景不應(yīng)被理解為一套靜態(tài)的監(jiān)管框架,而應(yīng)當(dāng)被視為一個(gè)持續(xù)演化的協(xié)同體系:技術(shù)研發(fā)機(jī)構(gòu)、政策制定者、行業(yè)協(xié)會(huì)、學(xué)術(shù)界與公眾在其中形成相互依賴、相互制衡的關(guān)系網(wǎng)絡(luò)。應(yīng)建立并完善符合我國(guó)人工智能發(fā)展需求的敏捷治理體系,保持政策靈活性,留足制度發(fā)展空間,以保障技術(shù)的長(zhǎng)遠(yuǎn)健康發(fā)展。[23]制度的任務(wù)不只是對(duì)人工智能行為進(jìn)行事后約束,更在于為技術(shù)發(fā)展提前設(shè)定邊界條件、引導(dǎo)價(jià)值嵌入的方向,并確保這些條件在實(shí)踐中得到檢驗(yàn)與修正。唯有如此,制度才能在技術(shù)與社會(huì)之間建立穩(wěn)定的規(guī)范橋梁,使價(jià)值對(duì)齊從理論構(gòu)想轉(zhuǎn)化為可持續(xù)的社會(huì)現(xiàn)實(shí)。

總之,制度設(shè)計(jì)必須兼顧三個(gè)維度的動(dòng)態(tài)平衡:首先是規(guī)范的明確性與開(kāi)放性,既要提供足夠清晰的原則以指導(dǎo)技術(shù)實(shí)現(xiàn),又要保留適應(yīng)新興情境的靈活空間;其次是責(zé)任的集中與分散,在關(guān)鍵環(huán)節(jié)設(shè)立明確的問(wèn)責(zé)主體,同時(shí)通過(guò)多層級(jí)分工避免單點(diǎn)失靈;最后是監(jiān)督的獨(dú)立性與協(xié)同性,既保證審查機(jī)制不受被監(jiān)管方的利益束縛,又通過(guò)跨領(lǐng)域的協(xié)作增強(qiáng)監(jiān)督的專業(yè)性與可操作性。通過(guò)這樣的制度布局,方能在長(zhǎng)時(shí)段內(nèi)保持價(jià)值對(duì)齊的韌性,并在技術(shù)與社會(huì)條件持續(xù)變遷的背景下,實(shí)現(xiàn)可控人工智能的穩(wěn)健發(fā)展。

結(jié)語(yǔ)

正如我們所看到的,價(jià)值對(duì)齊的真正難題并不止于行為控制或性能優(yōu)化,而在于如何讓生成式人工智能在多變的社會(huì)情境中保持理由響應(yīng)的一致性與可公共化性。技術(shù)、規(guī)范與制度在此構(gòu)成了相互牽引的三重框架:技術(shù)進(jìn)路提供實(shí)現(xiàn)基礎(chǔ),規(guī)范進(jìn)路賦予行動(dòng)以理由結(jié)構(gòu),制度前景則確保這些機(jī)制在長(zhǎng)期運(yùn)作中不被削弱或扭曲。它們之間的關(guān)系并非簡(jiǎn)單疊加,而是一個(gè)持續(xù)的協(xié)商、修正與再平衡過(guò)程。隨著技術(shù)能力的躍升、社會(huì)價(jià)值結(jié)構(gòu)的調(diào)整以及制度環(huán)境的變遷,生成式人工智能的理由空間與規(guī)范機(jī)制將不斷面臨新的壓力與重構(gòu)要求。這一過(guò)程的成敗,不僅影響生成式人工智能在倫理上的可接受性,還可能反過(guò)來(lái)塑造人類(lèi)社會(huì)自身的價(jià)值秩序與規(guī)范實(shí)踐。換言之,生成式人工智能價(jià)值對(duì)齊的未來(lái),不只是確保機(jī)器“做對(duì)的事”,更是推動(dòng)我們反思“什么是對(duì)的”以及“誰(shuí)來(lái)界定對(duì)”,并在這一反思中不斷重繪人工智能與人類(lèi)共處的規(guī)范版圖。

注釋

[1]E. Bender; T. Gebru; A. McMillan-Major et al., "On the Dangers of Stochastic Parrots: Can Language Models Be too Big?" Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 2021.

[2]I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3).

[3]A. Deroy; S. Maity, "Questioning Biases in Case Judgment Summaries: Legal Datasets or Large Language Models?" arXiv preprint arXiv:2312.00554, 2023.

[4]R. Draelos; S. Afreen; B. Blasko et al., "Large language Models Provide Unsafe Answers to Patient-Posed Medical Questions," arXiv preprint arXiv:2507.18905, 2025.

[5]S. Russell, Human Compatible: AI and the Problem of Control, London: Penguin, 2019.

[6]R. Ngo; L. Chan and S. Mindermann, "The Alignment Problem from a Deep Learning Perspective," arXiv preprint arXiv:2209.00626, 2022.

[7]W. Wallach; C. Allen, Moral Machines: Teaching Robots Right from Wrong, Oxford University Press, 2009.

[8]D. Amodei; C. Olah; J. Steinhardt et al., "Concrete Problems in AI Safety," arXiv preprint arXiv:1606.06565, 2016.

[9]殷杰:《生成式人工智能的主體性問(wèn)題》,《中國(guó)社會(huì)科學(xué)》,2024年第8期。

[10]L. Zagzebski, "The Inescapability of Gettier Problems," The Philosophical Quarterl, 1994, 44(174).

[11][15][18]T. LaCroix, Artificial Intelligence and the Value Alignment Problem, Peterborough: Broadview Press, 2025.

[12]王華平:《新獨(dú)斷論:一種新的知識(shí)辯護(hù)》,《學(xué)術(shù)月刊》,2012年第10期。

[13]M. Garcia-Bohigues; C. Cordova; J. Taverner et al., "Towards a Distributed Platform for Normative Reasoning and Value Alignment in Multi-Agent Systems," in N. Osman and L. Steels (eds.), Value Engineering in Artificial Intelligence, Berlin: Springer, 2024.

[14]S. Russell; P. Norvig, Artificial Intelligence: A Modern Approach, London: Pearson, 2021.

[16][17]R. Millière, "Normative Conflicts and Shallow AI Alignment," Philosophical Studies, 2025, 182.

[19]J. Habermas, Moral Consciousness and Communicative Action, Cambridge: The MIT Press, 1990.

[20]李亞明:《“價(jià)值對(duì)齊”還是“理由對(duì)齊”?——人工智能倫理設(shè)計(jì)的元倫理學(xué)反思》,《電子科技大學(xué)學(xué)報(bào)(社科版)》,2025年第3期。

[21]M. Hedlund; E. Persson, "Distribution of Responsibility for AI Development: Expert Views," AI & Society, 2025, 40.

[22]J. Yuan; Z. Di; S. Zhao et al., "Cultural Palette: Pluralising Culture Alignment Via Multi-Agent Palette," arXiv preprint arXiv:2412.11167, 2024.

[23]薛瀾、王凈宇:《人工智能發(fā)展的前沿趨勢(shì),治理挑戰(zhàn)與應(yīng)對(duì)策略》,《 行政管理改革》, 2024年第8期。

Normative Approach and Institutional Prospects for Value

Alignment in Generative Artificial Intelligence

Wang Huaping

Abstract: Value alignment refers to the principle that the objectives, behavioral tendencies, and outputs of artificial intelligence systems during task execution and content generation should align with the value systems widely recognized by human society. This constitutes the foundation of AI ethical governance. The value alignment of current generative artificial intelligence remains constrained by its reliance on externally specified objectives within the technical pathway, making it difficult to ensure ethical consistency at a structural level. To resolve this normative challenge, it is necessary to construct an internal "space of reasons" and a "meta-level mechanism" that can weigh conflicting considerations and dynamically revise goals, thereby embedding mechanisms for normative reasoning and guidance into the decision-making process. The stability of value alignment also depends on the safeguards and constraints provided by external institutions, which furnish AI with value benchmarks, oversight mechanisms, and bias-prevention measures to avert normative degradation. The dynamic coupling and co-evolution of technology, norms, and institutions form the critical pathway for achieving sustained ethical validity in complex social contexts.

Keywords: generative artificial intelligence, value alignment, normative approach, institutional prospects

責(zé) 編∕方進(jìn)一 美 編∕梁麗琛

[責(zé)任編輯:方進(jìn)一]