【摘要】在國際關系視角下,人工智能對齊不僅是技術風險治理的核心議題,更關乎未來全球秩序穩定性。近年來,人工智能對齊研究逐步從假定個體目標獨立性的“直接對齊”延伸至更具結構性的“社會對齊”,在對齊過程中納入偏好的外部性和群體排序等宏觀層面問題。進一步看,人工智能對齊還不可避免地涉及價值沖突、制度協調和地緣政治張力,亟需在全球政治框架中予以審視,確保由人類主導的全球秩序的功能和價值,即實現“秩序對齊”。人工智能正在與人類形成新型且復雜的“委托-代理”關系,不僅影響既有全球秩序的運行邏輯,更可能演化為秩序的一部分。國際關系學能為對齊提供概念框架和分析工具以識別和解決“委托人問題”,揭示對齊的結構性挑戰和政治本質。唯有通過政治妥協和彈性治理,方能防止人工智能淪為地緣博弈工具,從而釋放其造福人類的潛力。
【關鍵詞】人工智能 秩序 對齊 委托-代理 錯位風險
【中圖分類號】TP18/D815 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2025.09.008
【作者簡介】龐珣,北京大學國際關系學院教授、北京大學全球風險政治分析實驗室主任。研究方向為全球風險政治與治理、經濟與科技的地緣政治與安全、計算政治學、社會科學統計與數智方法。主要著作有《全球治理中的金磚國家外援合作》(專著)、《人工智能賦能社會科學研究探析——生成式行動者、復雜因果分析與人機科研協同》(論文)、《反思與重構:全球安全與全球治理的風險政治理論及方法》(論文)等。
人工智能對齊的國際關系分析
人工智能對齊(AI alignment)旨在確保人工智能系統的目標和行為與人類的意圖、利益和價值觀等保持一致,從而避免意外出現的負面后果。[1]這不僅是關于人工智能倫理和安全的核心研究議題,也是技術風險治理中的關鍵任務和長期挑戰。[2]當前,相關研究主要聚焦模型的行為可控性和目標一致性,認為人工智能對齊主要是借助技術手段(如優化算法和反饋機制等)來加以解決的問題。[3]然而,人工智能對齊的意涵和挑戰遠不止于此,它涉及廣泛而多元的利益和深層的價值維度,是關于全球性復雜風險的治理議題。[4]正因如此,在人工智能對齊領域中,構建對齊目標和過程的概念框架正在成為一項重要任務,以期在目標函數中納入利益和偏好的外部性,探究如何通過對群體目標的排序和加總來表達社會性福利。[5]隨著哲學家和社會科學家越來越多的加入,人工智能對齊日益成為一項融合工程技術、哲學思辨和社會科學分析的復雜跨學科任務。
國際關系學對人工智能的發展給予了高度關注,這主要表現為聚焦國家間技術競爭所引發的戰略風險以及關于技術標準和監管制度的國際競合。[6]這些探討極少涉及人工智能對齊問題,而是傾向于視其為純粹技術議題,從而難以看到國際關系學對這一重大問題可能作出的貢獻。然而,如果缺乏從人工智能對齊視角來討論技術的戰略風險,國關學者在思考和分析人工智能風險治理時就可能缺乏有效的切入點和明確的問題意識,分析和觀點容易流于抽象愿景的表達和對技術的一味警惕。同時,如果缺乏全球宏觀視野和國際政治理論框架,人工智能對齊領域的工作也難以充分考量技術系統與國際秩序的同構關系,可能導致狹隘和局部的對齊,不僅會強化全球數字分裂,還將背離人工智能對齊初衷,產生新的結構性失調和失控。
因此,從國際關系理論視角審視人工智能對齊有其必要性和重要性。人工智能對齊不僅是技術風險治理的操作基礎,更應被視為支撐全球秩序穩定的微觀機制。唯有在全球政治框架內對其加以理解,才能有效應對人工智能可能帶來的整體性和文明級挑戰。本文對秩序和對齊的關系進行國際政治學分析,提出“秩序對齊”概念,在“委托-代理”理論框架下探討“秩序對齊”的理論基礎和核心問題。人工智能正在作為非傳統代理人(non-traditional agent)與人類建立起廣泛的“委托-代理”關系,這意味著對齊任務中的核心挑戰不是代理人問題,而是“委托人問題”(principal problem),即如何在地緣政治分化的全球現狀下,就人工智能系統的對齊目標進行正當性構建、價值協商和沖突協調。如何解決委托人問題不僅影響人工智能系統的可治理性,也關乎全球政治秩序的未來走向。
秩序對齊意味著,人工智能對齊是一個“二階段對齊模型”。第一階段的對齊發生在人類之間,通過全球范圍內的政治協商和寬容妥協,形成對全球基本秩序目標的最大共識。[7]第二階段發生在人機之間,即借助技術路徑和算法機制來實施人工智能系統與上述共識目標的對齊。國際關系學可為第一階段的對齊提供理論框架,尤其有助于在對齊任務中妥善納入對政治本質和地緣風險的理解。政治是一個協調沖突性多元利益以及實現價值觀妥協和制度調適的動態過程,可被視為對偏好和利益的經驗性而非規范性的“加總”機制。[8]在人工智能發展路徑高度不確定和國家間利益價值分歧顯著的現實中,發揮國際政治的加總機制,對于人工智能的秩序對齊至關重要。人工智能的秩序對齊應直面主權國家體系的地緣政治現實,充分考慮技術系統與局部目標進行“完美對齊”后加速和放大地緣政治競爭的災難性風險;同時,避免這種風險要求對齊的核心為以全球政治妥協為基礎的彈性治理。[9]人工智能對齊任務遠遠超出了技術范疇,而是取決于人類如何在全球范圍內構建共同治理框架。
人工智能對齊:超越技術的技術風險治理
人工智能風險治理與對齊任務。隨著人工智能的快速演進,公眾、學界和政界圍繞其未來發展形成了矛盾交織的兩種敘事。第一種敘事高度期待人工智能突破人類認知和行動邊界,將其視為推動生產力發展和科技創新的發動機。[10]另一種敘事則籠罩著通用人工智能(AGI)或超級人工智能的未來陰影,對“異類智能”帶來深層不確定性深感憂慮,甚至對存在性風險的末世想象揮之不去。[11]這樣的雙重敘事表現出技術想象中希望和恐懼之間的張力,也構成了人工智能治理的重要語境。人工智能技術帶來的機遇可以被具象化為可見的產品或場景,但其風險卻具有潛在性、模糊性和可爭議性的特征,更難以達成共識,也更易受到想象的支配。
通過保證技術系統的目標和行為對齊人類意圖和價值來實現技術風險治理,這在歷史上前所未有。從前的技術無論多么具有“革命性”,但都不具備智能性和能動性,也就談不上與人的“對齊”。人工智能的特殊性在于,其風險不僅源于技術的功能性能力,更因其作為“技術代理人”(technical agent)而在目標追求和決策執行中具有相對自主性,產生偏離人類意圖、目標與價值觀的可能性。[12]尤其在AGI語境下,“代理人風險”可能演化為全球層面的系統性風險,進而可能影響整個人類文明的未來發展軌跡。因此,確保人工智能系統行為的可預測性及其與人類價值的對齊,成為人工智能研究中的核心議題。
既有研究系統性地總結了人工智能風險的四個主要來源:其一是惡意使用,即出于造成廣泛破壞的目的而操縱人工智能技術;其二是技術競賽壓力,即各方在缺乏充分安全保障的情況下,為爭奪技術優勢而加速推進研發;其三是組織管理風險,即由于制度設計不善、激勵機制扭曲或信息不對稱等導致人工智能系統被誤用;其四是超級智能的潛在失控,尤其在追求復雜目標的過程中,人工智能系統可能將“獲取權力”視為一種工具性手段,并逐漸演化為將權力本身作為終極目標。AGI很可能將權力的獲取視為實現各類目標的普遍最優策略,進而演變為一種“追逐權力的系統”(power-seeking system)。人工智能對權力的追求不僅可以針對其他人工智能系統,也對人類構成威脅。[13]
可見,人工智能對齊關系到技術系統的安全性和可控性,是實現有效風險治理的基礎。[14]當今人工智能系統自主性水平快速提升,日益廣泛地應用于社會生活各領域,并逐漸擴散至高風險決策應用場景,如醫療、金融、司法與軍事等。這讓人工智能偏離人類目標和價值的風險愈加突出,人類因這些潛在風險可能付出的代價也呈指數級增長,這使得構建一套有效的治理機制以實現其價值對齊和行為可控成為當務之急。同時,人工智能風險的重要性、復雜性和多樣性,決定了對齊任務遠遠超出“技術-用戶”的直接對齊,呼喚來自不同學科的有識之士加入對這一議題的思考和探索。
人工智能對齊范疇的擴展:從“直接對齊”到“社會對齊”。“直接對齊”指確保人工智能系統的目標與其直接用戶的意圖保持一致,主要采取強化學習中的人類反饋機制(RLHF)等路徑,優化人工智能對個體偏好的響應能力。[15]這種對齊聚焦直接用戶的目標,并假定這些目標具有可操作性和正當性,而人工智能系統的對齊任務就在于準確理解并忠實執行這些目標。隨著人工智能系統日益具備復雜的自主決策能力,其行為所帶來的后果往往超出單一用戶范疇,進而產生廣泛而重要的社會外部性。在開放環境中,用戶并非孤立的行動者,其目標達成往往涉及與他人的互動、博弈甚至操控。例如,用戶可能通過人工智能系統精準地操控話術和情境,騙取他人信任,從而實現自身利益最大化。“直接對齊”表面上符合技術性效用最優化,但卻可能嚴重損害個人尊嚴和福利,違背社會基本倫理和危害社會秩序。[16]
鑒于此,人工智能對齊須將行為的社會后果系統性地納入考量,這推動了對齊研究從“直接對齊”擴展至“社會對齊”(social alignment)范疇。“社會對齊”強調人工智能系統的目標函數應內生化個體行為的外部性,以社會整體福祉為優化基準。[17]這一擴展要求從對齊個體偏好到對齊規范性社會價值,在人工智能系統對齊中引入某種形式的“社會福利函數”(social welfare function)。[18]然而,設計社會福利函數并非純技術性任務,而是深植于倫理哲學和政治理論。不同的規范取向會衍生出差異化的對齊路徑,例如,功利主義強調結果導向和整體效用最大化,義務論關心行動是否符合某些先驗的道德規范,而美德倫理則重視行為背后的動機和角色特征。如何在多元價值之間構建人工智能系統的決策基礎,是“社會對齊”的關鍵議題。[19]此外,社會選擇理論揭示了集體偏好的不可傳遞性(intransitivity of collective preferences)(如阿羅不可能定理),表明在多主體環境中構建穩定和公正的社會福利函數本身就是一個悖論。這些都意味著人工智能的“社會對齊”并不是一蹴而就的,而是一個需要持續性制度設計和政治協商的過程。
人工智能的秩序對齊:科技變革下的全球秩序問題
任何對群體目標進行排序或加總的原則,都難以在客觀上確立普適且唯一的最優標準。尤其當涉及廣泛的個體與群體時,目標之間不僅存在差異,還可能在本質上不可通約(incommensurability),甚至具有結構性沖突。[20]這意味著,人工智能對齊不能僅簡單考慮個體偏好和行為的外部性,還需正視和處理目標之間可能存在的沖突和矛盾。從全球層面來看,人工智能對齊任務成為這樣一個命題,即當技術不可避免地成為人類秩序的一部分時,如何在多元利益的沖突中建立和維持基本秩序。這要求人工智能對齊從“社會對齊”范疇繼續擴展至“秩序對齊”。
秩序與對齊。秩序和對齊是兩個內在關聯的概念。盡管學界存在對“秩序”(order)的多種定義,但基本認可秩序是為行為體的行動和互動提供框架結構,從而構建可預測、可協調的系統環境。[21]秩序的核心功能在于為體系提供穩定性保障,包括在最低層次上確保安全,使行動者能夠形成關于自身生存與未來發展的穩定預期,以及在更高層面上為促進合作、構建制度和實現價值提供基礎可能性。秩序所提供的穩定性依賴于對體系內部沖突進行持續性預防、管理和調節。秩序既可以是自發演化而成的協同結構,具有較高的彈性和容錯性,也可以依賴第三方權威得以建立和執行,表現為剛性的治理結構。[22]但無論其起源和類型如何,秩序得以建立、維系并發揮實際效能的前提,是體系成員在理念、原則及行為實踐等層面達到一定程度的“對齊”,即在關鍵目標、規則、價值和底線規范上達成基本共識。
從廣義上看,“對齊”(alignment)指不同行為體的目標、行為或功能在某種共享框架內達成協調一致的過程。這種協調并非二值狀態,而是具有連續性和多樣性,可以有不同的程度、類型和方向。對齊既可以是認知和價值層面的趨同,也可以是機制和行為層面的協調;對齊過程既可能是自發演化,也可由權力施加和制度約束來推動。對齊在各個面向上的特征決定了秩序的特征,例如,對齊程度的高低影響秩序的強弱,對齊的方向(水平協同或垂直統攝)關系到秩序的中心化程度和權力分布,對齊的目標和原則奠定了秩序的價值取向和合法性基礎。[23]同時,對齊在程度和目標上一旦發生變化就會引發秩序的調整、重構甚至范式性變革。構建或改變社會秩序也總是通過重塑對齊目標和規則配置得以實現。因此,理解“對齊”是理解秩序演化的一個重要理論切入點。
人工智能對齊之所以如此重要,正是由于其可能對人類所建立和主導的秩序產生巨大影響。在當前及可預見的未來,人工智能將深刻重塑國際體系中的國家關系結構和權力格局。一方面,人工智能正逐漸成為影響國家競爭力的重要變量;另一方面,人工智能系統本身日益具備行動能力與決策功能,以行為體的身份成為秩序的一部分。[24]從秩序與對齊的關系可以看出,構建人工智能對齊框架需考慮至少以下兩個重要方面:一是人工智能系統如何適應人類社會價值體系和利益結構的高度復雜性,二是如何確保人工智能融入人類系統后全球基本秩序的穩定。可見,人工智能對齊不應被視為純粹的技術挑戰,而應作為全球秩序構建的重要變量納入系統性考量。
在傳統國際秩序理論中,大國關系是核心關切,因為大國間達成的“基準對齊”(baseline alignment)能夠通過權力投射、規則擴散和制度設計,輻射甚至強制其他行為體與秩序對齊,從而支撐起全球秩序的基本架構。[25]在當前和未來,人工智能將逐步成為一種新的強大的戰略行為體,其系統能力和跨境作用機制,可能使其具備可與國家比肩的系統性影響力。值得警惕的是,人們往往因人工智能缺乏有機體和自主意識而忽視其成為行為體的可能。從國際關系理論角度看,當前世界的主要國際行為體(如國家、國際組織、跨國企業等)基本是制度性的非有機體,其行為的生成性主要依賴于規則系統和信息處理結構。事實上,決策模型和行動系統是國際關系學中行為體的核心維度。[26]因此,人工智能并不因其缺乏生物基礎而無法成為國際關系行為體。相反,人工智能實際上已經開始廣泛嵌入國際體系,在與現有行為體的互動中塑造這一體系。
更為重要的是,人工智能系統之間的互動日益頻繁,其部署方式也日臻復雜,將越來越多地通過協同或對抗機制完成各類任務。這預示著一個由人工智能系統構成的次級“生態體系”正在形成,并逐漸與人類社會主導的全球政治結構形成深度耦合。在一些決策領域中,人工智能甚至開始主導關鍵判斷過程,形成“人機共治”現實。因此,在全球治理的新圖景中,人工智能生態系統與人類生態系統將并存和互嵌。這一趨勢提出了一個根本性問題,那就是人工智能是否能夠、又應當如何與人類秩序系統進行有效對齊,以保障一個可持續和可協同的全球未來。
秩序對齊:人工智能對齊的第三范疇。從秩序和對齊的關系來看,人工智能系統在接收來自個體或群體的目標輸入時,必須評估這些目標所涉及的廣泛網絡,以及這些網絡對秩序的潛在影響。目標之間的不可通約性和潛在沖突性,要求人工智能系統在制定決策時突破簡單的效用最大化,關注如何在沖突中維持系統的協調和秩序。[27]換言之,人工智能對齊不僅應超越“直接對齊”,也不應止步于“社會對齊”,需更進一步關注如何在一個高度復雜且動態變化的利益結構中維護系統的穩定、規范和秩序。[28]這就是本文提出的“秩序對齊”。
秩序對齊的核心在于,人工智能系統不應僅追求局部范圍內的效用最大化,而應在執行與人類目標相關的任務時,始終對齊人類社會賴以維系的基本秩序。秩序并非由一組靜態不變的價值預設構成,而是處理目標沖突、管控系統性風險、維持合作關系和促進正義分配的人類基本共識。[29]通過秩序對齊,人工智能系統才能在多元價值并存、目標持續演化、沖突不可避免的復雜現實中,有效維護人類系統的結構性穩定和可持續發展。[30]
秩序對齊要求人工智能系統超越對個體目標的線性排序邏輯,關注不同利益目標之間的互動關系和調和方式。對齊任務的核心不在于如何為各類目標賦予數值權重,而在于構建一種能夠容納基本規則與制度原則的動態目標函數。人類社會的整體目標從來都不是通過中央機構或先驗理論框架加以固定和執行的。歷史經驗表明,全球秩序總是在地緣政治的博弈與妥協中動態生成。因此,秩序本身并非靜態可編程的終極目標,而是一種在沖突中演化、在規則中維系的狀態。承認目標之間的張力和沖突,以及秩序的歷史性和動態性,是實現可持續人工智能對齊的基本認知前提。已有研究開始關注到這一點,提出了人工智能的“政治對齊”(political alignment)。這一維度強調融合不同的政治利益和監管限制,以促進在不同政治格局中進行負責任的人工智能開發和部署。[31]與秩序對齊概念相似,這里的政治對齊也強調對齊目標本身的政治構建性,要求人工智能系統在制度約束和合法性結構中運行。
人工智能的興起,在人類歷史上首次出現了一種非人類系統對秩序演化路徑的廣泛深刻影響,使得“誰決定秩序”成為一個更具開放性和緊迫性的問題。人工智能對齊關系到如何確保人類能夠決定自身的未來,這也正是秩序對齊試圖回應的核心挑戰。雖然現有國際秩序從未實現真正意義上的“全體人類共決”,但其正當性始終建立在人類社會內部的政治協商基礎之上。[32]
人工智能秩序對齊中的“委托-代理”問題
國際關系學的核心議題之一是:在缺乏中央權威的國際無政府狀態下,在利益、目標和意圖等方面相互沖突的行為體如何實現基本對齊,從而建立和保障和平共存的基本秩序,以及構建促進和平、公正與繁榮的高層次秩序。這樣的對齊在傳統上主要發生于主權國家間的水平互動,但隨著全球秩序演化以及國際行為體的多元化,國家和國際組織以及跨國公司等非國家行為體之間建立起復雜而普遍的“委托-代理”關系。特別是在“霸權之后”的制度性秩序構建中,國家往往通過制度設計,將特定秩序任務委托給國際組織和其他行為體。[33]“委托-代理”理論也因此成為理解國際秩序的重要分析框架。在理解人工智能系統的秩序對齊方面,這一框架有助于揭示其中的關鍵難題。
人工智能全球治理中的“委托-代理”問題。建立和維持大規模社會秩序,不可避免地要依賴“委托-代理”(principal-agent)關系的建立和發揮效能。“委托-代理”理論起源于經濟學和組織理論,用以分析當一方(委托人)將任務交予另一方(代理人)執行時,因信息不對稱、目標不一致和監督成本等問題,代理人行為可能偏離委托人意圖,造成效率損失和風險。[34]這一理論廣泛應用于公司管理、公共政策、法律、政治學和國際關系等領域。
有效的授權機制可以提升委托人實現目標的能力,但授權始終伴隨“錯位風險”(misalignment risk),這正是“委托-代理”難題的核心所在。錯位風險來源于代理人的三個關鍵特征,一是目標導向的行動能力,二是在執行任務的過程中擁有一定自由裁量空間,三是由于信息不對稱或監督成本高昂難以被完全控制。在歷史和現實中,人類授權的代理人多種多樣,包括人類個體、組織、制度性實體,甚至包括動物(如信鴿和牧羊犬),都在不同程度上具有代理人的以上三種特征。
在人工智能出現之前,無論多么強大的技術,都是缺乏自主意圖的被動工具,未曾被視為代理人。但當前的人工智能系統則不同,具備了成為代理人的特征。首先,代理人須具有目標導向性的行動能力,智能正是在多種環境中實現目標的能力。[35]現代人工智能系統通過優化預設的目標函數來完成任務。盡管這些目標最初由人類設計,但人工智能系統會通過自主制定一系列工具性目標(instrumental goals)來更高效地實現最終目標。這類目標設定雖非出于自主意識,卻已展現出超越傳統工具的智能特征。[36]
其次,人工智能具備一定程度的自由裁量權(discretionary power)。以大語言模型為代表的生成式人工智能,在遵循底層算法邏輯的同時,展現出在任務執行路徑和輸出內容上的高度靈活性。其行為雖受訓練數據和算法框架的約束,但在給定輸入下的響應具有一定程度的隨機性和不可預測性,使其決策過程具備了近似“裁量”的特征。這種在特定邊界內的行為自主性,構成了人工智能作為代理人區別于傳統工具的關鍵所在。[37]
最后,人工智能的“黑箱”性質進一步加劇了“委托-代理”問題的復雜性。現代人工智能系統大都依賴深度神經網絡,其內部表征與推理路徑缺乏透明度,難以被人類解讀和解釋。盡管可解釋人工智能(Explainable AI, XAI)試圖提升模型透明度,但這些方法能夠提高的僅是系統輸出的可信度與可驗證性,而非徹底打破“黑箱”結構。[38]雖然這并不意味著人工智能完全不可控,但對基于監督、合約和激勵的傳統代理關系構成了挑戰。[39]
人工智能的這些特征,意味著人類首次需要與具備一定自主性和策略性的技術之間建立“委托-代理”關系,這不僅重新定義了對齊任務的內涵,更改變了人類秩序構建的底層邏輯。從霍布斯到洛克的社會契約理論,可以被理解為一種宏觀層面的“委托-代理”結構——公民授權給國家建立社會秩序和提供安全保障。人工智能對齊之所以對秩序構成深刻挑戰,在于人與技術之間可能首次建立起廣泛、持續并具有結構性影響的“委托-代理”關系。縱觀歷史,所有重大科技革命——從蒸汽機到互聯網——雖然帶來了效率和組織方式上的巨大變革,但其對秩序產生的沖擊,都是通過人與人之間關系重構與重新對齊來實現的。技術本身并不具備能動性,而是通過帶來紅利和風險,迫使人類在分配、治理、責任與規范等層面重新協商目標和價值,從而影響制度安排和秩序結構。
以第二次世界大戰后的全球秩序為例,核技術帶來的沖擊和風險具有全球的整體性和文明級的人類生存性,但其對秩序的重塑并非通過廣泛嵌入人類秩序來實現。核技術對秩序的影響,來自美蘇在“核恐怖平衡”中實現的心理和戰略對齊,即人類及其組織對技術風險的共同認知、共同承受和制度性管理。[40]其中,“技術-人類對齊-秩序”之間的關系非常清晰。技術不是直接塑造秩序的行為體,而是激發人類集體協調的外部變量。秩序的真正基礎仍是人類行為體之間的目標對齊,而非人與技術之間的協調。
人工智能的出現打破了這一間接性邏輯。由于其具備代理人的核心屬性,人工智能正在成為真正意義上的“參與性代理者”(participatory agent),而不僅是人類行為的延伸工具。這種新型的“委托-代理”關系,可能將人類社會帶入前所未有的秩序不確定性之中。[41]更具挑戰性的是,人工智能系統之間可能發展出一種高度內生化的“對齊機制”,系統間的信息互通和策略協調能力遠遠超出人類之間的協調和對齊能力,從而突破人類對人工智能的理解和控制。發生于人工智能系統內部的“瞬時對齊”可能衍生出脫嵌于人類規則體系之外的次生秩序系統(secondary order system),不再以人類為核心權威,也未必尊重既有的價值排序和邏輯。這不僅意味著對現有治理體系的重構,更關乎一個根本性問題,那就是人類是否還能在未來秩序中維持主體性和主導權。
從“代理人”問題到“委托人”問題。在傳統上,“委托-代理”問題簡稱為“代理人問題”(agent problem),因其核心在于如何設計激勵和監督機制,在發揮代理人能動性的同時,保證其忠實于委托人的目標和利益。在經典治理結構中,防范錯位風險主要依賴于對代理人行為的約束、監督和激勵設計。[42]這一框架假定委托人單一且明確,目標清晰、穩定且可衡量,從而對齊任務的難度主要來自代理人方面偏離目標的風險。然而,在人工智能時代,這一假定面臨根本挑戰。人工智能系統面向多個利益相關方提供服務,委托人不再是單一個體或組織,而是具有多重偏好和沖突目標的集合體。[43]于是,人工智能代理人究竟應當對齊誰的目標,又如何在目標沖突中作出選擇?
當前,多數研究仍將人工智能對齊視為技術性控制問題,從“代理人問題”切入以解決“技術性錯位風險”(如強化學習中的獎勵建模、偏好提取、可解釋性提升等)。但人工智能對齊任務中更具挑戰性的是“委托人問題”(the problem of the principal)。如果說“代理人問題”是技術層面的問題,那么“委托人問題”則是關于人類如何在人機共存的體系中審視現有秩序,確保人類安全和價值的根本性問題。
關于何為人機對齊、對齊目標及應對齊的對象,學界尚未形成普遍共識。[44]“與誰對齊”“對齊什么”“如何對齊”的三重問題,正是委托人問題。在傳統“委托-代理”關系中,委托人通常是具象的個體或組織,委托給代理人執行的目標和意圖也定義明確和邊界清晰。例如,個人委托房屋中介尋找房源,政府委托中央銀行制定和執行貨幣政策,捐助國委托國際發展銀行分配對外援助等。然而,面對關乎人類未來的人工智能系統,“委托人”成為“人類整體”,但“人類”卻并非作為一個整體而存在,而是由文化、利益、價值觀高度多元的個體和群體構成。除基本生存需求外,個體和群體在自由與安全、發展與公正等各種議題上存在長期分歧。[45]這意味著,對一些“人類”的目標和偏好所進行的“對齊”,對另一些“人類”而言很有可能就是“錯位”。
相關問題的爭議也出現在關于委托人目標方面。即使在人工智能“直接對齊”領域中已經形成諸如可擴展監督(scalable oversight)、安全評估(如紅隊測試)、博弈建模和多利益相關者參與等多種技術路徑來實現對齊,但這些方法所要求的目標清晰性往往很難實現。[46]由于人工智能的代理任務范圍不斷擴展,委托授權越來越缺乏明確的邊界。同時,問題的復雜性還在于,人工智能應對齊委托人表達出來的意圖,還是應對齊推斷出來的目標,抑或對齊規范意義上的“應然目標”?不同的回答促成了對齊方向的根本差異。若對“應然目標”進行過度解讀,人工智能可能演變為道德教化系統;但若僅對明確表達的目標進行對齊,則可能放任非理性甚至自毀行為。此外,委托人的意圖具有時間敏感性和情境依賴性,且可能在與人工智能系統的互動過程中發生搖擺甚至被反向塑造。[47]
當從直接對齊擴展至社會對齊和秩序對齊后,對齊目標更難以清晰化。當對齊目標從個體偏好轉向集體偏好后,就不可避免地涉及目標的傳遞機制、風險的控制架構以及社會的系統性協調。[48]偏好排序和社會加總是一個十分棘手的難題,涉及如何從分散而多樣性的個體偏好中提煉出“集體意志”。采取建立在某種特定原則基礎上的規范性排序方案,不但在實踐中難以達成一致,而且可能在對齊系統中引發原則性沖突。正因如此,人工智能對齊不但可能遭到“技術失敗”(technical failure),還可能面臨“哲學失敗”(philosophical failure)——前者反映工程能力不足,后者則源自人類缺乏價值共識。[49]
委托人問題還有一個重要的方面,那就是當委托人對其目標缺乏明確理解或表達不清時,人工智能系統可能反過來塑造、定義,甚至操控委托人的偏好、利益和行為。這種“反向對齊”風險在傳統“委托-代理”關系中不乏例子,[50]而人工智能則可能顯著放大這一風險。隨著語言模型和情感計算技術的不斷進步,人工智能能夠通過語言交互、情緒引導和認知誘導等方式影響人類的所思所想。[51]在這種情況下,委托關系的主動性和控制權可能發生轉移,演變為一種“傀儡-操控者”關系。
人工智能秩序對齊的國際政治概念框架
“委托人問題”表明,人工智能的秩序對齊必然包含兩個階段:第一階段涉及人類內部就全球秩序基本原則和目標進行對齊,以國家間的對齊為主,涵蓋其他跨國行為體,通過政治協商達成秩序內容的公約數;第二階段就對齊目標進行操作化,通過技術確保全球各地開發和部署的人工智能系統與秩序目標對齊。兩階段對齊意味著,人工智能秩序對齊的“目標函數”不僅來自技術、理論和哲思,更需要人類的廣泛溝通和充分協商加以確立。第一階段的對齊雖然發生在人類內部,卻不應被視為外生于人工智能對齊任務。這意味著人工智能對齊不僅面臨技術性挑戰,還涉及在利益分配和權力結構基礎上,確立并明晰全球秩序的基礎性原則和目標。
作為一種加總機制的政治過程。政治的本質是解決相互沖突的利益如何協調共處的問題,可理解為一種對微觀層面偏好進行加總以實現宏觀層面秩序的機制和過程。作為加總機制,政治不同于市場和暴力。市場是人類文明的重要發明之一,通過獨立個體追求效用最大化的微觀行為,實現宏觀層面資源最優配置。市場秩序依賴價格機制傳遞信息,個體行為根據價格變化進行決策調整,形成分散化交換而非集中化控制的秩序。市場的前提是能夠對個體效用進行排序,在此假定上方能促成基于效用的資源競爭和交換。[52]暴力作為另一種加總機制則完全依賴脅迫和強制,而非自愿交換。暴力通過對個體或群體進行直接威脅,迫使其順從暴力施加者的意圖,將暴力優勝方的目標、利益和意圖貫徹下去,實現基于暴力分配的階序對齊,建立由暴力維系的集中化秩序。
政治的作用在于避免暴力掠奪的風險,同時也在于解決通過市場交換無法進行加總的問題。作為加總機制,政治的獨特之處在于通過協商、妥協和共識來達成秩序。通過這些手段,政治在不同利益和價值之間尋找折衷和共識,從而構建社會的集體意圖。[53]通過政治參與、政治過程和政治制度,協商和妥協在處理不同偏好、利益和價值之間的差異與沖突時,完成某種加總以促使總體安排框架和大規模秩序得以建立。這種機制不同于市場,國際政治還是國內政治都必須通過某種集體行動的安排來協調沖突利益。無論是基于等級權威還是水平合作,政治都要對利益與目標的差異性和沖突性進行人為協調。政治和暴力之間也具有本質區別,盡管權力競爭在政治過程中占有重要地位,但權力不等于暴力。政治的形式是沖突與合作的結合,權力的運用往往通過沖突來達成合作。但在這一過程中,政治的核心是協商與妥協,權力是達成目標的工具和策略。實際上,權力的作用也正是在協商和妥協中才得以顯現。[54]暴力并非權力產生和運行的充分或必要條件;相反,暴力總是在權威和妥協缺失以及政治秩序崩塌時變得普遍和極端。
值得強調的是,政治作為一種加總過程并非完美,通過政治過程進行人工智能秩序對齊也面臨諸多挑戰。政治過程雖然離不開規范性價值的引導和彌合,但政治加總的結果是經驗性而非規范性的。這意味著政治達成的妥協中總是蘊含了改變現狀的沖動,這可能使得人工智能系統缺乏穩定的對齊目標。此外,政治加總本身并不能保證達成任何價值或效率標準下的理想結果。在缺乏規范框架的約束時,政治加總結果可能變成由權力實現的利益,從而加劇不平等和不公正。[55]尤其在國際政治中,缺乏公認的權威作為加總結果的最終裁判和調節人,政治容易陷入對權力的渴望和無節制的追求。此外,不同政治制度在排序和加總方式上具有顯著差異,這可能導致制度間的沖突。沖突作為尋求妥協的策略之一,也可能會按照自身的邏輯發展到失控狀態,導致政治加總的失敗。[56]
關于人工智能是否會導致主權國家的削弱或消亡的討論已然出現,但不可否認的是,世界依然是一個主權國家體系。就人工智能對齊而言,主權國家體系一方面意味著全球秩序的政治協商可以延續國際政治長期實踐,已有機制和慣例為這一過程提供了良好的基礎。[57]另一方面,民族國家體系意味著全球利益和目標的分割,局部利益和目標的優先性根深蒂固。相較于人工智能與全球秩序整體目標的對齊,人工智能對齊國家自身的目標、利益、價值和原則,既具有優先地位,也更具可行性。如果不考慮人工智能風險的全球性和整體性,也不顧及全球地緣政治的現狀和邏輯,人工智能的局部對齊可能成為一種自下而上、從局部到整體、從國家到全球的有效過程和機制。但在現實中,人工智能在局部的完美對齊可能對全球基本秩序和人類文明帶來風險。
地緣政治競爭與局部對齊風險。技術始終是大國競爭的工具和對象。當前,國際關系學界對人工智能加劇全球地緣政治競爭風險的問題極為關切,并希望借鑒過去核技術的全球風險管控經驗,為這一新興技術的風險管控提供參考。事實上,核技術能夠得到有效管控,主要依賴于多層次、多維度的人類內部的對齊,包括核恐怖的情感對齊、對核技術認知的對齊,以及通過履行核不擴散原則等形式實現的制度對齊。這一案例之所以成功,部分原因是核技術本身缺乏內在目的,且具備能夠被防止大規模擴散的高技術門檻和高成本特征,且核技術演化速度較慢。人工智能與核技術存在顯著差異,使得表層行為的管控變得更加困難,也決定了其與地緣政治競爭之間具有更加復雜的關系。
在地緣政治的影響下,人工智能的地方和局部對齊本身就可能構成嚴重的系統性風險。現有人工智能對齊研究聚焦“錯位風險”,但在缺乏一個全球層面基本對齊框架的情況下,人工智能在某一局部或國家內實現了所謂“完美對齊”,卻可能帶來更具災難性的后果。這一現象可被稱為“局部完美對齊風險”(risk of locally perfect alignment)。這種風險的危險性和緊迫性在于,人工智能系統具備將對抗行為以指數級方式放大的能力,尤其體現在對抗的全面性及其后果的嚴重性。
人工智能的高效對于地緣競爭而言可能是一場噩夢。這可以對比歷史上采用“均勢”來維系秩序以避免災難的國際關系實踐。“均勢”之所以有效,恰恰不在于它是精確計算的狀態,而是一種模糊的心理狀態,是在威懾和不確定性之間尋求微妙平衡的產物。正是因為由人類組成的國家具有有限理性,行為緩慢且對優勢的判斷具有模糊性,才在一定程度上避免了大規模沖突的爆發。人工智能系統恰好相反,具備精確計算、極高速度和大規模部署能力,且在目標函數驅動下缺乏人類式的模糊與遲疑。這意味著,一旦局部人工智能系統被賦予競爭性目標,其能力在相互對抗中被無節制釋放出來,其反應速度將極大超越人類外交和軍事系統的適應能力,可迅速將地區沖突升級為全球性的災難。在此種情形下,人工智能之間的對抗將不再是人類熟悉的“代理人戰爭”,而更像是一種陌生而恐怖的“超級代理人戰爭”。
人類在處理利益沖突時,會在道德規范、人道考量、尊重基本秩序等多重約束下進行權衡,即便是在國家層面的利益最大化策略之中,也往往受到制度和規范的限制,如避免公然使用武力和維持國際共存秩序等。[58]但人工智能系統本質上是目標函數驅動的最優化機制,一旦目標設定明確且對齊充分,其行為將不受傳統規范和含糊約束的限制。如果人工智能系統被訓練和部署以實現某一特定國家或地區的利益目標,并與其他地區或國家的目標對齊相沖突,這些系統可能以極高的效率和超越人類理性約束的方式,將局部目標最大化地推進,并“掃清”所有阻礙其達成目標的行為和實體。
“局部完美對齊”對全球秩序的深層風險,還在于對國際信任機制產生破壞性影響。任何秩序的維系都建立在一定程度的信任基礎上,這種信任來自主體間的認同與共識,即相信體系內的大多數行為體在大多數情境中都將選擇遵守秩序,無論這種選擇是出于理性計算還是道德認同。[59]因此,即使在缺乏嚴格監督和強制懲罰機制的情況下,秩序依然可以得到大致維系。但是,在國際關系中,這種信任始終處于結構性張力之中,“遵守秩序的意愿”與“打破秩序的能力”之間的矛盾從未徹底解決。當人工智能被用于地緣政治競爭,與特定國家或地區的目標、利益、價值進行完美對齊,這種張力將被放大,局部目標之間的差異性和不兼容性將被清晰地呈現出來,體系中主體間的信任將難以為繼。
局部完美對齊的風險警示我們,人工智能對齊的目標不應限于地方性秩序,而必須指向全球性秩序。人工智能時代的“秩序割據”將導致系統間的深度對立和大規模混亂,而非合作性的多元共存。因此,人工智能系統的對齊必須超越對單一目標的精確最優化,回歸對底層秩序原則的認同和嵌入。在全球治理中,秩序往往建立在對最低限度原則的共識基礎上,如最小傷害、風險控制性與可逆性,而非對正面價值的完美一致。實際上,全球秩序并非靜態而明確的,而是始終具有模糊性和處于動態構建之中。
漫長的國際關系史表明,全球秩序的形成和維持需要在現實與理想、實證與規范之間尋求一種動態平衡。單純依賴地緣政治現實構建的秩序缺乏普遍合法性,因此不可能保持相對穩定性;而完全無視地緣政治現實、過度理想化的秩序構想則常常在實踐中遭遇挫敗,難以達成妥協和對現狀的維持。因此,人工智能秩序對齊也應在“對齊”和“不對齊”之間,尋求深層、普遍、可協商的政治基礎。這種基礎不是由算法設定的目標函數,而是通過政治協商和妥協建立的共識規則。只有嵌入這一政治性邏輯,人工智能系統才能規避“局部完美對齊”所帶來的災難性風險,邁向一種更加包容、可持續的全球秩序。
結語
人工智能對齊領域已經逐漸從“直接對齊”擴展至“社會對齊”,即從一個“指令是否被正確執行”的技術工程命題發展至一個關涉社會價值、正義和穩定的命題。本文在此基礎上繼續拓展,提出“秩序對齊”,將人工智能對齊問題視為關系國際結構、全球秩序和人類未來的重大議題,呼吁加深理解人工智能如何深度介入并重塑我們共處的世界。
人工智能不僅是一項技術,更可能是一個超級代理人,在一個價值多元、利益沖突、信任脆弱的世界中進行決策和采取行動。從“委托-代理”理論來看,人工智能系統的“委托人”并非明確和統一的主體,而是一個處于分裂和博弈中的國際社會。因此,秩序對齊是一個“二階段對齊模型”。人工智能系統注定將在跨越國界、打破物理限制的空間中運行。如果它們對齊的是封閉性的國家利益或單一性價值觀,而非具備包容性、正義性與可持續性的秩序理念,所帶來的將不是進步而是失控。單一國家或局部群體的“完美對齊”并不能帶來全球安全,反而可能放大矛盾、加劇沖突,構成“局部對齊的系統性風險”。面對這樣的現實,對齊不能止步于對具體目標的優化,而必須納入全球秩序的基本原則和合作精神。換言之,秩序對齊的任務,不是尋找一套普適目標讓人工智能去追隨,而是構建一套能在差異中維持合作、在沖突中促進理解、在不確定中保持韌性的規范框架。
人工智能對齊是一項以全球秩序為導向的政治議題,也是一項以共同命運為前提的人文實踐。它不僅要求技術上的努力和治理上的合作,更需要一種深切的理解,即我們是在一個彼此差異但又共享未來的世界中,追求共同生存和共同發展的可能性。對齊問題的真正挑戰,在于如何讓人工智能系統不僅聰明,而且值得信賴;不僅高效,而且能夠守護人類最基本的共同利益和共同精神。
注釋
[1]S. Russell, Human Compatible: Artificial Intelligence and the Problem of Control, New York: Viking, 2019; I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3).
[2]N. Bostrom, Superintelligence: Paths, Dangers, Strategies, Oxford University Press, 2014; A. Dafoe, "AI Governance: A Research Agenda," Centre for the Governance of AI, 2020.
[3]J. Leike et al., "Scalable Agent Alignment via Reward Modeling: A Research Direction," arXiv preprint, 2018, arXiv:1811.07871; P. F. Christiano, J. Leike, T. B. Brown et al., "Deep Reinforcement Learning from Human Preferences," Advances in Neural Information Processing Systems (NeurIPS), 2017, 30.
[4]烏爾里希·貝克:《風險社會:新的現代性之路》,張文杰、何博聞譯,南京:譯林出版社,2018年。
[5]I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3); G. Allison, Destined for War: Can America and China Escape Thucydides's Trap? Boston: Houghton Mifflin Harcourt, 2017.
[6]A. Nadibaidze and N. Miotto, "The Impact of AI on Strategic Stability is What States Make of It: Comparing US and Russian Discourses," Journal for Peace and Nuclear Disarmament, 2023, 6(1).
[7]L. Floridi et al., "AI4People—An Ethical Framework for a Good AI Society: Opportunities, Risks, Principles, and Recommendations," Minds and Machines, 2018, 28(4).
[8]J. Habermas, Between Facts and Norms: Contributions to a Discourse Theory of Law and Democracy, Cambridge: MIT Press, 1996; R. A. Dahl, Democracy and Its Critics, New Haven: Yale University Press, 1989.
[9]J. Wang et al., "Navigating Geopolitics in AI Governance," OXGS Research Report, 2024, DOI: 10.13140/RG.2.2.33742.06722.
[10]L. Floridi, The 4th Revolution: How the Infosphere Is Reshaping Human Reality, Oxford University Press, 2014.
[11]S. Cave and K. Dihal, S. Dillon, AI Narratives: A History of Imaginative Thinking About Intelligent Machines, New York: Oxford University Press, 2020.
[12][17][43]I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3).
[13]D. Hendrycks et al., “An Overview of Catastrophic AI Risks,“ arXiv preprint, 2023, arXiv:2306.12001.
[14]B. Christian, The Alignment Problem: Machine Learning and Human Values, New York: W. W. Norton & Company, 2020.
[15]J. Leike et al., "Scalable Agent Alignment via Reward Modeling: A Research Direction," arXiv preprint, 2018, arXiv:1811.07871.
[16]B. L. Hou, “Foundational Moral Values for AI Alignment,“ arXiv preprint, 2023, arXiv:2311.17017v1.
[18][27][36]S. Russell, Human Compatible: Artificial Intelligence and the Problem of Control, New York: Viking, 2019.
[19]T. Arnold et al., "Value Alignment or Misalignment: What Will Keep Systems Accountable?" Proceedings of the AAAI Workshop on AI, Ethics, and Society, 2017, https://hrilab.tufts.edu/publications/arnoldetal17aiethics.pdf.
[20]R. Chang, Incommensurability, Incomparability, and Practical Reason, Cambridge: Harvard University Press, 1997; A. Sen, The Idea of Justice, Cambridge: Harvard University Press, 2009.
[21]H. Bull, The Anarchical Society: A Study of Order in World Politics, New York: Columbia University Press, 1977; 戴維·A.萊克:《國際關系中的等級制》,高婉妮譯,上海人民出版社,2013年。
[22]E. Ostrom, Governing the Commons: The Evolution of Institutions for Collective Action, Cambridge University Press, 1990; A.-M. Slaughter, A New World Order, Princeton University Press, 2004.
[23]D. S. Grewal, Network Power: The Social Dynamics of Globalization, New Haven: Yale University Press, 2020.
[24]S. Cave and S. S. ÓhÉigeartaigh, "An AI Race for Strategic Advantage: Rhetoric and Risks," Proceedings of the 2018 AAAI/ACM Conference on AI, Ethics, and Society, New Orleans, December 2018, https://doi.org/10.1145/3278721.3278780.
[25]G. J. Ikenberry, After Victory: Institutions, Strategic Restraint, and the Rebuilding of Order after Major Wars, Princeton University Press, 2001.
[26]亞歷山大·溫特:《國際政治的社會理論》,秦亞青譯,上海人民出版社,2008年。
[28]L. Floridi et al., The Ethics of Artificial Intelligence: Principles, Challenges, and Opportunities, New York: Oxford University Press, 2023.
[29]J. Rawls, A Theory of Justice, Cambridge, MA: Harvard University Press, 1971; E. Ostrom, Governing the Commons: The Evolution of Institutions for Collective Action, Cambridge University Press, 1990.
[30]A. Dafoe, AI Governance: A Research Agenda, Oxford: Centre for the Governance of AI, 2020.
[31]J. Schuett et al., “Defining the Scope of AI Regulations,“ Law, Innovation & Technology, 2023, 20(1).
[32][58]H. Bull, The Anarchical Society: A Study of Order in World Politics, New York: Columbia University Press, 1977.
[33]D. G. Hawkins et al., Delegation and Agency in International Organizations, Cambridge University Press, 2006.
[34]M. C. Jensen and W. H. Meckling, "Theory of the Firm: Managerial Behavior, Agency Costs and Ownership Structure," Journal of Financial Economics, 1976, 3(4); K. M. Eisenhardt, "Agency Theory: An Assessment and Review," Academy of Management Review, 1989, 14(1).
[35]S. Legg and M. Hutter, "Universal Intelligence: A Definition of Machine Intelligence," Minds and Machines, 2007, 17(4).
[37]A. Korinek and E. Yudkowsky, "The Alignment Problem from a Deep Philosophical Perspective," arXiv Prepreint, 2025, arXiv:2209.00626v7.
[38]F. Doshi-Velez and B. Kim, "Towards a Rigorous Science of Interpretable Machine Learning," arXiv preprint, 2017, arXiv:1702.08608.
[39]Z. C. Lipton, "The Mythos of Model Interpretability," Communications of the ACM, 2018, 16(3).
[40]R. Jervis, The Meaning of the Nuclear Revolution: Statecraft and the Prospect of Armageddon, Ithaca, NY: Cornell University Press, 1989.
[41]S. Russell, Human Compatible: Artificial Intelligence and the Problem of Control, New York: Viking, 2019; J. Clark and G. Hadfield, "Regulatory Markets for AI Safety," arXiv preprint, 2019, arXiv:1909.12863.
[42]M. C. Jensen and W. H. Meckling, "Theory of the Firm: Managerial Behavior, Agency Costs and Ownership Structure," Journal of Financial Economics, 1976, 3(4).
[44]H. Shen et al., "Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions," arXiv preprint, 2024, arXiv:2406.09264.
[45]R. Binns et al., "'It's Reducing a Human Being to a Percentage': Perceptions of Justice in Algorithmic Decisions," CHI '18: Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, Paper No.: 377, pp. 1–14, https://doi.org/10.1145/3173574.3173951.
[46]G. Irving et al., "AI Safety via Debate," arXiv preprint, 2018, arXiv:1805.00899; J. Leike et al., "Scalable Agent Alignment via Reward Modeling," arXiv preprint, 2018, arXiv:1811.07871.
[47]D. Misnawati et al., "The Impact of Artificial Intelligence on Human Interaction: Redefining Communication Norms," The Journal of Academic Science, 2025, 2(1).
[48]L. Floridi, The Fourth Revolution: How the Infosphere is Reshaping Human Reality, Oxford University Press, 2014.
[49]E. Yudkowsky, "Artificial Intelligence as a Positive and Negative Factor in Global Risk," in Global Catastrophic Risks, N. Bostrom and M. ?irkovi?(eds.), Oxford University Press, 2008.
[50]M. Bovens, The Quest for Responsibility: Accountability and Citizenship in Complex Organisations, Cambridge University Press, 1998.
[51]S. M. Breum et al., "The Persuasive Power of Large Language Models," Proceedings of the Eighteenth International AAAI Conference on Web and Social Media, 2024, file:///Users/xunpang/Downloads/31304-Article%20Text-35360-1-2-20240528.pdf.
[52]F. A. Hayek, "The Use of Knowledge in Society," American Economic Review, 1945, 35(4).
[53]N. Bobbio, The Future of Democracy: A Defence of the Rules of the Game, Minneapolis: University of Minnesota Press, 1989.
[54]R. A. Dahl, Democracy and Its Critics, New Haven: Yale University Press, 1989.
[55]J. Rawls, A Theory of Justice, Cambridge, MA: Harvard University Press, 1971.
[56]F. W. Scharpf, Games Real Actors Play: Actor-Centered Institutionalism in Policy Research, Boulder: Westview Press, 1997.
[57]J. S. Nye, The Future of Power, New York: Public Affairs, 2011.
[59]A. Giddens, The Constitution of Society: Outline of the Theory of Structuration, Berkeley: University of California Press, 1984; M. Zürn, A Theory of Global Governance: Authority, Legitimacy, and Contestation, Oxford University Press, 2018.
Global Order and AI Alignment
—A Theoretical Perspective of International Relations on Governing Technological Risk
Pang Xun
Abstract: From the theoretical perspective of International Relations, AI alignment is not only a core issue in the governance of technological risk but also a critical task for maintaining the stability of future global order. In recent years, research on AI alignment has gradually evolved from "direct alignment," which assumes the independence of individual goals, to a more structural concept of "social alignment," incorporating macro-level concerns such as preference externalities and collective value ordering. Going even deeper, AI alignment inevitably involves value conflicts, institutional coordination, and geopolitical tensions—issues that must be examined within the broader framework of global politics to ensure that the functions and values of a human-centered global order are preserved. This calls for what this article conceptualized "order alignment". AI is increasingly entering into novel and complex principal-agent relationships with humanity, which not only reshape the operational logic of existing global order but may also become embedded within its very structure. International Relations theory offers conceptual frameworks and analytical tools to identify and address the "principal problem," highlighting the structural and political nature of alignment. Only through political compromise and adaptive governance can we prevent AI from becoming a mere instrument of geopolitical rivalry and instead unlock its potential to benefit humanity.
Keywords: artificial intelligence, order, alignment, principal-agent, misalignment risk
責 編∕包 鈺 美 編∕周群英