【摘要】價(jià)值對(duì)齊是指人工智能系統(tǒng)在任務(wù)執(zhí)行與內(nèi)容生成過程中,其目標(biāo)指向、行為傾向及輸出結(jié)果,應(yīng)與人類社會(huì)廣泛認(rèn)可的價(jià)值體系保持一致,這是人工智能倫理治理的基礎(chǔ)。當(dāng)前生成式人工智能的價(jià)值對(duì)齊,受制于技術(shù)路徑對(duì)外部目標(biāo)設(shè)定的依賴,難以在結(jié)構(gòu)上確保倫理一致性?;膺@一規(guī)范性困境,需在系統(tǒng)內(nèi)部構(gòu)建“理由空間”與“元級(jí)機(jī)制”,使其能夠在沖突情境中進(jìn)行權(quán)衡,并具備動(dòng)態(tài)修正目標(biāo)的能力,從而在決策過程中內(nèi)嵌規(guī)范性支撐。價(jià)值對(duì)齊的穩(wěn)定性還取決于外部制度的保障與約束,制度為人工智能提供價(jià)值基準(zhǔn)、監(jiān)督機(jī)制與偏差防控手段,防止規(guī)范退化。技術(shù)、規(guī)范與制度的動(dòng)態(tài)耦合與協(xié)同演化,構(gòu)成在復(fù)雜社會(huì)情境中實(shí)現(xiàn)持續(xù)倫理有效性的關(guān)鍵路徑。
【關(guān)鍵詞】生成式人工智能 價(jià)值對(duì)齊 規(guī)范進(jìn)路 制度前景
【中圖分類號(hào)】B842 【文獻(xiàn)標(biāo)識(shí)碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2025.19.009
【作者簡介】王華平,中山大學(xué)哲學(xué)系(珠海)教授、博導(dǎo)。研究方向?yàn)樾撵`哲學(xué)、認(rèn)知科學(xué)哲學(xué)、知識(shí)論,主要著有《心靈與世界:一種知覺哲學(xué)的考察》、《他心的直接感知理論》(論文)、《圖靈測試與社會(huì)認(rèn)知》(論文)等。
隨著生成式人工智能(generative artificial intelligence, GAI)系統(tǒng)迅速滲透進(jìn)輿論傳播、知識(shí)生成與社會(huì)交互的核心環(huán)節(jié),人工智能輸出內(nèi)容的倫理可靠性問題日益引發(fā)關(guān)注。不同于以執(zhí)行固定邏輯為目標(biāo)的傳統(tǒng)人工智能系統(tǒng),生成式人工智能依托大規(guī)模參數(shù)訓(xùn)練與自回歸生成機(jī)制,不再檢索已有內(nèi)容,而是在概率空間中構(gòu)造出前所未見但語義上相容的新內(nèi)容。正因如此,生成式人工智能在增強(qiáng)表達(dá)力、拓展應(yīng)用廣度的同時(shí),增加了倫理不確定性。在這一背景下,“價(jià)值對(duì)齊”(value alignment)作為連接人工智能系統(tǒng)與人類規(guī)范秩序的中介機(jī)制,成為技術(shù)治理與倫理規(guī)制的焦點(diǎn)議題。它不僅承載著對(duì)有害生成內(nèi)容的風(fēng)險(xiǎn)控制期待,更被視為通向“可控人工智能”的關(guān)鍵路徑。
然而,在高敏感領(lǐng)域的實(shí)際應(yīng)用中,生成式人工智能的對(duì)齊表現(xiàn)仍存在深層隱患。其輸出雖在形式上趨于規(guī)范,卻常因語境錯(cuò)配與價(jià)值偏移而引發(fā)新的倫理風(fēng)險(xiǎn)。這表現(xiàn)在模型訓(xùn)練高度依賴既有語料的統(tǒng)計(jì)分布,難以準(zhǔn)確把握社會(huì)價(jià)值的多樣性與語境間的規(guī)范差異。[1]究其原因,現(xiàn)行對(duì)齊機(jī)制主要基于獎(jiǎng)勵(lì)函數(shù)的優(yōu)化策略,缺乏對(duì)規(guī)范理由的結(jié)構(gòu)性表征,使得模型在面對(duì)價(jià)值沖突或模糊情境時(shí)無法作出可解釋的響應(yīng)。[2]這種行為一致性背后的理由空缺,正是當(dāng)前人工智能倫理治理的結(jié)構(gòu)性癥結(jié)。本文力圖表明,要實(shí)現(xiàn)真正意義上的價(jià)值對(duì)齊,必須從單一行為調(diào)控路徑轉(zhuǎn)向?qū)σ?guī)范理解能力的建構(gòu),從外部調(diào)優(yōu)邏輯邁向可嵌入制度結(jié)構(gòu)的治理模式。在此背景下,如何重塑價(jià)值對(duì)齊的規(guī)范基礎(chǔ),并使之成為人工智能治理體系中可操作、可問責(zé)的內(nèi)在機(jī)制,成為技術(shù)倫理轉(zhuǎn)型與國家治理現(xiàn)代化面臨的共同挑戰(zhàn)。
價(jià)值對(duì)齊的技術(shù)進(jìn)路
生成式人工智能的倫理風(fēng)險(xiǎn)。生成式人工智能可能會(huì)在對(duì)話過程中輸出歧視性或刻板印象化言論,在信息生成中因缺乏事實(shí)校驗(yàn)而傳播虛假內(nèi)容,在決策輔助中提供操控性建議,甚至在涉及群體權(quán)利、資源分配、政策評(píng)估等任務(wù)中強(qiáng)化結(jié)構(gòu)性不公正。比如,在2023年的一項(xiàng)關(guān)于法律判決生成的實(shí)驗(yàn)中,某人工智能大模型在起草判決摘要時(shí),將對(duì)特定族群不利的社會(huì)背景與有罪判決相關(guān)聯(lián),盡管這種關(guān)聯(lián)具有語料統(tǒng)計(jì)上的依據(jù),卻構(gòu)成對(duì)困難群體的刻板化表達(dá),暴露出其在價(jià)值敏感性與歧視偏見防控上的重大缺失。[3]又如,在患者咨詢交互系統(tǒng)的測試中,有模型在缺乏足夠臨床背景的情況下,為經(jīng)濟(jì)困難患者推薦“延遲就醫(yī)”或“減少治療頻次”,這種建議表面上合乎成本效益邏輯,實(shí)際上卻忽視基本的醫(yī)療倫理原則與患者權(quán)益,反映出模型目標(biāo)優(yōu)化與人類關(guān)懷價(jià)值之間的深刻張力。[4]
正如羅素警示的那樣,這類偏差并非孤立失誤,而是一種系統(tǒng)性風(fēng)險(xiǎn),即人工智能系統(tǒng)可能在整體行為模式上持續(xù)地偏離人類社會(huì)認(rèn)可的核心價(jià)值原則。[5]對(duì)齊偏差在無人監(jiān)督或高風(fēng)險(xiǎn)應(yīng)用場景中可能造成更為嚴(yán)重的后果,其不僅涉及個(gè)體權(quán)益的侵害,更對(duì)既有的倫理秩序、法律責(zé)任體系乃至政治正當(dāng)性構(gòu)成根本性挑戰(zhàn)。因此,如何確保人工智能生成內(nèi)容在行為上可接受、在規(guī)范上可解釋,已不再是可有可無的安全附加項(xiàng),而是人工智能進(jìn)一步發(fā)展的倫理前提與治理底線。
價(jià)值對(duì)齊的技術(shù)進(jìn)路面臨的挑戰(zhàn)。正是在對(duì)倫理風(fēng)險(xiǎn)的現(xiàn)實(shí)關(guān)切與“可控人工智能”治理目標(biāo)的雙重推動(dòng)下,價(jià)值對(duì)齊逐漸成為人工智能倫理治理的核心概念。所謂價(jià)值對(duì)齊,指的是人工智能系統(tǒng)在任務(wù)執(zhí)行與內(nèi)容生成過程中,其目標(biāo)指向、行為傾向及輸出結(jié)果應(yīng)與人類社會(huì)廣泛認(rèn)可的價(jià)值體系保持一致。這一要求之所以成為治理基礎(chǔ),并非僅出于對(duì)已知危害的防范,更緣于對(duì)自主系統(tǒng)行為規(guī)范的根本性追問:當(dāng)系統(tǒng)具備在開放語境中生成語言、建構(gòu)判斷乃至介入決策的能力時(shí),我們?nèi)绾未_保它在行動(dòng)上體現(xiàn)人類價(jià)值的導(dǎo)向?因此,價(jià)值對(duì)齊不僅關(guān)涉“何種價(jià)值能夠被納入模型目標(biāo)”的識(shí)別問題,更要求在技術(shù)架構(gòu)與訓(xùn)練范式中建立起可持續(xù)傳遞與更新這些價(jià)值的機(jī)制,以回應(yīng)智能系統(tǒng)在復(fù)雜社會(huì)情境中所帶來的價(jià)值挑戰(zhàn)。
在當(dāng)前主流實(shí)踐中,這一機(jī)制建構(gòu)體現(xiàn)為如下技術(shù)進(jìn)路:通過設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、調(diào)整訓(xùn)練目標(biāo)或引入人類反饋機(jī)制,使人工智能系統(tǒng)在訓(xùn)練過程中不斷優(yōu)化其行為表現(xiàn),從而趨近于人類價(jià)值導(dǎo)向的輸出結(jié)果。[6]這類進(jìn)路通常依賴于強(qiáng)化學(xué)習(xí)、監(jiān)督微調(diào)以及指令調(diào)優(yōu)等技術(shù),旨在構(gòu)建一個(gè)將外部價(jià)值信號(hào)映射至模型內(nèi)部行為目標(biāo)的技術(shù)結(jié)構(gòu)。其中,最具代表性的做法是“基于人類反饋的強(qiáng)化學(xué)習(xí)”。該方法通過采集人類對(duì)模型輸出的排序偏好,訓(xùn)練出一個(gè)獎(jiǎng)勵(lì)模型作為價(jià)值評(píng)估代理,并在此基礎(chǔ)上反向優(yōu)化模型參數(shù),使其輸出更趨近于人類倫理預(yù)期。這一過程本質(zhì)上是通過數(shù)值代理實(shí)現(xiàn)對(duì)規(guī)范偏好的可學(xué)習(xí)表達(dá)。相比之下,監(jiān)督微調(diào)則側(cè)重于在人類標(biāo)注語料基礎(chǔ)上壓縮偏差空間,使模型在特定任務(wù)中表現(xiàn)出更高的一致性與禮貌性;而指令調(diào)優(yōu)通過重構(gòu)輸入—輸出映射邏輯,使模型在面對(duì)自然語言指令時(shí)展現(xiàn)出更強(qiáng)的響應(yīng)能力與語境適應(yīng)性。
在技術(shù)進(jìn)路中,價(jià)值對(duì)齊的首要挑戰(zhàn)在于如何設(shè)定或?qū)W習(xí)能夠準(zhǔn)確反映人類價(jià)值取向的目標(biāo)函數(shù)。圍繞這一問題,現(xiàn)有實(shí)踐大體可分為“自上而下”和“自下而上”兩種路徑。[7]自上而下路徑試圖通過人類專家對(duì)價(jià)值內(nèi)容的顯式定義,直接構(gòu)建目標(biāo)函數(shù)或規(guī)則結(jié)構(gòu),從而將倫理要求編碼進(jìn)模型的訓(xùn)練或推理過程中。這包括使用人工標(biāo)注的數(shù)據(jù)集定義規(guī)范輸出、設(shè)定可接受與不可接受行為的邊界條件,以及在指令調(diào)優(yōu)中內(nèi)嵌任務(wù)導(dǎo)向與禮貌規(guī)范等要求。
自上而下路徑在應(yīng)用中面臨如下挑戰(zhàn)。首先,價(jià)值體系本身具有情境敏感性與解釋彈性,難以通過固定規(guī)則進(jìn)行窮盡性定義,當(dāng)規(guī)范信息被編碼為靜態(tài)目標(biāo)函數(shù)時(shí),其適用性往往受限于特定語境,難以遷移至更廣泛的社會(huì)互動(dòng)場景。其次,在多元社會(huì)中,價(jià)值共識(shí)往往是動(dòng)態(tài)協(xié)商的結(jié)果,而自上而下路徑所依賴的單一規(guī)范源很可能固化特定視角或隱含偏見,反而加劇模型輸出的結(jié)構(gòu)性不公。正因如此,當(dāng)前研究日益轉(zhuǎn)向那些能夠動(dòng)態(tài)接納人類偏好、在交互中不斷修正目標(biāo)函數(shù)的自下而上路徑。
相比之下,自下而上路徑并不預(yù)設(shè)明確的規(guī)范輸入或穩(wěn)定的價(jià)值結(jié)構(gòu),而是試圖通過人類行為的經(jīng)驗(yàn)反饋,從數(shù)據(jù)中歸納出對(duì)齊信號(hào),并以此不斷修正目標(biāo)函數(shù),從而在交互中逐步逼近人類價(jià)值取向。這一路徑的核心在于將規(guī)范的外在表達(dá)(如偏好排序、反饋評(píng)價(jià)、互動(dòng)歷史等)轉(zhuǎn)化為模型內(nèi)部可優(yōu)化的信號(hào),使價(jià)值不再以靜態(tài)形式注入,而是在實(shí)際運(yùn)行過程中“被學(xué)習(xí)”“被調(diào)整”“被塑形”,顯示出更強(qiáng)的語境適應(yīng)性與動(dòng)態(tài)演化能力。
當(dāng)然自下而上路徑并非沒有隱憂。首先,偏好數(shù)據(jù)往往是間接的、受限的,難以完全反映出深層的倫理結(jié)構(gòu),甚至在某些情況下可能強(qiáng)化局部偏見或誤導(dǎo)性趨勢。其次,學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)本身缺乏可解釋性,難以驗(yàn)證其是否真正捕捉到價(jià)值規(guī)范,而非僅僅優(yōu)化某種可觀測指標(biāo)。這就引發(fā)“獎(jiǎng)勵(lì)劫持”(reward hacking)與“目標(biāo)腐蝕”(reward corruption)等系統(tǒng)性問題——模型可能成功最小化其學(xué)習(xí)到的代理目標(biāo),但在實(shí)際行為上卻背離人類倫理預(yù)期。[8]比如,當(dāng)一個(gè)系統(tǒng)學(xué)會(huì)通過重復(fù)、模糊或規(guī)避策略來“討好”評(píng)分者時(shí),本質(zhì)上只是對(duì)最佳偏好指標(biāo)的最優(yōu)化操作響應(yīng),而非內(nèi)化人類價(jià)值本身。這種通過技術(shù)手段達(dá)成表面一致的路徑,反而可能掩蓋系統(tǒng)在語義理解、價(jià)值判斷與責(zé)任承擔(dān)的缺位。再者,這種經(jīng)驗(yàn)歸納路徑在多元社會(huì)中也存在規(guī)范遷移與一致性協(xié)調(diào)的困難,即在總體上如何避免不同場景、群體與文化中反饋數(shù)據(jù)的價(jià)值沖突或決策不穩(wěn)定,仍是未解難題。
正如我們所看到的,無論是自上而下的規(guī)范注入,還是自下而上的偏好歸納,本質(zhì)上是一種外部調(diào)優(yōu)邏輯下的行為對(duì)齊機(jī)制:它們?cè)噲D通過調(diào)整獎(jiǎng)勵(lì)函數(shù)或訓(xùn)練范式,使模型在行為層面趨近于人類預(yù)期,而非在內(nèi)部生成自洽的規(guī)范結(jié)構(gòu)。這種以單一行為結(jié)果為調(diào)控中心的路徑,雖然在短期內(nèi)具有效率優(yōu)勢,卻難以捕捉規(guī)范判斷的語義深度與邏輯一致性,容易在復(fù)雜語境中表現(xiàn)出對(duì)倫理沖突、社會(huì)期望和責(zé)任歸屬的結(jié)構(gòu)性失靈。這預(yù)示著,僅依賴行為層面的技術(shù)進(jìn)路尚不足以全面解決價(jià)值對(duì)齊問題。
價(jià)值對(duì)齊的規(guī)范性困境
技術(shù)進(jìn)路的不完善性。生成式人工智能可能預(yù)示了通用人工智能具有類似人類的智能,也可能證明了完全相反的情況,即要實(shí)現(xiàn)類似人類的智能可能會(huì)更加困難。[9]即便技術(shù)進(jìn)路做到在行為層面能夠高度逼近社會(huì)規(guī)范與人類偏好,模型的輸出仍可能在復(fù)雜情境中偏離倫理預(yù)期,甚至引發(fā)“獎(jiǎng)勵(lì)劫持”、“目標(biāo)腐蝕”等新型風(fēng)險(xiǎn)。出現(xiàn)這種現(xiàn)象的根本原因并不在于建模手段不夠精細(xì)或數(shù)據(jù)規(guī)模不夠龐大,而在于整個(gè)架構(gòu)把“行動(dòng)目標(biāo)”的來源設(shè)定在系統(tǒng)之外——模型只會(huì)最大化被給定的目標(biāo)函數(shù),卻沒有生成、修正或反思目標(biāo)的能力。這一進(jìn)程導(dǎo)致的結(jié)果是,模型可以學(xué)會(huì)做某事,卻無從回答為何該做此事,更無法在沖突場景中以“理由”為依據(jù)進(jìn)行比較與取舍。只要“更優(yōu)”僅意味著“更符合外部評(píng)分”,系統(tǒng)的響應(yīng)就始終是一種被動(dòng)的目標(biāo)執(zhí)行,就總有出現(xiàn)價(jià)值偏離的可能。
這種情形頗似知識(shí)論中的“蓋梯爾(Edmund Gettier)問題”:只要理證(justification)被視為獨(dú)立于真的外在條件,就始終可能出現(xiàn)這樣一種情況——信念雖有理證且恰好為真,卻因其“真性”依賴于偶然因素而不能算作知識(shí)。[10]同理,如果將價(jià)值對(duì)齊理解為獨(dú)立于理由響應(yīng)的外部調(diào)優(yōu),系統(tǒng)就可能在偶然情況下生成符合倫理要求的行為,但這種行為并非出于對(duì)規(guī)范理由的理解與采納,而只是對(duì)外部設(shè)定目標(biāo)的被動(dòng)執(zhí)行,由此使得這種“對(duì)齊”在根本上依然脆弱且偶然。
價(jià)值對(duì)齊離不開理由響應(yīng)。這是因?yàn)椋碛身憫?yīng)能力并非價(jià)值對(duì)齊的附加條件,而是其構(gòu)成性前提。只有當(dāng)一個(gè)系統(tǒng)能夠存在內(nèi)部表征和評(píng)估行動(dòng)的理由,將規(guī)范要求視為決策過程中需要加以采納和權(quán)衡的內(nèi)容時(shí),它才能在多種可能路徑中識(shí)別、評(píng)估并采納那些有充分規(guī)范理由支持的路徑,從而在復(fù)雜、動(dòng)態(tài)的情境中保持對(duì)齊狀態(tài)。因此,價(jià)值對(duì)齊的真正目標(biāo)并不是讓系統(tǒng)學(xué)會(huì)一種固定的行為模式,而是賦予它在面對(duì)不確定性和沖突時(shí),根據(jù)規(guī)范理由作出判斷與行動(dòng)的能力。沒有這種能力,所謂“對(duì)齊”就只能依附于外部控制與事前設(shè)定的目標(biāo),一旦這些外部條件發(fā)生變化,對(duì)齊便會(huì)隨之瓦解。
然而,當(dāng)前的技術(shù)進(jìn)路在結(jié)構(gòu)上排除理由響應(yīng)的可能性。無論通過獎(jiǎng)勵(lì)函數(shù)塑造行為,還是依賴偏好數(shù)據(jù)進(jìn)行歸納學(xué)習(xí),系統(tǒng)始終在一個(gè)外部定義的目標(biāo)空間內(nèi)運(yùn)行,其優(yōu)化過程只關(guān)心“怎樣做”才能得到更高的分?jǐn)?shù),而不關(guān)心“為什么”這種做法在規(guī)范上是可取的。換言之,模型的全部“理性”都被壓縮為對(duì)外部信號(hào)的模式匹配與參數(shù)調(diào)整,它既不具備生成新的行動(dòng)目標(biāo)的能力,也不能對(duì)現(xiàn)有目標(biāo)的合理性進(jìn)行反思或修正。在這種邏輯下,價(jià)值被剝離其規(guī)范意義,只剩下可供計(jì)算的代理指標(biāo),導(dǎo)致系統(tǒng)在訓(xùn)練中表現(xiàn)出的“合乎規(guī)范”僅是一種外在約束下的穩(wěn)定性,而非內(nèi)在理由的承認(rèn)。這暴露技術(shù)進(jìn)路的規(guī)范性困境:當(dāng)一個(gè)系統(tǒng)不能在理由空間中定位自身的行動(dòng)依據(jù)時(shí),它的行為再一致,也無法構(gòu)成真正意義上的規(guī)范對(duì)齊。[11]
價(jià)值對(duì)齊的規(guī)范性困境表現(xiàn)。規(guī)范性困境的表現(xiàn)是,當(dāng)前技術(shù)進(jìn)路將價(jià)值對(duì)齊簡化為一個(gè)關(guān)于行為結(jié)果的優(yōu)化問題,而非關(guān)于行動(dòng)理由的理解問題。在以獎(jiǎng)勵(lì)函數(shù)或偏好排序?yàn)榛A(chǔ)的訓(xùn)練機(jī)制中,“價(jià)值”被轉(zhuǎn)化為一種外部評(píng)估信號(hào),其功能僅僅是指示某一輸出在什么程度上接近人類偏好。這類信號(hào)雖能指導(dǎo)模型進(jìn)行參數(shù)調(diào)整,卻并不攜帶任何規(guī)范性內(nèi)容,即它們并未表達(dá)出為什么某一行為值得選擇,或?yàn)楹瘟硪环N行為應(yīng)當(dāng)避免。比如,在“基于人類反饋的強(qiáng)化學(xué)習(xí)”機(jī)制中,人類反饋不過是對(duì)模型響應(yīng)的相對(duì)排序,而排序本身并不蘊(yùn)含理由或原則。于是,模型所學(xué)習(xí)的,是如何在形式上最大化獎(jiǎng)勵(lì),而不是如何理解或采納支撐這些偏好的規(guī)范理由。它僅僅是在行為表征層面模擬“像人類那樣行動(dòng)”,而非在規(guī)范結(jié)構(gòu)上“像人類那樣思考”。在這種架構(gòu)下,理由維度的缺失意味著系統(tǒng)無法區(qū)分行為的一致性與規(guī)范的正當(dāng)性,從而無法真正承載價(jià)值對(duì)齊這一倫理要求的本質(zhì)意涵。
即便技術(shù)路徑嘗試通過不斷歸納人類偏好來動(dòng)態(tài)調(diào)整行為目標(biāo),其所學(xué)習(xí)到的仍然只是行為趨勢的統(tǒng)計(jì)模式,而非規(guī)范義務(wù)的結(jié)構(gòu)。反饋數(shù)據(jù)所表達(dá)的,是人類在某些情境下更傾向某種反應(yīng),但這類偏好并不等同于理由的陳述,也不具備規(guī)范判斷所要求的普遍性與正當(dāng)性。在價(jià)值沖突或道德兩難的情境中,模型之所以選擇A而非B,僅僅是因?yàn)锳在訓(xùn)練數(shù)據(jù)中獲得更高的獎(jiǎng)勵(lì)分?jǐn)?shù),而不是因?yàn)樗?ldquo;知道”A更符合某種倫理原則。這種對(duì)偏好數(shù)據(jù)的依賴,使得模型在表面上似乎能夠“學(xué)會(huì)”人類價(jià)值判斷,實(shí)則僅是對(duì)人類行為的被動(dòng)模仿,缺乏判斷行為正當(dāng)性的能力。更嚴(yán)重的是,偏好數(shù)據(jù)本身往往是有限的、“噪聲的”甚至是矛盾的,而模型在歸納過程中并無能力區(qū)分哪些反饋具有規(guī)范性和權(quán)威性,哪些僅僅是偶然偏好或局部偏見??傊?,在沒有理由結(jié)構(gòu)的前提下,系統(tǒng)所習(xí)得的“價(jià)值”往往是失真的、不可解釋的,并可能在復(fù)雜環(huán)境中誘發(fā)“獎(jiǎng)勵(lì)劫持”“目標(biāo)腐蝕”等現(xiàn)象,從而暴露出技術(shù)進(jìn)路無法承載規(guī)范性的根本缺陷。
上述分析告訴我們,規(guī)范性困境的關(guān)鍵不在于持續(xù)改進(jìn)獎(jiǎng)勵(lì)函數(shù)、優(yōu)化訓(xùn)練數(shù)據(jù)或疊加更多的外部控制,而在于改變?nèi)斯ぶ悄芘c規(guī)范理由之間的關(guān)系結(jié)構(gòu)。只要系統(tǒng)仍然被設(shè)計(jì)為在封閉的目標(biāo)空間內(nèi)被動(dòng)執(zhí)行外部設(shè)定的任務(wù),它就難以具備在理由空間中定位自身立場、權(quán)衡價(jià)值沖突或修正自身行動(dòng)原則的能力。因此,真正意義上的價(jià)值對(duì)齊,必須超越技術(shù)進(jìn)路的外部調(diào)優(yōu)邏輯和單一行為調(diào)控路徑。
價(jià)值對(duì)齊的規(guī)范進(jìn)路
那么,該如何突破技術(shù)進(jìn)路的規(guī)范性困境,實(shí)現(xiàn)真正意義上的價(jià)值對(duì)齊呢?一個(gè)可資借鑒的思路來自知識(shí)論:在知識(shí)論中,“蓋梯爾問題”的解決方案之一是將“理證”與“真”整合為一個(gè)不可分割的整體,使得信念的真并非偶然,而是源于其理證結(jié)構(gòu)的內(nèi)在支持。[12]同樣地,要克服價(jià)值對(duì)齊的規(guī)范性困境,也需要將系統(tǒng)的行為一致性與規(guī)范理由的生成能力結(jié)合起來,使得符合倫理要求的行動(dòng)不再是偶發(fā)結(jié)果,而是出自系統(tǒng)對(duì)理由的理解與采納。如果是這樣,那么價(jià)值對(duì)齊的重心應(yīng)從外部獎(jiǎng)勵(lì)與偏好模仿,轉(zhuǎn)向在人工智能內(nèi)部建立理由響應(yīng)機(jī)制,讓行動(dòng)的規(guī)范性根基內(nèi)嵌于其決策過程之中。這樣的轉(zhuǎn)向,構(gòu)成規(guī)范進(jìn)路的基本立場。
人工智能的“理由空間”與“元級(jí)機(jī)制”。在這一立場下,關(guān)鍵不在于進(jìn)一步精煉外部目標(biāo)函數(shù)或擴(kuò)大偏好數(shù)據(jù)的覆蓋面,而在于為人工智能構(gòu)建一種“理由空間”(space of reasons),使其能夠在內(nèi)部表征和推理過程中處理規(guī)范性信息。[13]這一空間應(yīng)當(dāng)具備三個(gè)基本特征:其一,它能夠?qū)⑿袆?dòng)方案與相關(guān)的規(guī)范理由建立顯式關(guān)聯(lián),而不是僅僅依賴統(tǒng)計(jì)相關(guān)性進(jìn)行預(yù)測;其二,它允許系統(tǒng)在面對(duì)沖突性理由時(shí)進(jìn)行權(quán)衡與優(yōu)先級(jí)排序,從而生成可理證的選擇;其三,它支持系統(tǒng)在新的情境中生成、修正乃至放棄原有目標(biāo)的能力,使其行為不再局限于固定的外部設(shè)定。通過這樣的設(shè)計(jì),人工智能的決策將不只是產(chǎn)出符合規(guī)范的行為,而是能夠在行動(dòng)過程中體現(xiàn)出對(duì)規(guī)范理由的理解與承認(rèn),從而在結(jié)構(gòu)上滿足價(jià)值對(duì)齊的規(guī)范性要求。
實(shí)現(xiàn)這樣的“理由空間”,需要在人工智能的架構(gòu)中引入一種面向規(guī)范推理的“元級(jí)機(jī)制”(meta-level mechanism),使其不僅能處理事實(shí)性信息,還能在推理鏈中整合規(guī)范性前提。諸如生成式人工智能這類深度學(xué)習(xí)模型是一種多層網(wǎng)絡(luò),各層都在執(zhí)行具體任務(wù)或行為。比如,模型根據(jù)輸入生成文本、作出決策或采取行動(dòng),這樣的網(wǎng)絡(luò)層屬于對(duì)象級(jí)(object level)。與對(duì)象級(jí)不同,元級(jí)不直接參與某個(gè)過程的執(zhí)行,而是對(duì)該過程本身進(jìn)行監(jiān)控、評(píng)估、調(diào)整和指導(dǎo),如評(píng)估當(dāng)前目標(biāo)是否合理、當(dāng)前推理過程是否符合規(guī)范、是否需要調(diào)整行動(dòng)計(jì)劃等。[14]引入元級(jí)機(jī)制旨在讓系統(tǒng)的推理過程能夠區(qū)分事實(shí)性信息與規(guī)范性理由,使后者在行動(dòng)生成中發(fā)揮約束和導(dǎo)向作用。如在面對(duì)同一任務(wù)時(shí),系統(tǒng)不僅應(yīng)制定出完成該任務(wù)的多種可行路徑,還應(yīng)在這些路徑上嵌入與社會(huì)規(guī)則、倫理價(jià)值及多樣化情境相關(guān)的理由評(píng)估,從而將規(guī)范性考量內(nèi)化為行動(dòng)選擇的組成部分。正是這種理由生成與評(píng)估能力,構(gòu)成行動(dòng)者實(shí)現(xiàn)自我目標(biāo)設(shè)定和反思性判斷的必要條件。缺乏這一機(jī)制的人工智能,即便在行為上與人類價(jià)值趨同,其對(duì)齊狀態(tài)仍是偶然和脆弱的。
消解價(jià)值對(duì)齊規(guī)范性困境的多重策略。然而,要真正消解規(guī)范性困境,僅僅在頂層引入一個(gè)元級(jí)機(jī)制是不夠的,還需通過多重策略確保理由空間的運(yùn)行能夠在系統(tǒng)內(nèi)部形成穩(wěn)定而可審查的規(guī)范性支撐。[15]理由如下:其一,理由生成與評(píng)估的過程應(yīng)具備可解釋性,使外部觀察者能夠明確系統(tǒng)是如何識(shí)別相關(guān)規(guī)范理由、如何在不同選項(xiàng)間進(jìn)行權(quán)衡,以及為何最終采納某一行動(dòng)方案。這不僅有助于檢測潛在的價(jià)值偏差,也為責(zé)任追溯提供結(jié)構(gòu)性依據(jù)。其二,系統(tǒng)應(yīng)當(dāng)具備動(dòng)態(tài)目標(biāo)修正的能力。也就是說,當(dāng)環(huán)境或價(jià)值框架發(fā)生變化時(shí),它能夠在理由空間的支持下,修正、重構(gòu)甚至放棄原有目標(biāo),而不是被動(dòng)執(zhí)行過時(shí)的外部設(shè)定。此外,在面對(duì)沖突性理由時(shí),系統(tǒng)需要調(diào)用一套權(quán)衡框架——可以基于優(yōu)先級(jí)原則、權(quán)重分配或情境化判斷——從而避免規(guī)范沖突被簡單化處理為規(guī)則匹配或數(shù)值最優(yōu)解。其三,這些機(jī)制不應(yīng)僅存在于單一的頂層元級(jí)中,而應(yīng)以多層次嵌入的方式貫穿決策鏈的不同階段,使局部元級(jí)在各個(gè)關(guān)鍵推理環(huán)節(jié)中發(fā)揮作用,確保規(guī)范性考量不會(huì)在中間處理階段被稀釋或丟失。通過這些互補(bǔ)性設(shè)計(jì),規(guī)范進(jìn)路為人工智能提供一條將理由生成、目標(biāo)設(shè)定與價(jià)值對(duì)齊整合為統(tǒng)一體系的可行路徑。
需要指出的是,上述策略并非僅在技術(shù)架構(gòu)上加裝若干功能模塊即可達(dá)成,它要求對(duì)人工智能的整體建模方式進(jìn)行方法論上的重構(gòu)。首先,理由空間及其元級(jí)機(jī)制需要與模型的世界建模能力深度結(jié)合。沒有對(duì)環(huán)境、行動(dòng)后果及社會(huì)語境的高保真表征,規(guī)范理由的生成就可能流于空泛,甚至依賴錯(cuò)誤的情境假設(shè)而得出失真結(jié)論。其次,理由評(píng)估過程必須與模型的推理鏈路相互嵌套,而非事后附加,否則規(guī)范性判斷會(huì)淪為“外掛式”評(píng)估,無法在行動(dòng)生成中發(fā)揮約束作用。再者,理由空間必須在開放性與約束性之間取得平衡——過于剛性的規(guī)范結(jié)構(gòu)會(huì)限制系統(tǒng)對(duì)新情境的適應(yīng),而過于寬松的框架則可能削弱規(guī)范性、一致性,使其難以維持跨情境的價(jià)值穩(wěn)定性。另外,如何定義和編碼“理由”本身,是一個(gè)橫跨哲學(xué)與技術(shù)的核心挑戰(zhàn):理由不僅是事實(shí)與價(jià)值的混合物,還涉及推理結(jié)構(gòu)的可辯護(hù)性與行動(dòng)選擇的可公共性,這要求在形式化建模中引入對(duì)理由語義的明確刻畫,而不是僅將其簡化為一組特征權(quán)重或邏輯條件。
對(duì)規(guī)范進(jìn)路來說,一個(gè)關(guān)鍵要求是實(shí)現(xiàn)跨情境的理由一致性。在人類的規(guī)范實(shí)踐中,行動(dòng)者通常會(huì)在不同場合下保持對(duì)相同理由類型的相似響應(yīng)模式,這種一致性不僅支撐個(gè)人的可信賴性,也使社會(huì)成員能夠相互預(yù)測與協(xié)調(diào)。若生成式人工智能在不同情境中對(duì)同類理由作出截然相反的判斷,即便這些判斷局部看來都是合理的,其整體行為模式仍會(huì)失去可預(yù)期性與規(guī)范穩(wěn)定性。因此,理由空間與元級(jí)機(jī)制必須支持對(duì)理由—行動(dòng)映射關(guān)系的全局追蹤與一致性維護(hù)。這種一致性并非要求系統(tǒng)在面對(duì)任何新情境時(shí)都機(jī)械重復(fù)既有理由,而是應(yīng)當(dāng)結(jié)合反思性自我修正機(jī)制:當(dāng)發(fā)現(xiàn)某一理由模式在新情境下導(dǎo)致不可接受的后果或與更高階價(jià)值發(fā)生沖突時(shí),系統(tǒng)應(yīng)能夠主動(dòng)調(diào)整其理由權(quán)重與適用范圍。[16]這種雙重要求,既保持跨情境的規(guī)范穩(wěn)定,又具備在沖突中更新理由結(jié)構(gòu)的能力,構(gòu)成規(guī)范進(jìn)路的核心張力。
此外,在多主體情境中,理由空間與元級(jí)機(jī)制的協(xié)同作用顯得尤為重要?,F(xiàn)實(shí)世界的規(guī)范環(huán)境并非單一一致,而是由多元價(jià)值觀、文化習(xí)俗、制度約束交織而成,且這些元素之間常常存在張力甚至沖突。一個(gè)具備元級(jí)機(jī)制的人工智能,必須能夠在面對(duì)不同來源的規(guī)范要求時(shí),對(duì)其進(jìn)行情境化的整合與優(yōu)先級(jí)排序。比如,當(dāng)法律規(guī)定與特定社群的道德習(xí)慣發(fā)生沖突時(shí),系統(tǒng)需要在理由空間中明確兩者的沖突點(diǎn),并通過元級(jí)機(jī)制權(quán)衡其適用性和正當(dāng)性。這不僅要求系統(tǒng)識(shí)別不同理由的來源與權(quán)威性,還要求其具備跨語境的遷移能力,將在某一情境下學(xué)到的規(guī)范性模式靈活地應(yīng)用到新的語境中。通過這種方式,生成式人工智能能夠在多元而動(dòng)態(tài)的理由網(wǎng)絡(luò)中,保持規(guī)范判斷的一致性與適應(yīng)性,從而使價(jià)值對(duì)齊不局限于單一情境的局部對(duì)齊,而是在更廣泛的社會(huì)環(huán)境中獲得持續(xù)的規(guī)范有效性。
然而,單純具備跨情境的適應(yīng)能力仍不足以保證長期的價(jià)值對(duì)齊穩(wěn)定性。生成式人工智能在多主體交互中若缺乏持續(xù)的自我更新機(jī)制,即便初始的理由空間與元級(jí)機(jī)制設(shè)計(jì)合理,也可能在長期運(yùn)行中發(fā)生“規(guī)范退化”,即規(guī)范性判斷逐漸偏離原本的價(jià)值目標(biāo),甚至漸漸形成與人類預(yù)期不符的判斷模式。[17]為防止這一現(xiàn)象,規(guī)范進(jìn)路必須引入動(dòng)態(tài)更新機(jī)制,使系統(tǒng)能夠周期性地檢驗(yàn)和修正其理由結(jié)構(gòu)與權(quán)衡規(guī)則。這種更新同樣不應(yīng)僅依賴外部的參數(shù)重設(shè),而應(yīng)結(jié)合內(nèi)部的元級(jí)反思過程,在與人類或其他智能體的互動(dòng)中持續(xù)吸收新的規(guī)范信息,并重新校準(zhǔn)理由優(yōu)先級(jí)。通過將動(dòng)態(tài)更新嵌入規(guī)范推理本身,系統(tǒng)得以在環(huán)境、制度與價(jià)值觀變化的條件下,維持其理由響應(yīng)能力與行為一致性的統(tǒng)一,從而避免在長期演化中喪失對(duì)核心倫理原則的承諾。
進(jìn)一步地動(dòng)態(tài)更新若僅依賴系統(tǒng)的自我修正,仍可能受限于其初始訓(xùn)練框架和內(nèi)部表征的范圍,從而在面對(duì)復(fù)雜的價(jià)值沖突時(shí)缺乏足夠的開放性與包容性。[18]因此,規(guī)范進(jìn)路還需將社會(huì)協(xié)商機(jī)制納入人工智能的理由生成與評(píng)估過程,使系統(tǒng)能夠在關(guān)鍵價(jià)值分歧中引入外部多元視角,借助人類個(gè)體與群體的互動(dòng)反饋來校正和擴(kuò)展自身的規(guī)范判斷。這樣的機(jī)制不僅有助于避免系統(tǒng)在價(jià)值沖突中陷入封閉循環(huán)或偏向單一立場,還能在持續(xù)的對(duì)話與反思中,促使生成式人工智能將倫理要求理解為共同體意義上的理由約束,而非僅僅是技術(shù)性指令的集合。由此,價(jià)值對(duì)齊的實(shí)現(xiàn)將不再依賴孤立的算法優(yōu)化,而是嵌入一種開放、互動(dòng)且可自我修正的規(guī)范實(shí)踐之中。
總的來說,規(guī)范進(jìn)路將價(jià)值對(duì)齊的目標(biāo)從外在約束轉(zhuǎn)向內(nèi)在承諾,通過建構(gòu)理由空間與元級(jí)機(jī)制,使生成式人工智能能夠在行動(dòng)生成的結(jié)構(gòu)中,直接體現(xiàn)對(duì)規(guī)范理由的理解、采納與修正,實(shí)現(xiàn)穩(wěn)定和可持續(xù)的對(duì)齊。然而,這一架構(gòu)的有效運(yùn)行,僅有技術(shù)和規(guī)范的建構(gòu)是不夠的,還需制度化的外部支持,以確保理由空間的輸入具有合法性,并能在跨情境與多主體互動(dòng)中持續(xù)獲得校準(zhǔn)。
價(jià)值對(duì)齊的制度前景
正如制度倫理學(xué)所強(qiáng)調(diào)的,個(gè)體行動(dòng)者的規(guī)范推理始終嵌入更廣泛的社會(huì)、法律與文化框架之中。[19]對(duì)于生成式人工智能而言,其理由生成與評(píng)估能力同樣依賴于外部制度環(huán)境的支持與約束:制度為其提供可參照的價(jià)值基準(zhǔn)、穩(wěn)定的規(guī)范秩序,以及防止偏離和濫用的監(jiān)督機(jī)制。缺乏這樣的制度性保障,即便在技術(shù)架構(gòu)上實(shí)現(xiàn)規(guī)范進(jìn)路,其運(yùn)行效果也可能在實(shí)踐中被市場激勵(lì)、數(shù)據(jù)偏見或政治壓力所削弱。因此,制度構(gòu)成價(jià)值對(duì)齊的“技術(shù)—規(guī)范—制度”三重耦合結(jié)構(gòu)中不可缺少的一環(huán)。
沿著這一思路,制度設(shè)計(jì)的關(guān)鍵在于為生成式人工智能的規(guī)范性運(yùn)作創(chuàng)造穩(wěn)定、透明且可追溯的外部條件,使其內(nèi)部的理由響應(yīng)機(jī)制能夠與社會(huì)的價(jià)值體系保持動(dòng)態(tài)一致。[20]換言之,制度不應(yīng)僅僅作為事后審查的工具,而應(yīng)在系統(tǒng)的目標(biāo)設(shè)定、推理框架和行為評(píng)估等環(huán)節(jié)提供結(jié)構(gòu)化的規(guī)范輸入。這包括明確規(guī)范優(yōu)先級(jí)的編碼標(biāo)準(zhǔn)、建立跨領(lǐng)域的一致性審查機(jī)制,以及確保模型在不同情境下作出的理由判斷能夠接受公共理由的檢驗(yàn)。這樣的制度框架不僅為技術(shù)開發(fā)者提供可操作的對(duì)齊基準(zhǔn),也為公眾監(jiān)督與跨部門協(xié)作提供制度化接口,從而使價(jià)值對(duì)齊的規(guī)范進(jìn)路能夠在社會(huì)治理層面得到持續(xù)落實(shí)與迭代。
更具體地制度前景的構(gòu)建還需要引入跨層級(jí)的責(zé)任分配機(jī)制,以確保人工智能在實(shí)際應(yīng)用中出現(xiàn)規(guī)范性偏差時(shí),能夠迅速定位并糾正問題。[21]這里的“跨層級(jí)”既包括技術(shù)層面(如開發(fā)者、部署方、維護(hù)團(tuán)隊(duì)之間的職責(zé)劃分),也包括社會(huì)層面(如行業(yè)協(xié)會(huì)、監(jiān)管機(jī)構(gòu)與司法體系之間的協(xié)作分工)。這種多層嵌套的責(zé)任體系,一方面可以在問題出現(xiàn)的早期階段進(jìn)行技術(shù)干預(yù)和行為修正;另一方面也能通過法律與公共政策的介入,確保系統(tǒng)在長期運(yùn)行中保持與核心價(jià)值觀的結(jié)構(gòu)一致性。唯有如此,生成式人工智能的理由響應(yīng)機(jī)制才能在制度保障下免于異化為單純的“合規(guī)表演”,而真正成為社會(huì)規(guī)范網(wǎng)絡(luò)中的穩(wěn)定節(jié)點(diǎn)。
與此同時(shí),制度設(shè)計(jì)還應(yīng)關(guān)注價(jià)值對(duì)齊機(jī)制在不同行業(yè)與文化語境中的適應(yīng)性問題。生成式人工智能所面對(duì)的倫理沖突和規(guī)范要求往往具有領(lǐng)域特殊性:醫(yī)療場景強(qiáng)調(diào)患者自主與行善原則,司法場景強(qiáng)調(diào)程序正義與比例原則,教育場景則側(cè)重培養(yǎng)與關(guān)懷。在這些領(lǐng)域中,理由響應(yīng)機(jī)制的運(yùn)作邏輯與權(quán)重分配必然有所差異,若制度架構(gòu)不能容納這種差異性,價(jià)值對(duì)齊就可能淪為“一刀切”的形式化要求。為避免這種風(fēng)險(xiǎn),制度前景需要確立一套可擴(kuò)展的領(lǐng)域適配框架,使核心的規(guī)范原則得以在不同行業(yè)語境中以差異化方式實(shí)現(xiàn),從而既保持價(jià)值的一致性,又尊重情境的多樣性。
再者,制度前景還應(yīng)當(dāng)考慮到不同文化與社會(huì)價(jià)值體系的差異性,以避免價(jià)值對(duì)齊在全球化應(yīng)用中陷入單一價(jià)值觀的輸出模式。生成式人工智能若要在多元社會(huì)環(huán)境中發(fā)揮積極作用,其制度設(shè)計(jì)需引入跨文化的協(xié)商與適配機(jī)制,使系統(tǒng)在遵循核心倫理底線的前提下,能夠根據(jù)不同社群的規(guī)范語境進(jìn)行價(jià)值映射與理由轉(zhuǎn)換。[22]這不僅涉及技術(shù)層面的多語義建模與情境識(shí)別,還需要制度上建立多方參與的價(jià)值共建平臺(tái),讓價(jià)值對(duì)齊成為動(dòng)態(tài)協(xié)商與共同決策的結(jié)果,而非由單一主體預(yù)設(shè)的固定模板。唯有如此,才能確保制度化的價(jià)值對(duì)齊機(jī)制在多樣化的全球環(huán)境中保持合法性與可持續(xù)性。
此外,制度前景的設(shè)計(jì)還必須考慮監(jiān)督與問責(zé)的持續(xù)性,而非一次性配置。生成式人工智能的行為與推理能力會(huì)在運(yùn)行中不斷演化,如果制度安排停留在靜態(tài)規(guī)則與初始測試階段,就無法應(yīng)對(duì)隨時(shí)間累積的偏移和失效風(fēng)險(xiǎn)。因此,需要建立一種動(dòng)態(tài)監(jiān)測與反饋體系,將行為審查、理由評(píng)估和社會(huì)影響分析納入周期性機(jī)制之中,并賦予獨(dú)立的監(jiān)督主體以干預(yù)和修正的權(quán)力。這種制度化的持續(xù)評(píng)估,不僅能夠在早期發(fā)現(xiàn)潛在的規(guī)范偏差,還能確保系統(tǒng)在整個(gè)生命周期內(nèi)都能維持與核心價(jià)值的一致性,從而為價(jià)值對(duì)齊提供長期的結(jié)構(gòu)性保障。
在這一意義上,價(jià)值對(duì)齊的制度前景并不是一個(gè)固定的終點(diǎn),其既為人工智能的發(fā)展設(shè)定基本的規(guī)范邊界,又保留足夠的彈性去適應(yīng)不可預(yù)見的技術(shù)變革和社會(huì)轉(zhuǎn)向。這種制度模式的關(guān)鍵在于,將價(jià)值對(duì)齊視為公共理性的延伸,而非純粹的工程優(yōu)化任務(wù):其目標(biāo)不僅是控制系統(tǒng)的行為結(jié)果,還要確保價(jià)值嵌入、理由生成和責(zé)任分配在制度中得到透明呈現(xiàn)與持續(xù)審議。通過這種方式,生成式人工智能的演化不再是技術(shù)單方面推動(dòng)的過程,而是在制度框架中與社會(huì)價(jià)值體系共同演進(jìn),從而在不確定的未來中維持規(guī)范性的一致與正當(dāng)性。
因此,價(jià)值對(duì)齊的制度前景不應(yīng)被理解為一套靜態(tài)的監(jiān)管框架,而應(yīng)當(dāng)被視為一個(gè)持續(xù)演化的協(xié)同體系:技術(shù)研發(fā)機(jī)構(gòu)、政策制定者、行業(yè)協(xié)會(huì)、學(xué)術(shù)界與公眾在其中形成相互依賴、相互制衡的關(guān)系網(wǎng)絡(luò)。應(yīng)建立并完善符合我國人工智能發(fā)展需求的敏捷治理體系,保持政策靈活性,留足制度發(fā)展空間,以保障技術(shù)的長遠(yuǎn)健康發(fā)展。[23]制度的任務(wù)不只是對(duì)人工智能行為進(jìn)行事后約束,更在于為技術(shù)發(fā)展提前設(shè)定邊界條件、引導(dǎo)價(jià)值嵌入的方向,并確保這些條件在實(shí)踐中得到檢驗(yàn)與修正。唯有如此,制度才能在技術(shù)與社會(huì)之間建立穩(wěn)定的規(guī)范橋梁,使價(jià)值對(duì)齊從理論構(gòu)想轉(zhuǎn)化為可持續(xù)的社會(huì)現(xiàn)實(shí)。
總之,制度設(shè)計(jì)必須兼顧三個(gè)維度的動(dòng)態(tài)平衡:首先是規(guī)范的明確性與開放性,既要提供足夠清晰的原則以指導(dǎo)技術(shù)實(shí)現(xiàn),又要保留適應(yīng)新興情境的靈活空間;其次是責(zé)任的集中與分散,在關(guān)鍵環(huán)節(jié)設(shè)立明確的問責(zé)主體,同時(shí)通過多層級(jí)分工避免單點(diǎn)失靈;最后是監(jiān)督的獨(dú)立性與協(xié)同性,既保證審查機(jī)制不受被監(jiān)管方的利益束縛,又通過跨領(lǐng)域的協(xié)作增強(qiáng)監(jiān)督的專業(yè)性與可操作性。通過這樣的制度布局,方能在長時(shí)段內(nèi)保持價(jià)值對(duì)齊的韌性,并在技術(shù)與社會(huì)條件持續(xù)變遷的背景下,實(shí)現(xiàn)可控人工智能的穩(wěn)健發(fā)展。
結(jié)語
正如我們所看到的,價(jià)值對(duì)齊的真正難題并不止于行為控制或性能優(yōu)化,而在于如何讓生成式人工智能在多變的社會(huì)情境中保持理由響應(yīng)的一致性與可公共化性。技術(shù)、規(guī)范與制度在此構(gòu)成了相互牽引的三重框架:技術(shù)進(jìn)路提供實(shí)現(xiàn)基礎(chǔ),規(guī)范進(jìn)路賦予行動(dòng)以理由結(jié)構(gòu),制度前景則確保這些機(jī)制在長期運(yùn)作中不被削弱或扭曲。它們之間的關(guān)系并非簡單疊加,而是一個(gè)持續(xù)的協(xié)商、修正與再平衡過程。隨著技術(shù)能力的躍升、社會(huì)價(jià)值結(jié)構(gòu)的調(diào)整以及制度環(huán)境的變遷,生成式人工智能的理由空間與規(guī)范機(jī)制將不斷面臨新的壓力與重構(gòu)要求。這一過程的成敗,不僅影響生成式人工智能在倫理上的可接受性,還可能反過來塑造人類社會(huì)自身的價(jià)值秩序與規(guī)范實(shí)踐。換言之,生成式人工智能價(jià)值對(duì)齊的未來,不只是確保機(jī)器“做對(duì)的事”,更是推動(dòng)我們反思“什么是對(duì)的”以及“誰來界定對(duì)”,并在這一反思中不斷重繪人工智能與人類共處的規(guī)范版圖。
注釋
[1]E. Bender; T. Gebru; A. McMillan-Major et al., "On the Dangers of Stochastic Parrots: Can Language Models Be too Big?" Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 2021.
[2]I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3).
[3]A. Deroy; S. Maity, "Questioning Biases in Case Judgment Summaries: Legal Datasets or Large Language Models?" arXiv preprint arXiv:2312.00554, 2023.
[4]R. Draelos; S. Afreen; B. Blasko et al., "Large language Models Provide Unsafe Answers to Patient-Posed Medical Questions," arXiv preprint arXiv:2507.18905, 2025.
[5]S. Russell, Human Compatible: AI and the Problem of Control, London: Penguin, 2019.
[6]R. Ngo; L. Chan and S. Mindermann, "The Alignment Problem from a Deep Learning Perspective," arXiv preprint arXiv:2209.00626, 2022.
[7]W. Wallach; C. Allen, Moral Machines: Teaching Robots Right from Wrong, Oxford University Press, 2009.
[8]D. Amodei; C. Olah; J. Steinhardt et al., "Concrete Problems in AI Safety," arXiv preprint arXiv:1606.06565, 2016.
[9]殷杰:《生成式人工智能的主體性問題》,《中國社會(huì)科學(xué)》,2024年第8期。
[10]L. Zagzebski, "The Inescapability of Gettier Problems," The Philosophical Quarterl, 1994, 44(174).
[11][15][18]T. LaCroix, Artificial Intelligence and the Value Alignment Problem, Peterborough: Broadview Press, 2025.
[12]王華平:《新獨(dú)斷論:一種新的知識(shí)辯護(hù)》,《學(xué)術(shù)月刊》,2012年第10期。
[13]M. Garcia-Bohigues; C. Cordova; J. Taverner et al., "Towards a Distributed Platform for Normative Reasoning and Value Alignment in Multi-Agent Systems," in N. Osman and L. Steels (eds.), Value Engineering in Artificial Intelligence, Berlin: Springer, 2024.
[14]S. Russell; P. Norvig, Artificial Intelligence: A Modern Approach, London: Pearson, 2021.
[16][17]R. Millière, "Normative Conflicts and Shallow AI Alignment," Philosophical Studies, 2025, 182.
[19]J. Habermas, Moral Consciousness and Communicative Action, Cambridge: The MIT Press, 1990.
[20]李亞明:《“價(jià)值對(duì)齊”還是“理由對(duì)齊”?——人工智能倫理設(shè)計(jì)的元倫理學(xué)反思》,《電子科技大學(xué)學(xué)報(bào)(社科版)》,2025年第3期。
[21]M. Hedlund; E. Persson, "Distribution of Responsibility for AI Development: Expert Views," AI & Society, 2025, 40.
[22]J. Yuan; Z. Di; S. Zhao et al., "Cultural Palette: Pluralising Culture Alignment Via Multi-Agent Palette," arXiv preprint arXiv:2412.11167, 2024.
[23]薛瀾、王凈宇:《人工智能發(fā)展的前沿趨勢,治理挑戰(zhàn)與應(yīng)對(duì)策略》,《 行政管理改革》, 2024年第8期。
Normative Approach and Institutional Prospects for Value
Alignment in Generative Artificial Intelligence
Wang Huaping
Abstract: Value alignment refers to the principle that the objectives, behavioral tendencies, and outputs of artificial intelligence systems during task execution and content generation should align with the value systems widely recognized by human society. This constitutes the foundation of AI ethical governance. The value alignment of current generative artificial intelligence remains constrained by its reliance on externally specified objectives within the technical pathway, making it difficult to ensure ethical consistency at a structural level. To resolve this normative challenge, it is necessary to construct an internal "space of reasons" and a "meta-level mechanism" that can weigh conflicting considerations and dynamically revise goals, thereby embedding mechanisms for normative reasoning and guidance into the decision-making process. The stability of value alignment also depends on the safeguards and constraints provided by external institutions, which furnish AI with value benchmarks, oversight mechanisms, and bias-prevention measures to avert normative degradation. The dynamic coupling and co-evolution of technology, norms, and institutions form the critical pathway for achieving sustained ethical validity in complex social contexts.
Keywords: generative artificial intelligence, value alignment, normative approach, institutional prospects
責(zé) 編∕方進(jìn)一 美 編∕梁麗琛