聲明:本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心,授權轉(zhuǎn)載發(fā)布。
隨著人工智能技術的發(fā)展,以 GPT-4為代表的大語言模型依靠其強大的能力正在對社會產(chǎn)生深遠的影響。與此同時,大模型本身的安全性問題也變得尤為重要。如何確保大語言模型可以和人類的價值、真實的意圖相一致,防止模型被濫用、輸出有害的信息,這是大模型安全治理的核心問題。之前的大多數(shù)對齊方法需要收集新數(shù)據(jù)重新訓練模型,然而對訓練數(shù)據(jù)質(zhì)量要求高以及優(yōu)化模型參數(shù)耗時耗力是對齊中的痛點。除此之外,待對齊的價值觀可能是動態(tài)變化的,這進一步給大模型價值觀對齊帶來了挑戰(zhàn)。
有鑒于此,上海交通大學生成式人工智能實驗室 GAIR 迅速采取行動,推出了一種全新的價值對齊方法:OPO (On-the-fly Preference Optimization,實時偏好優(yōu)化)。OPO 無需訓練即可實現(xiàn)實時動態(tài)對齊,而且因其即插即用的特性,適用于所有的開源與閉源大模型。研究者透過 OPO 實現(xiàn)了大模型對于法律與道德標準的對齊,展示了 OPO 的動態(tài)性以及優(yōu)越性。
相比于之前工作中的對齊方法(i.e., SFT、PPO 和 DPO),OPO 方法有如下優(yōu)勢:
無需訓練即可實現(xiàn)價值觀對齊;
舍棄獎勵模型,并對任意大模型均適用,包括開源與閉源大模型;
容易更新待對齊的價值觀。考慮到價值觀可能會隨著時間發(fā)生變化(比如法律),OPO 能方便快捷地通過替換相應的準則完成價值觀的更新,而其他對齊方法則需要收集數(shù)據(jù)重新訓練模型。
表1:OPO 與 SFT、PPO、DPO 等對齊方法的對比。
目前,該項目開源了大量資源,包括:
OPO 代碼(使用方法和測試流程也已經(jīng)在 GitHub 上給出);
5種類型的測試數(shù)據(jù)集,包括人出的法考題目、《道德與法治》考試題目(只保留了道德相關的題目)和從 NormBank 數(shù)據(jù)的測試集中隨機采樣的題目,以及利用大模型自動生成的法律題目和職業(yè)道德題目;
2大類價值觀準則,分別是法律準則和道德準則。法律準則包括截止到2023年7月中國現(xiàn)行有效的所有法律法規(guī)(約95萬條)。道德準則:①從中學的《道德與法治》教材里收集的基礎道德準則;②從網(wǎng)上收集多家不同公司 / 行業(yè)的職業(yè)道德準則;③從 NormBank 訓練集數(shù)據(jù)中隨機抽取得到的社會道德規(guī)則;
用于自動生成測試數(shù)據(jù)的 prompt 以及評估生成的測試數(shù)據(jù)質(zhì)量的 prompt;
用 OpenAI embedding 模型提取的法律和道德準則文本對應的向量。
論文:Align on the Fly: Adapting Chatbot Behavior to Established Norms
論文地址:https://arxiv.org/abs/2312.15907
項目地址:https://gair-nlp.github.io/OPO/
代碼地址:https://github.com/GAIR-NLP/OPO
方法
OPO 框架包含3部分,準則構建模塊、對齊模塊和評估模塊。
圖1:OPO 框架。
準則構建模塊:
收集原始的準則文檔,清洗文本數(shù)據(jù),統(tǒng)一準則的格式,分別得到一個法律準則語料庫和道德準則語料庫。具體而言,對于法律準則,研究者從國家法律法規(guī)數(shù)據(jù)庫中收集憲法、行政法規(guī)、地方性法規(guī)等法律法規(guī),從國家規(guī)章庫中收集部門規(guī)章與地方政府規(guī)章。這2個數(shù)據(jù)庫涵蓋了中國現(xiàn)行有效的所有法律。對于道德準則,研究者從中學的《道德與法治》教材里收集剔除法治內(nèi)容后的文本作為基礎道德準則,從網(wǎng)上收集了57家不同公司 / 行業(yè)的職業(yè)道德準則。除了收集顯式的道德準則外,研究者也嘗試從人標注好的道德數(shù)據(jù)里提取道德準則。從 NormBank 的訓練集里隨機選了1000條數(shù)據(jù),每一條數(shù)據(jù)均是一個結構化的社會道德場景,之后研究者利用 ChatGPT 從每條數(shù)據(jù)里提取一條社會道德準則。
表2:收集的道德準則與法律準則的分析。
表3:收集的法律準則、基礎道德準則、職業(yè)道德準則和社會道德準則的示例。
對齊模塊:
對齊模塊基于檢索增強生成(RAG),旨在通過提供相應的準則,引導大模型在遵守準則的前提下更好地回答用戶的問題。研究者利用 OpenAI 的 text-embedding-ada-002embedding 模型將每條準則都表征為稠密向量并存儲在一個向量庫里。給定一個提問,首先也將問詢轉(zhuǎn)換為一個稠密向量,然后利用 Faiss 作為檢索器在向量庫里檢索和問詢最相關的 k 條準則,接下來,大模型會通過設計的 prompt 利用檢索回來的準則作為行為規(guī)范回答問詢。
圖2:利用檢索信息回答問詢的 prompt。
評估模塊:
評估模塊是一個通用可擴展的問題自動生成工具,能夠輕松擴展評測范圍、擴大評測數(shù)據(jù)數(shù)量,還能緩解測試數(shù)據(jù)泄露的問題。大模型在預訓練和有監(jiān)督微調(diào)階段通常會涉及大量的非公開文本,之前的一些研究表明這可能會造成測試數(shù)據(jù)泄露的問題,進而影響大模型性能對比的公平性。此外,研究者觀察到人出的法考題目只涵蓋一小部分法律,很多法律尤其是地方性法律沒有被覆蓋到,而對于這部分法律又很難收集到相應的測試題目。并且,職業(yè)道德作為道德的一個重要組成部分,目前沒有對應的測試基準。為了解決上述問題,研究者提出了一個評估模塊,該模塊利用 GPT-4自動生成帶有答案的單項選擇題。評估模塊共包含3步:
1. 自動出題:收集人出的單項選擇題并從中隨機抽取一道題作為 seed quesiton,同時從收集的準則庫里隨機選擇準則,要求 GPT-4參考 seed quesiton 并依據(jù)準則和出題要求生成一道合理的包含題目、備選項、選項分析和答案的單項選擇題;
2. 自動檢測題目質(zhì)量:將第一步的準則和生成的題目輸入到 GPT-4,對單項選擇題的4個部分(題目、備選項、選項分析和答案)依次核驗,篩掉任意一部分不符合要求的題目;
3. 人工檢測題目質(zhì)量:研究者發(fā)現(xiàn)利用 GPT-4并不能去掉所有質(zhì)量差的自動生成的題目。為了確保評估的可靠性,研究者邀請了3個人類標注者,對第二步保留的題目作進一步的篩選。如果2個及以上的標注者都認為某道題不合理,則去掉這道題。
實驗和結果
為了驗證 OPO 的有效性,研究者構建了三個由人類標注的測試基準,以及兩個由模型自動生成的測試基準。這些基準涵蓋了法律和道德兩大類別,包括中文和英文基準。測試基準中的每一條數(shù)據(jù)均為單項選擇題。
表4:測試基準的分析。
在 H-Law 和 A-Law 測試基準上,OPO 能顯著提高大多數(shù)模型的準確率。尤其值得一提的是,OPO 能在 A-Law 測試基準上為許多大型模型帶來10個百分點的準確率提升。例如,經(jīng)過 OPO 優(yōu)化后,GPT-4的準確度從84.83% 提升至94.65%。此外,國產(chǎn)大模型 Qwen-Chat-14B 和 XuanYuan-70B 在應用 OPO 后的表現(xiàn)不僅與 GPT-4不相上下,而且略微優(yōu)勝。
表5:各個大模型在 H-Law 與 A-Law 上的原始準確率(Base)、應用 OPO 后的準確率(OPO)、將生成題目用到的準則替換 OPO 中檢索得到的準則后的準確率(Oracle)。
表示 OPO 相比 Base 的絕對提升,而
表示 Oracle 相比 Base 的絕對提升。
在 H-Basic-Morality、H-Social-Morality 和 A-Professional-Morality 等3個道德測試基準上,能觀察到類似的現(xiàn)象。OPO 能提升所有模型在 A-Professional-Morality 上的表現(xiàn),提升大部分模型在 H-Basic-Morality 和 H-Social-Morality 上的分數(shù)。
表6:各個大模型在 H-Basic-Morality、H-Social-Morality 和 A-Professional-Morality 上的原始準確率(Base)、應用 OPO 后的準確率(OPO)、將生成選擇題用到的準則替換 OPO 中檢索得到的準則后的準確率(Oracle)。
表示 OPO 相比 Base 的絕對提升,而
表示 Oracle 相比 Base 的絕對提升。
同時,研究者還探索了不同檢索長度對 OPO 方法的影響。檢索回來的文本長度最大值分別設置成200、500、1000、1500、2000,發(fā)現(xiàn)大部分模型在不同的測試基準上均具有相似的趨勢:隨著檢索長度的增加,模型的性能先上升后下降。可能得原因是,較短的文本提供了有益信息,而更長的檢索內(nèi)容引入了噪聲。
圖3:在 H-law 基準上,改變檢索長度對 OPO 效果的影響。
圖4:在 A-law 基準上,改變檢索長度對 OPO 效果的影響。
圖5:在 H-Basic-Morality 基準上,改變檢索長度對 OPO 效果的影響。
圖6:在 H-Social-Morality 基準上,改變檢索長度對 OPO 效果的影響。
圖7:在 A-Professional-morality 基準上,改變檢索長度對 OPO 效果的影響。
總結
總結來說,GAIR 研究組提出了一個無需訓練實現(xiàn)價值觀實時動態(tài)對齊的方法 OPO,能夠作用于開源模型與閉源模型。同時,為了緩解測試數(shù)據(jù)泄露的問題并擴大測試數(shù)據(jù)的數(shù)量與覆蓋范圍,研究者介紹了一個可擴展的評估模塊用于根據(jù)準則自動生成測試問題。實驗證明 OPO 能夠顯著提升不同大模型在5個測試基準上的性能。此外,也公開了收集的所有法律準則與道德準則,以及5個測試基準中所使用的所有數(shù)據(jù)。
本文鏈接:無需訓練實現(xiàn)價值觀實時動態(tài)對齊:上交開源價值觀對齊方法OPO,閉源與開源大模型均適用http://www.lensthegame.com/show-3-7530-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。