設置
          • 日夜間
            隨系統(tǒng)
            淺色
            深色
          • 主題色

          無需訓練實現(xiàn)價值觀實時動態(tài)對齊:上交開源價值觀對齊方法OPO,閉源與開源大模型均適用

          2024-01-24 12:47:19 來源:

          聲明:本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心,授權轉(zhuǎn)載發(fā)布。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          隨著人工智能技術的發(fā)展,以 GPT-4為代表的大語言模型依靠其強大的能力正在對社會產(chǎn)生深遠的影響。與此同時,大模型本身的安全性問題也變得尤為重要。如何確保大語言模型可以和人類的價值、真實的意圖相一致,防止模型被濫用、輸出有害的信息,這是大模型安全治理的核心問題。之前的大多數(shù)對齊方法需要收集新數(shù)據(jù)重新訓練模型,然而對訓練數(shù)據(jù)質(zhì)量要求高以及優(yōu)化模型參數(shù)耗時耗力是對齊中的痛點。除此之外,待對齊的價值觀可能是動態(tài)變化的,這進一步給大模型價值觀對齊帶來了挑戰(zhàn)。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          有鑒于此,上海交通大學生成式人工智能實驗室 GAIR 迅速采取行動,推出了一種全新的價值對齊方法:OPO (On-the-fly Preference Optimization,實時偏好優(yōu)化)。OPO 無需訓練即可實現(xiàn)實時動態(tài)對齊,而且因其即插即用的特性,適用于所有的開源與閉源大模型。研究者透過 OPO 實現(xiàn)了大模型對于法律與道德標準的對齊,展示了 OPO 的動態(tài)性以及優(yōu)越性。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          相比于之前工作中的對齊方法(i.e., SFT、PPO 和 DPO),OPO 方法有如下優(yōu)勢:ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 無需訓練即可實現(xiàn)價值觀對齊;ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 舍棄獎勵模型,并對任意大模型均適用,包括開源與閉源大模型;ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 容易更新待對齊的價值觀。考慮到價值觀可能會隨著時間發(fā)生變化(比如法律),OPO 能方便快捷地通過替換相應的準則完成價值觀的更新,而其他對齊方法則需要收集數(shù)據(jù)重新訓練模型。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          表1:OPO 與 SFT、PPO、DPO 等對齊方法的對比。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          目前,該項目開源了大量資源,包括:ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • OPO 代碼(使用方法和測試流程也已經(jīng)在 GitHub 上給出);ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 5種類型的測試數(shù)據(jù)集,包括人出的法考題目、《道德與法治》考試題目(只保留了道德相關的題目)和從 NormBank 數(shù)據(jù)的測試集中隨機采樣的題目,以及利用大模型自動生成的法律題目和職業(yè)道德題目;ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 2大類價值觀準則,分別是法律準則和道德準則。法律準則包括截止到2023年7月中國現(xiàn)行有效的所有法律法規(guī)(約95萬條)。道德準則:①從中學的《道德與法治》教材里收集的基礎道德準則;②從網(wǎng)上收集多家不同公司 / 行業(yè)的職業(yè)道德準則;③從 NormBank 訓練集數(shù)據(jù)中隨機抽取得到的社會道德規(guī)則;ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 用于自動生成測試數(shù)據(jù)的 prompt 以及評估生成的測試數(shù)據(jù)質(zhì)量的 prompt;ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 用 OpenAI embedding 模型提取的法律和道德準則文本對應的向量。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 論文:Align on the Fly: Adapting Chatbot Behavior to Established Normsly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 論文地址:https://arxiv.org/abs/2312.15907ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 項目地址:https://gair-nlp.github.io/OPO/ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 代碼地址:https://github.com/GAIR-NLP/OPOly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          方法ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          OPO 框架包含3部分,準則構建模塊、對齊模塊和評估模塊。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          圖1:OPO 框架。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          準則構建模塊:ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          收集原始的準則文檔,清洗文本數(shù)據(jù),統(tǒng)一準則的格式,分別得到一個法律準則語料庫和道德準則語料庫。具體而言,對于法律準則,研究者從國家法律法規(guī)數(shù)據(jù)庫中收集憲法、行政法規(guī)、地方性法規(guī)等法律法規(guī),從國家規(guī)章庫中收集部門規(guī)章與地方政府規(guī)章。這2個數(shù)據(jù)庫涵蓋了中國現(xiàn)行有效的所有法律。對于道德準則,研究者從中學的《道德與法治》教材里收集剔除法治內(nèi)容后的文本作為基礎道德準則,從網(wǎng)上收集了57家不同公司 / 行業(yè)的職業(yè)道德準則。除了收集顯式的道德準則外,研究者也嘗試從人標注好的道德數(shù)據(jù)里提取道德準則。從 NormBank 的訓練集里隨機選了1000條數(shù)據(jù),每一條數(shù)據(jù)均是一個結構化的社會道德場景,之后研究者利用 ChatGPT 從每條數(shù)據(jù)里提取一條社會道德準則。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          表2:收集的道德準則與法律準則的分析。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          表3:收集的法律準則、基礎道德準則、職業(yè)道德準則和社會道德準則的示例。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對齊模塊:ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對齊模塊基于檢索增強生成(RAG),旨在通過提供相應的準則,引導大模型在遵守準則的前提下更好地回答用戶的問題。研究者利用 OpenAI 的 text-embedding-ada-002embedding 模型將每條準則都表征為稠密向量并存儲在一個向量庫里。給定一個提問,首先也將問詢轉(zhuǎn)換為一個稠密向量,然后利用 Faiss 作為檢索器在向量庫里檢索和問詢最相關的 k 條準則,接下來,大模型會通過設計的 prompt 利用檢索回來的準則作為行為規(guī)范回答問詢。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          圖2:利用檢索信息回答問詢的 prompt。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          評估模塊:ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          評估模塊是一個通用可擴展的問題自動生成工具,能夠輕松擴展評測范圍、擴大評測數(shù)據(jù)數(shù)量,還能緩解測試數(shù)據(jù)泄露的問題。大模型在預訓練和有監(jiān)督微調(diào)階段通常會涉及大量的非公開文本,之前的一些研究表明這可能會造成測試數(shù)據(jù)泄露的問題,進而影響大模型性能對比的公平性。此外,研究者觀察到人出的法考題目只涵蓋一小部分法律,很多法律尤其是地方性法律沒有被覆蓋到,而對于這部分法律又很難收集到相應的測試題目。并且,職業(yè)道德作為道德的一個重要組成部分,目前沒有對應的測試基準。為了解決上述問題,研究者提出了一個評估模塊,該模塊利用 GPT-4自動生成帶有答案的單項選擇題。評估模塊共包含3步:ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          1. 自動出題:收集人出的單項選擇題并從中隨機抽取一道題作為 seed quesiton,同時從收集的準則庫里隨機選擇準則,要求 GPT-4參考 seed quesiton 并依據(jù)準則和出題要求生成一道合理的包含題目、備選項、選項分析和答案的單項選擇題;ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          2. 自動檢測題目質(zhì)量:將第一步的準則和生成的題目輸入到 GPT-4,對單項選擇題的4個部分(題目、備選項、選項分析和答案)依次核驗,篩掉任意一部分不符合要求的題目;ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          3. 人工檢測題目質(zhì)量:研究者發(fā)現(xiàn)利用 GPT-4并不能去掉所有質(zhì)量差的自動生成的題目。為了確保評估的可靠性,研究者邀請了3個人類標注者,對第二步保留的題目作進一步的篩選。如果2個及以上的標注者都認為某道題不合理,則去掉這道題。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          實驗和結果ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          為了驗證 OPO 的有效性,研究者構建了三個由人類標注的測試基準,以及兩個由模型自動生成的測試基準。這些基準涵蓋了法律和道德兩大類別,包括中文和英文基準。測試基準中的每一條數(shù)據(jù)均為單項選擇題。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          表4:測試基準的分析。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在 H-Law 和 A-Law 測試基準上,OPO 能顯著提高大多數(shù)模型的準確率。尤其值得一提的是,OPO 能在 A-Law 測試基準上為許多大型模型帶來10個百分點的準確率提升。例如,經(jīng)過 OPO 優(yōu)化后,GPT-4的準確度從84.83% 提升至94.65%。此外,國產(chǎn)大模型 Qwen-Chat-14B 和 XuanYuan-70B 在應用 OPO 后的表現(xiàn)不僅與 GPT-4不相上下,而且略微優(yōu)勝。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          表5:各個大模型在 H-Law 與 A-Law 上的原始準確率(Base)、應用 OPO 后的準確率(OPO)、將生成題目用到的準則替換 OPO 中檢索得到的準則后的準確率(Oracle)。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          表示 OPO 相比 Base 的絕對提升,而ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          表示 Oracle 相比 Base 的絕對提升。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在 H-Basic-Morality、H-Social-Morality 和 A-Professional-Morality 等3個道德測試基準上,能觀察到類似的現(xiàn)象。OPO 能提升所有模型在 A-Professional-Morality 上的表現(xiàn),提升大部分模型在 H-Basic-Morality 和 H-Social-Morality 上的分數(shù)。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          表6:各個大模型在 H-Basic-Morality、H-Social-Morality 和 A-Professional-Morality 上的原始準確率(Base)、應用 OPO 后的準確率(OPO)、將生成選擇題用到的準則替換 OPO 中檢索得到的準則后的準確率(Oracle)。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          表示 OPO 相比 Base 的絕對提升,而ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          表示 Oracle 相比 Base 的絕對提升。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          同時,研究者還探索了不同檢索長度對 OPO 方法的影響。檢索回來的文本長度最大值分別設置成200、500、1000、1500、2000,發(fā)現(xiàn)大部分模型在不同的測試基準上均具有相似的趨勢:隨著檢索長度的增加,模型的性能先上升后下降。可能得原因是,較短的文本提供了有益信息,而更長的檢索內(nèi)容引入了噪聲。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          圖3:在 H-law 基準上,改變檢索長度對 OPO 效果的影響。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          圖4:在 A-law 基準上,改變檢索長度對 OPO 效果的影響。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          圖5:在 H-Basic-Morality 基準上,改變檢索長度對 OPO 效果的影響。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          圖6:在 H-Social-Morality 基準上,改變檢索長度對 OPO 效果的影響。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          圖7:在 A-Professional-morality 基準上,改變檢索長度對 OPO 效果的影響。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          總結ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          總結來說,GAIR 研究組提出了一個無需訓練實現(xiàn)價值觀實時動態(tài)對齊的方法 OPO,能夠作用于開源模型與閉源模型。同時,為了緩解測試數(shù)據(jù)泄露的問題并擴大測試數(shù)據(jù)的數(shù)量與覆蓋范圍,研究者介紹了一個可擴展的評估模塊用于根據(jù)準則自動生成測試問題。實驗證明 OPO 能夠顯著提升不同大模型在5個測試基準上的性能。此外,也公開了收集的所有法律準則與道德準則,以及5個測試基準中所使用的所有數(shù)據(jù)。ly1流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:無需訓練實現(xiàn)價值觀實時動態(tài)對齊:上交開源價值觀對齊方法OPO,閉源與開源大模型均適用http://www.lensthegame.com/show-3-7530-0.html

          聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。

          上一篇: Yann LeCun:生成模型不適合處理視頻,AI得在抽象空間中進行預測

          下一篇: 蘋果或需支付50億英鎊賠償金「蘋果已付清12億盧布反壟斷罰款 因強制使用蘋果支付系統(tǒng)」

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 国产AV一区二区精品凹凸| 亚洲一区精品中文字幕| 中文字幕无线码一区2020青青| 日韩精品成人一区二区三区| 日本精品夜色视频一区二区| 国产精品一区二区久久乐下载| 精品一区高潮喷吹在线播放| 人妻少妇精品视频一区二区三区 | 国产一区二区中文字幕| 在线精品国产一区二区三区| 中文字幕一区二区三区在线不卡 | 精品欧洲av无码一区二区 | 日韩一区二区三区在线观看| 波多野结衣电影区一区二区三区| 精品一区二区三区影院在线午夜| 视频一区精品自拍| 亚洲制服丝袜一区二区三区| 欧美亚洲精品一区二区| 精品福利一区二区三区精品国产第一国产综合精品 | 在线观看精品一区| 久久一区二区免费播放| 韩国福利一区二区美女视频| 成人在线视频一区| 国产精品分类视频分类一区| 日本韩国黄色一区二区三区| 香蕉久久一区二区不卡无毒影院 | 免费无码AV一区二区| 久久久国产精品亚洲一区| 国产一区二区三区不卡在线看| 亚洲线精品一区二区三区| 高清一区二区三区视频| 国产福利一区二区三区在线视频 | 国产在线视频一区二区三区| 久久国产免费一区二区三区| 狠狠做深爱婷婷综合一区| 国产凸凹视频一区二区| 春暖花开亚洲性无区一区二区| 日产亚洲一区二区三区| 国产一区二区三区91| 久久精品一区二区国产| 波多野结衣的AV一区二区三区 |