設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

          2024-02-12 22:20:18 來源:

          聲明:本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心,授權轉載發布。gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          效果更穩定,實現更簡單。gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          大型語言模型(LLM)的成功離不開基于人類反饋的強化學習(RLHF)。RLHF 可以大致可以分為兩個階段,首先,給定一對偏好和不偏好的行為,訓練一個獎勵模型,通過分類目標為前者分配更高的分數。然后通過某種強化學習算法優化這個獎勵函數。然而,獎勵模型的關鍵要素可能會產生一些不良影響。gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          來自卡內基梅隆大學(CMU)和 Google Research 的研究者聯合提出了一種簡單的、理論上嚴格的、實驗上有效的 RLHF 新方法 —— 自我博弈偏好優化(Self-Play Preference Optimization,SPO)。該方法消除了獎勵模型,并且不需要對抗性訓練。gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          論文:A Minimaximalist Approach to Reinforcement Learning from Human FeedbackgVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          論文地址:https://arxiv.org/abs/2401.04056gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          方法簡介gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          SPO 方法主要包括兩個方面。首先,該研究通過將 RLHF 構建為兩者零和博弈(zero-sum game),真正消除了獎勵模型,從而更有能力處理實踐中經常出現的噪聲、非馬爾可夫偏好。其次,通過利用博弈的對稱性,該研究證明可以簡單地以自我博弈的方式訓練單個智能體,從而消除了不穩定對抗訓練的需要。gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          實際上,這相當于從智能體中采樣多個軌跡,要求評估者或偏好模型比較每對軌跡,并將獎勵設置為軌跡的獲勝率。gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          SPO 避免了獎勵建模、復合 error 和對抗性訓練。通過從社會選擇理論(social choice theory)中建立最小最大獲勝者的概念,該研究將 RLHF 構建為兩者零和博弈,并利用該博弈支付矩陣的對稱性來證明可以簡單地訓練單個智能體來對抗其自身。gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究還分析了 SPO 的收斂特性,并證明在潛在獎勵函數確實存在的情況下,SPO 能以與標準方法相媲美的快速速度收斂到最優策略。gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          實驗gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究在一系列具有現實偏好函數的連續控制任務上,證明了 SPO 比基于獎勵模型的方法性能更好。SPO 在各種偏好設置中能夠比基于獎勵模型的方法更有效地學習樣本,如下圖2所示。gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究從多個維度將 SPO 與迭代獎勵建模 (RM) 方法進行比較,旨在回答4個問題:gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        1. 當面 intransitive 偏好時,SPO 能否計算 MW?gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        2. 在具有獨特 Copeland Winners / 最優策略的問題上,SPO 能否匹配或超過 RM 樣本效率?gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        3. gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        4. SPO 對隨機偏好的穩健性如何?gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        5. SPO 可以處理非馬爾可夫偏好嗎?gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        6. gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在最大獎勵偏好、噪聲偏好、非馬爾可夫偏好方面,該研究的實驗結果分別如下圖6、7、8所示:gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          感興趣的讀者可以閱讀論文原文,了解更多研究內容。gVt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練http://www.lensthegame.com/show-3-9779-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 蘋果首款空間計算設備 Vision Pro 可能要經歷四代迭代才能達到理想狀態

          下一篇: Windows 11要內置DLSS了!GPU要求不低 需內置NPU_win11內置xgp

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 亚洲AV成人精品日韩一区18p| 日韩亚洲一区二区三区| 亚洲综合一区二区精品导航 | 久久久国产精品一区二区18禁| 亚洲av区一区二区三| 久久精品无码一区二区三区日韩| 久久AAAA片一区二区| 亚洲欧洲一区二区| 无码中文字幕一区二区三区| 麻豆国产在线不卡一区二区| 亚洲一区二区三区在线播放 | 无码人妻精品一区二区三区99性 | 日韩精品无码久久一区二区三| 一区二区三区免费看| 狠狠做深爱婷婷综合一区| 秋霞无码一区二区| 国产高清视频一区二区| 精品福利一区二区三| 交换国产精品视频一区| 午夜无码视频一区二区三区| 国产午夜精品一区二区三区漫画| 亚洲国产日韩在线一区| 毛片一区二区三区无码| 亚洲一区二区三区在线视频| 精品无码一区二区三区在线 | 日韩制服国产精品一区| 无码福利一区二区三区| 精品视频一区二区三区四区五区| 日韩爆乳一区二区无码| 婷婷国产成人精品一区二| 国产精品丝袜一区二区三区| 日本国产一区二区三区在线观看| 中文字幕一区视频一线| 久久久无码精品人妻一区| 三上悠亚亚洲一区高清| 日本高清天码一区在线播放| 少妇激情一区二区三区视频| 免费一区二区视频| 学生妹亚洲一区二区| 人妻免费一区二区三区最新| 日韩一区二区三区不卡视频 |