聲明:本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心,授權轉載發布。
效果更穩定,實現更簡單。
大型語言模型(LLM)的成功離不開基于人類反饋的強化學習(RLHF)。RLHF 可以大致可以分為兩個階段,首先,給定一對偏好和不偏好的行為,訓練一個獎勵模型,通過分類目標為前者分配更高的分數。然后通過某種強化學習算法優化這個獎勵函數。然而,獎勵模型的關鍵要素可能會產生一些不良影響。
來自卡內基梅隆大學(CMU)和 Google Research 的研究者聯合提出了一種簡單的、理論上嚴格的、實驗上有效的 RLHF 新方法 —— 自我博弈偏好優化(Self-Play Preference Optimization,SPO)。該方法消除了獎勵模型,并且不需要對抗性訓練。
論文:A Minimaximalist Approach to Reinforcement Learning from Human Feedback
論文地址:https://arxiv.org/abs/2401.04056
方法簡介
SPO 方法主要包括兩個方面。首先,該研究通過將 RLHF 構建為兩者零和博弈(zero-sum game),真正消除了獎勵模型,從而更有能力處理實踐中經常出現的噪聲、非馬爾可夫偏好。其次,通過利用博弈的對稱性,該研究證明可以簡單地以自我博弈的方式訓練單個智能體,從而消除了不穩定對抗訓練的需要。
實際上,這相當于從智能體中采樣多個軌跡,要求評估者或偏好模型比較每對軌跡,并將獎勵設置為軌跡的獲勝率。
SPO 避免了獎勵建模、復合 error 和對抗性訓練。通過從社會選擇理論(social choice theory)中建立最小最大獲勝者的概念,該研究將 RLHF 構建為兩者零和博弈,并利用該博弈支付矩陣的對稱性來證明可以簡單地訓練單個智能體來對抗其自身。
該研究還分析了 SPO 的收斂特性,并證明在潛在獎勵函數確實存在的情況下,SPO 能以與標準方法相媲美的快速速度收斂到最優策略。
實驗
該研究在一系列具有現實偏好函數的連續控制任務上,證明了 SPO 比基于獎勵模型的方法性能更好。SPO 在各種偏好設置中能夠比基于獎勵模型的方法更有效地學習樣本,如下圖2所示。
該研究從多個維度將 SPO 與迭代獎勵建模 (RM) 方法進行比較,旨在回答4個問題:
當面 intransitive 偏好時,SPO 能否計算 MW?
在具有獨特 Copeland Winners / 最優策略的問題上,SPO 能否匹配或超過 RM 樣本效率?
SPO 對隨機偏好的穩健性如何?
SPO 可以處理非馬爾可夫偏好嗎?
在最大獎勵偏好、噪聲偏好、非馬爾可夫偏好方面,該研究的實驗結果分別如下圖6、7、8所示:
感興趣的讀者可以閱讀論文原文,了解更多研究內容。
本文鏈接:谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練http://www.lensthegame.com/show-3-9779-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。