首頁 > 財經

GPT-4絕對性能暴漲74.4%！UIUC蘋果華人團隊提出CodeAct，用Python代碼統一LLM智能體行動

2024-02-13 12:03:27 來源：

觀看：212

聲明：本文來自于微信公眾號新智元（ID:AI_era），作者:新智元，授權轉載發布。

【新智元導讀】最近，UIUC蘋果華人提出了一個通用智能體框架CodeAct，通過Python代碼統一LLM智能體的行動。

一直以來，LLM智能體被眾多業界AI大佬看好，甚至有望成為將人類從瑣碎工作中解放出來的利器。

但是，它們該如何與世界進行最佳互動?

最近，來自UIUC和蘋果的華人研究員，提出了一種全新的智能體框架——CodeAct。

它通過采用可執行的Python代碼，來統一LLM智能體的行動。

論文地址:https://arxiv.org/pdf/2402.01030.pdf

與多數現有的LLM智能體不同的是，CodeAct的突出之處在于:能夠充分利用現有LLM對代碼數據的預訓練，以實現低成本高效的采用。

而且本質上可以通過控制和數據流支持復雜的操作，還可以使用廣泛的軟件包來擴展行動空間和自動反饋。

對此，作者還構建了一個CodeActAgent工具，在Mistral7B模型之上搭建，能夠通過對話完成代碼任務。

比如，你能創建100個隨機數據點（每個數據點的維度為2）并創建散點圖嗎?運行 k-means 對它們進行聚類并可視化。

讓LLM成為最優智能體

當允許訪問API的行動模塊進行增強時，LLM的行動空間可以擴展到傳統的文本處理之外。

從而讓LLM獲得工具調用和內存管理等功能，并冒險進入現實世界的任務，例如控制機器人并進行科學實驗。

那么，如何有效拓展LLM智能體解決復雜現實問題的行動空間?

如下圖1左上，許多現有研究已經檢驗了使用文本，或JSON來生成行動。

然而，這兩種方法通常都受到行動空間范圍的限制（行動通常是針對特定任務定制的）和靈活性有限(例如無法在單個行動中組合多個工具)。

另外一些研究展示了，使用LLM生成代碼來控制機器人或游戲角色的潛力。

然而，它們通常依賴于預先指定的控制原語和手工設計的提示，更重要的是，它們很難根據新的環境觀察和反饋動態調整或發出行動。

對此，這項研究提出了一個通用框架CodeAct，允許LLM生成可執行的Python代碼作為行動（圖1右上）。

CodeAct旨在處理各種應用程序，并具有獨特的優勢:

（1） CodeAct與Python解釋器集成，可以執行代碼行動，并動態調整先前的行動，或根據通過多輪交互(代碼執行)收到的觀察結果發出新行動。

(二) 代碼行動允許LLM利用現有軟件包。CodeAct可以使用現成的Python包來擴展行動空間，而不是手工制作的特定于任務的工具。它還允許大模型使用大多數軟件中實現的自動反饋(例如錯誤消息)，通過自我調試其生成的代碼來改進任務解決。

(三) 代碼數據廣泛應用于當今大模型的預訓練中。這些模型已經熟悉結構化編程語言，因此可以經濟高效地采用 CodeAct。

(四) 與JSON和預定義格式的文本相比，代碼本質上支持控制和數據流，允許將中間結果存儲為變量以供重用，并用一段代碼允許組合多個工具來執行復雜的邏輯操作(例如，if-語句、for循環)，從而釋放大模型預訓練的編程知識來處理復雜任務的潛力。

在圖1中，使用CodeAct（右上角）的法學碩士可以通過for循環將相同的工具序列應用到所有輸入，只需一個行動。而文本或JSON必須對每個輸入采取行動。

CodeAct框架

在圖2中，首先介紹了LLM智能體在現實世界中使用的一般多輪交互框架，該框架考慮了三個角色:

智能體、用戶、環境。

研究人員將交互定義為智能體與外部實體（用戶或環境）之間的信息交換。

在每一輪交互中，智能體從用戶（如自然語言指令）或環境(如代碼執行結果)接收觀察結果(輸入)，通過思維鏈(CoT)選擇性地規劃其行動，并以自然語言或環境向用戶發出行動(輸出)。

CodeAct采用Python代碼來整合智能體與環境交互的所有操作。

在CodeAct中，向環境發出的每個動作都是一段Python代碼，而智能體將收到代碼執行的輸出（如結果、錯誤）作為觀察結果。

CodeAct作為強大工具使用框架的前景

研究中，作者進行了一項對照實驗，以了解哪種格式（文本、JSON、CodeAct）更有可能引導LLM生成正確的原子工具調用。

本實驗的表現，反映了LLM對相應格式的熟悉程度。

研究人員假設使用CodeAct調用工具是為模型使用工具的更自然的方式，模型通常在訓練期間廣泛接觸代碼數據。

對于大多數LLM，即使在其控制和數據流強度被削弱的原子操作（簡單化的工具使用場景）中，CodeAc也能實現相當或更好的性能。

與閉源LLM相比，CodeAct的改進在開源模型中更為突出。

此外，對于微調開源LLM來說，代碼數據通常比專門JSON或文本工具調用格式更容易訪問。盡管JSON始終弱于其他開源模型方法，但它在閉源LLM中實現了不錯的性能，這表明這些閉源模型可能已經針對其JSON功能進行了有針對性的微調。

這些結果表明，對于開源大模型來說，針對CodeAct進行優化是比其他方法更好的途徑來提高其工具使用能力，因為由于在預訓練期間廣泛接觸代碼數據，它們已經表現出了良好的初始CodeAct能力。

CodeAct以更少的交互完成更多工作

除此之外，作者研究了LLM智能體是否可以，從需要復雜工具使用模式的問題上的代碼控制和數據流中受益。

這里，研究人員策劃了一個基準

來評估LLM解決通常需要多次調用多個工具的復雜任務的能力。

作者在表3中列出了全部結果，在圖1中列出了可視化結果子集。

CodeAct通常具有更高的任務成功率（17個已評估LLM中有12個）。此外，使用CodeAct執行任務所需的平均交互輪數也較低。

比如，與次佳操作格式（文本）相比，最佳模型gpt-4-1106-preview實現了20.7%的絕對改進，同時平均減少了2.1個交互回合。

然而，就CodeAct的絕對性能而言，開源和閉源LLM之間仍存在顯著差距，最佳開源模型的絕對性能提高了13.4%，而最佳閉源模型gpt-4-1106-preview的絕對性能提高了74.4%。

這可能是由于開源模型的任務解決能力較弱，無法在沒有演示的情況下遵循復雜指令，這表明迫切需要改進開源 LLM，以在零樣本設置下完成實際任務。

CodeAct受益于多輪交互和現有軟件包

研究人員還展示了LLM智能體如何與Python集成，并使用現有軟件在多輪交互中執行復雜的任務。

得益于在預訓練期間學到的豐富的Python知識，LLM智能體可以自動導入正確的Python庫來解決任務，而不需要用戶提供的工具或演示。

如圖3所示，CodeActAgent可以使用Pandas下載和處理表格數據，使用Scikit-Learn進行機器學習訓練-測試數據分割和回歸模型訓練，并使用Matplotlib用于數據可視化。

此外，使用交互式Python解釋器執行代碼可以自動顯示錯誤消息，幫助LLM智能體在多輪交互中自我調試其操作，并最終正確完成人類用戶的請求。

構建開源LLM智能體

CodeAct所展示潛力的結果，激勵研究人員構建一個開源的LLM智能體，可以通過CodeAct與環境交互，又可以使用語言與人類進行交流。

為了提高開源LLM的CodeAct能力，作者介紹了CodeActInstruct，這是一個包含智能體與環境交互軌跡的指令微調數據集。

如表4，是CodeActInstruct的數據組成，以及與先前工作的對比。

接下來，研究人員對Llama-27B和Mistral7B的CodeActInstruct和一般對話進行了微調，進而獲得CodeActAgent

CodeActAgent在CodeAct任務中表現出色。

如表5所示，CodeActAgent（兩種變體）在MINT的域內和域外子集上都比所有評估的開源LLM表現更好。

在

上，作者發現CodeActAgent（Mistral）的性能優于類似規模(7B和13B)的開源LLM，甚至達到了與70B模型相似的性能。

令人驚訝的是，Llama-2變體沒有觀察到任何改進。

CodeActAgent概括為文本操作。

當對域外文本操作進行評估時，從未針對文本操作進行過優化的CodeActAgent （LLaMA2，7B）實現了與對文本操作進行顯式調整的AgentLM-7B相當的性能。

在表5中，還發現CodeActAgent保持或提高了一般LLM任務的性能。

在表5中，研究人員還發現CodeActAgent（兩個變體）在測試的一般LLM任務中表現更好，除了CodeActAgent(Mistral-7B)在MMLU上略有下降。

參考資料:

https://twitter.com/xingyaow_/status/1754556835703751087

本文鏈接：GPT-4絕對性能暴漲74.4%！UIUC蘋果華人團隊提出CodeAct，用Python代碼統一LLM智能體行動http://www.lensthegame.com/show-3-9810-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：谷歌搜索引擎下載「谷歌搜索下線快照，互聯網似乎真的要沒有記憶了」

下一篇：開源AGI智能體人人可養成：AGI對齊新思路，讓智能體在人類世界中接受訓練

GPT-4絕對性能暴漲74.4%！UIUC蘋果華人團隊提出CodeAct，用Python代碼統一LLM智能體行動

讓LLM成為最優智能體

CodeAct框架

構建開源LLM智能體

熱門資訊

推薦資訊

財經最熱文章