設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          GPT-4絕對性能暴漲74.4%!UIUC蘋果華人團隊提出CodeAct,用Python代碼統一LLM智能體行動

          2024-02-13 12:03:27 來源:

          聲明:本文來自于微信公眾號 新智元(ID:AI_era),作者:新智元,授權轉載發布。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          【新智元導讀】最近,UIUC蘋果華人提出了一個通用智能體框架CodeAct,通過Python代碼統一LLM智能體的行動。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          一直以來,LLM智能體被眾多業界AI大佬看好,甚至有望成為將人類從瑣碎工作中解放出來的利器。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          但是,它們該如何與世界進行最佳互動?qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          最近,來自UIUC和蘋果的華人研究員,提出了一種全新的智能體框架——CodeAct。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          它通過采用可執行的Python代碼,來統一LLM智能體的行動。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          論文地址:https://arxiv.org/pdf/2402.01030.pdfqzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          與多數現有的LLM智能體不同的是,CodeAct的突出之處在于:能夠充分利用現有LLM對代碼數據的預訓練,以實現低成本高效的采用。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          而且本質上可以通過控制和數據流支持復雜的操作,還可以使用廣泛的軟件包來擴展行動空間和自動反饋。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對此,作者還構建了一個CodeActAgent工具,在Mistral7B模型之上搭建,能夠通過對話完成代碼任務。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          比如,你能創建100個隨機數據點(每個數據點的維度為2)并創建散點圖嗎?運行 k-means 對它們進行聚類并可視化。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          讓LLM成為最優智能體

          當允許訪問API的行動模塊進行增強時,LLM的行動空間可以擴展到傳統的文本處理之外。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          從而讓LLM獲得工具調用和內存管理等功能,并冒險進入現實世界的任務,例如控制機器人并進行科學實驗 。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          那么,如何有效拓展LLM智能體解決復雜現實問題的行動空間?qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          如下圖1左上,許多現有研究已經檢驗了使用文本,或JSON來生成行動。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          然而,這兩種方法通常都受到行動空間范圍的限制(行動通常是針對特定任務定制的)和靈活性有限(例如無法在單個行動中組合多個工具)。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          另外一些研究展示了,使用LLM生成代碼來控制機器人或游戲角色的潛力。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          然而,它們通常依賴于預先指定的控制原語和手工設計的提示,更重要的是,它們很難根據新的環境觀察和反饋動態調整或發出行動。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對此,這項研究提出了一個通用框架CodeAct,允許LLM生成可執行的Python代碼作為行動(圖1右上)。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          CodeAct旨在處理各種應用程序,并具有獨特的優勢:qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          (1) CodeAct與Python解釋器集成,可以執行代碼行動,并動態調整先前的行動,或根據通過多輪交互(代碼執行)收到的觀察結果發出新行動。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          (二) 代碼行動允許LLM利用現有軟件包。CodeAct可以使用現成的Python包來擴展行動空間,而不是手工制作的特定于任務的工具。它還允許大模型使用大多數軟件中實現的自動反饋(例如錯誤消息),通過自我調試其生成的代碼來改進任務解決。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          (三) 代碼數據廣泛應用于當今大模型的預訓練中。這些模型已經熟悉結構化編程語言,因此可以經濟高效地采用 CodeAct。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          (四) 與JSON和預定義格式的文本相比,代碼本質上支持控制和數據流,允許將中間結果存儲為變量以供重用,并用一段代碼允許組合多個工具來執行復雜的邏輯操作(例如,if-語句、for循環),從而釋放大模型預訓練的編程知識來處理復雜任務的潛力。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在圖1中,使用CodeAct(右上角)的法學碩士可以通過for循環將相同的工具序列應用到所有輸入,只需一個行動。而文本或JSON必須對每個輸入采取行動。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          CodeAct框架

          在圖2中,首先介紹了LLM智能體在現實世界中使用的一般多輪交互框架,該框架考慮了三個角色:qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          智能體、用戶、環境。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          研究人員將交互定義為智能體與外部實體(用戶或環境)之間的信息交換。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在每一輪交互中,智能體從用戶(如自然語言指令)或環境(如代碼執行結果)接收觀察結果(輸入),通過思維鏈(CoT)選擇性地規劃其行動,并以自然語言或環境向用戶發出行動(輸出)。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          CodeAct采用Python代碼來整合智能體與環境交互的所有操作。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在CodeAct中,向環境發出的每個動作都是一段Python代碼,而智能體將收到代碼執行的輸出(如結果、錯誤)作為觀察結果。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          CodeAct作為強大工具使用框架的前景qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          研究中,作者進行了一項對照實驗,以了解哪種格式(文本、JSON、CodeAct)更有可能引導LLM生成正確的原子工具調用。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本實驗的表現,反映了LLM對相應格式的熟悉程度。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          研究人員假設使用CodeAct調用工具是為模型使用工具的更自然的方式,模型通常在訓練期間廣泛接觸代碼數據。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對于大多數LLM,即使在其控制和數據流強度被削弱的原子操作(簡單化的工具使用場景)中,CodeAc也能實現相當或更好的性能。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          與閉源LLM相比,CodeAct的改進在開源模型中更為突出。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此外,對于微調開源LLM來說,代碼數據通常比專門JSON或文本工具調用格式更容易訪問。盡管JSON始終弱于其他開源模型方法,但它在閉源LLM中實現了不錯的性能,這表明這些閉源模型可能已經針對其JSON功能進行了有針對性的微調。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          這些結果表明,對于開源大模型來說,針對CodeAct進行優化是比其他方法更好的途徑來提高其工具使用能力,因為由于在預訓練期間廣泛接觸代碼數據,它們已經表現出了良好的初始CodeAct能力。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          CodeAct以更少的交互完成更多工作qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          除此之外,作者研究了LLM智能體是否可以,從需要復雜工具使用模式的問題上的代碼控制和數據流中受益。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          這里,研究人員策劃了一個基準qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          來評估LLM解決通常需要多次調用多個工具的復雜任務的能力。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          作者在表3中列出了全部結果,在圖1中列出了可視化結果子集。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          CodeAct通常具有更高的任務成功率(17個已評估LLM中有12個)。此外,使用CodeAct執行任務所需的平均交互輪數也較低。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          比如,與次佳操作格式(文本)相比,最佳模型gpt-4-1106-preview實現了20.7%的絕對改進,同時平均減少了2.1個交互回合。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          然而,就CodeAct的絕對性能而言,開源和閉源LLM之間仍存在顯著差距,最佳開源模型的絕對性能提高了13.4%,而最佳閉源模型gpt-4-1106-preview的絕對性能提高了74.4%。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          這可能是由于開源模型的任務解決能力較弱,無法在沒有演示的情況下遵循復雜指令,這表明迫切需要改進開源 LLM,以在零樣本設置下完成實際任務。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          CodeAct受益于多輪交互和現有軟件包qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          研究人員還展示了LLM智能體如何與Python集成,并使用現有軟件在多輪交互中執行復雜的任務。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          得益于在預訓練期間學到的豐富的Python知識,LLM智能體可以自動導入正確的Python庫來解決任務,而不需要用戶提供的工具或演示。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          如圖3所示,CodeActAgent可以使用Pandas下載和處理表格數據,使用Scikit-Learn進行機器學習訓練-測試數據分割和回歸模型訓練,并使用Matplotlib用于數據可視化。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此外,使用交互式Python解釋器執行代碼可以自動顯示錯誤消息,幫助LLM智能體在多輪交互中自我調試其操作,并最終正確完成人類用戶的請求。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          構建開源LLM智能體

          CodeAct所展示潛力的結果,激勵研究人員構建一個開源的LLM智能體,可以通過CodeAct與環境交互,又可以使用語言與人類進行交流。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          為了提高開源LLM的CodeAct能力,作者介紹了CodeActInstruct,這是一個包含智能體與環境交互軌跡的指令微調數據集。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          如表4,是CodeActInstruct的數據組成,以及與先前工作的對比。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          接下來,研究人員對Llama-27B和Mistral7B的CodeActInstruct和一般對話進行了微調,進而獲得CodeActAgentqzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          CodeActAgent在CodeAct任務中表現出色。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          如表5所示,CodeActAgent(兩種變體)在MINT的域內和域外子集上都比所有評估的開源LLM表現更好。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          上,作者發現CodeActAgent(Mistral)的性能優于類似規模(7B和13B)的開源LLM,甚至達到了與70B模型相似的性能。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          令人驚訝的是,Llama-2變體沒有觀察到任何改進。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          CodeActAgent概括為文本操作。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          當對域外文本操作進行評估時,從未針對文本操作進行過優化的CodeActAgent (LLaMA2,7B) 實現了與對文本操作進行顯式調整的AgentLM-7B相當的性能。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在表5中,還發現CodeActAgent保持或提高了一般LLM任務的性能。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在表5中,研究人員還發現CodeActAgent(兩個變體)在測試的一般LLM任務中表現更好,除了CodeActAgent(Mistral-7B)在MMLU上略有下降。qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          參考資料:qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          https://twitter.com/xingyaow_/status/1754556835703751087qzr流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:GPT-4絕對性能暴漲74.4%!UIUC蘋果華人團隊提出CodeAct,用Python代碼統一LLM智能體行動http://www.lensthegame.com/show-3-9810-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 谷歌搜索引擎下載「谷歌搜索下線快照,互聯網似乎真的要沒有記憶了」

          下一篇: 開源AGI智能體人人可養成:AGI對齊新思路,讓智能體在人類世界中接受訓練

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 日本一区二区在线| 伊人色综合一区二区三区 | 人妻无码一区二区视频| 一区二区三区免费看| 国产精品夜色一区二区三区 | 国模私拍福利一区二区| 国产精品亚洲产品一区二区三区 | 国产亚洲一区二区三区在线观看 | 亚洲一区二区在线视频| 一区二区三区影院| 日本一区二区三区在线视频观看免费| 国产一区二区三区影院| 3d动漫精品啪啪一区二区中文 | 午夜福利一区二区三区在线观看 | 中文字幕一区二区三区乱码| 国产一区二区三区不卡在线看| 中文字幕一区日韩精品| 日韩一区精品视频一区二区| 国产一区二区免费| 久久一区二区精品综合| 福利一区二区三区视频在线观看| 奇米精品一区二区三区在| 精品国产一区二区三区2021| 亚洲av成人一区二区三区在线观看| 四虎精品亚洲一区二区三区| 一区二区三区午夜| 国产精华液一区二区区别大吗| 中文字幕一区二区三区精华液| 上原亚衣一区二区在线观看| 国99精品无码一区二区三区| 99精品国产一区二区三区2021 | 国产一区二区三区在线免费观看 | 亚洲成AV人片一区二区| 少妇无码一区二区三区免费| 国产日本一区二区三区| 国产精品一区二区久久沈樵| 国产AV国片精品一区二区| 久久国产午夜一区二区福利| 国产精品视频一区二区三区经| 国产在线观看91精品一区| 国产精品 视频一区 二区三区|