近日,靈初智能發布首個基于強化學習(RL)的端到端具身模型Psi R0。該模型支持雙靈巧手協同進行復雜操作,將多個技能串聯混訓,生成具有推理能力的智能體,從而完成并閉環長程靈巧操作任務。并且,Psi R0還可以實現跨物品、跨場景級別的泛化。
真實世界中,人類生活近乎100%的場景涉及抓握、轉動、捏取、觸摸等操作,而其中超過 90% 的操作屬于多技能融合的長程任務。然而在當下具身業界,多局限于Pick and Place操作的泛化,一旦任務復雜化、長程化,泛化性和成功率則大大降低,無法兼顧——這也是具身智能只能存在于demo,遲遲無法在真實場景中落地的核心原因!機器人如何突破Pick and Place、脫離遙操作,擁有自主完成長程靈巧操作的能力,實現真正類人的場景級任務閉環,仍是具身智能亟待攻克的難題。
RL是長程靈巧操作實現任務閉環的唯一解
在真實世界中,機器人解決長程任務必須通過Learning-based模式,目前主流技術路徑有兩種:模仿學習(IL)和強化學習(RL)。
純模仿學習的泛化能力受限于示范行為的多樣性和質量。加之長程任務步驟較多,更容易出現分布漂移問題,使得 IL實現長程任務的泛化性能較差,魯棒性也較弱。
基于RL的Psi R0 模型,使用海量仿真數據高效訓練出雙手操作的智能體,并通過雙向訓練框架串聯多技能,在業界率先完成開放環境中的長程任務,具備較強的泛化能力與較高的魯棒性。這一技能訓練框架從物體時空軌跡抽象出關鍵信息以構建通用目標函數,從而解決獎勵函數難設計的問題。在后訓練階段,通過少量高質量真機數據對齊,進一步提升長程任務的成功率。除此之外,雙向訓練框架中的轉移可行性函數發揮著重要作用,它能夠微調技能以提高串聯的成功率與泛化性,同時賦予模型自主切換技能的能力,使其在遭遇操作失敗時能夠迅速調整策略,確保高成功率。
Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation
Yuanpei Chen, Chen Wang*, Li Fei-Fei, C. Karen Liu
Psi R0 模型表現出的靈巧性、高成功率以及泛化性,充分展示了其大腦的任務拆解與規劃能力,以及小腦的靈巧操作、泛化和魯棒能力。這一模型的誕生,突破了當前具身機器人在商業化應用進程中所面臨的核心技術瓶頸,為整個行業的未來發展開拓出一片全新且廣闊的天地,有望引領具身機器人邁向全新的發展階段。
從理論概念到有效落地,Psi R0解答了具身智能商業化的終極命題
長程任務靈巧操作場景無處不在,從工廠產線組裝,到服務業的揀貨打包,到家居環境的清潔整理。
Psi R0模型的智能體展示了其強大的場景落地能力。以電商場景為例,商品打包是典型的長程任務作業,需對上萬件商品進行抓取,掃碼,放置,塑料袋打結等多個操作。Psi R0能夠使用雙靈巧手流暢地完成這一系列動作(此系列動作在客戶現場可以取代一個完整工位),成為首個基于強化學習訓練完成長程靈巧操作任務的具身機器人。
視頻中,機器人系統接收到的指令僅僅是“將桌面的物體打包”,而這一看似簡單的任務背后,是靈初智能極具創新性的端到端技術架構在發揮作用。當指令下達后,上層視覺語言模型(VLM)對桌上混亂擺放的商品進行分析,編排出商品的操作順序,下層操作模型拆解出單個商品的子任務,如抓取、放置、掃碼、打包等,智能體依次執行。
抓取環節,面對隨意擺放、形狀各異的商品,模型必須具備高度的泛化能力,才能成功完成商品的逐個抓取。視頻中展示的品客薯片,Psi R0 僅僅依靠 20 條真機數據,模型就成功實現了99%+的成功抓取率。
掃碼環節更是考驗機器人的靈巧操作水平,需要雙手高度精細地協調彼此相對位置,以確保掃碼槍與商品條碼能夠精準對齊,任何細微偏差都可能導致掃碼失敗。此時,RL訓練策略為雙手雙臂構成的高自由度復雜系統提供了可靠的實時閉環控制,保障掃碼動作精準流暢地完成。
打包環節,需要雙手協調完成對塑料袋的靈巧操作。在動態打包的過程中,塑料袋的形狀會隨動作變化,需要實時調整操作。為了提升機器人對柔性物體的操作適應能力,Psi R0在仿真環境中模擬多種柔性物體的操作場景,同時結合真機數據進行微調優化。甚至在被打斷、干擾的情況下,也能自適應調整策略,重新進行打包動作。
靈初智能Psi R0模型是具身智能遞歸性成長的第一步。具身智能將遵從從簡單到復雜、從保護到協同的漸進式演進。在早期,小腦是與真實世界交互的物理基礎,其設計需結合領域知識,滿足環境中的約束條件,同時具備容錯性,支持大腦學習與優化。Psi R0模型發揮RL算法探索的優勢,支持小腦的快速迭代,生成支持長程靈巧操作的智能體。通過靈巧操作轉動數據飛輪,實現從小腦Action到大腦Cognition的閉環回饋,驅動大腦認知能力優化,模型持續迭代,形成小腦協同+大腦優化的具身智能“神經回路”,使端到端模型完成從簡單到復雜、從保護到協同的漸進式演進。
本文鏈接:首個端到端強化學習具身模型PsiR0,橫空出世!http://www.lensthegame.com/show-3-56738-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。