日前,谷歌DeepMind已將其最先進的大型語言模型(LLM)Gemini應用于機器人。該公司表示,借助該模型,機器人無需觀察其他機器人的演示動作也可以完成某些任務,例如將迷你籃球“扣”入桌面籃筐。
DeepMind是多家嘗試利用聊天機器人技術開發通用機器人的企業之一。然而,此類模型容易生成錯誤和有害內容,因此該技術路徑也伴隨著安全隱患。
研究團隊希望開發出能夠直觀操作、無需人類監督或預設程序即可完成多種物理任務的機器。谷歌DeepMind機器人團隊負責人Carolina Parada指出,通過連接Gemini模型,開發人員可以提升機器人的能力,使其“理解自然語言,并以前所未有的精細程度認知物理世界”。
這款名為Gemini Robotics的模型于3月12日發布。專注于構建人工智能(AI)機器人開發數據集的美國AI公司CollectedAI聯合創始人、AI研究員Alexander Khazatsky評價稱,這是實現通用機器人目標“雖小但切實的一步”。
谷歌DeepMind團隊以其最先進的視覺與語言模型Gemini 2.0為基礎展開研究。該模型通過分析海量數據中的模式進行訓練。
團隊開發了Gemini的專用版本,專注于提升涉及三維物理和空間推理的任務能力,例如預測物體運動軌跡,或識別不同角度拍攝圖像中物體的同一部位。
此外,他們利用數千小時真人遠程操作機器人演示的數據對模型進行強化訓練。這使得機器人“大腦”能夠執行實際動作,其原理類似于LLM通過已學關聯生成句子的下一詞語。
團隊在類人機器人和機械臂上對Gemini Robotics進行了測試,涵蓋訓練任務及未接觸過的新任務。據稱,無論面對細節調整的熟悉任務還是全新任務,搭載該模型的機器人表現均優于當前最先進的競爭對手。
在需要精細操作的任務中,如折紙或拉上背包拉鏈,機器人手部僅觀察不到100次演示后,成功率便超過70%。而使用其他對比模型的機器幾乎全部失敗。
Khazatsky認為,谷歌團隊在將常識性知識植入機器人“大腦”方面成果顯著,但他指出,真正的飛躍需通過從“混亂的真實世界”而非實驗室環境采集的機器人數據中學習。
應用此類模型時,安全性將成為重大挑戰。谷歌DeepMind紐約分部機器人及AI研究員Vikas Sindhwani表示:“初期,機器人將保持與人類的安全距離。未來我們將逐步實現更多互動和協作任務。”
本文鏈接:AI機器人會扣籃http://www.lensthegame.com/show-11-18685-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 荔枝果肉多糖乳酸菌發酵轉化規律研究獲進展