當地時間1月23日一場在線直播中,OpenAI團隊揭開了首個AI智能體Operator的神秘面紗。這一創新成果打破了傳統應用程序編程接口的限制,賦予了AI直接與圖形用戶界面交互的能力,就仿佛能像人類那樣使用電腦,從而向實現通用人工智能邁進了一步。
演示中,Operator展現了其強大的能力。它不僅能夠精確理解指令,還能自主完成復雜任務,如自動填寫在線表單、進行網購、創建表情包以及處理重復性瀏覽器任務等。這一切都是通過一個被稱為CUA的新模型實現的。該模型結合了GPT-4o的視覺功能和高級推理技術,并通過強化學習不斷優化自己的性能。
值得注意的是,在多個測試環境中,CUA模型的表現令人印象深刻。例如,在OSWORLD上執行計算機使用任務的成功率達到了38.1%,比之前最佳結果提高了近16%;而在WebArena上的成功率更是高達58.1%,提升了22%。盡管這些成績與人類相比還有一定差距(人類分別為72.4%和78.2%),但CUA在某些特定場景下展示了驚人的效率,比如在網頁代理WebVoyager平臺上,達到了87%的成功率。
為確保安全性和用戶體驗,當Operator執行任務時,會采取行動、抓取屏幕截圖并創建子計劃,形成一個“觀察—計劃—執行”的閉環。此外,用戶可以隨時接管控制權,并且在接管期間的所有操作都不會被記錄下來,以此保護隱私。即使遇到買錯東西或訂錯酒店的情況,Operator也會在繼續行動之前請求人類確認。
面對可能存在的風險,如詐騙網站,OpenAI引入了一個提示注入監視器,類似于防病毒軟件的功能,可以在發現可疑行為時立即停止操作。這標志著L3級別的智能體時代正式到來,而OpenAI也重申了其對2025年的展望——這一年將是智能體之年。
隨著Operator的發布,未來幾個月內,人們或有望見證更多智能體的出現。它們將進一步擴展動作空間,適應更加廣泛的應用場景,開啟下一輪人機交互革命。目前,Operator僅限于美國的ChatGPT Pro(付費服務)用戶試用,不過未來很快會向更多用戶提供服務。
當地時間1月23日一場在線直播中,OpenAI團隊揭開了首個AI智能體Operator的神秘面紗。這一創新成果打破了傳統應用程序編程接口的限制,賦予了AI直接與圖形用戶界面交互的能力,就仿佛能像人類那樣使用電腦,從而向實現通用人工智能邁進了一步。
演示中,Operator展現了其強大的能力。它不僅能夠精確理解指令,還能自主完成復雜任務,如自動填寫在線表單、進行網購、創建表情包以及處理重復性瀏覽器任務等。這一切都是通過一個被稱為CUA的新模型實現的。該模型結合了GPT-4o的視覺功能和高級推理技術,并通過強化學習不斷優化自己的性能。
值得注意的是,在多個測試環境中,CUA模型的表現令人印象深刻。例如,在OSWORLD上執行計算機使用任務的成功率達到了38.1%,比之前最佳結果提高了近16%;而在WebArena上的成功率更是高達58.1%,提升了22%。盡管這些成績與人類相比還有一定差距(人類分別為72.4%和78.2%),但CUA在某些特定場景下展示了驚人的效率,比如在網頁代理WebVoyager平臺上,達到了87%的成功率。
為確保安全性和用戶體驗,當Operator執行任務時,會采取行動、抓取屏幕截圖并創建子計劃,形成一個“觀察—計劃—執行”的閉環。此外,用戶可以隨時接管控制權,并且在接管期間的所有操作都不會被記錄下來,以此保護隱私。即使遇到買錯東西或訂錯酒店的情況,Operator也會在繼續行動之前請求人類確認。
面對可能存在的風險,如詐騙網站,OpenAI引入了一個提示注入監視器,類似于防病毒軟件的功能,可以在發現可疑行為時立即停止操作。這標志著L3級別的智能體時代正式到來,而OpenAI也重申了其對2025年的展望——這一年將是智能體之年。
隨著Operator的發布,未來幾個月內,人們或有望見證更多智能體的出現。它們將進一步擴展動作空間,適應更加廣泛的應用場景,開啟下一輪人機交互革命。目前,Operator僅限于美國的ChatGPT Pro(付費服務)用戶試用,不過未來很快會向更多用戶提供服務。
本文鏈接:OpenAI智能體能像人那樣使用電腦,向實現通用人工智能邁進一步http://www.lensthegame.com/show-2-10363-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。