多模態、長文本與RPA(機器人流程自動化)技術,在AI應用的落地上又有新進展。
3月28日,釘釘AI助理迎來重要升級,正式上線圖片理解、文檔速讀和工作流等產品能力。此次升級后,釘釘AI助理將擁有更強的視覺推理能力和長文本速讀能力。在AI助理對話框,用戶發送長文件、在線文檔、網頁鏈接、視頻內容,即可進行多輪交互和智能問答。
資料顯示,基于通義千問Qwen-VL-Max視覺理解模型,釘釘AI助理能夠準確描述和識別圖片信息,并進行信息推理、擴展創作、文字提取和翻譯等;在收到用戶發來的視頻后,AI助理會根據視頻內容生成字幕,提取關鍵詞,并生成一份智能摘要,對于最高2GB的視頻內容,僅需3分鐘即可完成智能解讀。
喚醒這些功能也并不復雜:用戶在釘釘IM消息框或點擊魔法棒按鈕即可進入AI助理對話框。
從初步測試來看,釘釘新版AI助理,已經具備較為成熟的圖片識別和智能對話能力。
如下圖(左)所示,根據我們提供的照片,釘釘AI助理幾乎瞬間認出了小貓的品種,并對該品種貓咪的特征和照片背景進行了簡單描述;在沒有任何文字提醒,以及照片內沒有文字提示的情況下,釘釘AI助理準確識別了拍攝于上海迪士尼的城堡照片(如下圖右)。
釘釘實測圖片(下同)
多模態能力的加入,讓AI助理更具實用性,例如翻譯信息、提取文字等。
我們隨手拍攝并上傳了一張耳塞外包裝(純英文說明)圖片。在識別產品品牌、功能等常規信息之外,釘釘AI助理在外包裝明顯破損的情況下,對英文說明進行了簡單分析和翻譯,并提取了關鍵詞。令人感到意外的是,在密集的英文印刷中,AI識別出了模糊的NRR信息(降噪等級),并提示用戶對此進行關注。
對于表情包和網絡梗圖,釘釘AI助理也展示出一定的識別和推理能力。
綜合來看,基于通義千問Qwen-VL-Max視覺理解模型,釘釘AI助理能做的事情明顯變多了。
公開資料顯示,Qwen-VL-Max整體性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等測評中超過業界所有開源模型,在文檔分析(DocVQA)、中文圖像相關(MM-Bench-CN)等任務上超越GPT-4V,位于世界第一梯隊水平。
不過,AI助理也不是全能的。從實測來看,未來它仍有大量提升空間。例如對影視劇中穿戴墨鏡的人物,以及身著古裝服飾的人物,釘釘AI有時無法精準識別。此外,對于“一個月才幾百塊,你玩什么命啊”這樣較為晦澀的網梗,AI的理解能力也有待繼續完善。
更新后,AI助理強化了文檔速讀和視頻速讀能力:用戶上傳相關的文件和視頻,即可得到一份內容總結。
值得一提的是,根據不同需要,AI助理能生成各細分領域的助手,用戶還能通過鏈接等形式和他人分享。例如“我的歌曲助手”:用戶只需輸入音樂和唱法風格等“訴求”,在約5分鐘左右的時間里,AI就會自動生成歌曲,并發送至指定郵箱——初步來看,這些歌曲和音樂其實都有不錯的完成度。
據公開資料,此次更新后,釘釘對“工作流”玩法也進行了升級。用戶可以通過工作流,對AI執行任務的流程進行拆解和編排,主動接管完成相應操作,并打通外部系統數據和API能力,例如搭建能自動寫腳本并生成視頻的創作AI助理等。為降低用戶的使用門檻,釘釘官方還將提供多種工作流模板。
本文系觀察者網獨家稿件,未經授權,不得轉載。
本文鏈接:根據圖片識人、識物,釘釘AI升級多模態能力http://www.lensthegame.com/show-3-14796-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。