根據圖片識人、識物，釘釘AI升級多模態能力

2024-04-01 14:23:51 來源：觀察者網

觀看：185

多模態、長文本與RPA（機器人流程自動化）技術，在AI應用的落地上又有新進展。

3月28日，釘釘AI助理迎來重要升級，正式上線圖片理解、文檔速讀和工作流等產品能力。此次升級后，釘釘AI助理將擁有更強的視覺推理能力和長文本速讀能力。在AI助理對話框，用戶發送長文件、在線文檔、網頁鏈接、視頻內容，即可進行多輪交互和智能問答。

資料顯示，基于通義千問Qwen-VL-Max視覺理解模型，釘釘AI助理能夠準確描述和識別圖片信息，并進行信息推理、擴展創作、文字提取和翻譯等；在收到用戶發來的視頻后，AI助理會根據視頻內容生成字幕，提取關鍵詞，并生成一份智能摘要，對于最高2GB的視頻內容，僅需3分鐘即可完成智能解讀。

喚醒這些功能也并不復雜：用戶在釘釘IM消息框或點擊魔法棒按鈕即可進入AI助理對話框。

從初步測試來看，釘釘新版AI助理，已經具備較為成熟的圖片識別和智能對話能力。

如下圖（左）所示，根據我們提供的照片，釘釘AI助理幾乎瞬間認出了小貓的品種，并對該品種貓咪的特征和照片背景進行了簡單描述；在沒有任何文字提醒，以及照片內沒有文字提示的情況下，釘釘AI助理準確識別了拍攝于上海迪士尼的城堡照片（如下圖右）。

釘釘實測圖片（下同）

多模態能力的加入，讓AI助理更具實用性，例如翻譯信息、提取文字等。

我們隨手拍攝并上傳了一張耳塞外包裝（純英文說明）圖片。在識別產品品牌、功能等常規信息之外，釘釘AI助理在外包裝明顯破損的情況下，對英文說明進行了簡單分析和翻譯，并提取了關鍵詞。令人感到意外的是，在密集的英文印刷中，AI識別出了模糊的NRR信息（降噪等級），并提示用戶對此進行關注。

對于表情包和網絡梗圖，釘釘AI助理也展示出一定的識別和推理能力。

綜合來看，基于通義千問Qwen-VL-Max視覺理解模型，釘釘AI助理能做的事情明顯變多了。

公開資料顯示，Qwen-VL-Max整體性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等測評中超過業界所有開源模型，在文檔分析（DocVQA）、中文圖像相關（MM-Bench-CN）等任務上超越GPT-4V，位于世界第一梯隊水平。

不過，AI助理也不是全能的。從實測來看，未來它仍有大量提升空間。例如對影視劇中穿戴墨鏡的人物，以及身著古裝服飾的人物，釘釘AI有時無法精準識別。此外，對于“一個月才幾百塊，你玩什么命啊”這樣較為晦澀的網梗，AI的理解能力也有待繼續完善。

更新后，AI助理強化了文檔速讀和視頻速讀能力：用戶上傳相關的文件和視頻，即可得到一份內容總結。

值得一提的是，根據不同需要，AI助理能生成各細分領域的助手，用戶還能通過鏈接等形式和他人分享。例如“我的歌曲助手”：用戶只需輸入音樂和唱法風格等“訴求”，在約5分鐘左右的時間里，AI就會自動生成歌曲，并發送至指定郵箱——初步來看，這些歌曲和音樂其實都有不錯的完成度。

據公開資料，此次更新后，釘釘對“工作流”玩法也進行了升級。用戶可以通過工作流，對AI執行任務的流程進行拆解和編排，主動接管完成相應操作，并打通外部系統數據和API能力，例如搭建能自動寫腳本并生成視頻的創作AI助理等。為降低用戶的使用門檻，釘釘官方還將提供多種工作流模板。

本文系觀察者網獨家稿件，未經授權，不得轉載。

本文鏈接：根據圖片識人、識物，釘釘AI升級多模態能力http://www.lensthegame.com/show-3-14796-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

熱門資訊