谷歌大模型爆紅后被質疑造假!承認演示視頻剪輯過:為了簡潔縮短了
科技巨頭谷歌的新大模型Gemini一夜爆紅,受到市場看好,但有分析指出,谷歌在Gemini的宣傳資料中存在夸大宣傳的嫌疑。
當地時間12月6日,谷歌宣布推出“最大、最強、最通用”的新大型語言模型Gemini。Gemini將是首個直接在手機上運行的大模型,被應用于谷歌Pixel 8 Pro智能手機和聊天機器人Bard。Gemini被視為對于AI(人工智能)新銳巨頭OpenAI旗下最新大模型GPT-4的直接回應,也象征著一度因聊天機器人ChatGPT而處于被動狀態的谷歌終于正式沖回賽道。
據谷歌介紹,Gemini在MMLU(大規模多任務語言理解)的得分率達到90.0%,是第一個在MMLU測試中超過人類專家的模型。Gemini將包括一套三種不同規模的模型,其中,Gemini Ultra被定位為GPT-4的競爭對手,Gemini Pro的性能優于GPT-3.5,Gemini Nano則用于特定任務和移動設備。
憑借強大的性能,Gemini一夜爆紅,引來了華爾街的關注。12月7日,谷歌母公司Alphabet(Nasdaq:GOOG)的股價漲5.31%,收于136.93美元,迎來自今年8月29日以來表現最好的一天,總市值達到1.72萬億美元。
美國銀行的分析師在6日指出,由于人們對于谷歌的AI能力感到擔憂,Alphabet今年承受了一定的壓力,而一款“具有良好品牌形象的、競爭力較強的模型”可能會吸引更多消費者使用谷歌搜索,并對云服務的銷售產生積極影響:“數據顯示谷歌擁有一流的、不可復制的AI能力,這可能對公司在2024年上半年的股票走勢產生積極影響。”
摩根大通的分析師在6日的一份報告中寫道,盡管市場在當天沒有對Gemini給出明顯的反應,能夠看到谷歌在“這一主要技術轉變”中的進展還是十分“鼓舞人心”。然而,摩根大通也指出,大模型在“搜索領域的貨幣化路徑存在不確定性”,可能會在未來帶來一些阻力。
在7日的報告中,摩根大通的分析師寫道:“雖然現在還處于其發展早期,但Gemini的推出象征著在生成式AI獲得廣泛商業化并得到廣泛傳播的第二年中,谷歌做出了重大創新。”
目前看來,谷歌如何在整體業務、尤其是最重要的搜索業務中將Gemini進行商業化是備受華爾街關注的一點。目前,谷歌計劃在本月晚些時間通過谷歌云將Gemini授權給客戶,并將在未來幾個月與谷歌服務中的其他產品集成,但還沒有公布后續的商業化策略。
富國銀行(Wells Fargo)的分析師表示,Gemini的推出應該足以平息關于“谷歌在AI領域究竟應該何去何從”的爭論,不過,關鍵問題在于谷歌如何利用Gemini獲得營利:“簡而言之,我認為谷歌證明了他們仍然具有一些競爭力。”
而KeyBanc的分析師也表示,Gemini是谷歌今年眾多AI公告的“頂峰”,但要讓AI對谷歌的業績增長和盈利能力產生積極影響需要時間:“Gemini仍在努力進入搜索等核心產品,因此我們建議耐心觀察其影響。”
不同于華爾街的整體看好,在科技領域中有聲音指出,Gemini或許存在“夸大宣傳”的質疑。
在Gemini于6日推出后不久,就有網友指出了宣傳資料中的一些不妥之處。例如,當谷歌稱Gemini的MMLU的得分率高于GPT-4時,顯示GPT-4的得分率是86.4%,但根據谷歌發布的60頁技術報告,Gemini Ultra的MMLU測試結果下有“CoT@32”的小字注釋,表示其使用了思維鏈提示技巧,嘗試了32次并從中選擇最好結果。而作為對比的GPT-4卻是無提示詞技巧給5個示例,在這個標準下,Gemini Ultra的測試結果其實是83.7%,低于GPT-4的86.4%。
如果是同樣使用CoT@32的方法,雖然成績仍低于Gemini Ultra,GPT-4的得分率達到了87.29%。
如果像谷歌DeepMind首席科學家杰夫?迪恩(Jeff Dean)回應的那樣,這種寫法只是為了顯示兩種不同方法間的比較,對于Gemini測試視頻的質疑則顯得更加難以反駁。
在推出Gemini后,谷歌發布了一個時長六分鐘的演示視頻,展現了測試員和Gemini的一些有趣互動,其中包括讓Gemini識別圖片并用多種語言描述、讓Gemini利用一張地圖設計智力問答、和Gemini玩杯子游戲和推理小游戲等等。在整個過程中,Gemini的反應速度都非常快,還會生成音頻和圖片來輔助回答,并用上一些口語化乃至幽默化的表達,可謂是讓人大開眼界。
然而,很快就有網友從視頻開篇的文字免責聲明中發現了問題,認為其可能暗示了視頻中展示的是精心挑選的好結果,不是實時錄制,而經過剪輯的。隨后,谷歌在一篇博客文章中解釋了多模態交互過程,基本上也間接承認了只有使用靜態圖片和多段提示詞拼湊,才能達成演示視頻中的效果。
有分析指出,這和谷歌在視頻中所暗示的可以說是完全不同,因為從視頻看來,Gemini可以實時觀察周圍的世界并做出反應,用戶可以與Gemini進行流暢的語音對話。沃頓商學院教授伊桑?莫利克(Ethan Mollick)也在X平臺上進行了演示,如果是使用靜態圖片和多段提示詞,完全可以通過ChatGPT Plus來復制Gemini的表現。
在質疑發酵后,谷歌DeepMind產品副總裁伊萊?柯林斯(Eli Collins)對外媒回應稱,視頻中的畫鴨子演示(畫一個鴨子的簡筆畫,Gemini可以對每一步驟做出正確的解釋)確實是研究級別的功能,至少目前還沒有出現在谷歌的實際產品中。
谷歌DeepMind研究和深度學習負責人副總裁奧里奧爾?維尼亞爾斯(Oriol Vinyals)也在X(原推特)平臺上發布長文,解釋了團隊是如何制作該視頻的:“視頻中的所有用戶提示和輸出都是真實的,只是為了簡潔而進行了縮短。”維尼亞爾斯還表示:“該視頻展示了使用Gemini構建的多模態用戶體驗是什么樣子。我們這樣做是為了激勵開發人員。”
然而,維尼亞爾斯的回應引發了更多的爭議。有網友評論道:“如果你想激勵開發者,為什么不發布真實的內容呢?被縮短的用戶提示就不算‘真實’。這樣做既不真誠,又具有誤導性。”
有谷歌員工對外媒透露,他們認為這段視頻描繪了一幅“不切實際的畫面”。有員工表示,對這種夸張的演示并不感到驚訝,因為員工們已經習慣了公司會對產品在某種程度上進行夸大營銷:“我認為大多數使用過大語言模型技術的員工都知道,要對(演示中的)這一切持保留態度。”
有外媒認為,谷歌“龐大的官僚體系和各級產品經理使其直到現在都無法像OpenAI那樣敏捷地推出產品”。對于正在應對AI轉型影響的社會而言,這并不是壞事。但對于谷歌最近這種迅速推進的表現,應該保持一定的保留態度。
記者 胡含嫣
本文鏈接:谷歌大模型爆紅后被質疑造假!承認演示視頻剪輯過:為了簡潔縮短了http://www.lensthegame.com/show-5-3916-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 加拿大對國際留學生提高生活費存款要求