最近,由來自杭州的“深度求索”初創團隊開發的DeepSeek系列AI模型,引發了全球范圍的關注。1月24日,知名學術期刊《自然》也發文關注該模型及相應產品,稱“中國開發的大語言模型DeepSeek-R1以親民價格和開放性挑戰了OpenAI的推理模型GPT-o1的地位,令科學家們感到興奮”。
《中國科學報》了解到,深度求索團隊于1月20日在線發布DeepSeek-R1,并同步開源模型權重。同日,DeepSeek官網和對應APP同步更新上線。
對于DeepSeek-R1的表現,《自然》文章評論稱,初步測試顯示,R1在化學、數學和編程領域的特定任務表現與2024年9月令學界驚嘆的GPT-o1旗鼓相當。
《自然》文章配圖。圖源:Nature
“這完全超出預期”,英國AI咨詢公司DAIR.AI聯合創始人埃爾維斯·薩拉維亞(Elvis Saravia)在社交平臺上贊不絕口。
《自然》文章認為,這類模型通過類人推理的逐步響應生成機制,在解決科學問題方面展現出超越早期語言模型的能力,具有科研應用潛力。
“真正的‘Open-AI’”
該文章談到,DeepSeek-R1的的另一突破在于其開放性。開發方深度求索團隊采用"開放權重"模式發布,允許研究者研究并改進算法。雖然基于MIT許可證(MIT License)可自由復用,但因未公開訓練數據,尚未達到完全開源標準。
德國馬克斯·普朗克光科學研究所人工科學家實驗室負責人馬里奧·科瑞恩(Mario Krenn)則評價稱:“深度求索的開放程度令人矚目”,相較之下,OpenAI的o1及其最新o3模型“本質仍是黑箱”。
“DeepSeek才是真正的‘Open-AI’!”在深度求索團隊發布DeepSeek-R1的網絡文章下面,這條評論獲得了最高贊。
DeepSeek尚未公布訓練R1的全部投入花費,但它向使用其界面的人收取的費用約為o1運行費用的三十分之一。據深度求索團隊發布內容,DeepSeek-R1的API(應用程序接口)服務定價為每百萬輸入 tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬輸出 tokens 16 元。同時,深度求索還創建了R1的迷你“蒸餾”版本,使計算能力有限的研究人員也能夠使用該模型。
“使用o1的實驗成本超過300英鎊,而使用R1的實驗成本不到10美元。”科瑞恩說:“這是一個巨大的差異,肯定會在未來的采用中發揮作用?!?span style="display:none">Gwy流量資訊——探索最新科技、每天知道多一點LLSUM.COM
“美國的領先優勢在縮小”
《自然》文章認為,DeepSeek-R1是中國大型語言模型(LLMs)繁榮的一部分,并祭出DeepSeek以“小算力”驅動“大模型”、訓練成本低廉為論據:DeepSeek訓練模型所需的硬件大約需要600萬美元,而Meta的Llama 3.1 405B則需要6000萬美元,后者使用了11倍于前者的計算資源。該文還提到,深度求索團隊此前發布的DeepSeek-V3的表現也優于主要競爭者,“且其預算很小”。
對此,美國華盛頓州西雅圖的人工智能研究員弗蘭科伊斯·夏洛特(Fran?ois Chollet)表示:“它來自中國的事實表明,高效利用資源比單純的計算規模更重要?!?/span>
《自然》文章評述稱,此前圍繞DeepSeek的部分話題是,盡管美國的出口管制措施限制了中國公司獲得為人工智能處理設計的高端計算機芯片,但DeepSeek還是成功地訓練出了R1。
華盛頓貝爾維尤的技術專家阿爾文·王·格雷林(Alvin Wang Graylin)在社交平臺上寫道,DeepSeek的進展表明,“美國曾經的領先優勢已經顯著縮小”。
用“思維鏈”減少“幻覺”損害
人們對人工智能大模型常常詬病的一點是,它會產生“幻覺”。
這是由于,大語言模型一般是在數十億個文本樣本上進行訓練,將它們剪切成“標記”的單詞部分并學習數據中的模式——這些關聯使模型能夠預測句子中的后續標記。但這些大模型傾向于編造事實,這是一種被稱為“幻覺”的現象,并且經常難以通過推理解決或消除。
與OpenAI的o1一樣,DeepSeek-R1也使用了“思維鏈”方法來提高大模型解決更復雜任務的能力,其機制包括過程回溯和策略評估。深度求索研發團隊通過強化學習對V3模型進行“微調”訓練:當模型獲得正確答案或展示清晰“解題思路”時即給予正向反饋,從而塑造出R1的推理能力。
英國愛丁堡大學的人工智能研究員李文達(音)認為,正是計算能力有限的原因,促使深度求索團隊 “在算法上進行創新”。他指出,在強化學習階段,團隊會采用分階段評估模型進展的監測方式,替代傳統的獨立驗證網絡法。英國劍橋大學的計算機科學家瑪特亞?亞姆尼克(Mateja Jamnik)指出,這有助于降低訓練和運行成本。研究人員還采用了混合專家(MoE)架構,使模型根據任務需求動態激活相應模塊。
DeepSeek-R1與OpenAI-o1-1217等模型在代碼、科學知識、數學、常識方面上的對比。圖源:Nature在加州大學伯克利分校設計的MATH-500數學題集上,DeepSeek-R1取得97.3%的準確率,并在Codeforces編程競賽中超越96.3%的人類選手。這些成績與o1相當(未納入最新o3的對比測試)。
劍橋大學計算機科學家馬可·多斯·桑多斯(Marco Dos Santos)指出,基準測試難以全面反映模型的真實推理與泛化能力,但得益于R1的開放性,研究者可解析其思維鏈條,“這極大提升了模型推理過程的可解釋性”。
《自然》文章稱,科研人員已展開實際測試??迫鸲髯屵@兩個模型對3000個科研創意進行興趣度排序,結果R1略遜于o1。但"在量子光學特定計算中,R1展現出超越o1的實力",科瑞恩評價道,"這確實令人印象深刻"。
“DeepSeek 是化繁為簡的大師”
1月26日,出門問問副總裁、Netbase前首席科學家李維發文表示,DeepSeek的創新和探索精神表現在,當社區把有監督的精調+強化學習( SFT+RL) 當成是“后訓練范式”的時候,他們做自主學習(Zero),完全排除人工數據,驗證了純粹的強化學習對于推理能力的學習潛力。
他指出,深度求索團隊先是從 Zero 首先是學到了信心,體驗了探索創新者的“啊哈時刻”(aha moment),然后又加入了一些用于冷啟動的高質量人工數據做SFT,再做實用的 R1 就有底氣了。
“兩個模型都開源,供人研究和驗證,做得煞是漂亮?!崩罹S感嘆:“DeepSeek 是化繁為簡的大師。”
相關文章鏈接:
https://www.nature.com/articles/d41586-025-00229-6
本文鏈接:“令學界振奮!”《自然》發文盛贊中國開源AI模型DeepSeekhttp://www.lensthegame.com/show-11-16908-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: “雙爸”鼠寶,創紀錄活到“成年”
下一篇: 跨越山海:春節“朋友圈”不斷擴大