設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          DeepSeek又有重大突破?一款未公開大模型展現驚人能力

          2025-01-22 09:33:42 來源: 觀察者網

          rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          DeepSeek再一次發布了強大的開源大模型。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          1月20日,國內大模型公司深度求索(DeepSeek)在其公眾號公布了新一代開源大模型DeepSeek-R1,該模型號稱在數學、代碼、自然語言推理等任務上,性能比肩美國OpenAI公司最新的o1大模型正式版。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          根據數據,DeepSeek-R1在算法類代碼場景(Codeforces)和知識類測試(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程類代碼場景(SWE-Bench Verified)、美國數學競賽(AIME 2024, MATH)項目上,均超過了OpenAI o1 。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          其中,與深度求索上月發布的大模型DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,而其余項均有不同程度的提升。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度求索還更新了用戶協議,明確模型開源License將統一使用標準的MIT許可,同時還允許用戶利用模型輸出、通過模型蒸餾等方式訓練其他模型。按照深度求索數據顯示,在以DeepSeek-R1基礎上進行“蒸餾”的6個小模型中,32B和70B模型在多項能力上都實現了對標OpenAI的o1-mini 的效果。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          面對這個令人矚目的成績,深度求索則解釋稱,DeepSeek-R1 后訓練階段中大規模使用了強化學習(RL)技術,在僅有極少人工標注數據的情況下,極大提升了模型推理能力。這意味著該模型幾乎跳過了監督微調(SFT)步驟,就實現了推理能力自我提升。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          DeepSeek-R1-Zero自然而然地學會用更多的思考時間來解決推理任務。深度求索 rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          通常情況下,強化學習的好處是可以通過與外界評價反饋,不斷讓模型自我優化,生成更符合人類偏好的內容。而監督微調則是指在預訓練使用人工標注的數據進行干預,可以讓生成的內容更準確且符合預期,這也是當年ChatGPT成功的關鍵。但從成本上來說,強化學習雖然需要大量人類反饋,且訓練復雜計算成本高,但監督微調則非常依賴高質量的人工標注數據。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          值得注意的是,目前深度求索向用戶提供的僅有DeepSeek-R1版本,而在其公開測試結果中卻透露了另一個大模型 —— DeepSeek-R1-Zero。該模型完全通過大規模使用強化學習替代了監督微調,但也導致了一些問題,因此未對外公開。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          更重要的是,工作人員發現,在DeepSeek-R1-Zero自我學習的過程,隨著時間的增加,該模型“涌現”出了復雜的行為,如自我反思、評估先前步驟、自發尋找替代方案的情況,還包括一次“尤里卡時刻”(“aha moment)。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          “尤里卡時刻”指人類突然理解一個以前無法理解的問題或概念的某個時刻。 rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度求索透露,這次“尤里卡”發生在DeepSeek-R1-Zero的的中間版本期間。當時工作人員驚奇地發現,在一道數學題中,該模型學會了使用擬人化的語氣進行自我反思,并主動為問題分配了更多地時間進行重新思考。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          深度求索稱,工作人員并沒有教DeepSeek-R1-Zero如何解決問題,只是提供了正確的激勵,它就能自主發展出先進的問題解決策略。“這次尤里卡也提醒我們,強化學習有可能為人工智能解鎖新的智能水平,為以后發展出更自主和適應性的模型鋪平道路。”rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不過,雖然DeepSeek-R1-Zero展示出了強大的推理能力,但自身也出現了一些語言混亂及可讀性的問題,因此深度求索通過引入數千條高質量的冷啟動數據和多段強化學習來解決這些問題,并獲得了上文中對外正式公布的DeepSeek-R1大模型。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          目前,DeepSeek-R1 API 服務定價為每百萬輸入 tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬輸出 tokens 16 元。rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文系觀察者網獨家稿件,未經授權,不得轉載。 rZK流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:DeepSeek又有重大突破?一款未公開大模型展現驚人能力http://www.lensthegame.com/show-3-59592-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 萬億券商合并新進展:海通證券、國泰君安宣布2月6日起停牌

          下一篇: 餓了么推出九項舉措:讓“算法”成為騎手的“辦法”

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 精品国产一区在线观看| 亚洲av色香蕉一区二区三区蜜桃 | 国产精品高清一区二区三区| 激情啪啪精品一区二区| 天天视频一区二区三区| 国产一区在线播放| 国产精品亚洲高清一区二区| 中文字幕无线码一区| 日韩精品无码一区二区三区不卡| 亚洲日本va午夜中文字幕一区| 精品一区二区三区在线观看视频 | 多人伦精品一区二区三区视频| 日韩精品久久一区二区三区 | 久久AAAA片一区二区| 国产人妖视频一区二区| 亚洲国产精品一区二区久| 另类国产精品一区二区| 精品理论片一区二区三区| 亚洲日本一区二区三区在线| 蜜臀Av午夜一区二区三区| 国产乱码精品一区二区三区麻豆| 无码人妻一区二区三区在线水卜樱 | 国产精品特级毛片一区二区三区 | 国产午夜精品免费一区二区三区| 一区二区三区国产精品 | 国产精品视频一区麻豆| 国产一区二区精品久久岳√| 成人影片一区免费观看| 亚洲视频一区在线| 亚洲爽爽一区二区三区| 亚洲一区二区三区亚瑟| 精品一区二区三区视频在线观看| 国产午夜精品一区二区三区嫩草| 国产日韩精品视频一区二区三区| 久久无码一区二区三区少妇| 亚洲一区二区三区写真| 无人码一区二区三区视频| 在线精品一区二区三区电影| 中文字幕aⅴ人妻一区二区| 天海翼一区二区三区高清视频| 亚洲一区二区三区偷拍女厕|