設(shè)置
          • 日夜間
            隨系統(tǒng)
            淺色
            深色
          • 主題色

          繼DeepSeek后,阿里云通義千問也追上OpenAI

          2025-02-05 15:37:42 來源: 觀察者網(wǎng)

          iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          中國不僅有DeepSeek,還有通義千問。iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          阿里云通義團(tuán)隊于大年初一發(fā)布旗艦?zāi)P汀癚wen2.5-Max”,已成為繼深度求索(DeepSeek)后,第二家可以比肩美國OpenAI公司o1系列的中國大語言模型。iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          近日,三方基準(zhǔn)測試平臺LMArena的大語言模型盲測榜單(“ChatBot Arena LLM”)最新排名顯示,“Qwen2.5-Max”以1332分排總榜第7名,超過了深度求索的“DeepSeek-V3”以及OpenAI的“o1-mini”。而在數(shù)學(xué)和編程方面,“Qwen2.5-Max”則排名第1,在Hard prompts方面排名第2。iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          “ChatBot Arena LLM”榜單由美國加州大學(xué)伯利克分校天空計算實驗室與LMArena聯(lián)合開發(fā),通過用戶盲測的方式,覆蓋了對話、代碼、圖文生成、網(wǎng)頁開發(fā)等多維度能力評估,最終基于260萬票結(jié)果反映出197個模型在真實體驗下的排名情況,也是業(yè)內(nèi)公認(rèn)的權(quán)威榜單。iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該榜單最新的更新時間為當(dāng)?shù)貢r間的2月2日,其中OpenAI的多個版本模型占據(jù)高位,比如第3位的“ChatGPT-4o”,同時還有谷歌的“Gemini-2.0”、xAI的“Grok-2”等,但這些模型均為閉源模型。iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          而在開源模型方面,“DeepSeek-R1”一騎絕塵,與“ChatGPT-4o-latest”并列榜單第3,緊隨其后的就是排名第7的阿里云通義“Qwen-max-2025-01-25”(即Qwen2.5-Max),“DeepSeek-V3”和中國智譜模型“GLM-4-Plus-0111”則分別排名第8、第9,而階躍星辰的“Step-2-16K-Exp”模型則與“o1-Mini”并列第10。榜單前10名中有5個中國大語言模型,也體現(xiàn)出中國人工智能團(tuán)隊在全球范圍內(nèi)的強技術(shù)競爭力。iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          去年6月、9月,阿里云通義模型也曾兩度登頂全球最強開源模型的寶座,但由于未能追平超越閉源模型,討論熱度不及12月的DeepSeek-V3。今年1月29日凌晨1時,阿里云通義團(tuán)隊正式對外發(fā)布“Qwen2.5-Max”,該模型采用超大規(guī)模混合專家(MoE, Mixture of Experts)架構(gòu),訓(xùn)練數(shù)據(jù)超過20萬億tokens,并在知識(測試大學(xué)水平知識的MMLU-Pro)、編程(LiveCodeBench)、全面評估綜合能力的(LiveBench)以及人類偏好對齊(Arena-Hard)等主流權(quán)威基準(zhǔn)測試上,展現(xiàn)出全球領(lǐng)先的模型性能。iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          值得注意的是,“Arena-Hard”項主要測試模型在復(fù)雜指令理解和多輪對話中的表現(xiàn),涵蓋了各種領(lǐng)域的知識和任務(wù),并且打分的時候要嚴(yán)格對齊人類偏好。其中,對游戲開發(fā)、數(shù)學(xué)證明等專業(yè)項會給予較高分?jǐn)?shù),而對類似全球餐廳推薦、送禮創(chuàng)意等答案會出現(xiàn)模棱兩可情況的問題給予較低權(quán)重,“評委”則通常也由國外模型擔(dān)當(dāng)。而這種情況下,“Qwen2.5-Max”在該基準(zhǔn)測試中仍能夠迅速分析問題,整合相關(guān)知識,給出全面且準(zhǔn)確的回答,最終以89.4分超越全部對比模型(DeepSeek-V3、Llama-3.1-405B-Inst、GPT-4o-0806、Claude-3.5-Sonnet-1022)。iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          據(jù)阿里云稱,由于無法訪問“GPT-4o”和“Claude-3.5-Sonnet”等閉源模型的基座模型,通義團(tuán)隊將“Qwen2.5-Max”與目前領(lǐng)先的開源MoE模型“DeepSeek V3”、最大的開源稠密模型“Llama-3.1-405B”,以及同樣位列開源稠密模型前列的“Qwen2.5-72B”進(jìn)行了對比。在包括MMLU等所有11項基準(zhǔn)測試中,Qwen2.5-Max全部超越了對比模型。iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對此,ChatBot Arena官方給出評價:“(Qwen2.5-Max)在多個領(lǐng)域表現(xiàn)強勁,特別是專業(yè)技術(shù)向的(編程、數(shù)學(xué)、硬提示等)。”iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。iwt流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:繼DeepSeek后,阿里云通義千問也追上OpenAIhttp://www.lensthegame.com/show-3-60518-0.html

          聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。

          上一篇: 春節(jié)消費興起“非遺熱”,這些特色小城火了!

          下一篇: 美國郵政暫停接收來自中國內(nèi)地和香港的入境包裹

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 一级毛片完整版免费播放一区 | 国产精品一区二区av不卡| 国产激情精品一区二区三区| 在线中文字幕一区| 亚洲日本一区二区三区在线| 日本一区二区三区在线视频| 亚洲欧洲无码一区二区三区| 一区二区三区亚洲| 狠狠色成人一区二区三区| 精品视频一区二区观看| 国产在线一区二区三区在线| 亚洲午夜一区二区电影院| 一区二区三区日韩| 日韩人妻无码一区二区三区99| 中文字幕无线码一区| 久久精品国产一区二区| 国产日韩高清一区二区三区| 精品国产一区二区三区www| 久久久久久人妻一区二区三区| 亚洲第一区二区快射影院| 无码精品一区二区三区免费视频| 久久4k岛国高清一区二区| 人妻AV一区二区三区精品| 一区二区视频在线播放| 久久精品国产第一区二区三区| 无码人妻精品一区二区三| 精品无码一区在线观看| 亚洲一区中文字幕在线电影网| 精品午夜福利无人区乱码一区| 国产日韩精品视频一区二区三区 | 精品亚洲av无码一区二区柚蜜| 午夜性色一区二区三区免费不卡视频| 日韩一区二区三区四区不卡| 亚洲av乱码中文一区二区三区| 免费看无码自慰一区二区| 日本精品一区二区在线播放| 日本夜爽爽一区二区三区| 国产成人精品无码一区二区三区| 国产一区二区三区乱码| 亚洲色精品VR一区区三区| 国产成人av一区二区三区在线|