月之暗面研究員：未能更早將“長思維鏈”作為高優(yōu)選項(xiàng)

2025-02-18 09:51:29 來源：澎湃新聞

觀看：9

2月17日，人工智能初創(chuàng)公司月之暗面在其官方微信公眾號分享了其前段時(shí)間剛剛發(fā)布的Kimi k1.5多模態(tài)思考模型誕生的過程。

這款模型與DeepSeek-R1同日發(fā)布，但由于后者過于火爆，使得前者的發(fā)布消息幾乎被淹沒。在熱潮日漸平靜之際，月之暗面研究員Flood Sung在分享中透露，長思維鏈的有效性其實(shí)在一年多前就已經(jīng)知道了，但為了省錢，他們優(yōu)先選擇攻關(guān)長文本而不是長思維鏈（Long-CoT：Long Chain of Thought）；在去年9月OpenAI o1推出后，月之暗面決定出手長思維鏈。

據(jù)月之暗面官方介紹，新推出的k1.5多模態(tài)思考模型實(shí)現(xiàn)了SOTA（state-of-the-art，指最佳技術(shù)或最高水平模型）級別的多模態(tài)推理和通用推理能力。在長思維鏈模式下，kimi K1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力，也達(dá)到長思考SOTA模型OpenAI o1正式版水平。

“長思維鏈的有效性其實(shí)在一年多前就已經(jīng)知道了，月之暗面Kimi聯(lián)合創(chuàng)始人Tim周昕宇很早就驗(yàn)證過，使用很小的模型，訓(xùn)練模型做幾十位的加減乘除運(yùn)算，將細(xì)粒度的運(yùn)算過程合成出來變成很長的思維鏈數(shù)據(jù)做監(jiān)督微調(diào)（Supervised Fine-Tuning），就可以獲得非常好的效果。我依然記得當(dāng)時(shí)看到那個效果的震撼。”Flood Sung表示。

Flood Sung稱，他們意識到長上下文的重要性，但優(yōu)先考慮把文本搞長，對長思維鏈這件事情不夠重視。“主要還是考慮了成本問題”，他表示，長上下文主要做的是長文本輸入，有預(yù)填充，有Mooncake（Kimi底層的推理平臺，已逐步開源）加持，成本速度可控，而長思維鏈?zhǔn)情L文本輸出，成本高很多，速度也要慢很多。在這種情況下，把輸出搞長就沒有成為一個高優(yōu)選項(xiàng)。

長思維鏈技術(shù)路線是一種基于思維鏈（Chain-of-Thought, CoT）的推理增強(qiáng)技術(shù)，旨在通過生成更長的推理鏈來提升大型語言模型（LLM）在復(fù)雜推理任務(wù)中的性能。與傳統(tǒng)的短推理鏈（Short CoT）相比，長思維鏈能夠處理更復(fù)雜的任務(wù)，因?yàn)樗试S模型在生成最終答案之前進(jìn)行更深入的思考。

OpenAI o1模型驗(yàn)證了長思維鏈在數(shù)學(xué)和編碼等推理任務(wù)中的有效性。在長思考（long thought）的幫助下，大語言模型（LLM ）傾向于探索、反思和自我改進(jìn)推理過程，以獲得更準(zhǔn)確的答案。

“OpenAI o1發(fā)布，震撼，效果爆炸，Long-CoT的有效讓我陷入反思。”

但還有什么比性能更重要呢？Flood Sung認(rèn)為，成本和速度有摩爾定律加持，可以不斷下降，只要把性能搞上去，剩下的都不是主要問題。“所以，我們得搞長思維鏈，搞o1。”

他還提到在實(shí)際訓(xùn)練的過程中有了重要的發(fā)現(xiàn)：模型會隨著訓(xùn)練提升性能也不斷增加token數(shù)，也就是這是RL（強(qiáng)化學(xué)習(xí)）訓(xùn)練過程中模型可以自己涌現(xiàn)的，“這個和友商 Deepseek的發(fā)現(xiàn)幾乎是一樣的。”

Flood Sung稱，AGI（Artificial General Intelligence，通用人工智能）確實(shí)就是近在眼前的事情，如今他重新開始思考ASL（Artificial Super Intelligence，超級人工智能）。對于做強(qiáng)化學(xué)習(xí)（RL）的人來說，從來都不會把實(shí)現(xiàn)AGI作為目標(biāo)，現(xiàn)在給AI一個可衡量的目標(biāo)，然后讓AI自己去探索，通過強(qiáng)化學(xué)習(xí)來提升模型，未來不過是把這一過程不斷地復(fù)制到更復(fù)雜的場景中去。

（原標(biāo)題：月之暗面研究員透露：為了省錢，未能更早將“長思維鏈”作為高優(yōu)選項(xiàng)）

本文鏈接：月之暗面研究員：未能更早將“長思維鏈”作為高優(yōu)選項(xiàng)http://www.lensthegame.com/show-11-17457-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn)，不代表本站觀點(diǎn)，本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅，請大家謹(jǐn)防詐騙！若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。

上一篇：超長壽命高效制氫新技術(shù)研發(fā)成功

下一篇：成果發(fā)在《自然》2年后，她簽下5000萬元專利合同

月之暗面研究員：未能更早將“長思維鏈”作為高優(yōu)選項(xiàng)

熱門資訊

推薦資訊

科學(xué)最熱文章