馬斯克用行動(dòng)反擊開源自家頂級(jí)大模型壓力給到OpenAI

2024-03-20 17:23:16 來源：

觀看：672

　　馬斯克用行動(dòng)反擊開源自家頂級(jí)大模型壓力給到OpenAI

　　《科創(chuàng)板日?qǐng)?bào)》3月18日訊(編輯宋子喬) 似乎是為了表明自己始終堅(jiān)持對(duì)AI模型開源，馬斯克做出了與阿爾特曼全然不同的選擇。3月17日，馬斯克宣布開源Grok-1，這使得Grok-1成為當(dāng)前參數(shù)量最大的開源大語言模型，擁有3140億參數(shù)，遠(yuǎn)超OpenAI GPT-3.5的1750億。

　　有意思的是，Grok-1宣布開源的封面圖為Midjourney生成，可謂“AI helps AI”。

　　一直吐槽OpenAI不open的馬斯克，自然要在社交平臺(tái)上含沙射影一番，“我們想了解更多OpenAI的開放部分?！?span style="display:none">F43流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

　　Grok-1遵照Apache 2.0協(xié)議開放模型權(quán)重和架構(gòu)。這意味著它允許用戶自由地使用、修改和分發(fā)軟件，無論是個(gè)人還是商業(yè)用途。這種開放性鼓勵(lì)了更廣泛的研究和應(yīng)用開發(fā)。項(xiàng)目發(fā)布至今，已經(jīng)在GitHub上攬獲6.5k星標(biāo)，熱度還在持續(xù)增加。

　　項(xiàng)目說明中明確強(qiáng)調(diào)，由于Grok-1是一個(gè)規(guī)模較大(314B參數(shù))的模型，需要有足夠GPU內(nèi)存的機(jī)器才能使用示例代碼測(cè)試模型。網(wǎng)友表示這可能需要一臺(tái)擁有628 GB GPU內(nèi)存的機(jī)器。

　　此外，該存儲(chǔ)庫中MoE層的實(shí)現(xiàn)效率并不高，之所以選擇該實(shí)現(xiàn)是為了避免需要自定義內(nèi)核來驗(yàn)證模型的正確性。

　　目前已開源的熱門大模型包括Meta的Llama2、法國的Mistral等。通常來說，發(fā)布開源模型有助于社區(qū)展開大規(guī)模的測(cè)試和反饋，意味著模型本身的迭代速度也能加快。

　　Grok-1是一個(gè)混合專家(Mixture-of-Experts，MOE)大模型，由馬斯克旗下的AI創(chuàng)企xAI在過去4個(gè)月里開發(fā)?；仡櫾撃Ｐ偷拈_發(fā)歷程：

　　在宣布成立xAI之后，相關(guān)研究人員首先訓(xùn)練了一個(gè)330億參數(shù)的原型語言模型(Grok-0)，這個(gè)模型在標(biāo)準(zhǔn)語言模型測(cè)試基準(zhǔn)上接近LLaMA2(70B)的能力，但使用了更少的訓(xùn)練資源；

　　之后，研究人員對(duì)模型的推理和編碼能力進(jìn)行了重大改進(jìn)，最終開發(fā)出了Grok-1并于2023年11月發(fā)布，這是一款功能更為強(qiáng)大的SOTA語言模型，在HumanEval編碼任務(wù)中達(dá)到了63.2%的成績，在MMLU中達(dá)到了73%，超過了其計(jì)算類中的所有其他模型，包括ChatGPT-3.5和Inflection-1。

　　與其他大模型相比，Grok-1的優(yōu)勢(shì)在哪呢？

　　xAI特別強(qiáng)調(diào)，Grok-1是他們自己從頭訓(xùn)練的大模型，即從2023年10月開始使用自定義訓(xùn)練堆棧在JAX和Rust上訓(xùn)練，沒有針對(duì)特定任務(wù)(如對(duì)話)進(jìn)行微調(diào)；

　　Grok-1的一個(gè)獨(dú)特而基本的優(yōu)勢(shì)是，它可以通過X平臺(tái)實(shí)時(shí)了解世界，這使得它能夠回答被大多數(shù)其他AI系統(tǒng)拒絕的辛辣問題。Grok-1發(fā)布版本所使用的訓(xùn)練數(shù)據(jù)來自截至2023年第三季度的互聯(lián)網(wǎng)數(shù)據(jù)和xAI的AI訓(xùn)練師提供的數(shù)據(jù)；

　　3140億參數(shù)的Mixture-of-Experts模型，其對(duì)于每個(gè)token，活躍權(quán)重比例為25%，這一龐大的參數(shù)量為其提供了強(qiáng)大的語言理解和生成能力。

　　xAI此前介紹，Grok-1將作為Grok背后的引擎，用于自然語言處理任務(wù)，包括問答、信息檢索、創(chuàng)意寫作和編碼輔助。未來，長上下文的理解與檢索、多模態(tài)能力都是該模型將會(huì)探索的方向之一。

本文鏈接：馬斯克用行動(dòng)反擊開源自家頂級(jí)大模型壓力給到OpenAIhttp://www.lensthegame.com/show-2-3998-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn)，不代表本站觀點(diǎn)，本站不承擔(dān)任何法律責(zé)任，僅提供存儲(chǔ)服務(wù)。天上不會(huì)到餡餅，請(qǐng)大家謹(jǐn)防詐騙！若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。

上一篇：馬斯克開源3140億參數(shù)的Grok，大模型爭相開源所為何求？

下一篇： AI領(lǐng)域，重磅消息傳來！

馬斯克用行動(dòng)反擊開源自家頂級(jí)大模型壓力給到OpenAI

熱門資訊

推薦資訊

科技最熱文章

馬斯克用行動(dòng)反擊 開源自家頂級(jí)大模型 壓力給到OpenAI

熱門資訊

推薦資訊

科技最熱文章

馬斯克用行動(dòng)反擊開源自家頂級(jí)大模型壓力給到OpenAI