馬斯克用行動(dòng)反擊 開源自家頂級(jí)大模型 壓力給到OpenAI
《科創(chuàng)板日?qǐng)?bào)》3月18日訊(編輯 宋子喬) 似乎是為了表明自己始終堅(jiān)持對(duì)AI模型開源,馬斯克做出了與阿爾特曼全然不同的選擇。3月17日,馬斯克宣布開源Grok-1,這使得Grok-1成為當(dāng)前參數(shù)量最大的開源大語言模型,擁有3140億參數(shù),遠(yuǎn)超OpenAI GPT-3.5的1750億。
有意思的是,Grok-1宣布開源的封面圖為Midjourney生成,可謂“AI helps AI”。
一直吐槽OpenAI不open的馬斯克,自然要在社交平臺(tái)上含沙射影一番,“我們想了解更多OpenAI的開放部分?!?span style="display:none">F43流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM
Grok-1遵照Apache 2.0協(xié)議開放模型權(quán)重和架構(gòu)。這意味著它允許用戶自由地使用、修改和分發(fā)軟件,無論是個(gè)人還是商業(yè)用途。這種開放性鼓勵(lì)了更廣泛的研究和應(yīng)用開發(fā)。項(xiàng)目發(fā)布至今,已經(jīng)在GitHub上攬獲6.5k星標(biāo),熱度還在持續(xù)增加。
項(xiàng)目說明中明確強(qiáng)調(diào),由于Grok-1是一個(gè)規(guī)模較大(314B參數(shù))的模型,需要有足夠GPU內(nèi)存的機(jī)器才能使用示例代碼測(cè)試模型。網(wǎng)友表示這可能需要一臺(tái)擁有628 GB GPU內(nèi)存的機(jī)器。
此外,該存儲(chǔ)庫中MoE層的實(shí)現(xiàn)效率并不高,之所以選擇該實(shí)現(xiàn)是為了避免需要自定義內(nèi)核來驗(yàn)證模型的正確性。
目前已開源的熱門大模型包括Meta的Llama2、法國的Mistral等。通常來說,發(fā)布開源模型有助于社區(qū)展開大規(guī)模的測(cè)試和反饋,意味著模型本身的迭代速度也能加快。
Grok-1是一個(gè)混合專家(Mixture-of-Experts,MOE)大模型,由馬斯克旗下的AI創(chuàng)企xAI在過去4個(gè)月里開發(fā)?;仡櫾撃P偷拈_發(fā)歷程:
在宣布成立xAI之后,相關(guān)研究人員首先訓(xùn)練了一個(gè)330億參數(shù)的原型語言模型(Grok-0),這個(gè)模型在標(biāo)準(zhǔn)語言模型測(cè)試基準(zhǔn)上接近LLaMA2(70B)的能力,但使用了更少的訓(xùn)練資源;
之后,研究人員對(duì)模型的推理和編碼能力進(jìn)行了重大改進(jìn),最終開發(fā)出了Grok-1并于2023年11月發(fā)布,這是一款功能更為強(qiáng)大的SOTA語言模型,在HumanEval編碼任務(wù)中達(dá)到了63.2%的成績,在MMLU中達(dá)到了73%,超過了其計(jì)算類中的所有其他模型,包括ChatGPT-3.5和Inflection-1。
與其他大模型相比,Grok-1的優(yōu)勢(shì)在哪呢?
xAI特別強(qiáng)調(diào),Grok-1是他們自己從頭訓(xùn)練的大模型,即從2023年10月開始使用自定義訓(xùn)練堆棧在JAX和Rust上訓(xùn)練,沒有針對(duì)特定任務(wù)(如對(duì)話)進(jìn)行微調(diào);
Grok-1的一個(gè)獨(dú)特而基本的優(yōu)勢(shì)是,它可以通過X平臺(tái)實(shí)時(shí)了解世界,這使得它能夠回答被大多數(shù)其他AI系統(tǒng)拒絕的辛辣問題。Grok-1發(fā)布版本所使用的訓(xùn)練數(shù)據(jù)來自截至2023年第三季度的互聯(lián)網(wǎng)數(shù)據(jù)和xAI的AI訓(xùn)練師提供的數(shù)據(jù);
3140億參數(shù)的Mixture-of-Experts模型,其對(duì)于每個(gè)token,活躍權(quán)重比例為25%,這一龐大的參數(shù)量為其提供了強(qiáng)大的語言理解和生成能力。
xAI此前介紹,Grok-1將作為Grok背后的引擎,用于自然語言處理任務(wù),包括問答、信息檢索、創(chuàng)意寫作和編碼輔助。未來,長上下文的理解與檢索、多模態(tài)能力都是該模型將會(huì)探索的方向之一。
本文鏈接:馬斯克用行動(dòng)反擊 開源自家頂級(jí)大模型 壓力給到OpenAIhttp://www.lensthegame.com/show-2-3998-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任,僅提供存儲(chǔ)服務(wù)。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇: 馬斯克開源3140億參數(shù)的Grok,大模型爭相開源所為何求?
下一篇: AI領(lǐng)域,重磅消息傳來!