設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          擊敗OpenAI,權重、數據、代碼全開源,能完美復現的嵌入模型Nomic Embed來了

          2024-02-04 13:00:10 來源:

          聲明:本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:陳萍、小舟,授權轉載發布。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          模型參數量只有137M,5天就能訓練好。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          一周前,OpenAI 給廣大用戶發放福利,在下場修復 GPT-4變懶的問題后,還順道上新了5個新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          我們知道,嵌入是表示自然語言或代碼等內容中概念的數字序列。嵌入使得機器學習模型和其他算法更容易理解內容之間的關聯,也更容易執行聚類或檢索等任務。可見,嵌入在 NLP 領域是非常重要的。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不過,OpenAI 的嵌入模型并不是免費給大家使用的,比如 text-embedding-3-small 的收費價格是每1k tokens0.00002美元。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          現在,比 text-embedding-3-small 更好的嵌入模型來了,并且還不收費。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          AI 初創公司 Nomic AI 宣布推出 Nomic Embed,這是首個開源、開放數據、開放權重、開放訓練代碼、完全可復現和可審核的嵌入模型,上下文長度為8192,在短上下文和長上下文基準測試中擊敗 OpenAI text-embeding-3-small 和 text-embedding-ada-002。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          文本嵌入是現代 NLP 應用程序的一個組成部分,為 LLM 和語義搜索提供了檢索增強生成 (RAG)。該技術將有關句子或文檔的語義信息編碼為低維向量,然后用于下游應用程序,例如用于數據可視化、分類和信息檢索的聚類。目前,最流行的長上下文文本嵌入模型是 OpenAI 的 text-embedding-ada-002,它支持8192的上下文長度。不幸的是,Ada 是閉源的,并且訓練數據不可審計。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不僅如此,性能最佳的開源長上下文文本嵌入模型(例如 E5-Mistral 和 jina-embeddings-v2-base-en)要么由于模型大小而不適合通用用途,要么無法超越其 OpenAI 對應模型的性能。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          Nomic-embed 的發布改變了這一點。該模型的參數量只有137M ,非常便于部署,5天就訓練好了。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          論文地址:https://static.nomic.ai/reports/2024_Nomic_Embed_Text_Technical_Report.pdfVR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          論文題目:Nomic Embed: Training a Reproducible Long Context Text EmbedderVR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          項目地址:https://github.com/nomic-ai/contrastorsVR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          如何構建 nomic-embedVR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          現有文本編碼器的主要缺點之一是受到序列長度限制,僅限于512個 token。為了訓練更長序列的模型,首先要做的就是調整 BERT,使其能夠適應長序列長度,該研究的目標序列長度為8192。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          訓練上下文長度為2048的 BERTVR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究遵循多階段對比學習 pipeline 來訓練 nomic-embed。首先該研究進行 BERT 初始化,由于 bert-base 只能處理最多512個 token 的上下文長度,因此該研究決定訓練自己的2048個 token 上下文長度的 BERT——nomic-bert-2048。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          受 MosaicBERT 的啟發,研究團隊對 BERT 的訓練流程進行了一些修改,包括:VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 使用旋轉位置嵌入來允許上下文長度外推;VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 使用 SwiGLU 激活,因為它已被證明可以提高模型性能;VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 將 dropout 設置為0。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          并進行了以下訓練優化:VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 使用 Deepspeed 和 FlashAttention 進行訓練;VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 以 BF16精度進行訓練;VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 將詞表(vocab)大小增加到64的倍數;VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 訓練的批大小為4096;VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 在掩碼語言建模過程中,掩碼率為30%,而不是15%;VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          • 不使用下一句預測目標。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          訓練時,該研究以最大序列長度2048來訓練所有階段,并在推理時采用動態 NTK 插值來擴展到8192序列長度。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          實驗VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究在標準 GLUE 基準上評估了 nomic-bert-2048的質量,發現它的性能與其他 BERT 模型相當,但具有顯著更長的上下文長度優勢。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          nomic-embed 的對比訓練VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究使用 nomic-bert-2048初始化 nomic-embed 的訓練。對比數據集由約2.35億文本對組成,并在收集過程中使用 Nomic Atlas 廣泛驗證了其質量。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在 MTEB 基準上,nomic-embed 的性能優于 text-embedding-ada-002和 jina-embeddings-v2-base-en。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          然而,MTEB 不能評估長上下文任務。因此,該研究在最近發布的 LoCo 基準以及 Jina Long Context 基準上評估了 nomic-embed。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對于 LoCo 基準,該研究按照參數類別以及評估是在監督或無監督設置中執行的分別進行評估。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          如下表所示,Nomic Embed 是性能最佳的100M 參數無監督模型。值得注意的是,Nomic Embed 可與7B 參數類別中表現最好的模型以及專門針對 LoCo 基準在監督環境中訓練的模型媲美:VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在 Jina Long Context 基準上,Nomic Embed 的總體表現也優于 jina-embeddings-v2-base-en,但 Nomic Embed 在此基準測試中的表現并不優于 OpenAI ada-002或 text-embedding-3-small:VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          總體而言,Nomic Embed 在2/3基準測試中優于 OpenAI Ada-002和 text-embedding-3-small。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究表示,使用 Nomic Embed 的最佳選擇是 Nomic Embedding API,獲得 API 的途徑如下所示:VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          最后是數據訪問:為了訪問完整數據,該研究向用戶提供了 Cloudflare R2(類似 AWS S3的對象存儲服務)訪問密鑰。要獲得訪問權限,用戶需要先創建 Nomic Atlas 帳戶并按照 contrastors 存儲庫中的說明進行操作。VR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          contrastors 地址:https://github.com/nomic-ai/contrastors?tab=readme-ov-file#data-accessVR8流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:擊敗OpenAI,權重、數據、代碼全開源,能完美復現的嵌入模型Nomic Embed來了http://www.lensthegame.com/show-3-9125-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 史上首個100%開源大模型重磅登場!破紀錄公開代碼/權重/數據集/訓練全過程,AMD都能訓

          下一篇: 男子脅迫女生不讓下車:雙方系朋友 女生已經安全回家_威脅女朋友不讓她離開

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 亚洲av无码一区二区三区天堂 | 亚洲国产成人精品无码一区二区| 国产一区二区精品尤物| 日韩内射美女人妻一区二区三区| 波多野结衣的AV一区二区三区| 人妻视频一区二区三区免费| 亚洲国产av一区二区三区丶| 国产福利一区二区三区在线视频 | 亚洲综合av永久无码精品一区二区 | 又紧又大又爽精品一区二区| 天堂成人一区二区三区| 国内精品视频一区二区三区| 色一情一乱一区二区三区啪啪高| 亚洲熟妇AV一区二区三区浪潮| 日韩视频在线一区| 国产成人av一区二区三区不卡| 久久影院亚洲一区| 人妻在线无码一区二区三区| 韩国福利视频一区二区| 精品一区二区三区免费观看 | 精品视频一区二区三区免费| 免费无码毛片一区二区APP| 亚洲中文字幕无码一区二区三区 | 久久精品一区二区三区AV| 亚洲国产成人久久一区二区三区| 国产精品福利一区| 日韩精品一区二区三区老鸭窝| 国产视频一区在线播放| 一夲道无码人妻精品一区二区| 亚洲A∨精品一区二区三区下载| 国产精品一区二区三区99| 日韩精品无码一区二区中文字幕| 日韩精品一区二区午夜成人版| 色窝窝无码一区二区三区| 国产精品第一区第27页| 韩国精品一区视频在线播放| 无码精品人妻一区二区三区免费看 | 国产精品一区二区久久| 丝袜人妻一区二区三区| 高清一区二区在线观看| 国产福利在线观看一区二区|