3月14日,清華大學高性能計算研究所教授翟季冬團隊與清華系科創企業“清程極智”聯合宣布,開源大模型推理引擎“赤兔Chitu”。據介紹,該引擎首次實現在非英偉達Hopper架構GPU及各類國產芯片上原生運行FP8精度模型,為國產AI芯片的廣泛應用和生態建設掃除了障礙。
當前,FP8精度模型長期依賴英偉達H系列高端GPU,這使得國內企業在部署大模型時受限于AI芯片的限制。為打破這一困境,清華大學與清程極智聯合開源的“赤兔”推理引擎通過底層技術革新,首次實現了非H卡設備(包括英偉達Hopper架構之前的GPU卡及各類國產卡)對原生FP8模型的高效部署,擺脫對特定硬件的依賴,極大地降低了企業部署AI模型的門檻和成本。
翟季冬介紹說,赤兔凝結了團隊多年并行計算與編譯優化技術積累,目標是“彌合先進模型與多樣化硬件之間的差距,讓國產算力真正‘跑起來’”。
“赤兔的定位是成為連接多元算力與大模型應用的橋梁。”清程極智CEO湯雄超表示:“我們不僅支持英偉達全系列GPU,還針對國產芯片深度優化,未來將陸續開源適配版本。”
在首期開源版本中,赤兔引擎部署DeepSeek-R1-671B滿血版時(在A800集群的測試中)相比部分國外開源框架,GPU使用量減少50%的情況下推理速度仍有3.15倍提速。
翟季冬介紹說,這意味著企業可以用更少的硬件資源獲得更高的推理性能,大大降低了部署門檻和運營成本。同時,赤兔引擎的技術可實現模型效果不受損。這一成果源于團隊對GeMM、MoE等核心算子的指令級優化,直接處理FP8數據而非簡單量化,確保模型精度無損。
目前,赤兔引擎目標建立覆蓋從純CPU到大規模集群的全場景大模型部署需求,適配英偉達多款GPU及多款國產芯片。同時面對市場上不同的大模型算力優化需求,赤兔支持低延遲、高吞吐、小顯存三方面優化,用最低成本實現最高性能。
另據介紹,清程極智還推出了基于赤兔的“推理一體機”,提供開箱即用部署方案及專業運維服務,進一步簡化企業AI落地流程。 湯雄超表示,當前國內在推理引擎這一核心環節,仍缺乏生產級開源產品,而開源“赤兔”引擎是助力國內AI生態建設的重要一步。
為加速生態建設,赤兔團隊與多家國產芯片廠商展開合作,開放代碼貢獻通道,縮短硬件適配周期。“開源不僅是技術共享,更是為國產芯片‘搶時間’,當新模型或數據類型出現時,赤兔能助力國產芯片跟上國際節奏,縮小與國際先進芯片之間的‘時間差’。”湯雄超表示,隨著“赤兔”引擎的開源,“國產大模型+國產引擎+國產芯片”技術閉環正在加速成型,中國大模型產業從技術到生態的全面突破“已按下加速鍵”。
本文鏈接:讓國產算力跑起來!大模型推理引擎“赤兔”開源http://www.lensthegame.com/show-11-18640-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 《北京高質量發展報告(2025)》發布
下一篇: “國際數學日”盡享數學之美