阿里云：CPU為中心的計算體系也可加速AI推理

2024-01-13 13:52:11 來源：中國科學報

觀看：238

1月11日，阿里云宣布第八代企業級通用計算實例ECS g8i算力再升級，國內首發代號Emerald Rapids的第五代英特爾至強可擴展處理器，依托阿里云自研的“飛天+CIPU”架構體系，ECS g8i實例的整機性能最高提升85%，AI推理性能最高提升7倍，可支撐高達72B參數的大語言模型。

阿里云彈性計算產品線總經理張獻濤表示：“阿里云ECS g8i實例的強勁表現，證明了以CPU為中心的計算體系同樣具備加速AI推理的巨大潛力，公共云不僅可勝任超大規模的AI模型，也為AI應用加速落地開辟了新路徑。”

對此，英特爾中國數據中心和人工智能集團至強客戶解決方案事業部總經理李亞東解釋說，最新上市的第五代英特爾至強? 可擴展處理器每個內核均內置 AI 加速功能，有能力處理要求嚴苛的 AI 工作負載。與上代相比，其AI訓練性能提升多達 29%，AI推理能力提升高達 42%。

生成式AI掀起的技術革命，正在推動計算范式發生根本性的變化。當前，AI大模型推理在算力上依然面臨諸多挑戰，例如首包延遲受限于并行處理能力與浮點運算能力、吞吐性能則受限于內存帶寬和網絡延遲等。

阿里云ECS g8i實例針對這些難題進行了優化，包括內置指令集從AVX512升級到了Intel AMX高級矩陣擴展加速技術，可讓生成式AI更快運行。相對于AVX512指令集，啟用AMX AI加速后，ECS g8i 實例在int 8矩陣計算的性能最高提升7倍。基于AMX AI加速能力，g8i可更迅速地響應中小規模參數模型，運行知識檢索、問答系統及摘要生成等AI工作負載時，起建成本相比A10 GPU云服務器下降50%。

與此同時，基于自研eRDMA超低延時彈性網絡，阿里云g8i實例集群擁有超低延時網絡和高彈性優勢，可支撐72B參數級別的大語言模型分布式推理，推理性能隨集群規模接近線性加速，并可支持超過32batchsize的超大參數規模的AI模型負載，運行文生圖、AI生成代碼、虛擬助手以及創意輔助工具等AI工作負載。

以阿里云通義千問開源的Qwen-72B大模型為例，可在g8i實例eRDMA網絡構建的集群實現高效運行，在輸入小于500字情況下，首包延時小于3秒，每秒可生成7個Token。

本文鏈接：阿里云：CPU為中心的計算體系也可加速AI推理http://www.lensthegame.com/show-11-2124-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：數學筑基，軟件突圍

下一篇：高山書院學術管理委員會在京成立

阿里云：CPU為中心的計算體系也可加速AI推理

熱門資訊

推薦資訊

科學最熱文章