1月11日,阿里云宣布第八代企業(yè)級通用計算實例ECS g8i算力再升級,國內(nèi)首發(fā)代號Emerald Rapids的第五代英特爾至強可擴展處理器,依托阿里云自研的“飛天+CIPU”架構(gòu)體系,ECS g8i實例的整機性能最高提升85%,AI推理性能最高提升7倍,可支撐高達72B參數(shù)的大語言模型。
阿里云彈性計算產(chǎn)品線總經(jīng)理張獻濤表示:“阿里云ECS g8i實例的強勁表現(xiàn),證明了以CPU為中心的計算體系同樣具備加速AI推理的巨大潛力,公共云不僅可勝任超大規(guī)模的AI模型,也為AI應(yīng)用加速落地開辟了新路徑。”
對此,英特爾中國數(shù)據(jù)中心和人工智能集團至強客戶解決方案事業(yè)部總經(jīng)理李亞東解釋說,最新上市的第五代英特爾至強? 可擴展處理器每個內(nèi)核均內(nèi)置 AI 加速功能,有能力處理要求嚴苛的 AI 工作負載。與上代相比,其AI訓(xùn)練性能提升多達 29%,AI推理能力提升高達 42%。
生成式AI掀起的技術(shù)革命,正在推動計算范式發(fā)生根本性的變化。當前,AI大模型推理在算力上依然面臨諸多挑戰(zhàn),例如首包延遲受限于并行處理能力與浮點運算能力、吞吐性能則受限于內(nèi)存帶寬和網(wǎng)絡(luò)延遲等。
阿里云ECS g8i實例針對這些難題進行了優(yōu)化,包括內(nèi)置指令集從AVX512升級到了Intel AMX高級矩陣擴展加速技術(shù),可讓生成式AI更快運行。相對于AVX512指令集,啟用AMX AI加速后,ECS g8i 實例在int 8矩陣計算的性能最高提升7倍。基于AMX AI加速能力,g8i可更迅速地響應(yīng)中小規(guī)模參數(shù)模型,運行知識檢索、問答系統(tǒng)及摘要生成等AI工作負載時,起建成本相比A10 GPU云服務(wù)器下降50%。
與此同時,基于自研eRDMA超低延時彈性網(wǎng)絡(luò),阿里云g8i實例集群擁有超低延時網(wǎng)絡(luò)和高彈性優(yōu)勢,可支撐72B參數(shù)級別的大語言模型分布式推理,推理性能隨集群規(guī)模接近線性加速,并可支持超過32batchsize的超大參數(shù)規(guī)模的AI模型負載,運行文生圖、AI生成代碼、虛擬助手以及創(chuàng)意輔助工具等AI工作負載。
以阿里云通義千問開源的Qwen-72B大模型為例,可在g8i實例eRDMA網(wǎng)絡(luò)構(gòu)建的集群實現(xiàn)高效運行,在輸入小于500字情況下,首包延時小于3秒,每秒可生成7個Token。
本文鏈接:阿里云:CPU為中心的計算體系也可加速AI推理http://www.lensthegame.com/show-11-2124-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責(zé)任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇: 數(shù)學(xué)筑基,軟件突圍