2023年,全球科技發展躍步向前——二維晶體管問世、ChatGPT迭代、萬米深井鉆探、人腦細胞圖譜繪制……作為科學發現和工程實現的幕后英雄,高性能計算(即“超算”)在過去的一年發展如何?在計算速度之外,未來我們更需要關注些什么?
近日,中國科學院院士、北京航空航天大學教授錢德沛接受了《中國科學報》獨家專訪,為我們作了回顧、分析、研判和展望。
錢德沛 圖片由本人提供
回顧:中國超算發展進入新階段
《中國科學報》:請先大體介紹下,中國超算的發展近況如何?
錢德沛:
近一兩年雖然比較難,但中國超算無論建設規模還是應用水平都有了新的進步,事業發展已經進入了一個新階段。
中國超算是從2000年之后開始走上“快車道”的,并在過去20多年里取得了舉世矚目的成就。可以說,如果沒有過去這些年國內經濟的快速發展和各級各地政府的支持,就沒有中國超算的今天。
但與美國相比,中國超算的規模和應用水平仍還有不少差距。應該看到,美國在超算領域的投入是遠超我們的,比如2018年開始的美國能源部E級計算計劃(ECP),僅在研制E級超級計算機方面就投入了18億美元,對E級計算應用和運維的投入也接近這個數量。對比而言,中國超算在有限投資下取得的成就還是令人滿意的。
《中國科學報》:在剛剛過去的2023年,超算領域讓你印象深刻的事件有哪些?
錢德沛:
至2023年,美國規劃的3臺百億億次超級計算機(E級超算)已經有2臺問世,分別是部署于美國橡樹嶺國家實驗室的Frontier和新近在美國阿貢國家實驗室完成部署的半規模的Aurora。Aurora全系統完成后計算性能峰值將超過2 Exaflops,預計2024年問世,在全球超算TOP500榜單上將超過Frontier,成為新的世界第一超算。
2023年國內超算領域的一件大事是國家超算互聯網工作啟動部署。
超算互聯網的一大目標是,通過緊密連接供需雙方,探索一種新的運營模式和服務體系,不僅算力資源可以統籌調度,在應用層也可實現互聯共享。我認為這件事的關鍵是要讓供需雙方都能有更好的獲得感,在這個前提下,帶動我國計算技術向更高水平發展,推動自主核心軟硬件技術深度應用。
《中國科學報》:自力更生、超算互聯、普惠應用、超智融合、低碳綠色……這幾個詞中,哪幾個詞語更能代表中國超算在過往一年的發展特點?
錢德沛:
“自力更生”是中國超算多年來一直在踐行的,“低碳綠色”也是大家多年來的共同目標,所以這兩個詞匯并不算是2023年的特點。
能夠代表2023年特點的詞,我想“超算互聯”和“超智融合”是比較有共識的。超算互聯前面說了,超智融合今年也是談論比較多的話題。至于“普惠應用”,我覺得2023年我們的超算還沒有達到這個階段,這也是我們要努力的一個目標。
分析:融合發展與協同優化成為關鍵詞
《中國科學報》:2023年是“大模型年”“AIGC元年”,超算也在加速與AI融合,驅動科學研究、行業應用進入數智時代。對于超算和智算的融合,你認為有哪些需要關注的點?
錢德沛:
超算和智算本質都是計算。超算的“超級”是階段性的概念,是對更高計算能力的描述;智算是支撐智能應用的計算基礎設施,只不過人們從狹義上賦予了它們基于各自特征的名字,支持傳統的數值計算的叫超算,使用深度學習模型和開放數據的計算叫智算。人們談論的融合也是基于這兩類算力特征在能力、應用等層面的統一。
從這個認識前提出發,超智融合是一種客觀存在,這其中我認為有兩方面的工作需要關注。第一,要突破二者技術層面上的互相借用,找到相互的支撐點;第二,要注意應用的牽引,從應用出發,發揮智算和超算各自的潛能。
中國現階段的算力發展受到的外部制約條件比較多,智算和超算在硬件層面、算法層面、軟件層面和應用層面的融合,有望促進系統的深度優化。如果能做到這樣,也將是中國計算發展取得新突破的一個有效路徑。
《中國科學報》:人們往往會更關注超算的計算速度或者算力峰值,而對其他指標關注較少。從整機性能來看,我們還應該關注超算的哪些方面?
錢德沛:
超算的計算速度直接反映著計算系統的能力,理所當然地成為大眾關注的重點。但確實,制約超算整體性能發揮和應用水平的因素還有很多,比如存儲、互連、軟件等等,有時候這些因素對超算整體性能的制約更大。
因此,超算系統的性能優化也不應該只盯著計算核心,要結合存儲設備、互連網絡、加速硬件等一起來看,從軟硬件協同上下功夫。我們的核心計算芯片相比國際先進水平目前仍有差距,更應該從協同優化上多做文章,這樣才能讓我們的超算系統即便在現階段還不那么先進的芯片的基礎上,在某些領域或某一類應用中也能發揮出優異的性能。
軟硬件協同深度優化是有案例可循的。例如,美國D. E. Shaw研究所就用專門設計的ASIC芯片搭建了分子動力學模擬專用計算機(Anton machine),通過算法創新和軟硬件協同,在分子動力學模擬中獲得了比通用計算機高出百倍的計算能效,這是非常值得我們借鑒的。
《中國科學報》:你剛才提到了軟硬件協同,我國超算軟件的發展現況如何?
錢德沛:
對于計算機而言,軟件的重要性不亞于硬件。當前,我國自主超算應用軟件的發展仍滯后于超級計算機硬件系統,是我國超算事業中一個亟待補齊的短板。
事實上,國家一直在支持自主超算應用軟件的發展,先后支持過數十個超算應用軟件的開發與推廣使用,但多數目前仍停留在自研自用的“超算應用程序”的形態,還沒有真正實現“軟件化”,更難言商業成功。這與我國超算自主應用軟件用戶數量少、產品化能力弱、運營推廣不足等原因有關。
所以剛才講“軟硬協同”,也是在講軟件開發一定要和硬件優化配合起來。我國自主研發的超級計算機的計算核心是國產芯片,許多大型商業軟件并不能直接拿來用,因此適配國產芯片的超算軟件的研發是真正發揮我國超算作用的必由之路。換句話說,我國的超算的應用生態,只能依靠自己來建設。
研判:要應對數據規模提出的新命題
《中國科學報》:如今的計算應用,數據規模都不小,尤其在分布式算力中心環境下,數據的放置對于應用的性能和能耗影響都很大,市面上也出現了建設數據密集型超算的做法。對此你怎么看?
錢德沛:
過去我們常將計算機分為兩類:以控制器為中心和以存儲器為中心的體系結構,其實就是CPU和存儲器哪個被放在“中心”的位置。自事務處理應用涌現后,大家越來越強調數據存儲的重要性。
其實,制約超算性能的一大原因就是“存儲墻”,因為存儲器的速度和處理器速度之間的差距在加大,“存儲墻”對計算性能的影響就越來越明顯。從這個角度看,在大數據和人工智能興起的背景下,數據密集型超算的提法是有道理的,符合事物發展的規律。
但是,人工智能應用不是只強調數據量大或計算量大,而是二者都有。也就是說,數據密集型超算要應對的是數據和計算量的雙重密集,這是應用特點決定的。
隨著科學智能時代來臨,應用場景如氣象海洋、基因測序、高能物理、新材料設計等,對大計算和大數據的要求并重,數據的重要性日益凸現,存儲性能面臨更高挑戰。數據密集型超算是超算結合了人工智能、大數據等新一代應用需求和技術特點后產生的一種計算類型,是高性能計算領域的一個有益創新探索。
《中國科學報》:數據正成為新的生產資料,這使得存力的基礎地位日益彰顯。我國超算目前常面臨“重算力、輕存力”的現狀。對于解決這一問題你有什么想法?
錢德沛:
過去由于成本、預算等原因,一些超算中心在建設之初沒有配備足夠的存儲能力,往往需要在運行過程中根據業務需要陸續擴展存儲,這一現象確實存在。這并不是不重視存力,而是在經費限制條件下的一種策略。
存儲歷來是與計算緊密耦合的,但從產業角度來看,如果存儲系統的可擴展性和一致性維護等基本功能都做得很好,成為一個標準化的、模塊化的東西,那么存儲其實也可以抽象成為一層獨立的基礎設施。如果存力設施可以像標準化的服務器一樣使用,用戶無須知道存儲系統的軟硬件架構和內部實現細節,只需知道連接的東西是一個數字基礎底座、可以按需配備和使用,這對于解決存算失調問題或許是一條可行路徑。
展望:中國超算未來要“以應用論英雄”
《中國科學報》:現在全球超算競爭的焦點有什么變化嗎?
錢德沛:
全球圍繞超算的競爭一直存在,圍繞計算性能、IO能力、能耗、支持AI的能力等,這些都對應著一些排名榜單。
但現在圍繞應用效果的比拼是值得關注的。可以看到,美國這些年來受益于計算能力的領先,在超級計算技術的幫助下促進了其軍事、科技和產業的進步。我們也要在真正發揮超算作用方面下大力氣,想辦法讓超算更好用、讓更多人用好超算,用超算促進各行各業的發展。
《中國科學報》:進入2024年,請展望一下,超算在未來有哪些重要的發展趨勢?
錢德沛:
中國未來要更多以應用論英雄。
現在許多領域已經是離開計算就“玩不轉”了,比如高能物理、生命科學、氣象預報、航空航天、汽車制造等等,可以預見社會每個領域的發展,都可以借助計算來優化。所以未來中國的超算也好、智算也好,努力的方向就是要真正發揮出實效。
我們發展超算的思路一直都是強調機器、環境、應用的協調均衡發展,這三者相輔相成,缺一不可。沒有強大的計算能力,一切都是無根之木,而超算能力若不能被很好地利用,就無法體現其價值。所以,我們要創造好的物理平臺,讓三方面的人能夠聚合交流,一起工作,使超算真正成為被廣泛利用的資源。
超算不應該是只有少數人用得起、用得上的“神器”,而是越多人參與、越多人使用越好。所以,未來超算不要只盯著計算速度提高了多少,還要更多以應用論英雄:一臺超算越好用、用的人越多,越是“英雄”;超算用戶使用超算用得越好、越巧妙,越是“英雄”。
本文鏈接:最新研判!錢德沛院士:超算亟待協同優化http://www.lensthegame.com/show-11-2255-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。