11月15日,在第六屆中國超級算力大會上,《2024中國算力發展研究報告之超智融合技術路線與趨勢》(以下簡稱“研究報告”)正式發布。作為首部“超智融合研究報告”,這份報告由國家信息中心信息化和產業發展部主任單志廣、中國信息通信研究院云計算與大數據研究所所長何寶宏、中國科學院計算技術研究所研究員張云泉等共同主編。
研究報告就人工智能發展催生海量算力需求背景下,超智融合技術的發展與創新路徑、應用場景和實踐案例等做了系統性歸納與分析。研究報告指出,超智融合是一個循序漸進的發展過程,其相關技術融合了超算強大的數據處理能力與人工智能的算法優化能力,可有效解決人工智能等新興產業的算力瓶頸,推動計算技術發展。
兼容主流計算生態是超智融合技術的發展必然趨勢。當前超算領域基于x86CPU和GPU架構已積累海量應用軟件,在人工智能等領域已占據超90%的市場份額。要實現“超智融合”目標,需要具備支撐主流計算生態的算力系統,否則將給開發者帶來巨大移植負擔。
這需要“超智融合”算力系統,不僅要在算力架構層面實現CPU+GPU融合的網絡架構,還需在算力調度、算力運營等方面,形成高效分配核心,以及統一的服務平臺。在此過程中,通用全精度高算力芯片正成為關鍵技術。
“傳統超級計算機提供的是雙精度浮點運算,主要用于解決數值模擬和第一性原理計算等科學計算。而智算系統提供的是半精度或整數運算,主要面向人工神經網絡模型的訓練和推理。”何寶宏介紹,以新型GPU為代表的通用全精度高算力芯片作為研制智能超算系統的硬核技術,英偉達、英特爾等國際廠商已在布局研制。
伴隨人工智能技術不斷融入各行業應用領域,AI應用場景正變得復雜,單純的半精、整型算力環境已難以滿足如蛋白質結構預測、新材料設計、天氣預報、大規模分子模擬等AIforScience場景中。因此,通過單一芯片平臺提供全精度和混合精度計算,成為“超智融合”發展背景下的算力基礎設施發展趨勢。
“超算中心將向超智融合計算中心演進,并伴隨眾多如:全精度大算力高互連通用加速芯片、面向傳統并行計算和分布式訓練的編程模型、面向HPC&AI應用的智能化資源管理與作業調度工具等新型技術與應用的創新。”張云泉說。
研究報告還顯示,超智融合并非簡單的“超算+智算”堆疊,而是從芯片到計算、存儲、網絡,算力調度、系統運維的體系化融合,包含了數據融合、算法融合、業務融合、基礎設施融合等多維度。
單志廣介紹,超算與智能計算的融合是一種雙向賦能,將重塑計算科學、IT產業的格局。如在材料科學中,通過超算模擬原子和分子層面的相互作用而產生的性能數據,可幫助智算訓練預測新材料特性的模型,加速新材料的研發進程。
中國科學院院士、北京航空航天大學計算機學院教授錢德沛表示,高性能計算與AI未來有望走向融合態勢,并將呈現出三個階段性的特征:一是超算支撐AI應用(ForAI),利用強大算力來提升AI性能;二是AI改進傳統超算(ByAI),通過AI技術使計算系統更加智能和高效;三是超智實現內生融合(BeingAI),使AI成為計算系統的核心,實現算力和算法的持續優化。
此外,研究報告還介紹了“流體仿真的AI方法”、“科研‘模型+數據驅動’演進”、“國家超算互聯網建設”等前沿“超智融合”實踐案例。(戰釗)
請輸入驗證碼