C114通信網(wǎng)  |  通信人家園

資訊
2024/9/18 10:28

NICC新型智算技術(shù)體系助力哈爾濱萬卡集群建成投產(chǎn)

C114通信網(wǎng)  

8月30日,中國移動智算中心(哈爾濱)建成投產(chǎn),全球運營商最大單集群智算中心就此誕生,標志著中國移動在智算領(lǐng)域技術(shù)創(chuàng)新的重要突破。中國移動在此次項目中展現(xiàn)出強大的技術(shù)實力和創(chuàng)新能力,通過總體方案設(shè)計和一系列戰(zhàn)略性的創(chuàng)新技術(shù),不僅為“AI+”行動提供了技術(shù)支持,更為國內(nèi)智算產(chǎn)業(yè)的健康發(fā)展奠定了堅實的基礎(chǔ)。

在智算技術(shù)體系的不斷演進中,大模型的發(fā)展正成為推動人工智能前沿的關(guān)鍵力量。遵循Scaling Law的趨勢,大算力仍然是大模型創(chuàng)新落地的關(guān)鍵。大模型的參數(shù)量已經(jīng)達到了萬億,甚至十萬億的量級,標志著大模型處理復雜任務的能力邁入了一個新的階段。為了將這一發(fā)展趨勢融入哈爾濱萬卡集群智算中心,中國移動研究院智算團隊在總體方案設(shè)計和技術(shù)創(chuàng)新方面提供了有力保障。

系統(tǒng)性總體設(shè)計,為智算中心保駕護航

在中國移動集團各部門的指導下,研究院智算團隊打造了標準統(tǒng)一、技術(shù)領(lǐng)先、軟硬協(xié)同、兼容開放的NICC新型智算技術(shù)體系,旨在為哈爾濱萬卡集群硬件資源的高效利用和軟件算法的優(yōu)化配置奠定技術(shù)基礎(chǔ),支撐上層高質(zhì)量的智算服務。

萬卡集群的構(gòu)建,并非簡單的數(shù)量堆砌,從千卡到萬卡的跨越,是一個技術(shù)復雜度呈指數(shù)級上升的過程。在總體設(shè)計中,研究院智算團隊圍繞“新互聯(lián)、新算效、新存儲、新平臺、新節(jié)能”五大創(chuàng)新技術(shù)領(lǐng)域,打造了《中國移動NICC新型智算中心技術(shù)體系》,對智算技術(shù)進行了系統(tǒng)性重構(gòu)和前瞻布局。

五大技術(shù)能力,助力哈爾濱萬卡集群創(chuàng)新突破

新互聯(lián):整合GSE全調(diào)度以太網(wǎng)和OISA卡間互聯(lián)技術(shù),構(gòu)建高性能、低延遲的內(nèi)外部互聯(lián)網(wǎng)絡,為大模型的升級迭代提供強有力的支持。在NICC新型智算技術(shù)體系中,新互聯(lián)技術(shù)是提升集群整體性能的關(guān)鍵,包括GSE全調(diào)度以太網(wǎng)和OISA卡間互聯(lián)兩大技術(shù)。

在智算服務器間的網(wǎng)絡構(gòu)建方面,中國移動原創(chuàng)提出了全調(diào)度以太網(wǎng)技術(shù)(GSE),這一技術(shù)通過全調(diào)度轉(zhuǎn)發(fā)機制和集中管理,實現(xiàn)了大規(guī)模、高帶寬、低時延的網(wǎng)絡性能,為智算中心的高效運作提供了堅實的網(wǎng)絡基礎(chǔ)。GSE1.0在哈爾濱萬卡集群的規(guī)模商用,充分證明了這一架構(gòu)在實際應用中的成熟與可靠性。

在智算服務器內(nèi)部,GPU卡間的互聯(lián)技術(shù)是提升單臺服務器計算效率的核心因素。為應對傳統(tǒng)PCIe總線帶寬限制和私有協(xié)議性能瓶頸的雙重挑戰(zhàn),中國移動積極推動全向智感開放互聯(lián)(OISA)技術(shù)的創(chuàng)新,通過制定高速互聯(lián)協(xié)議等工作與GPU芯片、交換芯片、服務器制造商等合作伙伴建立緊密的合作關(guān)系,未來有望突破卡間互聯(lián)的技術(shù)瓶頸,共同推動國內(nèi)AI芯片的升級迭代。

新算效:通過引入GPU扣卡模組和DPU,在提升計算密度的同時,確保了系統(tǒng)的可靠性和穩(wěn)定性,為數(shù)據(jù)處理提供極致效率。GPU扣卡模組方案有助于在有限的空間內(nèi)容納更多的計算資源,提升計算密度。這種高密度部署對于提升萬卡集群整體的能效比和空間利用率至關(guān)重要。由于扣卡模組采用一體化的設(shè)計,減少了因插卡接觸不良或機械磨損導致的故障風險,從而提高了智算中心整體的穩(wěn)定性和維護的便捷性。

此外,數(shù)據(jù)處理單元DPU作為哈爾濱萬卡集群的關(guān)鍵芯片之一,專門設(shè)計用于提供網(wǎng)絡、存儲、安全和管理等基礎(chǔ)設(shè)施的虛擬化能力,它以極低的損耗、強大的數(shù)據(jù)處理能力、高度的靈活性和安全性,為哈爾濱萬卡集群的智算服務提供強有力的支持。面對DPU軟硬件標準化和高性能網(wǎng)絡的雙重挑戰(zhàn),研究院深度參與制定了DPU應用方案,滿足智算業(yè)務對“零丟包”、低時延、高吞吐網(wǎng)絡的要求,并通過DPU與RDMA(遠程直接內(nèi)存訪問)技術(shù)的協(xié)同,進一步提升萬卡集群算效。

新存儲:多協(xié)議融合存儲技術(shù)的引入使得智算中心高效地處理海量非結(jié)構(gòu)化數(shù)據(jù),為人工智能應用提供了堅實的數(shù)據(jù)基石。在NICC新型智算技術(shù)體系中,引入多協(xié)議融合存儲技術(shù),有效滿足了智算中心對海量非結(jié)構(gòu)化數(shù)據(jù)存儲和多協(xié)議訪問的需求。面對當前融合存儲技術(shù)在語義轉(zhuǎn)換和安全策略上的挑戰(zhàn),研究院智算團隊與產(chǎn)業(yè)合作伙伴聯(lián)手,制定統(tǒng)一的存儲框架,重新設(shè)計了存儲底層數(shù)據(jù)結(jié)構(gòu),實現(xiàn)了多協(xié)議的原生融合,從而提高了數(shù)據(jù)訪問的靈活性和高效性。哈爾濱萬卡集群也成為業(yè)內(nèi)首個大規(guī)模應用融合存儲的智算中心。

新平臺:算力池化加異構(gòu)混訓技術(shù),使能多廠商異構(gòu)智算資源動態(tài)分配和靈活整合,顯著提升資源利用率。在NICC新型智算技術(shù)體系中,通過軟件定義的方式,實現(xiàn)了資源從集中調(diào)度到按需分配、動態(tài)伸縮和碎片聚合的多維度敏捷化管理。不僅能夠?qū)Ξ悩?gòu)智算資源進行有效的池化整合,根據(jù)實際業(yè)務需求進行精細化的資源分配,還能智能地感知業(yè)務負載的變化,實現(xiàn)資源在不同智算任務間的動態(tài)遷移,以及小顆粒度碎片的聚合管理,從而提升智算資源的利用率。

未來,大規(guī)模的智算集群可能部署來自不同廠家的異構(gòu)算力資源。研究院將從計算策略拆解、性能預測分析、任務分發(fā)協(xié)同等技術(shù)方向入手,把訓練任務分解并在異構(gòu)GPU上并行執(zhí)行,著力構(gòu)建異構(gòu)混訓能力,進而提升萬卡集群的服務能力。

新節(jié)能:液冷技術(shù)解決了高性能智算服務器的散熱問題,兌現(xiàn)了中國移動對綠色高效算力的承諾,為萬卡集群的可持續(xù)發(fā)展提供有力支持。在NICC新型智算技術(shù)體系中,新節(jié)能技術(shù)的應用對實現(xiàn)綠色高效算力至關(guān)重要。隨著AI芯片性能提升,功耗也隨之增加,對散熱系統(tǒng)提出了更高要求。傳統(tǒng)的風冷散熱已無法滿足高性能智算服務器的散熱需求,因此,液冷成為解決散熱問題和提高能效的首選技術(shù),有效應對智算中心面臨的散熱壓力。在綜合考慮成本、可維護性、能源效率和產(chǎn)業(yè)成熟度后,冷板式和單相浸沒式液冷因其在多個方面的顯著優(yōu)勢成為當前主流解決方案。未來,中國移動將繼續(xù)推進優(yōu)化液冷環(huán)境下的運維和管理,推動產(chǎn)業(yè)生態(tài)成熟,從而提升智算中心的能效利用水平,確保超萬卡集群的可持續(xù)發(fā)展。

繼往開來,持續(xù)推進全棧技術(shù)的創(chuàng)新應用

NICC新型智算技術(shù)體系,以其“新互聯(lián)、新算效、新存儲、新平臺、新節(jié)能”五大領(lǐng)域的系統(tǒng)性重構(gòu),為哈爾濱萬卡集群注入了強大的技術(shù)動力,在我國萬卡集群的發(fā)展上起到關(guān)鍵作用。

當前,超萬卡集群、甚至超十萬卡集群正逐漸成為行業(yè)發(fā)展的新趨勢,中國移動率先發(fā)布《面向超萬卡集群的新型智算技術(shù)白皮書》,系統(tǒng)性闡述了超萬卡集群核心設(shè)計原則和關(guān)鍵技術(shù)。面向未來更大規(guī)模智算中心技術(shù)體系的構(gòu)建,將不僅僅是技術(shù)層面的突破,更是對未來智算發(fā)展的深遠布局,中國移動將持續(xù)推動全調(diào)度以太網(wǎng)GSE 2.0、全向智感互聯(lián)OISA、芯合算力原生CAMA等關(guān)鍵技術(shù)的成熟落地,為大規(guī)模智算集群的落地實施做好技術(shù)準備。同時,我們也將與合作伙伴攜手并進,共克難關(guān),推動國產(chǎn)智算設(shè)施實現(xiàn)新的突破,為智算產(chǎn)業(yè)的發(fā)展貢獻智慧和力量。

給作者點贊
0 VS 0
寫得不太好

  免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141