C114通信網(wǎng)  |  通信人家園

資訊
2024/9/14 14:20

中國(guó)移動(dòng)原創(chuàng)GSE技術(shù)在超萬(wàn)卡智算中心首次規(guī)模商用

C114通信網(wǎng)  

中國(guó)移動(dòng)積極響應(yīng)國(guó)家關(guān)于加快算力基礎(chǔ)設(shè)施建設(shè)的號(hào)召,8月30日正式投產(chǎn)中國(guó)移動(dòng)智算中心(哈爾濱),部署超1.8萬(wàn)張國(guó)產(chǎn)GPU卡,可提供高達(dá)6.9EFLOPS的強(qiáng)大智能算力,成為全球運(yùn)營(yíng)商最大單集群智算中心,可為萬(wàn)億級(jí)模型訓(xùn)練提供高效、穩(wěn)定的算力底座。大模型需要大算力,大算力需要高性能網(wǎng)絡(luò)。智算中心高性能網(wǎng)絡(luò)技術(shù)長(zhǎng)期被西方科技巨頭壟斷,本項(xiàng)目首次商用中國(guó)移動(dòng)原創(chuàng)提出的全調(diào)度以太網(wǎng)(GSE 1.0)技術(shù)方案,將訓(xùn)練過程中的通信時(shí)間占比縮短20%以上,達(dá)到國(guó)際領(lǐng)先水平。

原創(chuàng)GSE技術(shù)體系,打造”AI網(wǎng)絡(luò)的中國(guó)方案”

傳統(tǒng)智算中心網(wǎng)絡(luò)技術(shù)主要包括InfiniBand和RoCE兩種技術(shù)路線,InfiniBand作為英偉達(dá)GPU配套的私有網(wǎng)絡(luò)方案,在市場(chǎng)中占據(jù)重要地位,但其產(chǎn)業(yè)開放性、部署成本面臨挑戰(zhàn)。而RoCE底層采用傳統(tǒng)以太網(wǎng),產(chǎn)業(yè)開放性好,但性能受到制約。隨著AI大模型的快速發(fā)展,智算中心網(wǎng)絡(luò)的技術(shù)已經(jīng)成為全球人工智能巨頭關(guān)注的焦點(diǎn),其核心是新一代以太網(wǎng)技術(shù)突破。

在這一背景下,中國(guó)移動(dòng)抓住智算中心網(wǎng)絡(luò)升級(jí)換代的契機(jī),2023年5月發(fā)布了全調(diào)度以太網(wǎng)技術(shù)(GSE),與此類似,同年7月,Meta、微軟、博通等9家西方AI巨頭提出了超以太網(wǎng)(UEC)技術(shù),技術(shù)愿景和核心理念與GSE基本一致,GSE與UEC成為全球新一代智算中心網(wǎng)絡(luò)的兩大主流技術(shù)。

為兼顧智算中心建設(shè)節(jié)奏和技術(shù)發(fā)展需求,中國(guó)移動(dòng)將全調(diào)度以太網(wǎng)技術(shù)劃分為GSE1.0和GSE2.0兩個(gè)商用階段,其中,GSE1.0旨在快速滿足近兩年智算中心超萬(wàn)卡建設(shè)需求,基于現(xiàn)有芯片最大限度優(yōu)化上層協(xié)議,提升網(wǎng)絡(luò)性能。GSE2.0旨在滿足未來智算中心超高網(wǎng)絡(luò)性能需求,全面革新以太網(wǎng)底層轉(zhuǎn)發(fā)機(jī)制和上層協(xié)議棧,并研發(fā)全新高速以太網(wǎng)交換芯片,從根本上解決傳統(tǒng)以太網(wǎng)性能不足的問題。

突破組網(wǎng)和工程難題,基于GSE1.0構(gòu)建超萬(wàn)卡集群

為實(shí)現(xiàn)GSE1.0技術(shù)體系在超萬(wàn)卡集群規(guī)模應(yīng)用,還需要突破超大規(guī)模集群網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)和超高可靠工程實(shí)施兩大難題。

面對(duì)超萬(wàn)卡大規(guī)模網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),項(xiàng)目組在芯片制程受限的情況下,綜合考慮建設(shè)成本、網(wǎng)絡(luò)性能和可靠性,提出自主可控框式設(shè)備+盒式設(shè)備兩層組網(wǎng)架構(gòu),并開展仿真分析和實(shí)驗(yàn)室測(cè)試,驗(yàn)證了數(shù)十種參數(shù)組合方案,確定了最優(yōu)配置,實(shí)現(xiàn)了高性能、超萬(wàn)卡目標(biāo)。

超萬(wàn)卡集群中,因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷次數(shù)約占整個(gè)故障的40%,不僅嚴(yán)重影響訓(xùn)練效率,還增加了運(yùn)維成本。項(xiàng)目組聯(lián)合合作伙伴推出了任務(wù)劣化實(shí)時(shí)感知以及網(wǎng)絡(luò)故障精準(zhǔn)定位等技術(shù),顯著降低因網(wǎng)絡(luò)故障導(dǎo)致的訓(xùn)練中斷時(shí)間,避免算力損失,助力集群高可用。

全調(diào)度以太網(wǎng)GSE1.0已經(jīng)實(shí)現(xiàn)超萬(wàn)卡集群規(guī)模商用,當(dāng)前中國(guó)移動(dòng)及合作伙伴正在加快GSE2.0技術(shù)攻關(guān)和標(biāo)準(zhǔn)制定,并推動(dòng)研發(fā)51.2T及以上GSE交換芯片,力爭(zhēng)提升網(wǎng)絡(luò)性能超50%,支撐未來十萬(wàn)卡規(guī)模智算中心建設(shè)。同時(shí),中國(guó)移動(dòng)積極承擔(dān)推動(dòng)AI產(chǎn)業(yè)和智算網(wǎng)絡(luò)發(fā)展的央企責(zé)任,攜手“GSE推進(jìn)計(jì)劃”的40余家產(chǎn)學(xué)研合作伙伴,共同推動(dòng)GSE技術(shù)和產(chǎn)業(yè)生態(tài)發(fā)展,希望將GSE技術(shù)體系打造成為全球主流AI網(wǎng)絡(luò)技術(shù)方案,為世界貢獻(xiàn)中國(guó)智慧,助力全球AI產(chǎn)業(yè)發(fā)展。

給作者點(diǎn)贊
0 VS 0
寫得不太好

  免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141