C114通信網(wǎng)  |  通信人家園

 
2024/12/16 10:03

江蘇移動完成業(yè)界首個(gè)跨多DC智算無損組網(wǎng)測試,落地驗(yàn)證分布式智算協(xié)同訓(xùn)練技術(shù)可行

C114通信網(wǎng)  

近日,公司打造的業(yè)界首個(gè)多DC分布式、非對稱、超百公里協(xié)同訓(xùn)練智算網(wǎng)絡(luò)在江蘇移動長三角云計(jì)算中心完成測試,在3DC總距離1000公里的場景下,跨域分布式訓(xùn)練性能達(dá)到單智算中心訓(xùn)練性能的95%以上,標(biāo)志著多DC協(xié)同訓(xùn)練技術(shù)落地驗(yàn)證可行,并逐步向商用邁進(jìn)。

算力是數(shù)字經(jīng)濟(jì)時(shí)代的核心基礎(chǔ)設(shè)施,對促進(jìn)經(jīng)濟(jì)增長,推動科技進(jìn)步以及滿足日益增長的數(shù)據(jù)處理需求具有至關(guān)重要的作用。隨著大模型訓(xùn)練需求的持續(xù)增長,算力需求和單地域(DC)的算力不匹配問題日益突出,將多地域(DC)內(nèi)的碎片算力集中起來提升算力利用率、訓(xùn)練更大的模型成了多智算中心算間網(wǎng)絡(luò)發(fā)展的必經(jīng)之路。

圖片1.png

本次公司多DC分布式協(xié)同訓(xùn)練試點(diǎn)測試,通過3DC及以上的場景互聯(lián)、從對稱組網(wǎng)到非對稱組網(wǎng)、從環(huán)形組網(wǎng)到鏈型組網(wǎng),驗(yàn)證了多DC之間非對稱算力協(xié)同訓(xùn)練和百億、千億大模型在訓(xùn)練過程中鏈路中斷對訓(xùn)練性能的影響等,更加符合現(xiàn)網(wǎng)場景。試點(diǎn)測試結(jié)果表明,智算分布式協(xié)同訓(xùn)練解決方案已經(jīng)具備技術(shù)可行性。

本次試點(diǎn),通過3DC參數(shù)面拉遠(yuǎn)組網(wǎng),以單DC最優(yōu)性能配置為基線,使用Llama2-70B、GPT3-175B作為輸入模型,對比了跨DC協(xié)同不同參數(shù)的性能變化,測試了分布式智算集群對大模型訓(xùn)練性能影響的關(guān)鍵因素,支撐未來區(qū)域化智算集群商用可行性。該方案通過彈性靈活調(diào)度、廣域無損技術(shù)實(shí)現(xiàn)多個(gè)智算中心互聯(lián),滿足跨DC分布式智算集群靈活擴(kuò)展,支撐客戶大模型訓(xùn)練和按需部署。測試結(jié)果表明,三DC總距離千公里場景下,跨域分布式訓(xùn)練性能下降5%以內(nèi)。

未來,公司將攜手產(chǎn)業(yè)伙伴面向更大規(guī)模、更長距離的分布式智算網(wǎng)絡(luò)持續(xù)探索,堅(jiān)持走出一條符合產(chǎn)業(yè)需求的智算發(fā)展之路,提高數(shù)字經(jīng)濟(jì)時(shí)代整體產(chǎn)業(yè)的競爭力。

給作者點(diǎn)贊
0 VS 0
寫得不太好

C114中國通信網(wǎng)版權(quán)說明:凡注明來源為“C114通信網(wǎng)”的文章皆屬C114版權(quán)所有,除與C114簽署內(nèi)容授權(quán)協(xié)議的單位外,其他單位未經(jīng)允許禁止轉(zhuǎn)載、摘編,違者必究。如需使用,請聯(lián)系021-54451141(汪先生)。其中編譯類僅出于傳遞更多信息之目的,系C114對海外相關(guān)站點(diǎn)最新信息的翻譯稿,僅供參考,不代表證實(shí)其描述或贊同其觀點(diǎn),投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān);如有翻譯質(zhì)量問題請指正。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141