C114通信網(wǎng)  |  通信人家園

資訊
2024/7/30 15:17

中國(guó)移動(dòng)在光通信頂會(huì)ECOC 發(fā)表首個(gè)基于OTN承載智算拉遠(yuǎn)的學(xué)術(shù)研究成果

C114通信網(wǎng)  

中國(guó)移動(dòng)研究院創(chuàng)新提出基于光傳送網(wǎng)(Optical Transport Network,OTN)的智算分布式協(xié)同架構(gòu),攜手業(yè)界合作伙伴構(gòu)建了基于OTN互聯(lián)的智算分布式協(xié)同原型系統(tǒng)并完成理論仿真和實(shí)驗(yàn)研究,相關(guān)成果近期被全球光通信領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議European Conference on Optical Communications(ECOC)2024錄用,是揭示OTN傳輸和組網(wǎng)技術(shù)承載智算拉遠(yuǎn)可行性的首篇學(xué)術(shù)成果。

隨著ChatGPT、Sora、Gemini等基礎(chǔ)大模型應(yīng)用涌現(xiàn),以智算為代表的新型基礎(chǔ)設(shè)施已成為新質(zhì)生產(chǎn)力發(fā)展的重要引擎。伴隨智算中心規(guī)模向超萬(wàn)卡演進(jìn),機(jī)房空間及供電需求迅猛增加,單節(jié)點(diǎn)集中部署面臨巨大挑戰(zhàn),分布式協(xié)同部署是潛在解決方案。而如何將分布式部署的智算機(jī)房進(jìn)行協(xié)同調(diào)度,充分發(fā)揮算力資源的最大效能,是業(yè)界亟需研究的關(guān)鍵問(wèn)題。

中國(guó)移動(dòng)面向智算分布式協(xié)同場(chǎng)景,開(kāi)展基于OTN的智算分布式協(xié)同架構(gòu)技術(shù)創(chuàng)新,并首次完成2-100公里不同距離多場(chǎng)景下OTN承載分布式智算技術(shù)試驗(yàn)。在試驗(yàn)中基于400G OTN互聯(lián)的兩個(gè)智算集群上運(yùn)行百億級(jí)參數(shù)的大型基礎(chǔ)語(yǔ)言模型,詳細(xì)論證研究了互聯(lián)距離、帶寬變化、光纖閃斷、鏈路誤碼等因素對(duì)計(jì)算效率的影響。首次揭示了訓(xùn)練效率劣化與拉遠(yuǎn)距離基本呈線(xiàn)性關(guān)系,并通過(guò)充分發(fā)揮OTN大帶寬、穩(wěn)定低時(shí)延、高可靠等傳輸和組網(wǎng)技術(shù)特點(diǎn),在100km的拉遠(yuǎn)距離下實(shí)現(xiàn)了訓(xùn)練效率僅劣化3.75%的高效協(xié)同訓(xùn)練,為分布式智算技術(shù)演進(jìn)提供了全新理論依據(jù)和詳實(shí)試驗(yàn)數(shù)據(jù)。

基于OTN互聯(lián)的智算分布式協(xié)同創(chuàng)新是實(shí)現(xiàn)跨智算集群協(xié)同訓(xùn)練的潛在技術(shù)方案,本次高水平論文成果的發(fā)表,是首次以試驗(yàn)方式定量揭示了基于OTN的智算拉遠(yuǎn)技術(shù)性能和變化規(guī)律,后續(xù)需進(jìn)一步推進(jìn)產(chǎn)學(xué)研在跨智算集群協(xié)同技術(shù)方面的深度協(xié)同,構(gòu)建分布式智算中心新模式。

給作者點(diǎn)贊
0 VS 0
寫(xiě)得不太好

  免責(zé)聲明:本文僅代表作者個(gè)人觀(guān)點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門(mén)文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話(huà):021-54451141