2024/5/24 15:44

京東光互聯(lián)架構師陳琤：高性能計算網(wǎng)絡中的光互連

C114通信網(wǎng) 張曉寶

C114訊 5月24日消息（張曉寶）5月23日，由CIOE中國光博會與C114通信網(wǎng)聯(lián)合舉辦的2024中國高質(zhì)量發(fā)展論壇第四場——“AI時代：數(shù)據(jù)中心光互聯(lián)技術新趨勢”研討會成功舉行，京東光互聯(lián)架構師陳琤在會上分享了關于《高性能計算網(wǎng)絡中的光互連》的主題發(fā)言。

京東在高性能計算網(wǎng)絡領域起步較早，持續(xù)在多個代際的智算拓撲上做了大量的投入，應用場景涉及到了推薦算法、智能客服，AI售賣租賃、數(shù)字人直播等等。

智算網(wǎng)絡拓撲一般分為兩類獨立的網(wǎng)絡，其一是接入/存儲網(wǎng)絡，主要實現(xiàn)CPU之間的互聯(lián)；其二是計算網(wǎng)絡，主要進行GPU節(jié)點數(shù)據(jù)的并行協(xié)同。

整體來看，智算網(wǎng)絡對于光互連的要求主要集中于三方面，即大帶寬、低成本和低延時。

光模塊與大帶寬的關系

數(shù)據(jù)鏈路帶寬方面，首先要實現(xiàn)的是GPU與GPU之間并行多路的通信，需要注意數(shù)據(jù)傳輸過程中鏈路帶寬的情況，在計算節(jié)點內(nèi)部互聯(lián)中一般可采用C2C Full mesh的方式，連接速率可達數(shù)百GB/s。

如要實現(xiàn)不同GPU出口的通信，則要通過PCle與網(wǎng)卡連接，在進行串并轉化后進而通過光模塊、計算網(wǎng)絡實現(xiàn)跨端口連接。因此，當前許多廠家均在提倡光學輸入/輸出(OIO)的形式，以突破高速互聯(lián)的瓶頸，這也是當下的一個發(fā)展方向。

在網(wǎng)絡設備/光模塊帶寬演進方面，當前智算網(wǎng)絡主要部署的是50G Serdes的交換機和光模塊，光模塊類型選擇則以200G/400G等為主。當單節(jié)點容量達到51.2T時，根據(jù)對網(wǎng)絡可拓展性的要求會去選擇不同的拓撲類型，北美的一些廠家會選擇64x800G OSFP，國內(nèi)廠家則采用128x400G QSFP 112的封裝，但二者產(chǎn)業(yè)鏈是通用的。

若未來單芯片交換容量達到102.4T，可插拔光模塊依然可以支持高密度大容量的光互連應用，可以選擇64x1.6T OSFP和QSFP224-DD。。CPO也是熱門的解決方案之一，它要繼續(xù)解決可靠性的問題，還要解決建設部署中的可維護性問題。

如何降低光互連成本？

在降低光互連低成本問題中，硅基光子技術是潛在的降成本方案之一。硅光并非是全新的技術，但就數(shù)據(jù)中心應用而言是比較新的產(chǎn)品，當前112G per lane模塊的供應鏈上游集中于少量光器件廠家，因此硅光光模塊可以據(jù)此介入，以打破供應緊張問題。

特別硅光模塊是可以覆蓋解決2km以內(nèi)的所有數(shù)據(jù)中心應用場景需要的，因此京東也在進行相應的認證等工作，相信不久的將來也能真正的部署到當下網(wǎng)絡中。

線性直驅(qū)光模塊LPO/LRO當前也是比較熱門的應用方向，在112G per lane時代，借助于ASIC驅(qū)動能力足夠強的特性，可以將光模塊作減法，即去掉DSP或CDR的部分，進而可降低光模塊的復雜程度，以達到降低成本的目的。

但其也面臨了一些挑戰(zhàn)，如兼容性與互聯(lián)互通的問題，要考慮ASIC芯片對其的支持情況、不同廠家間互聯(lián)情況、新舊模塊互聯(lián)互通的情況等等問題。

還有演化可持續(xù)性的問題也要考慮進來，如112G已可支持LPO，但如發(fā)展至224G等，就要考量LPO是否支持的可行性了。

智算網(wǎng)絡低延時問題

在低延時方面，如要實現(xiàn)整體協(xié)同的運算保障，不同的計算節(jié)點間的GPU延時問題勢必會大大降低運行效率，那么哪些因素通常會導致延時呢？

首先是基于協(xié)議，GPU的網(wǎng)絡最初基于InfiniBand（IB）的協(xié)議形式較多，在數(shù)據(jù)傳輸中可繞過CPU的參與，實現(xiàn)了不同計算節(jié)點間GPU緩存之間的數(shù)據(jù)通信，大大減少了基于協(xié)議的通信延時。

基于傳統(tǒng)以太的協(xié)議，則要CPU介入到通信整個過程，因此其延時會比較長。

在智算網(wǎng)絡中用到的是一個較為折中的方案，即RDMA方案，可借用以太協(xié)議的封裝將RDMA的內(nèi)核封裝進去，進而實現(xiàn)共用以太網(wǎng)的設施以實現(xiàn)降低延時。

其次則是鏈路延時，因為GPU與GPU之間的通信要經(jīng)過leaf-spine架構，并要進行光信號轉換，實現(xiàn)數(shù)據(jù)互聯(lián)，其過程中各環(huán)節(jié)也必然產(chǎn)生各種不同的延時。

如在決策類模型的時延中，可優(yōu)化項為光模塊中的信號恢復單元導致的延時。而在生成式模型的延時中，主要是數(shù)據(jù)傳輸時間導致的延時為主，而物理鏈路導致的延時實際占比極小。因此，這時候系統(tǒng)延時會對帶寬利用率更為敏感，要根據(jù)模型不同去優(yōu)化延時的不同方向。

最后陳琤總結到，相較于傳統(tǒng)數(shù)通網(wǎng)絡，智算網(wǎng)絡帶寬的增長也會更迅速，低成本互聯(lián)有賴于新技術的支撐，如硅光、LPO/LRO等。另外，不同的模型對延時的要求是不一樣的，要優(yōu)化的方向會有所區(qū)別。

給作者點贊

0 VS 0

寫得不太好

版權說明：C114刊載的內(nèi)容，凡注明來源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權所有，未經(jīng)允許禁止轉載、摘編，違者必究。對于經(jīng)過授權可以轉載我方內(nèi)容的單位，也必須保持轉載文章、圖像、音視頻的完整性，并完整標注作者信息和本站來源。編譯類文章僅出于傳遞更多信息之目的，不代表證實其描述或贊同其觀點；翻譯質(zhì)量問題請指正。

相關鏈接

網(wǎng)絡網(wǎng)卡交換機單芯片 ASIC

光模塊迭代加速，1.6T 引領超大規(guī)模智算中心光互聯(lián)變革
C114通信網(wǎng) 水易4-21
華為：引領智算中心光互聯(lián)革命，DC-OXC以光為基改寫全球AI競合規(guī)則
C114通信網(wǎng) 蔣均牧4-21
中國信通院趙文玉：智算與光互聯(lián)雙向賦能 “四高”成為典型發(fā)展態(tài)勢
C114通信網(wǎng) 苡臻4-17
“光伏+倉儲”，陽光新能源攜手京東打造零碳園區(qū)新樣本！
C114通信網(wǎng) 4-17