文章作者
諸葛群碧,上海交通大學長聘副教授,2024年CIOE中國光博會《智算中心光技術(shù)創(chuàng)新發(fā)展論壇》主席和主持人。
本文系諸葛教授基于論壇嘉賓的分享內(nèi)容對智算中心光互聯(lián)技術(shù)的發(fā)展現(xiàn)狀與未來趨勢的梳理和思考。
01 AI需求激增,光通信迎來又一歷史性機遇
在AI大模型訓練的驅(qū)動下,GPU集群的算力需求爆發(fā)式增長。光互聯(lián)在構(gòu)建智算中心萬卡集群中起到關(guān)鍵作用,因此高速光模塊的需求在近兩年增長十分迅猛。根據(jù)Cignal AI的最新統(tǒng)計,2023年至今,400GbE+光模塊的發(fā)貨量年均增長率達到了驚人的350%,而此前數(shù)年的年均復合增長率“僅”為84%。2024年第一季度發(fā)貨約350萬只,預計2024年總數(shù)將超過1400萬只。
AI算力驅(qū)動的另一變化是光互聯(lián)代際更迭大幅加速。據(jù)Cignal AI預測,800G光模塊將從2023年的100萬只躍升至2024年的900+萬只。隨后,AI需求將快速催熟1.6T光模塊的商用,預計在2028年接近甚至超過400G和800G的數(shù)量總和。另一方面,單個數(shù)據(jù)中心的供能和面積將不足以支撐AI的持續(xù)發(fā)展,因此需要建設(shè)更多的數(shù)據(jù)中心,構(gòu)建跨數(shù)據(jù)中心的AI算力設(shè)施,這將促進可插拔相干光模塊的需求和發(fā)展。
根據(jù)Cignal AI的數(shù)據(jù),至2025年,400ZR相干光模塊四年間增長約10倍。從2024年起,800ZR將逐漸商用并快速增長,而1600ZR的商用將從2027年開始。AI時代的到來,使光通信行業(yè)進入了又一個春天,欣欣向榮、蓬勃發(fā)展。在技術(shù)層面,過去數(shù)十年的發(fā)展已使得光互聯(lián)眾多技術(shù)進入了深水區(qū),為滿足AI算力的迫切需求,整個行業(yè)需要在研發(fā)上大力投入來突破一系列技術(shù)瓶頸。
02 數(shù)據(jù)中心內(nèi)光互聯(lián)技術(shù)
當前的商用高速光模塊主要采用4×100G(400G)、8×100G(800G)、4×200G(800G)和8×200G(1.6T)的系統(tǒng)架構(gòu),封裝形式以QSFP-DD、OSFP和OSFP-XD為主。SerDes單通道速率已達到200G,與光口實現(xiàn)匹配。下一階段的主要目標是實現(xiàn)單波400G光互聯(lián)技術(shù),支撐構(gòu)建下一代1.6T和3.2T光模塊,主要技術(shù)挑戰(zhàn)包括器件帶寬、DSP功耗、鏈路損傷(色散、四波混頻、多徑串擾)等。
另一方面,由于大模型訓練基于萬卡同步展開,AI集群對光模塊的可靠性提出了極其嚴苛的要求。傳統(tǒng)模塊中的半導體激光器已相對可靠,然而AI應用要求其可靠性再提高近百倍。光模塊故障預測、識別、定位能力也變得十分關(guān)鍵。在系統(tǒng)層面,基于多通道并行架構(gòu)的光模塊,可以利用彈性通道技術(shù),快速隔離故障通道,大幅提升針對單通道故障的可靠性。
在51.2T交換機中,光模塊功耗占比接近50%,而光模塊中DSP功耗占比超50%。為緩解光模塊(特別是1.6T/3.2T模塊)的功耗問題,業(yè)界提出了線性直驅(qū)方案(LPO),近年來受到高度關(guān)注。該方案去除了光模塊中的DSP,使用SerDes中的信號處理單元來補償光器件和光鏈路中的各類損傷,并在Driver和TIA中集成CTLE和EQ均衡,來彌補DSP能力的缺失。據(jù)估計,未來的3.2T光模塊中,LPO有望將光模塊功耗從40W(DSP2nm方案)降低到20W。
此外,LPO可大幅降低時延,更適配AI算力場景。LPO光模塊的成本也相對較低(據(jù)測算,800G光模塊總成本可降低約8%)。與DSP方案相比,LPO的缺點是光傳輸性能下降(即傳輸距離縮短),不同模塊互聯(lián)互通困難,同時光模塊能提供的故障診斷信息有限,降低了系統(tǒng)的可維護性。因此,面向單通道200G+系統(tǒng),今年業(yè)界又提出了LRO(也叫TRO)方案。該方案取了折中,在發(fā)射端保留DSP來對發(fā)射光信號進行預處理,在接收端仍采用無DSP的線性輸出,部分彌補了LPO方案的缺點,同時還能實現(xiàn)了可觀的功耗收益。
更長遠來看,分別面向交換機互聯(lián)和芯片級互聯(lián),光電合封(CPO)和光I/O(OIO)在關(guān)鍵指標上具有顯著優(yōu)勢,但受技術(shù)、產(chǎn)業(yè)鏈、標準等限制,大規(guī)模商用還有待時日。
在光芯片方面,當前的高速(400G+)光模塊主要采用VCSEL、EML和硅光芯片。VCSEL在功耗和成本上具有顯著優(yōu)勢,然而由于帶寬受限和多模特性,主要應用于百米以內(nèi)的距離,且單通道200G技術(shù)尚未成熟(2024年OFC已有公司進行Demo)。EML和硅光芯片的帶寬已滿足單通道200G應用。硅光芯片在物料成本、工藝、集成度、光源數(shù)量、性能穩(wěn)定性等方面都具有優(yōu)勢,多年來一直受到行業(yè)追捧。
另外,硅光調(diào)制器具有良好的線性度,更適配LPO系統(tǒng)。然而硅光的發(fā)展還面臨著一系列挑戰(zhàn),如硅的傳輸損耗和帶寬瓶頸,與電芯片、光纖和光源的連接、產(chǎn)業(yè)鏈標準化等。據(jù)預測,硅光模塊的占比在未來幾年會快速提升,達到一個可觀的比例。在下一代的單通道400G系統(tǒng)中,信號波特率超過200Gbaud,要求器件帶寬在100GHz以上,除EML,薄膜鈮酸鋰器件也受到廣泛關(guān)注。
03 數(shù)據(jù)中心間光互聯(lián)技術(shù)
智算中心的發(fā)展也提升了數(shù)據(jù)中心間互聯(lián)(DCI)帶寬的需求。DCI傳輸距離可達百公里級,需要使用基于相干光通信架構(gòu)的密集波分復用系統(tǒng)。相干系統(tǒng)具有高譜效率、高性能等優(yōu)勢。自2008年北電發(fā)布首款相干光收發(fā)機(40G)以來,相干系統(tǒng)快速演進,目前商用系統(tǒng)的單波最高速率已達到1.6T,采用3nm工藝和100GHz光電子器件。在單纖容量方面,C+L雙波段系統(tǒng)已成功實現(xiàn)商用,使光纖可用頻譜達到了12 THz,可支撐近百T容量。與長途應用相比,百公里級的DCI場景對成本、功耗、體積有著更高的要求,因此催生了可插拔相干光模塊(ZR系列)。
400ZR目前已大規(guī)模商用,800ZR和1600ZR的標準化也在快速推進中。ZR系列的速率演進受成本、功耗和體積的約束,相對長途系統(tǒng)有一定滯后,1.6T的部署預計從2027年啟動。在AI應用對光互聯(lián)速率的驅(qū)動下,相干系統(tǒng)往更短距離的下沉得到了提速。目前看來相干系統(tǒng)有望下沉到10公里場景,在1.6T/3.2T應用中與直調(diào)直檢系統(tǒng)展開競爭。然而,由于在成本和功耗上的劣勢,只要直調(diào)直檢系統(tǒng)能解決傳輸距離問題,相干系統(tǒng)若想實現(xiàn)替代還需要在技術(shù)上有質(zhì)的突破。DCI系統(tǒng)對時延也十分敏感,與實芯光纖相比,空芯光纖可將鏈路傳輸時延降低1/3,在DCI應用中潛力巨大。
此外,空芯光纖還具有超寬譜、超低損和超低非線性的潛在優(yōu)勢,是近年來光通信領(lǐng)域的研究熱點,但是其大規(guī)模部署還需要解決眾多的技術(shù)和工程化問題。
DCI波分系統(tǒng)的管控和運維是保障智算中心高效運行的關(guān)鍵環(huán)節(jié)。自動駕駛光網(wǎng)絡、智慧光網(wǎng)、數(shù)字孿生、數(shù)字光層等一系列概念成為近年來的研究熱點。業(yè)界期望在光網(wǎng)絡的全生命周期中(含設(shè)計規(guī)劃、建設(shè)交付和運營維護)都實現(xiàn)智能化管理。其中,實現(xiàn)秒級甚至毫秒級的全參量系統(tǒng)性能監(jiān)測和數(shù)據(jù)采集是智能運維的基石。
另外,對鏈路物理損傷如光纖非線性效應、光放大噪聲、光濾波損傷、光偏振效應等的數(shù)字化建模也十分關(guān)鍵。在實現(xiàn)光物理層數(shù)字孿生的基礎(chǔ)上,可以研發(fā)智能算法來實現(xiàn)光網(wǎng)絡的自動控制、優(yōu)化和故障處理等。由于DCI對可靠性有著極高的要求,在網(wǎng)絡的控制過程中如何實現(xiàn)全局風險管控是一大關(guān)鍵。在C+L系統(tǒng)中,因為存在嚴重的受激拉曼散射(SRS)效應,系統(tǒng)會引入假光填充,波道間的管控變得極為復雜,是接下來業(yè)界的研究重點。在未來采用拉曼和EDFA混合放大的高性能系統(tǒng)中,光物理層調(diào)控的復雜度也會進一步提升。業(yè)界期待AI技術(shù)在自動駕駛光網(wǎng)絡中發(fā)揮關(guān)鍵作用。