C114訊 4月23日消息(苡臻)在今日召開的“2025云網(wǎng)智聯(lián)大會(huì)”上,SNAI推委會(huì)榮譽(yù)主席、原中國電信科技委主任韋樂平發(fā)表“大模型驅(qū)動(dòng)下智算網(wǎng)的發(fā)展趨勢”主題演講。他表示,當(dāng)前智算中心遍地開花,國內(nèi)超280個(gè),但GPU利用率很不均衡,飽的撐死,餓的餓死,平均不到30%;機(jī)內(nèi)總線帶寬與機(jī)間網(wǎng)絡(luò)帶寬不匹配,機(jī)間網(wǎng)絡(luò)帶寬太窄,算效不高;機(jī)內(nèi)總線架構(gòu)的開放性、兼容性和擴(kuò)展性不理想;缺乏可盈利的商業(yè)模式。
韋樂平表示,生成式人工智能的聯(lián)網(wǎng)技術(shù)主要包括以太網(wǎng)、IB(InfiniBand)、芯片光互連、PCIe、CXL(計(jì)算機(jī)快速鏈路)、OCS(光纖交換)等。
以太網(wǎng)是世界上規(guī)模最大的低成本聯(lián)網(wǎng)技術(shù),但是,其傳統(tǒng)形態(tài)和協(xié)議已經(jīng)不能滿足大集群聯(lián)網(wǎng)的苛刻性能需求。目前有三個(gè)改進(jìn)方向:RoCE是一種基于以太網(wǎng)的RDMA。允許直接訪問遠(yuǎn)程節(jié)點(diǎn)內(nèi)存,減小了數(shù)據(jù)傳遞時(shí)延,降低了CPU的使用率,適合GenAI應(yīng)用的需求;無損以太網(wǎng)在現(xiàn)有以太網(wǎng)基礎(chǔ)上進(jìn)一步采用先進(jìn)的流控、改進(jìn)擁塞處理、優(yōu)化哈希算法等新技術(shù),性能大為改進(jìn),但是長尾時(shí)延仍偏高(5-10us),趕不上IB(1us),適合不高于2000GPU互連場景;超級以太網(wǎng)聯(lián)盟(UEC)從物理層、鏈路層、傳輸層和軟件層全面改進(jìn)以太網(wǎng),具有優(yōu)異的負(fù)荷均衡、更好的網(wǎng)絡(luò)利用率和更短的時(shí)延,滿足GenAI和HPC所需,同時(shí)保留以太網(wǎng)生態(tài)系統(tǒng)的優(yōu)勢,期望性價(jià)比全面趕超IB,預(yù)計(jì)2026年起量。
IB是一種用于高性能計(jì)算的計(jì)算機(jī)網(wǎng)絡(luò),具備高寬帶、高擴(kuò)展、高可靠、無阻塞、超低時(shí)延(1us)的特點(diǎn)。但其需要采用專用硬件IB交換機(jī)和IB網(wǎng)卡、成本較高、擴(kuò)展性受限、產(chǎn)業(yè)生態(tài)較弱、過于封閉、由英偉達(dá)獨(dú)家控制,最適用高性能計(jì)算和高質(zhì)量大模型訓(xùn)練場景。
此外,芯片光互連技術(shù)還不成熟,標(biāo)準(zhǔn)缺失,預(yù)計(jì)最快2026年有產(chǎn)品,PCIe是一種計(jì)算機(jī)串行擴(kuò)展總線技術(shù),2025年計(jì)劃發(fā)布PCIe7.0版本,期望進(jìn)一步提升至128GT/S能力;CXL是一種架構(gòu)在PCIe串行總線上的新接口協(xié)議和高速互聯(lián)技術(shù),長期看,CXL將導(dǎo)致現(xiàn)有服務(wù)器架構(gòu)的解構(gòu),將處理、內(nèi)存分別納入不同物理模塊,使能資源的查詢和共享,適應(yīng)大集群的訓(xùn)練需要和高性能計(jì)算的需要;OCS是一種以光纖通道為交換顆粒的大容量交換,近中期主要替代AIDC中的Spine層的電交換機(jī),長期會(huì)進(jìn)一步向外擴(kuò)展。
韋樂平還提到了大模型訓(xùn)練智算拉遠(yuǎn)的思考。市場需求層面,以網(wǎng)補(bǔ)算,提升閑散智算中心算力資源利用率。面對大批分散部署、利用率很低的小規(guī)模智算中心,若能通過網(wǎng)絡(luò)互聯(lián)形成一個(gè)大型的邏輯智算池來適應(yīng)規(guī)模日益增長的大模型訓(xùn)練,有望大幅提升閑散智算資源的利用率。
邁向未來,跨域訓(xùn)練是必然趨勢。據(jù)統(tǒng)計(jì),大模型參數(shù)每1-2年增長10倍,而對應(yīng)的GPU芯片的算力僅增長2-4倍,遠(yuǎn)低于模型規(guī)模的增速。隨著模型規(guī)模的日益擴(kuò)大,單體的算力、電力、空間資源終將受限,可能需要在園區(qū)甚至更大范圍內(nèi)由多個(gè)智算中心互聯(lián)形成一個(gè)超級邏輯智算資源池,進(jìn)行聯(lián)合訓(xùn)練才有可能支撐超大模型的訓(xùn)練,至于推理與具體業(yè)務(wù)場景和訪問量相關(guān),更需要跨域?qū)嵤?/p>
談及大模型訓(xùn)練智算拉遠(yuǎn)的挑戰(zhàn),他表示,在復(fù)雜的商用場景下,面臨大量不同功能、性能的異構(gòu)GPU、規(guī)模不同的AIDC的互聯(lián)、不同業(yè)務(wù)場景、不同設(shè)備和不同組網(wǎng)方式、不同模型和不同參數(shù)的協(xié)同挑戰(zhàn)。
技術(shù)層面,存在帶寬收斂問題。無收斂帶寬普適性和前瞻性好,部署快,但成本太高;收斂比4-8時(shí),帶寬成本可以降至10%之內(nèi),但是只適用特定業(yè)務(wù)場景下的特定模型拆分方式,缺乏普適性和前瞻性。同時(shí),還存在功能和性能問題,拉遠(yuǎn)后必然面對丟包、抖動(dòng)乃至中斷故障等諸多挑戰(zhàn),對R0CE網(wǎng)絡(luò)的功能和性能有不少嚴(yán)格的要求。
統(tǒng)一管理和運(yùn)維層面,現(xiàn)有固化的組織架構(gòu)和生產(chǎn)流程不適合快速部署邏輯統(tǒng)一的異地智算中心,需要對現(xiàn)有管理運(yùn)維體系、生產(chǎn)流程、監(jiān)控管理平臺(tái)改造升級。