當前數(shù)智化企業(yè)已成為經(jīng)濟增長的主要引擎,融入AI算力是企業(yè)進行數(shù)智化轉型的必然路徑。2023年10月工業(yè)和信息化部等六部門印發(fā)了《算力基礎設施高質(zhì)量發(fā)展行動計劃》,發(fā)文中首次提出了入算網(wǎng)絡概念,并明確彈性大帶寬接入、確定性承載、高安全可靠是算力網(wǎng)絡的基本特征。2024年3月上海市通信管理局會同市委網(wǎng)信辦、市發(fā)展改革委、市數(shù)據(jù)局等十一部門研究制定了《上海市智能算力基礎設施高質(zhì)量發(fā)展“算力浦江”智算行動實施方案(2024-2025年)》,旨在發(fā)展以運營商為代表的數(shù)據(jù)智能產(chǎn)業(yè)生態(tài),建成具有區(qū)域乃至全國影響力的智能算力創(chuàng)新及應用示范區(qū)。
在產(chǎn)業(yè)政策和市場需求的驅(qū)動下,中國電信上海公司(以下簡稱“上海電信”)聯(lián)合華為打造了業(yè)界首張端到端400GE的IP智算廣域試驗網(wǎng)絡,部署RDMA(Remote Direct Memory Access)廣域無損傳輸、新型智算業(yè)務流級調(diào)度算法、網(wǎng)絡數(shù)字地圖等技術,為千行百業(yè)提供高彈性、高吞吐、高可靠的一跳入多算網(wǎng)絡新服務。同時上海電信大力探索存儲和算力資源跨廣域部署的“存算分離”新模式,首次實現(xiàn)了120km存算分離拉遠場景下,AI大模型訓練效率高于95%,攻克了企業(yè)租用算力進行模型訓練,敏感樣本不在園區(qū)外落盤的技術難題。
據(jù)統(tǒng)計,上海目前已有24款大模型完成備案、可上線提供服務,數(shù)量位居全國前列,且還在不斷加快大模型的訓練及應用。2024年上半年,中國電信在上海建設萬卡智算集群,其中單池新建國產(chǎn)算力達萬卡,是國內(nèi)首個單池萬卡液冷算力集群。上海電信智算廣域網(wǎng)絡建設的重要目的是實現(xiàn)“通智超量”算力一體承載,提升算力有效供給,使企業(yè)使用算力像使用水電一樣便捷。上海電信采用華為的智算廣域無損解決方案,將網(wǎng)絡運力提升4倍,引入RDMA廣域無損、租戶級精準流控等技術,從而滿足海量樣本快速入算、存算分離拉遠訓練等場景,充分釋放了智算中心的算力效率。
海量樣本快速入算:經(jīng)對全國上千家企業(yè)的調(diào)研顯示,科研、交通、影視、醫(yī)療等行業(yè)對AI訓練的算力需求較大,每年PB級海量數(shù)據(jù)需要從企業(yè)園區(qū)傳至算力中心進行分析處理。另外以SORA為代表的大視頻生成應用帶來數(shù)據(jù)爆炸性增長,傳統(tǒng)網(wǎng)絡或者傳統(tǒng)網(wǎng)絡的負載均衡技術無法滿足大數(shù)據(jù)訓練周期。上海電信將為企業(yè)用戶提供100Mbps~100Gbps IP彈性伸縮算網(wǎng)專線,基于“時間+數(shù)據(jù)量”的創(chuàng)新服務模式,滿足了企業(yè)TB/PB級別樣本數(shù)據(jù)當天達、小時達的快速入算訴求。
存算分離拉遠訓練:以制造、政務、金融、醫(yī)療行業(yè)為代表,企業(yè)出于敏感數(shù)據(jù)安全性的需求,在租用算力同時,要求敏感樣本在訓練過程中,不在園區(qū)外落盤,需要廣域網(wǎng)絡拉通遠端算力隨訓隨讀。智算中心流量模型以RDMA大數(shù)據(jù)流為主,傳統(tǒng)負載分擔技術容易出現(xiàn)大象流的擁塞丟包,導致訓練效率直接下降超50%,產(chǎn)生巨大的算力資源浪費。上海電信智算新平面提供存算分離拉遠訓練服務,實現(xiàn)超120KM廣域RDMA無損傳輸,網(wǎng)絡有效吞吐率提升至90%以上,AI大模型拉遠訓練算力效率損失小于5%。
上海電信通過試點建設智算新平面,為企業(yè)用戶提供運力+存力+算力的一站式打包服務,滿足客戶一線入多算,同時訪問智算、超算以及通算等多種異構算力資源池的需求,讓更多企業(yè)和科研機構享受到算力服務帶來的便利。上海電信將堅持科技創(chuàng)新引領,不斷夯實算力基礎能力,提升算力服務水平,以算網(wǎng)筑基,智賦百業(yè)。