隨著AI訓(xùn)練、高性能計算對網(wǎng)絡(luò)低時延與高吞吐的需求激增,RoCE(RDMA overConverged Ethernet)技術(shù)已成為智算中心的核心底座。然而,傳統(tǒng)無狀態(tài)RoCE測試僅能驗證設(shè)備基礎(chǔ)功能,無法模擬真實業(yè)務(wù)場景的協(xié)議交互與動態(tài)負載,導(dǎo)致網(wǎng)絡(luò)瓶頸難以暴露。
信而泰突破性推出有狀態(tài)ROCE測試特性,實現(xiàn)真實的RoCE協(xié)議棧狀態(tài)機模擬,為智算無損網(wǎng)絡(luò)提供真場景、真壓力、真診斷的評估方案,助力客戶打造零隱患AI算力網(wǎng)絡(luò)!
創(chuàng)新突破:有狀態(tài)RoCE測試的技術(shù)價值
RoCE(RDMA over Converged Ethernet)作為數(shù)據(jù)中心網(wǎng)絡(luò)的核心技術(shù),在AI訓(xùn)練、高性能計算等場景中發(fā)揮著不可替代的作用。信而泰此次推出的有狀態(tài)RoCE測試特性能夠彌補無狀態(tài)RoCE測試的不足之處,大大地完善與豐富智算無損網(wǎng)絡(luò)的RoCE測試場景。
無狀態(tài)VS有狀態(tài)
無狀態(tài)RoCE測試 | 有狀態(tài)RoCE測試 | |
典型被測試對象 | 數(shù)據(jù)中心交換機 | 帶有RoCE功能的xPU 網(wǎng)卡與芯片 |
測試模式 | 雙臂測試 | 單臂測試 |
典型測試內(nèi)容 | ECN功能與性能測試 PFC功能與性能測試 DCQCN功能與性能測試 xCCLover RoCE 功能與性能測試 | Send/Write/Read的帶寬與時延測試 RC/UD 服務(wù)類型測試 QP最大數(shù)量測試 |
RoCE 協(xié)議真實性 | 無真實的RoCE協(xié)議狀態(tài)交互 | 有真實的RoCE協(xié)議狀態(tài)交互 |
有狀態(tài)RoCE測試關(guān)鍵特性:
支持基于100G和25G速率的RoCE測試,未來還會增加400G和200G等其他速率的支持;
支持ib_send_bw、ib_send_lat、ib_write_bw、ib_write_lat、ib_read_bw、ib_read_lat、ib_atomic_bw、ib_atomic_lat測試用例;
支持RC和UD等服務(wù)類型,其中RC支持SEND first/Middle/Last/only、WRITE first/Middle/Last/only等;
支持每秒新建QP會話及QP會話并發(fā)的測試;
支持多打一、一打多、多打多 RoCE流量;
DarPeng 2000E整機支持8K以上 QP數(shù)量;
DarPeng 2000E整機支持190G以上 RoCE流量;
信而泰此次推出的有狀態(tài)RoCE測試特性,突破性地實現(xiàn)了:
真實業(yè)務(wù)場景模擬:支持完整的RoCE協(xié)議棧狀態(tài)機,精確還原實際應(yīng)用環(huán)境;
動態(tài)負載測試:可模擬多樣化的網(wǎng)絡(luò)負載情況,驗證設(shè)備在不同壓力下的表現(xiàn);
精準(zhǔn)故障診斷:通過狀態(tài)追蹤,快速定位網(wǎng)絡(luò)性能瓶頸和協(xié)議異常;
全方位性能評估:提供詳盡的測試報告,包括延遲、吞吐量等關(guān)鍵指標(biāo)。
場景賦能:完整而全面的RoCE測試特性
2024年已發(fā)布無狀態(tài)RoCE測試特性,目前信而泰同時具備了有狀態(tài)與無狀態(tài)的RoCE測試特性,通過該特性能夠針對以下的場景進行全面的測試與模擬:
1. AI訓(xùn)練中心:驗證大規(guī)模分布式訓(xùn)練場景下的無損網(wǎng)絡(luò)性能;
2.云數(shù)據(jù)中心:評估網(wǎng)絡(luò)設(shè)備在無損網(wǎng)絡(luò)中的實際表現(xiàn);
3. 網(wǎng)絡(luò)設(shè)備廠商:加速RoCE網(wǎng)絡(luò)設(shè)備、網(wǎng)卡以及芯片的研發(fā)驗證周期,提升產(chǎn)品質(zhì)量;
4. 科研實驗室:模擬與還原真實的RoCE無損網(wǎng)絡(luò)環(huán)境,為科研項目提供實驗網(wǎng)絡(luò)環(huán)境。