C114訊 8月28日消息(水易)數(shù)字經(jīng)濟(jì)提檔加速,人工智能技術(shù)和應(yīng)用日新月異,智算無疑成為推動技術(shù)升級和應(yīng)用進(jìn)化的核心引擎,千卡、萬卡,甚至是十萬卡智算中心的建設(shè)如火如荼。智算集群不是簡單的將算力卡堆積,而是一個(gè)高度復(fù)雜的系統(tǒng)性工程,同時(shí)在算力多元異構(gòu)的趨勢下,需要網(wǎng)絡(luò)創(chuàng)新來打通智算互聯(lián)互通的大動脈。
作為擁有全棧智算能力的行業(yè)“領(lǐng)頭羊”,新華三提出“算力×聯(lián)接”的技術(shù)理念,以開放標(biāo)準(zhǔn)化聯(lián)接響應(yīng)智算對網(wǎng)絡(luò)提出的要求,為智能算力的廣泛應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ),從而釋放智能算力的無限可能。
為什么需要標(biāo)準(zhǔn)化聯(lián)接?網(wǎng)絡(luò)聯(lián)接又是如何助力智算能力的釋放?帶著一系列問題,在第八屆未來網(wǎng)絡(luò)發(fā)展大會期間,包括C114在內(nèi)的媒體對新華三集團(tuán)高級副總裁、網(wǎng)絡(luò)產(chǎn)品線總裁曾富貴進(jìn)行了采訪。
新華三集團(tuán)高級副總裁、網(wǎng)絡(luò)產(chǎn)品線總裁 曾富貴
開放:標(biāo)準(zhǔn)化聯(lián)接促進(jìn)智算創(chuàng)新
目前主流的智算方案幾乎都是封閉“全家桶”式方案,每個(gè)廠家都有自己的標(biāo)準(zhǔn)、集合通信庫等等,這一方式雖然效率有所提升,但也帶來了大量的負(fù)面效果。曾富貴介紹,封閉的系統(tǒng)除了面臨供應(yīng)鏈的挑戰(zhàn)外,還將帶來更高昂的采購成本。
眾所周知,智算中心的投資不是一錘子買賣,按需分批投資才是常態(tài),同時(shí)基于成本和需求的考量,一個(gè)智算中心內(nèi)必定會存在多種算力。而各種協(xié)議、標(biāo)準(zhǔn)等割裂不統(tǒng)一,給多元異構(gòu)算力的互聯(lián)互通帶來極大挑戰(zhàn)。如果無法形成合力,對投資是巨大的浪費(fèi)。
這還只是考慮到單個(gè)智算中心,目前各區(qū)域、各行業(yè)都在建設(shè)智算中心,未來想要充分發(fā)揮和利用智能算力,跨廣域的聯(lián)接也至關(guān)重要?梢灶A(yù)想到的是,不同智算中心的方案更是千差萬別,更難以互聯(lián)互通。
曾富貴表示,新華三一直倡導(dǎo)標(biāo)準(zhǔn)化的聯(lián)接、多元化的異構(gòu)算力。依托在網(wǎng)絡(luò)領(lǐng)域的深耕,基于通用的以太網(wǎng)技術(shù),研究RoCE等標(biāo)準(zhǔn)化技術(shù)方案,利用標(biāo)準(zhǔn)化促進(jìn)智算網(wǎng)絡(luò)創(chuàng)新,保持持續(xù)發(fā)展的動力。
“越是標(biāo)準(zhǔn)的技術(shù)越有生命力,而封閉的生態(tài)最終會被淘汰!痹毁F強(qiáng)調(diào),雖然標(biāo)準(zhǔn)化也意味著充分的競爭,但競爭是整個(gè)產(chǎn)業(yè)高速發(fā)展的基礎(chǔ)和技術(shù)創(chuàng)新的土壤!爸挥写蠹易呦蜷_放解耦,整個(gè)產(chǎn)業(yè)才能持續(xù)深入發(fā)展,才不會扼殺創(chuàng)新。”
值得一提的是,開放標(biāo)準(zhǔn)的智算網(wǎng)絡(luò)已經(jīng)在產(chǎn)業(yè)界形成共識。目前新華三是超以太網(wǎng)聯(lián)盟(UEC)的早期成員,同時(shí)還加入了高通量以太網(wǎng)聯(lián)盟(ETH+ Consortium),中國移動主導(dǎo)的全調(diào)度以太網(wǎng)(GSE)等。新華三集團(tuán)網(wǎng)絡(luò)產(chǎn)品線系統(tǒng)規(guī)劃與解決方案部總經(jīng)理程臻介紹,雖然是不同組織,但是在技術(shù)棧和技術(shù)思想方面非常接近,只是實(shí)現(xiàn)手段的差異。
程臻進(jìn)一步補(bǔ)充到,回顧通信行業(yè)的高速發(fā)展,得益于整個(gè)互聯(lián)技術(shù)向以太化統(tǒng)一,這也是標(biāo)準(zhǔn)統(tǒng)一帶來的魅力。“新華三的想法就是,以標(biāo)準(zhǔn)化來促進(jìn)整個(gè)生態(tài)的健康,如果突破了多元異構(gòu)算力的互聯(lián)互通,未來算力的發(fā)展將會是大踏步前進(jìn)!
協(xié)同:算網(wǎng)存一體釋放智算潛能
為了滿足人工智能時(shí)代對算力的需求,除了大規(guī)模智算集群的建設(shè)之外,GPU的迭代速度也在加快。程臻表示:“GPU的更新速度是很快,但是其實(shí)單片GPU的能力,相對于大模型算力的需求來講,仍然跟不上節(jié)奏。”
曾富貴同樣指出,要支撐更大數(shù)據(jù)量,更快速度的計(jì)算任務(wù),僅靠算力本身,或者說芯片的迭代已經(jīng)很難跟上需求的快速增長,因此需要進(jìn)行橫向的技術(shù)整合,通過算網(wǎng)協(xié)同/算網(wǎng)融合技術(shù),場景化負(fù)載均衡技術(shù)等,充分釋放算力的性能,讓算力應(yīng)用更加高效。
如何來實(shí)現(xiàn)?程臻介紹,首先肯定是大規(guī);ヂ(lián)技術(shù),端口能力越大越好,從而提升傳輸效率,GPU的運(yùn)算效率也會越高。目前400G端口已經(jīng)非常普遍,800G也已經(jīng)開始應(yīng)用,1.6T端口也會很快面世。
第二是傳送效率,智算的流量具有明顯的特征,要發(fā)一起發(fā),要停一起停,突發(fā)性很強(qiáng),傳統(tǒng)的網(wǎng)絡(luò)路徑負(fù)載分擔(dān)技術(shù)難以適應(yīng)這種變化,這也是為什么需要全新的負(fù)載分擔(dān)技術(shù)。而新華三推薦的DDC技術(shù),是基于信元的完全負(fù)載分擔(dān)方式,不需要端側(cè)配合,靠網(wǎng)絡(luò)自身就能解決流量的均衡問題,滿足各種智算場景需要。
第三是算、網(wǎng)、存一體化運(yùn)維協(xié)同,全維度監(jiān)控智算中心運(yùn)行情況,一旦出現(xiàn)問題能夠快速定位問題。畢竟目前算力的租賃和使用單位價(jià)格較高,客戶都希望能在極短的時(shí)間內(nèi)完成模型訓(xùn)練!爸灰O聛,每停一分鐘都是損失!
可靠:多維度保障智算網(wǎng)絡(luò)安全
可以看到,業(yè)界對于智算網(wǎng)絡(luò)建設(shè)需要標(biāo)準(zhǔn)化的聯(lián)接這一點(diǎn),已經(jīng)形成共識,產(chǎn)業(yè)界也在努力促成統(tǒng)一的標(biāo)準(zhǔn)來解決算力和聯(lián)接的效率問題。與此同時(shí),隨著人工智能應(yīng)用的不斷涌現(xiàn),如何確保數(shù)據(jù)和應(yīng)用傳輸?shù)陌踩珕栴}也紛至沓來。
“新華三不僅是做算力和聯(lián)接,我們也有自己的安全公司,在過去二十年里面積累了豐富的經(jīng)驗(yàn)!痹毁F介紹,從底層的聯(lián)接、算力,到上層的應(yīng)用軟件,新華三的解決方案全部具備了內(nèi)生安全的能力。
程臻表示,在算力網(wǎng)絡(luò)應(yīng)用落地的背景下,智算網(wǎng)絡(luò)的安全邊界已經(jīng)消失,目前業(yè)界普遍認(rèn)同的理念是網(wǎng)安融合和網(wǎng)安聯(lián)動。一方面,安全和網(wǎng)絡(luò)相輔相成,正因?yàn)闆]有了邊界,整張網(wǎng)絡(luò)都需要進(jìn)行安全防護(hù);另一方面,網(wǎng)絡(luò)要配合安全,提供信息給各類監(jiān)測分析設(shè)備和安全運(yùn)營中心,提前識別安全風(fēng)險(xiǎn),全局視角進(jìn)行安全防護(hù)。
具體到網(wǎng)絡(luò)層面,可以通過網(wǎng)絡(luò)切片技術(shù),對流量進(jìn)行硬隔離;通過應(yīng)用識別導(dǎo)入,再聯(lián)動網(wǎng)絡(luò)的服務(wù)鏈機(jī)制,把確定的流量指定的送到某個(gè)清洗服務(wù)或篩選服務(wù);將網(wǎng)絡(luò)的加密能力和端側(cè)加密結(jié)合;通過鑒權(quán)機(jī)制,將攻擊源控制在源端,不至于影響全局。
除了字面上的安全,智算中心的組成有服務(wù)器、存儲、網(wǎng)絡(luò)、光模塊、高速線纜,任何地方出現(xiàn)故障,比如萬分之一或者千分之一的丟包率,整個(gè)訓(xùn)推的效率會極速的下降。也就是說數(shù)據(jù)的傳輸效率決定算力供給效率,整個(gè)傳輸鏈路的高可靠性也是安全的重要組成部分。
除了防范外界攻擊,提升系統(tǒng)本身的可靠性和穩(wěn)定性也是至關(guān)重要的。曾富貴介紹,新華三的算、網(wǎng)、存一體化運(yùn)維協(xié)同平臺能夠自動把問題暴露出來,同時(shí)將AI能力、大模型能力注入到網(wǎng)絡(luò)和安全的設(shè)備和應(yīng)用平臺中,“以AI養(yǎng)AI,以AI促AI”,將告警事件與故障相關(guān)聯(lián),實(shí)現(xiàn)自動化處理,確保系統(tǒng)穩(wěn)定運(yùn)行,也能降低運(yùn)維成本。
當(dāng)然,安全不僅僅是系統(tǒng)本身的安全,在波詭云譎的國際形勢下,供應(yīng)鏈也面臨著系統(tǒng)性的安全風(fēng)險(xiǎn)。這也是為什么需要通過聯(lián)接的標(biāo)準(zhǔn)化,算力的多元化,來規(guī)避壟斷和單一算力資源帶來的風(fēng)險(xiǎn),實(shí)現(xiàn)百花齊放的算力生態(tài)。