C114通信網(wǎng)  |  通信人家園

 
2024/11/14 09:09

從UALink近期發(fā)展再看GPU Scale Up的互連方向

廠商供稿  

GPU的Scale Up互連成為炙手可熱的話題,在2024年涌現(xiàn)了眾多相關(guān)的行業(yè)討論。站在阿里云的視角,什么樣的技術(shù)以及生態(tài)才能滿足云上智算集群的發(fā)展?為什么采用全新的Scale Up設(shè)計而不復(fù)用當前的以太網(wǎng)和RDMA技術(shù)呢?本文借著行業(yè)內(nèi)的一些事件,對GPU超節(jié)點的Scale up互連的技術(shù)方向觀點進行分享。

在GPU算力架構(gòu)發(fā)展的歷程和趨勢中,我們意識到大模型的訓(xùn)練推理對顯存容量以及帶寬有不斷增長的訴求,傳統(tǒng)的GPU單機8卡方案已經(jīng)不能滿足業(yè)務(wù)發(fā)展的需要,更多卡組成超節(jié)點并具備大容量顯存和低延的共享的解決方案才能滿足大模型的需求。阿里云對行業(yè)技術(shù)方向進行評估后,于今年9月份發(fā)布了Alink Sytem開放生態(tài)和AI Infra 2.0服務(wù)器系統(tǒng),其中底層互連協(xié)議部分兼容國際開放標準UALink協(xié)議。

10月29日,UALink聯(lián)盟正式發(fā)布,并開啟新成員邀請,發(fā)起成員包括AMD、AWS、Astera Labs、Cisco、Google、HPE、Intel、Meta 和Microsoft。其中相對于5月份的首次披露的成員,博通消失了,取而代之的是AWS和Astera Labs。其中AWS的加入引人遐想,因為AWS一向低調(diào),很少參與協(xié)議組織。這次AWS躬身入局UALink聯(lián)盟也展示了其對于GPU Scale Up互連需求的思考,以及對于UALink原生支持GPU互連這個技術(shù)方向的認同。下面,我們對于Scale up方向的思考做一些展開論述。

智算集群的互連架構(gòu)

當前智算集群內(nèi),圍繞著GPU存在三大互連,分別是業(yè)務(wù)網(wǎng)絡(luò)互連、Scale Out網(wǎng)絡(luò)互連、Scale Up網(wǎng)絡(luò)互連,它們分別承載了不同的職責(zé):跨業(yè)務(wù)、集群內(nèi)、超級點GPU之間連通性。隨著AI應(yīng)用的爆發(fā),推理的GPU規(guī)模最終會大大超過訓(xùn)練,由于推理服務(wù)同時追求業(yè)務(wù)請求的低延遲和高吞吐,Scale Up互連技術(shù)對于智算超節(jié)點意義重大,Scale Up主要是面向大模型推理服務(wù)以及兼顧訓(xùn)練。

-業(yè)務(wù)網(wǎng)絡(luò)互連:承載的是諸如需要計算的輸入數(shù)據(jù),輸出結(jié)果,以及在各類存儲系統(tǒng)中的模型參數(shù)、checkpoint等。需要進行極大范圍的互連,并且和云上的存儲、業(yè)務(wù)接口等互通,采用以太網(wǎng)技術(shù),通常支持各類RDMA。

- Scale Out網(wǎng)絡(luò)互連:訓(xùn)練的DP、PP并行計算切分流程,通常要把集群橫向擴展到超多的GPU機柜,當前的訓(xùn)練規(guī)模已經(jīng)發(fā)展到10w卡,目前國際的標準趨勢是,采用專門優(yōu)化的以太網(wǎng)技術(shù)UEC(Ultra Ethernet Consortium)協(xié)議。

- Scale Up網(wǎng)絡(luò)互連:以推理的大顯存并行計算流量和訓(xùn)練的張量并行(TP)以及專家并行(MoE)流量為主,有在網(wǎng)計算的需求(可以對All reduce在Switch節(jié)點上進行加速);ミB規(guī)模在未來很多年內(nèi)都會維持在單柜72~80個GPU,從模型大小和推理需求的發(fā)展來看,當前規(guī)劃能滿足很長一段時間的需求。

超節(jié)點內(nèi)部Scale Up互連:注定和設(shè)備深度綁定的協(xié)議

如何定義一個超節(jié)點的邊界?這個邊界就是網(wǎng)卡。超節(jié)點外的以太網(wǎng)是面向連接的設(shè)計,實現(xiàn)大面積的連通,超節(jié)點內(nèi)的是面向計算的設(shè)計,實現(xiàn)的是部件間的協(xié)同。

超節(jié)點內(nèi)通過部件之間深度的耦合,實現(xiàn)了高效協(xié)同(包括效率、編程習(xí)慣等),這個耦合帶來了性能(如帶寬、延遲等),特性(內(nèi)存共享、設(shè)備中斷等)的需求,在過去很長一段時間內(nèi)的典型技術(shù)是PCIe,它很好的解決了以CPU為中心的互連問題,幾乎全部的服務(wù)器設(shè)備都是PCIe接口的。

當數(shù)據(jù)中心主要計算類型發(fā)生變化的時候,新的挑戰(zhàn)出現(xiàn)了,圍繞GPU為中心的計算帶來了新的挑戰(zhàn):

-面向GPU的語義支持:GPU是超眾核架構(gòu),其在線程調(diào)度機制,以及核心的利用率考量上和CPU有著顯著的區(qū)別。CPU的外設(shè)交互模式及RDMA交互模式等,無法有效的滿足GPU的訪存特性和性能要求。和這個使用模式比較類似的是CXL(Compute Express Link,通用計算的內(nèi)存擴展技術(shù))的使用方式,但CXL在此場景下也存在局限性,比如大量內(nèi)存一致性特性支持的開銷,以及前向兼容PCIe所有協(xié)議棧帶來的大量冗余特性。

-超高性能訴求:Scale Up相對于Scale Out和業(yè)務(wù)網(wǎng)絡(luò)需要更高一個數(shù)量級(10倍以上)的帶寬。由于GPU算力的狂飆,在當前的算力水平下,Blackwell這一代配置了雙向共1.8T的算力,這意味著即使采用224g的phy,單芯片也需要雙向共72個serdes差分對,整機柜需要數(shù)千根。。如果采用類似網(wǎng)卡的外置控制器方案,在功耗,延遲、穩(wěn)定性等等都具有極大的劣勢。Scale Up互連采用GPU直出,將所有的控制器植入GPU內(nèi)部是不可避免的選擇。

為什么采用全新的Scale Up協(xié)議而不復(fù)用已有的協(xié)議?

Scale UP互連是用于GPU和GPU 互連,是做更大芯片擴展的服務(wù)器,是內(nèi)存和顯存共享訪問的語義,特點是極低延遲和大帶寬,規(guī)模在柜內(nèi),可擴展為多柜到百芯片級(只是一種能力保留,但是未來很多年都看不到應(yīng)用),是獨立Fabric連接,完全不同于以太網(wǎng)。

Scale Out互連是用于服務(wù)器之間是基于網(wǎng)卡+交換機的集群互連,是以太網(wǎng)協(xié)議,規(guī)模在萬級以上,普適的互連。

國際的主流廠商,尤其是云計算為代表的應(yīng)用廠商都積極加入UALink,代表了一個廣泛的觀點,對于Scale Up,是有價值也有必要從底層協(xié)議到系統(tǒng)硬件進行重新設(shè)計的,目前業(yè)界主流的GPU芯片廠家都會考慮Scale Up采用獨立的Link技術(shù),不會和Scale Out合并設(shè)計。

特性維度

GPU+AI有著顯著的特點,GPU是超多核的編程模型,和擅長通用性的CPU不同,需要使用到大量的內(nèi)存語義(load/store)訪問,同時由于各個GPU之間需要彼此使用HBM的內(nèi)存,對跨芯片訪問帶寬和時延有顯著的高要求。

其次Scale Up相對于Scale Out和業(yè)務(wù)網(wǎng)絡(luò)需要更高一個數(shù)量級(10倍以上)的帶寬,同時由于對于延遲的需求,需要采用GPU芯片直出互連的設(shè)計,協(xié)議的輕量化設(shè)計具備極大的價值,意味著可以將寶貴的芯片面積節(jié)省給GPU的計算核心、更高的IO集成能力、更低的功耗。

互連范圍

Scale Up互連注重的是大模型的應(yīng)用,從模型需求和互連分層的角度來說,Scale Up的互連域是一個獨立高性能低延遲內(nèi)存共享訪問的互連域,單柜規(guī)模在72~80個GPU,保留百級的擴展能力(未來很多年都看不到應(yīng)用),節(jié)點訪問都是顯存訪問(load/store),性能和延遲的第一要素,完全不需要采用過于復(fù)雜的協(xié)議,這個是Scale Out的以太網(wǎng)完全做不到的,如果以太網(wǎng)可以做到,其實就已經(jīng)簡化到和Scale Up一樣了,也就不是以太網(wǎng)了,脫離了以太網(wǎng)大規(guī)模普適的根本。

當前行業(yè)共識和UALink協(xié)議聯(lián)盟發(fā)展

業(yè)界發(fā)展最早和最成熟的是NVDIA的NVLink技術(shù),然而NVLink并不是開放生態(tài),鑒于此,各家主要廠商或形成了閉環(huán)的自有協(xié)議方案(如谷歌TPU的OCS+ICI架構(gòu)及AWS的NeuronLink)。當前行業(yè)中實際主流的,都采用的是自有技術(shù),然而各家的演進成本都很高。

考慮到針對終態(tài)進行設(shè)計,以及共同對抗行業(yè)壟斷的目的,AMD將其迭代多年的Infinity Fabric協(xié)議貢獻出來,促成UALink聯(lián)盟的成立,希望在更多行業(yè)伙伴的助力下,持續(xù)發(fā)揮原生為GPU互連場景設(shè)計的優(yōu)勢,使其成為行業(yè)的開放標準。

考慮到技術(shù)特點和開放生態(tài)給云計算公司將帶來技術(shù)競爭力和供應(yīng)鏈等全方位的優(yōu)勢,UALink在發(fā)布之后快速得到各家的青睞,尤其是原持有自有協(xié)議方案的公司,也積極加入其中。截止11月11日,UALink聯(lián)盟已有三十余家廠商加入,并在持續(xù)擴展中;且涵蓋了云計算和應(yīng)用、硬件、芯片、IP等產(chǎn)業(yè)全生態(tài)。

當前國際業(yè)界已經(jīng)形成共識:在開放協(xié)議領(lǐng)域,以UALink為代表的Scale Up協(xié)議和UEC為代表的Scale Out協(xié)議,共同支持AI集群互連基礎(chǔ)協(xié)議的演進。

阿里的Alink System:原生支持AI場景的Scale Up開放生態(tài)

ALS(Alink System,加速器互連系統(tǒng))是阿里云目前主導(dǎo)的開放生態(tài),解決Scale Up互連系統(tǒng)的行業(yè)發(fā)展規(guī)范問題。ALS將在系統(tǒng)層面同時支持UALink國際標準并兼容封閉方案。ALS包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個主要組成部分。ALS-D在UALink上補充在網(wǎng)計算加速等特性,并支持Switch組網(wǎng)模式,其主要特點包括:

-性能維度,極致優(yōu)化協(xié)議以達到最小的成本實現(xiàn)極致的性能。在協(xié)議格式、重傳方案等維度的設(shè)計上充分考慮工程的性能優(yōu)化,可對報文以極低的延遲進行解析、轉(zhuǎn)發(fā),從而具備端到端的低時延,并且在實現(xiàn)層面可以節(jié)省大量的芯片面積。

-組網(wǎng)維度,考慮到并行計算的發(fā)展,在新的并行模式(如EP)下需要更強大的點對點通信能力,ALS-D系統(tǒng)定義了基于Switch硬件連接方案,并且支持單層和二層的互連拓撲,提供多至數(shù)百/數(shù)千節(jié)點的互連,可以在各級連接方案中維持1:1的帶寬收斂比,實現(xiàn)具備PB級的顯存共享,為AI計算的通信操作提供靈活的規(guī)模支撐。

互連的管控運維也是系統(tǒng)設(shè)計的重要組成部分,ALS-M的目標是為不同的芯片方案提供標準化的接入方案,符合此規(guī)范的設(shè)備均可靈活接入應(yīng)用方系統(tǒng)。無論是對于開放生態(tài)(如UALink系統(tǒng)),還是封閉廠商,ALS使用統(tǒng)一的軟件接口。同時,ALS-M為云計算等集群管理場景,提供單租、多租等靈活和彈性的配置能力。

ALink System的目標是,聚焦GPU算力需求、驅(qū)動云計算定義的開放生態(tài),形成智算超節(jié)點的競爭力。

給作者點贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141