C114通信網(wǎng)  |  通信人家園

 
2024/10/31 09:38

數(shù)十億美元增長背后——NVIDIA重塑全球AI網(wǎng)絡格局

廠商供稿  

在驚嘆于 AI 算力的迅猛增長時,我們不禁會想到那個經(jīng)典的哲學問題:是先有雞還是先有蛋?換句話說,是 AI 的崛起成就了 NVIDIA,還是 NVIDIA 的創(chuàng)新推動了AI市場的蓬勃發(fā)展?

這個問題的答案,或許可以從 NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛的理念中找到線索。他曾說過最喜歡的是“Zero-Billion-Dollar Markets”——那些尚未被滿足的需求、有待解決的問題,都具備成為這一市場的潛力,而這也會促使他去思考,如何以全新的方式去創(chuàng)造市場而不是在已有的市場中簡單迭代。事實證明,NVIDIA 正是通過革命性的 GPU,將 AI 應用從概念落地,并轉變?yōu)榉睒s且潛力無限的產業(yè),從而證明了技術創(chuàng)新對塑造市場的關鍵作用。

當前,生成式 AI 的興起帶來了新的挑戰(zhàn)和機遇。隨著 AI 大模型參數(shù)規(guī)模的不斷擴大,GPU 集群的急劇擴張對網(wǎng)絡通信提出了更高要求。面對傳統(tǒng)以太網(wǎng)在大規(guī)模 AI 算力集群中的捉襟見肘,NVIDIA 率先推出了專門面向 AI 的以太網(wǎng),不僅提升了算力集群的性能和效率,更是在 AI 算力網(wǎng)絡市場開辟了新的戰(zhàn)場。

AI 的爆發(fā)驅動了以太網(wǎng)的變革,是否預示著又一個“Zero-Billion-Dollar Markets”的誕生?日前,NVIDIA 網(wǎng)絡高級副總裁 Gilad Shainer 接受了與非網(wǎng)采訪,分享了他對 AI 以太網(wǎng)變革的洞見,以及 NVIDIA 在這一領域的戰(zhàn)略布局和未來愿景。

AI“運力”變革——生成式 AI 發(fā)展的關鍵

在生成式 AI 的迅猛增長下,行業(yè)面臨著一個關鍵轉折點:網(wǎng)絡技術的變革。這是因為在超大規(guī)模 GPU 集群中,網(wǎng)絡“運力”和 GPU“算力”共同構成了集群的整體性能,只有二者都達到高性能時,才能實現(xiàn)計算性能和效率的最大化,AI 集群才能發(fā)揮出最大的效力,實現(xiàn)高效的數(shù)據(jù)處理和智能計算。這也意味著,這場變革不僅關乎技術進步,更關乎整個行業(yè)如何重新定義網(wǎng)絡在推動業(yè)務創(chuàng)新和數(shù)字化轉型中的作用。

隨著 AI 工作負載的增長,特別是大語言模型和其他基礎 AI 模型的發(fā)展,數(shù)據(jù)中心網(wǎng)絡技術正經(jīng)歷著革命性變化。以 AI 工廠和 AI 云為代表的新型數(shù)據(jù)中心逐漸成為主流,它們專為 AI 工作負載量身定制,加速計算和高性能網(wǎng)絡在這里至關重要。

從所面向的應用場景來看,AI 工廠是 NVIDIA 面向大規(guī)模、大算力、高性能 AI 場景下,基于其 NVLink+InfiniBand 無損網(wǎng)絡架構所實現(xiàn)的新型 AI 數(shù)據(jù)中心,一些成功的大語言模型都基于這一網(wǎng)絡架構;而 AI 云則需要響應客戶在云環(huán)境中構建其生成式 AI 或 AI 工作負載的需求,這一場景具有典型的多租戶、工作負載多樣性等特點。

據(jù) Gilad Shainer 分享,近一半已經(jīng)部署的 AI 云,在計算網(wǎng)絡上采用的是傳統(tǒng)以太網(wǎng)。另據(jù) IDC 數(shù)據(jù)顯示,目前面向數(shù)據(jù)中心的網(wǎng)絡交換機市場中,85% 以上的產品依然采用以太網(wǎng)技術。

過去數(shù)十年以來,傳統(tǒng)以太網(wǎng)憑借兼容性、成本效益、靈活性和多租戶場景支持等優(yōu)勢,已經(jīng)成為各行業(yè)網(wǎng)絡基礎設施的核心,廣泛應用于數(shù)據(jù)中心和企業(yè)網(wǎng)絡。

然而,隨著 AI 應用的快速發(fā)展,生成式 AI 對低延遲、高帶寬、無限可擴展和高可靠性等根本需求,恰恰是傳統(tǒng)以太網(wǎng)難以滿足的。它作為有損網(wǎng)絡,固有的短板包括:更高的交換機延遲;分割緩沖交換機架構,而這可能會導致帶寬分配不公平;針對 AI 工作負載生成的大象流,基于傳統(tǒng) ECMP 的負載均衡策略面臨優(yōu)化挑戰(zhàn);此外還有性能隔離和多業(yè)務噪聲問題等等。

在實際的 AI 工作負載中,這會引起一系列性能和效率問題,例如:如果出現(xiàn)鏈路故障,可能會導致集群的 AI 性能減半;交換機帶寬分配不均導致有些業(yè)務的延遲增加,最終導致性能瓶頸,進而阻礙業(yè)務決策,特別是在金融行業(yè)中的高頻交易和風險管理,以及醫(yī)療領域的遠程診斷和緊急響應等應用場景中;此外,在應對計算密集型任務時,傳統(tǒng)以太網(wǎng)制約了數(shù)據(jù)中心的擴展和服務效率;并且,AI 應用的多樣化和多租戶環(huán)境,也要求網(wǎng)絡提供更靈活的配置和性能隔離。

面對傳統(tǒng)以太網(wǎng)的種種掣肘,NVIDIA 率先對其發(fā)起變革,這也正是 NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡平臺的誕生背景。

作為全球首個專為 AI 打造的以太網(wǎng)架構,Spectrum-X 可以提供端到端 400Gb/s帶寬,將生成式 AI 網(wǎng)絡性能提升至傳統(tǒng)以太網(wǎng)的 1.6 倍,并提供一致且可預測的結果。這一創(chuàng)新不僅擴展了 NVIDIA 業(yè)務的觸及范圍,更重要的是,它為企業(yè)客戶解鎖了分布式 AI 加速計算的更大潛能,推動業(yè)務向更高效率和更廣闊的可能性邁進。

目前,NVIDIA 在網(wǎng)絡領域的戰(zhàn)略布局正在收獲顯著成效。據(jù)其 2025 財年 Q2 財報,網(wǎng)絡收入環(huán)比增長 16%,其中,AI 以太網(wǎng)收入(包括 Spectrum-X 端到端以太網(wǎng)平臺)環(huán)比翻一番。并且,Spectrum-X 平臺獲得了 OEM 和 ODM 的廣泛支持,并被云服務商、GPU 云提供商和企業(yè)廣泛采用。

Gilad Shainer 透露,Spectrum-X 正在批量交付中,有望在一年內成為一個價值數(shù)十億美元的產品線。同時,NVIDIA 正在不斷優(yōu)化供應鏈策略,以滿足市場的旺盛需求。未來,NVIDIA 計劃每年推出新一代 Spectrum-X 產品,通過提供更高的帶寬、更多的端口以及增強的軟件功能集和可編程性,來推動 AI 以太網(wǎng)網(wǎng)絡性能的持續(xù)領先。

專為生成式 AI 而生的 Spectrum-X

Spectrum-X 以 Spectrum SN5600 交換機和 BlueField-3 SuperNIC 為核心,通過無損網(wǎng)絡與 RDMA、動態(tài)路由、擁塞控制等創(chuàng)新,不僅實現(xiàn)了最大帶寬和業(yè)務噪聲隔離,更為數(shù)千個并發(fā)的AI任務提供了可預測的結果。以下是 Spectrum-X 面向 AI 應用的核心技術:

∙無損網(wǎng)絡技術和 RDMA(遠程直接內存訪問)革新了數(shù)據(jù)傳輸,為 AI 負載提供了快速、直接的數(shù)據(jù)訪問能力,提高了傳輸效率。這一技術特別適合對性能要求極高的 AI 應用。

∙動態(tài)路由和基于包的負載分擔技術,有效解決了 AI 工作負載產生的大象型數(shù)據(jù)流的負載均衡問題,這些數(shù)據(jù)流容易導致網(wǎng)絡擁塞和延遲。Spectrum-X 通過端到端的動態(tài)路由和基于數(shù)據(jù)包的負載均衡,為 AI 和數(shù)據(jù)密集型應用提供了高性能、低延遲和無限可擴展的網(wǎng)絡環(huán)境。

∙擁塞控制為多租戶 AI 云環(huán)境提供了高效、低延遲的網(wǎng)絡控制策略。通過硬件遙測技術,Spectrum-X 端到端解決方案能夠快速響應網(wǎng)絡擁塞,實現(xiàn)實時流量控制,避免了傳統(tǒng)方法中可能出現(xiàn)的高延遲和數(shù)據(jù)包丟失問題。

∙在性能隔離和安全方面,Spectrum-X 平臺的 Spectrum-4 在交換網(wǎng)絡上和 BlueField-3 SuperNIC 和 DPU 端側提供了全面的解決方案。具備了硬件級的安全功能,BlueField-3 DPU 在端側能夠實現(xiàn)全線速的數(shù)據(jù)處理和加解密,同時保持業(yè)務的高性能。BlueField-3 SuperNIC 和 Spectrum-4 交換機的配合在以太網(wǎng)上率先實現(xiàn)了多任務性能隔離,確保了多用戶和多應用環(huán)境下的可預測性能,這對于 AI 云服務的穩(wěn)定性和安全性至關重要。

除了平臺本身的性能和效率提升,Spectrum-X 還提供  NVIDIA 加速軟件和軟件開發(fā)套件(SDK),使開發(fā)人員能夠構建軟件定義的云原生 AI 應用。這種端到端的功能交付,可以減少基于 transformer 的大規(guī)模生式 AI 模型的調試和運行時間,助力網(wǎng)絡工程師、 AI 數(shù)據(jù)科學家和云服務商及時取得更好的結果,并更快做出決策。

對于 Spectrum-X 的突破,Gilad Shainer 指出,“如果沒有端到端的全棧式創(chuàng)新,Spectrum-X 的能力將無從談起!

不僅如此,NVIDIA Spectrum-X 網(wǎng)絡平臺具有高度的通用性,確保了 Spectrum-X 能夠無縫集成到現(xiàn)有網(wǎng)絡基礎設施中,這不僅降低了部署成本和復雜性,也為未來在 AI 場景中大規(guī)模使用以太網(wǎng)解決方案奠定了基礎,為 AI 網(wǎng)絡解決方案市場的爆發(fā)提供了動力。

迅速崛起的 AI 以太網(wǎng)生態(tài)

考慮到基于以太網(wǎng)部署是生成式 AI 的趨勢之一,NVIDIA 將會持續(xù)推進服務器節(jié)點內外的網(wǎng)絡優(yōu)化和創(chuàng)新。

現(xiàn)有 AI 大模型系統(tǒng)的網(wǎng)絡互連技術主要分為兩類,一類是縱向擴展(Scale-up),主要是一個計算節(jié)點內部不同加速卡之間的互連或者一定量的加速卡組成一個超高性能的共享內存的系統(tǒng);一類是橫向擴展(Scale-out),主要指不同計算節(jié)點之間的互連或者多個 Scale-up 組之間的互連。

NVIDIA 的縱向擴展網(wǎng)絡目標正是利用超快 NVLink 網(wǎng)絡使數(shù)個直至數(shù)百個  GPU  之間實現(xiàn)算力和內存的池化,成為一個“巨大的 GPU”。如果在此基礎上繼續(xù)擴展到更大規(guī)模,就需要進行橫向擴展,可以采用 NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X 以太網(wǎng)等高性能網(wǎng)絡。

“這種將 NVLink 與 InfiniBand 或 Spectrum-X 相結合的方法,對基于領先的 NVIDIA 計算架構的系統(tǒng)部署、實現(xiàn)前所未有的 GPU 規(guī)模至關重要”,Gilad Shainer 強調。他以法國云服務提供商 Scaleway 為例,介紹了 NVIDIA 如何通過高性能 GPU 和網(wǎng)絡平臺幫助其應對生成式 AI 的挑戰(zhàn)。

具體而言,Scaleway 將 HGX Hopper GPU 服務器納入其 GPU 集群陣容,利用大規(guī)模 GPU 集群的速度和效率來加速 AI 分布式工作負載;在橫向擴展的AI網(wǎng)絡方面,Scaleway 部署了 Spectrum-X 網(wǎng)絡平臺。也正是通過采用 NVIDIA 的綜合解決方案,Scaleway 有效增強了 AI 計算能力并縮短了 AI 模型訓練時間,同時加速了 AI 解決方案的開發(fā)、部署和上市時間。

目前,Coreweave、GMO Internet Group、Lambda Labs、Scaleway、STPX Global 和 Yotta 等云服務提供商和企業(yè)正在采用 Spectrum-X 平臺,為其 AI 基礎設施帶來更高的網(wǎng)絡性能。此外,NVIDIA OEM 合作伙伴正在提供基于 Spectrum-X 的全棧解決方案,ODM 合作伙伴正在將 BlueField-3 SuperNIC 集成到他們的系統(tǒng)中,并通過 NVIDIA 的參考架構提供 Spectrum-X 解決方案。

為了應對云服務提供商在構建 AI 云、使用加速計算技術和高性能網(wǎng)絡支持 AI 業(yè)務方面的挑戰(zhàn),NVIDIA 正在通過持續(xù)的生態(tài)系統(tǒng)建設來推動 Spectrum-X 平臺部署,支持更廣泛的生成式 AI 應用落地。

GPU 之后,下一個“Zero-Billion-Dollar Markets”?

根據(jù) IDC 預測,生成式 AI 數(shù)據(jù)中心以太網(wǎng)交換機市場將以 70% 的年復合增長率增長,從 2023 年的 6.4 億美元增長到 2028 年的 90.7 億美元。這一預測不僅進一步證明了 Spectrum-X 平臺的前瞻性,也彰顯了它在未來市場中巨大的商業(yè)潛力。

如今,從金融到醫(yī)療,從工業(yè)到媒體娛樂,各行業(yè)都在尋求通過 AI 技術提升業(yè)務效率和創(chuàng)新能力。NVIDIA Spectrum-X 平臺不僅突破了傳統(tǒng)以太網(wǎng)的瓶頸,顯著提升了網(wǎng)絡性能和效率,更重要的是,它引領了行業(yè)對網(wǎng)絡技術的重新思考,確保以太網(wǎng)在生成式 AI 時代仍然是一種可靠且面向未來的技術,為 AI 基礎設施的未來發(fā)展奠定基礎。

根據(jù) NVIDIA 今年的預測,全球數(shù)據(jù)中心基礎設施的安裝基數(shù)在未來五年內有望翻一番,這將帶來每年數(shù)千億美元的市場機會。

生成式 AI 帶來的深遠影響才剛剛開始,越來越多的行業(yè)在加入生成式 AI 的陣營。正如開篇所討論,NVIDIA 總是希望通過技術創(chuàng)新塑造市場,Spectrum-X 已經(jīng)展現(xiàn)出了這一潛力,而這也將助推 NVIDIA 站上一個新的萬億美元市場的臺階,引領 AI 技術的又一次飛躍發(fā)展。

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權所有 舉報電話:021-54451141