C114通信網(wǎng)  |  通信人家園

人工智能
2025/2/5 13:05

華為與DeepSeek聯(lián)手會(huì)發(fā)生什么:算力已達(dá)英偉達(dá)60%、CANN取代CDUA架構(gòu)

快科技  朝暉

華為(昇騰+CANN)+Deepseek,能解決英偉達(dá)GPU+CUDA的“卡脖子”嗎?

據(jù)tomshardware等多家媒體報(bào)道,華為最新的AI處理器昇騰910C(Ascend 910C)的推理性能已達(dá)NVIDIA H100 GPU的六成。

華為與DeepSeek聯(lián)手會(huì)發(fā)生什么:算力已達(dá)英偉達(dá)60%、CANN取代CDUA架構(gòu)

根據(jù)DeepSeek 研究人員的測(cè)試在推理任務(wù)中,昇騰910C性能可達(dá)H100的60%。據(jù)悉,升騰910C采用chiplet封裝,第二代7nm級(jí)(N+2)工藝,整合約530億個(gè)晶體管。

雖然昇騰910C并非當(dāng)前最強(qiáng)AI芯片,但它有助于降低中國(guó)對(duì)NVIDIA GPU的依賴。

此外,通過手動(dòng)優(yōu)化CANN內(nèi)核,其效率可以進(jìn)一步提高。DeepSeek對(duì)昇騰處理器及其 PyTorch存儲(chǔ)庫(kù)的原生支持允許以最小的的資源代價(jià),實(shí)現(xiàn)CUDA到CANN的無縫轉(zhuǎn)換,從而更容易將華為的硬件集成到AI工作流程中。

華為與DeepSeek聯(lián)手會(huì)發(fā)生什么:算力已達(dá)英偉達(dá)60%、CANN取代CDUA架構(gòu)

據(jù)了解,DeepSeek的支持為華為芯片帶來了關(guān)鍵優(yōu)勢(shì):從第一天起就支持華為昇騰芯片,自主維護(hù)PyTorch倉(cāng)庫(kù),只需一行代碼就能將CUDA轉(zhuǎn)換為CANN;而且性能優(yōu)化潛力巨大,通過定制優(yōu)化可達(dá)到更高性能。

據(jù)華為官網(wǎng)介紹,CANN(Compute Architecture for Neural Networks)是昇騰針對(duì)AI場(chǎng)景推出的異構(gòu)計(jì)算架構(gòu),對(duì)上支持多種AI框架,對(duì)下服務(wù)AI處理器與編程,發(fā)揮承上啟下的關(guān)鍵作用,是提升昇騰AI處理器計(jì)算效率的關(guān)鍵平臺(tái)。同時(shí)針對(duì)多樣化應(yīng)用場(chǎng)景,提供高效易用的編程接口,支持用戶快速構(gòu)建基于昇騰平臺(tái)的AI應(yīng)用和業(yè)務(wù)。

華為與DeepSeek聯(lián)手會(huì)發(fā)生什么:算力已達(dá)英偉達(dá)60%、CANN取代CDUA架構(gòu)

據(jù)了解,CANN分社區(qū)版和商用版。前者是快速提供新特性的體驗(yàn)版,供開發(fā)者提前試用;而后者是滿足商用標(biāo)準(zhǔn)的穩(wěn)定版本。

目前,CANN社區(qū)版已經(jīng)來到了8.0.0.alpha003版本,針對(duì)Ascend C進(jìn)行了特性增強(qiáng)。而商用版CANN 8.0.RC3版本也已經(jīng)發(fā)布,新增適配7個(gè)操作系統(tǒng),簡(jiǎn)化了CANN安裝流程。

華為與DeepSeek聯(lián)手會(huì)發(fā)生什么:算力已達(dá)英偉達(dá)60%、CANN取代CDUA架構(gòu)

  DeepSeek的Yuchen Jin表示,長(zhǎng)期訓(xùn)練可靠性是中國(guó)處理器的一個(gè)關(guān)鍵弱點(diǎn)。

主要是NNVIDIA硬件和軟件生態(tài)系統(tǒng)的深度集成,該生態(tài)系統(tǒng)已經(jīng)發(fā)展了二十多年。雖然推理性能可以優(yōu)化,但持續(xù)的訓(xùn)練工作負(fù)載需要華為的硬件和軟件堆棧進(jìn)一步改進(jìn)。

而隨著AI模型架構(gòu)向Transformer收斂,CUDA和PyTorch編譯器的重要性將降低。DeepSeek團(tuán)隊(duì)的加入將顯著降低對(duì)NVIDIA的依賴,大幅節(jié)省成本。

華為與DeepSeek聯(lián)手會(huì)發(fā)生什么:算力已達(dá)英偉達(dá)60%、CANN取代CDUA架構(gòu)

無獨(dú)有偶。此前有消息稱,DeepSeek開發(fā)的大語言模型繞過了英偉達(dá)的CUDA框架,正為未來兼容國(guó)產(chǎn)GPU芯片做準(zhǔn)備。

最新發(fā)現(xiàn)顯示,DeepSeek使用英偉達(dá)的H800芯片訓(xùn)練時(shí),使用英偉達(dá)底層硬件指令PTX(Parallel Thread Execution)語言,而非高級(jí)編程語言CUDA。

這樣意味著DeepSeek繞過了CUDA,使用更底層的編程語言做優(yōu)化。

對(duì)于程序開發(fā)人員來說,CUDA是一種更加友好的高級(jí)語言,開發(fā)者只需要專注于程序和算法最相關(guān)的運(yùn)行邏輯,而不太需要考慮具體的程序是如何在GPU等硬件上具體如何執(zhí)行計(jì)算的,從而能夠降低開發(fā)難度。

而PTX在接近匯編語言的層級(jí)運(yùn)行,允許進(jìn)行細(xì)粒度的優(yōu)化,如寄存器分配和Thread / Warp級(jí)別的調(diào)整。這種編程非常復(fù)雜且難以維護(hù),所以行業(yè)通用的做法是使用CUDA這樣的高級(jí)編程語言。

換句話說,DeepSeek把優(yōu)化做到了極致。

北京航空航天大學(xué)副教授黃雷表示,繞過CUDA可以直接根據(jù)GPU的驅(qū)動(dòng)函數(shù)做一些新的開發(fā),從而實(shí)現(xiàn)更加細(xì)粒度的操作。

這也說明DeepSeek擁有一些擅長(zhǎng)寫PTX語言的內(nèi)部開發(fā)者。假如它之后使用國(guó)產(chǎn)GPU,其在硬件適配方面將會(huì)更得心應(yīng)手,其只要了解這些硬件驅(qū)動(dòng)提供的一些基本函數(shù)接口,就可以仿照英偉達(dá)GPU硬件的編程接口去寫相關(guān)的代碼,從而讓自家大模型更加容易適配國(guó)產(chǎn)硬件。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141