C114通信網(wǎng)  |  通信人家園

人工智能
2025/2/12 13:06

豆包提出全新稀疏模型架構(gòu) UltraMem,推理成本較 MoE 最高可降 83%

IT之家  清源

豆包大模型團隊今日宣布,字節(jié)跳動豆包大模型團隊提出了全新的稀疏模型架構(gòu) UltraMem,該架構(gòu)有效解決了 MoE 推理時高額的訪存問題,推理速度較 MoE 架構(gòu)提升 2-6 倍,推理成本最高可降低 83%。該研究還揭示了新架構(gòu)的 Scaling Law,證明其不僅具備優(yōu)異的 Scaling 特性,更在性能上超越了 MoE。

實驗結(jié)果表明,訓(xùn)練規(guī)模達(dá) 2000 萬 value 的 UltraMem 模型,在同等計算資源下可同時實現(xiàn)業(yè)界領(lǐng)先的推理速度和模型性能,為構(gòu)建數(shù)十億規(guī)模 value 或 expert 開辟了新路徑。

據(jù)介紹,UltraMem 是一種同樣將計算和參數(shù)解耦的稀疏模型架構(gòu),在保證模型效果的前提下解決了推理的訪存問題。實驗結(jié)果表明,在參數(shù)和激活條件相同的情況下,UltraMem 在模型效果上超越了 MoE,并將推理速度提升了 2-6 倍。此外,在常見 batch size 規(guī)模下,UltraMem 的訪存成本幾乎與同計算量的 Dense 模型相當(dāng)。

在 Transformer 架構(gòu)下,模型的性能與其參數(shù)數(shù)量和計算復(fù)雜度呈對數(shù)關(guān)系。隨著 LLM 規(guī)模不斷增大,推理成本會急劇增加,速度變慢。

盡管 MoE 架構(gòu)已經(jīng)成功將計算和參數(shù)解耦,但在推理時,較小的 batch size 就會激活全部專家,導(dǎo)致訪存急劇上升,進(jìn)而使推理延遲大幅增加。

注:“MoE”指 Mixture of Experts(專家混合)架構(gòu),是一種用于提升模型性能和效率的架構(gòu)設(shè)計。在 MoE 架構(gòu)中,模型由多個子模型(專家)組成,每個專家負(fù)責(zé)處理輸入數(shù)據(jù)的一部分。在訓(xùn)練和推理過程中,根據(jù)輸入數(shù)據(jù)的特征,會選擇性地激活部分專家來進(jìn)行計算,從而實現(xiàn)計算和參數(shù)的解耦,提高模型的靈活性和效率。

給作者點贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141