2025/3/17 13:15

受 DeepSeek-R1 啟發(fā)，小米大模型團(tuán)隊(duì)登頂音頻推理 MMAU 榜

IT之家遠(yuǎn)洋

@小米技術(shù) 官微今日發(fā)文稱，小米大模型團(tuán)隊(duì)在音頻推理領(lǐng)域取得突破性進(jìn)展。受 DeepSeek-R1 啟發(fā)，團(tuán)隊(duì)率先將強(qiáng)化學(xué)習(xí)算法應(yīng)用于多模態(tài)音頻理解任務(wù)，僅用一周時(shí)間便以 64.5% 的 SOTA 準(zhǔn)確率登頂國(guó)際權(quán)威的 MMAU 音頻理解評(píng)測(cè)榜首，現(xiàn)同步開(kāi)源。

IT之家附官方全文如下：

強(qiáng)化學(xué)習(xí)展現(xiàn)“反直覺(jué)”優(yōu)勢(shì) —— 小米大模型團(tuán)隊(duì)登頂音頻推理 MMAU 榜

面對(duì)一段汽車行駛中的座艙錄音，AI 能否判斷出汽車是否存在潛在的故障？在交響樂(lè)演出現(xiàn)場(chǎng)，AI 能否推測(cè)出作曲家創(chuàng)造這首音樂(lè)時(shí)的心情？在早高峰地鐵站混亂的腳步聲潮中，AI 能否預(yù)判閘機(jī)口可能發(fā)生的沖撞風(fēng)險(xiǎn)？在大模型時(shí)代，人們已經(jīng)不滿足于機(jī)器僅僅識(shí)別說(shuō)話的內(nèi)容、聲音的種類，更期望機(jī)器具備復(fù)雜推理的能力。

MMAU（Massive Multi-Task Audio Understanding and Reasoning）評(píng)測(cè)集（https://arxiv.org/abs / 2410.19168）是這種音頻推理能力的量化標(biāo)尺，它通過(guò)一萬(wàn)條涵蓋語(yǔ)音、環(huán)境聲和音樂(lè)的音頻樣本，結(jié)合人類專家標(biāo)注的問(wèn)答對(duì)，測(cè)試模型在 27 種技能，如跨場(chǎng)景推理、專業(yè)知識(shí)等應(yīng)用上的表現(xiàn)，期望模型達(dá)到接近人類專家的邏輯分析水平。

作為基準(zhǔn)上限，人類專家在 MMAU 上的準(zhǔn)確率為 82.23%。這是一個(gè)很難的評(píng)測(cè)集，目前 MMAU 官網(wǎng)榜單上表現(xiàn)最好的模型是來(lái)自 OpenAI 的 GPT-4o，準(zhǔn)確率為 57.3%。緊隨其后的是來(lái)自 Google DeepMind 的 Gemini 2.0 Flash，準(zhǔn)確率為 55.6%。

MMAU 任務(wù)示例圖片來(lái)自 MMAU 論文

來(lái)自阿里的 Qwen2-Audio-7B 模型在此評(píng)測(cè)集上的準(zhǔn)確率為 49.2%。由于它的開(kāi)源特性，我們嘗試使用一個(gè)較小的數(shù)據(jù)集，清華大學(xué)發(fā)布的 AVQA 數(shù)據(jù)集（https://mn.cs.tsinghua.edu.cn/avqa/），對(duì)此模型做微調(diào)。AVQA 數(shù)據(jù)集僅包含 3.8 萬(wàn)條訓(xùn)練樣本，通過(guò)全量有監(jiān)督微調(diào)（SFT），模型在 MMAU 上的準(zhǔn)確率提升到了 51.8%。這并不是一個(gè)特別顯著的提升。

DeepSeek-R1 的發(fā)布為我們?cè)谠擁?xiàng)任務(wù)上的研究帶來(lái)了啟發(fā)。DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法，讓模型僅通過(guò) "試錯(cuò)-獎(jiǎng)勵(lì)" 機(jī)制就能使自主進(jìn)化，涌現(xiàn)出類似人類的反思、多步驗(yàn)證等推理能力。在同一時(shí)間，卡內(nèi)基梅隆大學(xué)發(fā)布的論文預(yù)印本“All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/abs / 2503.01067) ”，通過(guò)精巧的實(shí)驗(yàn)得出了一個(gè)有趣的論斷：當(dāng)任務(wù)存在明顯的生成-驗(yàn)證差距（Generation-Verification Gap），即任務(wù)生成結(jié)果的難度遠(yuǎn)大于驗(yàn)證結(jié)果正確性的難度時(shí)，強(qiáng)化學(xué)習(xí)比起有監(jiān)督微調(diào)具有獨(dú)特優(yōu)勢(shì)，而 AQA 任務(wù)恰好是完美的生成-驗(yàn)證差距顯著的任務(wù)。

打個(gè)比方來(lái)說(shuō)，離線微調(diào)方法，如 SFT，有點(diǎn)像背題庫(kù)，你只能根據(jù)已有的題目和答案訓(xùn)練，但遇到新題可能不會(huì)做；而強(qiáng)化學(xué)習(xí)方法，如 GRPO，像老師在要求你多想幾個(gè)答案，然后老師告訴你哪一個(gè)答案好，讓你主動(dòng)思考，激發(fā)出自身的能力，而不是被“填鴨式”教學(xué)。當(dāng)然，如果訓(xùn)練量足夠，比如有學(xué)生愿意花很多年的時(shí)間來(lái)死記硬背題庫(kù)，也許最終也能達(dá)到不錯(cuò)的效果，但效率太低，浪費(fèi)太多時(shí)間。而主動(dòng)思考，更容易快速地達(dá)到舉一反三的效果。強(qiáng)化學(xué)習(xí)的實(shí)時(shí)反饋可能會(huì)幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域，而離線方法需要遍歷整個(gè)可能性空間，效率要低得多。

基于上述洞察，我們嘗試將 DeepSeek-R1 的 GRPO 算法遷移到 Qwen2-Audio-7B 模型上。令人驚喜的是，在僅使用 AVQA 的 3.8 萬(wàn)條訓(xùn)練樣本的情況下，強(qiáng)化學(xué)習(xí)微調(diào)后的模型在 MMAU 評(píng)測(cè)集上實(shí)現(xiàn)了 64.5% 的準(zhǔn)確率，這一成績(jī)比目前榜單上第一名的商業(yè)閉源模型 GPT-4o 有近 10 個(gè)百分點(diǎn)的優(yōu)勢(shì)。

有趣的是，當(dāng)我們?cè)谟?xùn)練中強(qiáng)制要求模型輸出推理過(guò)程時(shí)（類似傳統(tǒng)思維鏈方法），準(zhǔn)確率反而下降至 61.1%。這說(shuō)明顯式的思維鏈結(jié)果輸出可能并不利于模型的訓(xùn)練。

我們的實(shí)驗(yàn)揭示了幾個(gè)和傳統(tǒng)認(rèn)知不同的結(jié)論：

關(guān)于微調(diào)方法：強(qiáng)化學(xué)習(xí)在 3.8 萬(wàn)條數(shù)據(jù)集上的表現(xiàn)顯著超過(guò)監(jiān)督學(xué)習(xí)在 57 萬(wàn)條數(shù)據(jù)集上的結(jié)果

關(guān)于參數(shù)規(guī)模：相比千億級(jí)模型，7B 參數(shù)的模型通過(guò)強(qiáng)化學(xué)習(xí)也可展現(xiàn)強(qiáng)推理能力

關(guān)于隱式推理：顯式思維鏈輸出反而成為性能瓶頸

盡管當(dāng)前準(zhǔn)確率已突破 64%，但距離人類專家 82% 的水平仍有差距。在我們當(dāng)前的實(shí)驗(yàn)中，強(qiáng)化學(xué)習(xí)策略還是比較粗糙，訓(xùn)練過(guò)程對(duì)思維鏈的引導(dǎo)并不充分，我們會(huì)在后續(xù)做進(jìn)一步探索。

此次實(shí)驗(yàn)驗(yàn)證了強(qiáng)化學(xué)習(xí)在音頻推理領(lǐng)域的獨(dú)特價(jià)值，也為后續(xù)研究打開(kāi)了一扇新的大門。當(dāng)機(jī)器不僅能 "聽(tīng)見(jiàn)" 聲音，還能 "聽(tīng)懂" 聲音背后的因果邏輯時(shí)，真正的智能聽(tīng)覺(jué)時(shí)代將會(huì)來(lái)臨。

我們把訓(xùn)練代碼、模型參數(shù)開(kāi)源，并提供了技術(shù)報(bào)告，供學(xué)術(shù)界產(chǎn)業(yè)界參考交流。

訓(xùn)練代碼：https://github.com/xiaomi-research/r1-aqa

模型參數(shù)：https://huggingface.co/mispeech/r1-aqa

技術(shù)報(bào)告：https://arxiv.org/abs/2503.11197

交互 Demo：http://120.48.108.147:7860/

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

AI 測(cè)試 OpenAI Google

美國(guó)四大 AI 高管：政府需加大基礎(chǔ)設(shè)施建設(shè)，并支持 AI 芯片出口
鳳凰網(wǎng)科技簫雨08:36
超谷歌搜索：阿里開(kāi)源創(chuàng)新大模型搜索引擎 ZeroSearch，成本直降 80% 且能力更強(qiáng)
IT之家問(wèn)舟08:35
TechInsights：2025 年 Q1 中國(guó)智能手機(jī)市場(chǎng)出貨量同比增長(zhǎng) 9%，華為、小米、OPPO 前三
IT之家浩渺5-8
濱海灣新區(qū)：華為智能微模塊+ DeepSeek 大模型，開(kāi)啟智慧城市新范式
廠商供稿 5-7

受 DeepSeek-R1 啟發(fā)，小米大模型團(tuán)隊(duì)登頂音頻推理 MMAU 榜

受 DeepSeek-R1 啟發(fā)，小米大模型團(tuán)隊(duì)登頂音頻推理 MMAU 榜