2025/4/8 15:53

斯坦福最新AI研究報(bào)告出爐中美模型質(zhì)量差距縮小至0.3%

鳳凰網(wǎng)科技陳俊熹

nature發(fā)文，斯坦福大學(xué)以人為本人工智能研究所發(fā)布的《2025年人工智能指數(shù)報(bào)告》顯示，人工智能領(lǐng)域的競(jìng)爭(zhēng)日益激烈：中國(guó)高性能AI模型的數(shù)量和質(zhì)量不斷提升，對(duì)美國(guó)的領(lǐng)先地位構(gòu)成挑戰(zhàn)，頂級(jí)模型之間的性能差距正在縮小。

美國(guó)此前在模型質(zhì)量方面的領(lǐng)先優(yōu)勢(shì)已經(jīng)消失。中國(guó)是人工智能出版物和專利產(chǎn)出最多的國(guó)家，如今其開(kāi)發(fā)的模型在性能上已經(jīng)與美國(guó)的競(jìng)爭(zhēng)對(duì)手不相上下。2023年，在大規(guī)模多任務(wù)語(yǔ)言理解測(cè)試（MMLU）中，中國(guó)領(lǐng)先的模型落后于美國(guó)頂級(jí)模型近20個(gè)百分點(diǎn)。然而，到2024年底，美國(guó)的領(lǐng)先優(yōu)勢(shì)縮小到了0.3個(gè)百分點(diǎn)。

世界各頂級(jí)AI模型之間性能已無(wú)太大差距

該報(bào)告強(qiáng)調(diào)，隨著人工智能的快速持續(xù)發(fā)展，沒(méi)有一家公司能夠脫穎而出。在聊天機(jī)器人競(jìng)技場(chǎng)排行榜上，2024年初排名第一的模型比排名第十的模型得分高出約12%，但到2025年初，這一差距縮小到了5%。報(bào)告稱：“前沿領(lǐng)域的競(jìng)爭(zhēng)越來(lái)越激烈，也越來(lái)越擁擠。”

該指數(shù)顯示，通過(guò)使用更多決策變量、更強(qiáng)的計(jì)算能力和更大的訓(xùn)練數(shù)據(jù)集，生成式人工智能模型平均而言仍在變得更“大”。但開(kāi)發(fā)人員也在證明，更小、更精簡(jiǎn)的模型也能有出色的表現(xiàn)。由于算法的改進(jìn)，如今的模型性能與兩年前規(guī)模大100倍的模型性能齊平。該指數(shù)稱：“2024年是小型人工智能模型的突破之年。”

紐約伊薩卡康奈爾大學(xué)的計(jì)算機(jī)科學(xué)家巴特塞爾曼表示，很高興看到像中國(guó)的DeepSeek這樣相對(duì)小型、低成本的研究成果證明了自己的競(jìng)爭(zhēng)力。他說(shuō)：“我預(yù)計(jì)我們會(huì)看到一些由五人甚至兩人組成的獨(dú)立團(tuán)隊(duì)，他們會(huì)提出一些新的算法想法，從而改變現(xiàn)狀。這很好。我們不希望世界只由一些大公司掌控。”

報(bào)告顯示，如今絕大多數(shù)強(qiáng)大的人工智能模型是由工業(yè)界而非學(xué)術(shù)界開(kāi)發(fā)的：這與21世紀(jì)初神經(jīng)網(wǎng)絡(luò)和生成式人工智能尚未興起情況正好相反。報(bào)告稱，2006年之前，工業(yè)界開(kāi)發(fā)的著名人工智能模型不到20%，2023年這一比例為60%，2024年則接近90%。

美國(guó)仍然是強(qiáng)大模型的最大生產(chǎn)國(guó)，2024年發(fā)布了40個(gè)模型，中國(guó)發(fā)布了15個(gè)，歐洲發(fā)布了3個(gè)。但許多其他地區(qū)也在加入這場(chǎng)競(jìng)賽，包括中東、拉丁美洲和東南亞。

塞爾曼說(shuō)：“2015年左右，中國(guó)走上了成為人工智能領(lǐng)域頂尖參與者的道路，他們通過(guò)教育投資實(shí)現(xiàn)了這一目標(biāo)。我們看到這開(kāi)始有了回報(bào)。”

AI領(lǐng)域還出現(xiàn)了“開(kāi)放權(quán)重”模型在數(shù)量和性能上的驚人增長(zhǎng)，如DeepSeek和Meta的LLaMa。用戶可以自由查看這些模型在訓(xùn)練過(guò)程中學(xué)習(xí)到的并用于預(yù)測(cè)的參數(shù)，不過(guò)其他細(xì)節(jié)，如訓(xùn)練代碼，可能仍保密。最初，不公開(kāi)這些因素的封閉系統(tǒng)明顯更優(yōu)越，但到2024年初，這些類別中頂級(jí)競(jìng)爭(zhēng)者之間的性能差距縮小到了8%，到2025年初則縮小到了1.7%。

加利福尼亞州門(mén)洛帕克的非營(yíng)利性研究機(jī)構(gòu)SRI的計(jì)算機(jī)科學(xué)家、該報(bào)告的聯(lián)合主任雷佩羅特說(shuō)：“這對(duì)任何無(wú)力從頭構(gòu)建模型的人來(lái)說(shuō)肯定是好事，包括許多小公司和學(xué)者。”OpenAI計(jì)劃在未來(lái)幾個(gè)月內(nèi)發(fā)布一個(gè)開(kāi)放權(quán)重模型。

2022 年ChatGPT公開(kāi)推出后，開(kāi)發(fā)人員將大部分精力投入到通過(guò)擴(kuò)大模型規(guī)模來(lái)提升系統(tǒng)性能上。該指數(shù)報(bào)告稱，這一趨勢(shì)仍在繼續(xù)：訓(xùn)練一個(gè)典型的領(lǐng)先人工智能模型所消耗的能源目前每年翻一番；每個(gè)模型使用的計(jì)算資源每五個(gè)月翻一番；訓(xùn)練數(shù)據(jù)集的規(guī)模每八個(gè)月翻一番。

然而，各公司也在發(fā)布性能非常出色的小型模型。例如，2022年在MMLU上得分超過(guò)60%的最小模型使用了5400億個(gè)參數(shù)；到2024年，一個(gè)模型僅用38億個(gè)參數(shù)就達(dá)到了相同的分?jǐn)?shù)。小型模型比大型模型訓(xùn)練速度更快、回答問(wèn)題更迅速，且能耗更低。佩羅特說(shuō)：“這對(duì)各方面都有幫助。”

塞爾曼說(shuō)，一些小型模型可以模仿大型模型的行為，或者利用比舊系統(tǒng)更好的算法和硬件。該指數(shù)報(bào)告稱，人工智能系統(tǒng)使用的硬件的平均能源效率每年提高約40%。由于這些進(jìn)步，在MMLU上得分超過(guò)60%的成本大幅下降，從2022年11月的每百萬(wàn)個(gè)token約20美元降至 2024年10月的每百萬(wàn)個(gè)token約7美分。

盡管在幾項(xiàng)常見(jiàn)的基準(zhǔn)測(cè)試中取得了顯著進(jìn)步，但該指數(shù)強(qiáng)調(diào)，生成式人工智能仍然存在一些問(wèn)題，如隱性偏見(jiàn)和“幻覺(jué)”傾向，即吐出虛假信息。塞爾曼說(shuō)：“它們?cè)诤芏喾矫娼o我留下了深刻印象，但在其他方面也讓我感到恐懼。它們?cè)诜敢恍┓浅；镜腻e(cuò)誤方面讓我感到驚訝。”

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

測(cè)試計(jì)算機(jī)網(wǎng)絡(luò)

2025全球6G技術(shù)與產(chǎn)業(yè)生態(tài)大會(huì)："通信與AI融合"論壇成功舉辦共探智能未來(lái)無(wú)限可能
C114通信網(wǎng) 09:25
全球AI競(jìng)賽的杭州答案：昇騰算力筑基聚勢(shì)，創(chuàng)新生態(tài)鏈重塑“數(shù)實(shí)融合”新高度
C114通信網(wǎng) 4-12
摩爾線程精彩亮相2025中國(guó)移動(dòng)云智算大會(huì)，以全棧AI賦能智算新時(shí)代
C114通信網(wǎng) 4-12
高通徐晧：AI與6G加速融合解鎖更多應(yīng)用場(chǎng)景
C114通信網(wǎng) 顏翊4-11

斯坦福最新AI研究報(bào)告出爐 中美模型質(zhì)量差距縮小至0.3%

斯坦福最新AI研究報(bào)告出爐中美模型質(zhì)量差距縮小至0.3%