2025/4/29 11:41

通義千問正式推出Qwen3系列模型支持多語(yǔ)言和兩種思考模式

鳳凰網(wǎng)科技楊睿琪

4月29日，通義千問團(tuán)隊(duì)宣布推出Qwen3系列大語(yǔ)言模型，包含多個(gè)參數(shù)規(guī)模的密集模型（Dense）與混合專家模型（MoE），并全面開源。

該系列模型引入“思考模式”與“非思考模式”兩種思考模式，前者支持復(fù)雜問題分步推理，后者提供快速響應(yīng)。

在預(yù)訓(xùn)練方面，Qwen3的數(shù)據(jù)集相比Qwen2.5有了顯著擴(kuò)展。Qwen2.5是在18萬億個(gè) token上進(jìn)行預(yù)訓(xùn)練的，而Qwen3使用的數(shù)據(jù)量幾乎是其兩倍，達(dá)到了約36萬億個(gè) token，涵蓋了119種語(yǔ)言和方言。

此外，據(jù)官方介紹，通義千問開源了兩個(gè)MoE模型的權(quán)重：Qwen3-235B-A22B，一個(gè)擁有2350多億總參數(shù)和220多億激活參數(shù)的大模型，以及Qwen3-30B-A3B，一個(gè)擁有約300億總參數(shù)和30億激活參數(shù)的小型MoE模型。

六個(gè)Dense模型也已開源，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在Apache 2.0許可下開源。

據(jù)官方表示，旗艦?zāi)Ｐ?strong>Qwen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中，與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro等頂級(jí)模型相比，表現(xiàn)出極具競(jìng)爭(zhēng)力的結(jié)果。此外，小型MoE模型Qwen3-30B-A3B的激活參數(shù)數(shù)量是QwQ-32B的10%，表現(xiàn)更勝一籌，甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。

技術(shù)細(xì)節(jié)方面，Qwen3采用四階段后訓(xùn)練流程，整合強(qiáng)化學(xué)習(xí)與指令微調(diào)，增強(qiáng)模型推理及多任務(wù)處理能力。

團(tuán)隊(duì)表示，未來計(jì)劃從多個(gè)維度提升模型，包括優(yōu)化模型架構(gòu)和訓(xùn)練方法，以實(shí)現(xiàn)幾個(gè)關(guān)鍵目標(biāo)：擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小、延長(zhǎng)上下文長(zhǎng)度、拓寬模態(tài)范圍，并利用環(huán)境反饋推進(jìn)強(qiáng)化學(xué)習(xí)以進(jìn)行長(zhǎng)周期推理。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

測(cè)試整合

阿里通義千問推出視覺推理模型 QVQ-Max：可分析、推理圖片和視頻內(nèi)容
IT之家遠(yuǎn)洋3-28
手機(jī)也能跑的模型來了！阿里宣布開源Qwen2.5-Omni-7B
快科技拾柒3-27
通義千問發(fā)布新一代端到端旗艦?zāi)Ｐ蚎wen2.5-Omni
快科技隨心3-27
阿里云推出最新通義千問 QwQ-32B 推理模型，僅 1/20 參數(shù)媲美 DeepSeek R1
IT之家問舟3-6

通義千問正式推出Qwen3系列模型 支持多語(yǔ)言和兩種思考模式

通義千問正式推出Qwen3系列模型支持多語(yǔ)言和兩種思考模式