昆侖萬(wàn)維集團(tuán)今日宣布,天工大模型 4.0 o1 版和 4o 版同步上線,全量登陸網(wǎng)頁(yè)端和 App 端,可免費(fèi)使用。
天工大模型 4.0 o1 版號(hào)稱國(guó)內(nèi)首款具備中文邏輯推理能力的 o1 模型,不僅包含上線即開(kāi)源的模型,還有兩款性能更強(qiáng)的專用版本。其能夠熟練處理各種推理挑戰(zhàn),包括數(shù)學(xué)、代碼、邏輯、常識(shí)、倫理決策等問(wèn)題。
天工大模型 4.0 4o 版則是一款多模態(tài)模型,官方還推出了由其賦能的實(shí)時(shí)語(yǔ)音對(duì)話助手 Skyo,是一個(gè)“具備情感表達(dá)能力、快速響應(yīng)能力、多語(yǔ)言流暢切換”的智能語(yǔ)音對(duì)話工具。
從官方獲悉,Skywork o1 具備三階段自研訓(xùn)練方案:
推理反思能力訓(xùn)練:Skywork o1 通過(guò)自研的多智能體體系構(gòu)造高質(zhì)量的分步思考,反思和驗(yàn)證數(shù)據(jù)。通過(guò)高質(zhì)量的、多樣性的長(zhǎng)思考數(shù)據(jù)對(duì)基座模型進(jìn)行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。此外,我們?cè)诎姹镜型ㄟ^(guò)大規(guī)模使用自蒸餾和拒絕采樣,顯著提升了模型的訓(xùn)練效率和邏輯推理能力。
推理能力強(qiáng)化學(xué)習(xí):Skywork o1 團(tuán)隊(duì)研發(fā)了最新的適配分步推理強(qiáng)化的 Skywork o1 Process Reward Model(PRM)。實(shí)驗(yàn)證明 Skywork-PRM 可有效地捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對(duì)最終答案的影響。結(jié)合自研分步推理強(qiáng)化算法進(jìn)一步加強(qiáng)模型推理和思考能力。
推理 planning:基于天工自研的 Q * 線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將 Q * 算法實(shí)現(xiàn)和公開(kāi)。Q * 算法落地也大大提升了模型線上推理能力。