2024/9/14 08:15

OpenAl o1大模型：原理、突破、前景及影響

天翼智庫

北京時間2024年9月13日凌晨，OpenAI正式發(fā)布了新的人工智能模型o1（o是orion獵戶座，1代表從頭再來，也意味著后續(xù)將出現(xiàn)更多序列），就是此前OpenAI一直在高調(diào)宣傳的草莓大模型。OpenAI沒有延續(xù)使用GPT序列，可見其與傳統(tǒng)預訓練模型有新的變革性訓練方法和功能，o1具備復雜推理能力，解決比目前專業(yè)的科學、代碼和數(shù)學模型所能解決的更難的問題。值得注意的是，相比GPT-4o等其他大模型，o1推理時間較長、使用成本更高，在不需要復雜推理的場景并沒有明顯優(yōu)勢，也意味著o1并非GPT-4o的替代品，兩者將并存，未來不排除實現(xiàn)融合。

基本原理：自我對弈強化學習+思維鏈+推理標記+定制數(shù)據(jù)集

一是采用大規(guī)模自我對弈強化學習（Self-play RL），設(shè)置獎懲機制，讓模型自行學習解決問題。這種方法類似于人類通過不斷嘗試和糾錯來掌握新技能。二是內(nèi)置思維鏈（CoT），能夠在解決問題前通過內(nèi)置思維鏈進行推導，并將其推理過程外化，使得模型的決策過程更為透明，便于理解和驗證。三是引入推理標記，用于輔助模型在對話環(huán)境中進行深層思考。四是使用專門的訓練數(shù)據(jù)集，包含了大量復雜問題和對應的解題步驟，有助于模型掌握推理能力。

能力突破：復雜推理能力超強，數(shù)學、編碼和科學尤為出色

o1在一系列超過一般人能力的需要復雜推理的高難基準測試中展現(xiàn)出了超強實力，相比 GPT-4o 有巨大提升。一是數(shù)學和編碼能力超強，在國際數(shù)學奧林匹克競賽（IMO）中，o1解答正確率高達83%，顯著優(yōu)于GPT-4o的13%。在知名的在線編程比賽Codeforces中，o1拿到89%的百分位，GPT-4o僅為11%。二是在科學領(lǐng)域應用方面，OpenAI聲稱o1的未來版本將在物理、化學和生物學等學科的高難度基準任務上超越人類專家的表現(xiàn)。三是安全性顯著提升，在最難的越獄測試中o1預覽版得84分，遠超GPT-4o的22分。

　　圖片來源：OpenAI

潛在應用場景：專業(yè)化研究領(lǐng)域，替代更多腦力勞動成為可能

o1的推出預示著AI將在多個專業(yè)化領(lǐng)域展現(xiàn)出新的更優(yōu)秀的應用潛力，例如科學研究、軟件編程、教育等目前已有大模型只是起到初步輔助作用的領(lǐng)域。在科研領(lǐng)域，它可以幫助研究人員進行數(shù)據(jù)分析和模型構(gòu)建，如o1可以被醫(yī)療保健研究人員用來注釋細胞測序數(shù)據(jù)，被物理學家用來生成量子光學所需的復雜數(shù)學公式。在軟件開發(fā)中，可以用來構(gòu)建和執(zhí)行多步驟工作流程，在編程中提供代碼生成、調(diào)試和優(yōu)化等幫助。在教育領(lǐng)域，可以幫助學生解決復雜的邏輯、計算及編程問題。此外，o1還可以用于安全研究、市場分析、智能助手、創(chuàng)意設(shè)計等多個專業(yè)領(lǐng)域。

對大模型發(fā)展的影響和趨勢

一是o1是向AGI邁進的重要一步。o1在解決復雜問題時能夠進行深入的思考，并通過內(nèi)部的思考鏈來逐步解決問題，這在一定程度上模擬了人類的慢思考過程，展示了向AGI邁進的潛力。它的出現(xiàn)將加快AGI相關(guān)研究的進展，并有助于開發(fā)出更加高級的AI系統(tǒng)。

二是開啟大模型能力提升的新范式，強化學習帶來新的Scaling Law。o1模型的性能會隨著強化學習時間（訓練時計算量）和推理時間（測試時計算量）的增加而顯著提高。這種基于推理的訓練方式與傳統(tǒng)的大規(guī)模預訓練方式（通過增加參數(shù)量和數(shù)據(jù)量）不同，具有獨特的擴展性優(yōu)勢。這表明除了參數(shù)量和數(shù)據(jù)量之外，強化學習可以成為提高模型能力的重要范式，這為未來的大模型發(fā)展指明了新的方向。

三是算力需求增大，智算集群從萬卡向十萬卡演進。o1印證了最近幾個月頭部AI公司形成的新共識：后訓練的重要程度在提高，需要的計算資源可能在未來超過預訓練。近期OpenAI、xAI和META均加大算力投入，先后宣布推出十萬卡集群，將進一步提升大模型競爭的壁壘。

四是大模型頭部公司虹吸效應凸顯。隨著o1的推出，OpenAI再次拉開了與其它大模型的距離，其“ARPU”值和用戶粘性將提升，進一步提升了商業(yè)變現(xiàn)能力。目前ChatGPT的付費用戶已經(jīng)超過了1100萬，這意味著ChatGPT每月至少能產(chǎn)生2.25億美元的收入。

本文作者

朱瑩瑩

戰(zhàn)略發(fā)展研究所

副主任分析師

高級經(jīng)濟師，碩士，長期從事通信行業(yè)競爭分析、數(shù)字經(jīng)濟產(chǎn)業(yè)及前沿技術(shù)跟蹤研究等工作。

申紅梅

戰(zhàn)略發(fā)展研究所

一級分析師

碩士，高級工程師，就職于中國電信研究院，主要從事數(shù)字經(jīng)濟重點領(lǐng)域及通信行業(yè)競爭對標等相關(guān)研究。

彭卉

戰(zhàn)略發(fā)展研究所

二級分析師

碩士，就職于中國電信研究院，長期從事通信行業(yè)競爭研究，近年來專注于產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型、5G等領(lǐng)域研究。

給作者點贊

0 VS 0

寫得不太好

免責聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

測試融合 ARPU 中國電信轉(zhuǎn)型

國內(nèi)首個AI大模型攻防賽啟動，設(shè)立近100萬元獎金池
IT之家汪淼9-6
從蘋果全球開發(fā)者大會看人工智能產(chǎn)業(yè)發(fā)展新特點
天翼智庫 8-19
文本總結(jié)等方面超過GPT-4，蘋果披露AFM AI模型細節(jié)：谷歌TPU芯片訓練
IT之家故淵7-31
我國工業(yè)大模型發(fā)展中的四個反差現(xiàn)象
天翼智庫 7-29

OpenAl o1大模型：原理、突破、前景及影響

OpenAl o1大模型：原理、突破、前景及影響