2024/12/25 08:29

o3模型點(diǎn)亮OpenAI發(fā)布會(huì)：突破、局限與趨勢(shì)

天翼智庫(kù)

OpenAI從2024年12月5日起舉行了連續(xù)12個(gè)工作日的發(fā)布會(huì)，發(fā)布內(nèi)容涵蓋了模型、技術(shù)、產(chǎn)品功能、合作等領(lǐng)域。發(fā)布會(huì)不僅是OpenAI技術(shù)更新的展示，也是AI產(chǎn)業(yè)未來(lái)趨勢(shì)的重要信號(hào)。

OpenAI 12天發(fā)布會(huì)內(nèi)容與亮點(diǎn)

12天發(fā)布會(huì)時(shí)間線如下圖：

　　整體來(lái)看，12天的發(fā)布內(nèi)容分為以下三類：

1.質(zhì)的飛躍：新的推理模型o3和o3 mini

OpenAI在最后一天發(fā)布新一代推理模型o3系列的預(yù)覽版（o2因與英國(guó)運(yùn)營(yíng)商O2重名跳過(guò)）。相比o1，o3在理解復(fù)雜任務(wù)、邏輯推理、多模態(tài)支持、可控性等方面的性能有顯著提升，在多個(gè)基準(zhǔn)測(cè)試中達(dá)到或接近飽和點(diǎn)。o3 mini則平衡了性能與成本，在某些場(chǎng)景下性能優(yōu)于o1。根據(jù)OpenAI的安全研究計(jì)劃，目前o3仍處于早期安全測(cè)試階段，并面向公眾開放測(cè)試申請(qǐng)。

2.現(xiàn)有模型升級(jí)：發(fā)布o(jì)1完整版與Sora正式版

OpenAI在發(fā)布會(huì)首日推出o1完整版，相較預(yù)覽版速度更快（響應(yīng)速度快50%）、性能更強(qiáng)（在數(shù)學(xué)、科學(xué)、編碼等方面的ML基準(zhǔn)測(cè)試中表現(xiàn)更佳）、準(zhǔn)確率更高（錯(cuò)誤率減少34%），并新增多模態(tài)輸入功能。隨后發(fā)布了基于o1模型的專業(yè)領(lǐng)域定制化方案——強(qiáng)化學(xué)習(xí)微調(diào)技術(shù)（RFT）、開放o1 API、實(shí)時(shí)API集成WebRTC、偏好微調(diào)等更新，提升模型的專業(yè)性與可用性。

Sora正式版于第三天發(fā)布，除了基礎(chǔ)的文本/圖片/視頻生成視頻功能之外，還加入了故事板編輯工具、場(chǎng)景混合和循環(huán)視頻制作等高級(jí)編輯功能，支持最高分辨率1080p和最長(zhǎng)20秒的視頻輸出。

3.現(xiàn)有模型產(chǎn)品化：加速模型的落地應(yīng)用

（1）推出多項(xiàng)更新，將ChatGPT打造為一個(gè)集成的生產(chǎn)力工具：一是在“人+AI協(xié)作”方面，推出Canvas更新并全面開放，集智能寫作、代碼協(xié)作和定制化AI智能體為一體，直接運(yùn)行Python代碼并可被定制的GPT調(diào)用，提升用戶使用大模型工作的效率。二是在交互模式方面，強(qiáng)化了高級(jí)語(yǔ)音模式，增加視頻輸入和實(shí)時(shí)屏幕共享功能。三是在搜索方面，ChatGPT Search全面開放，可在實(shí)時(shí)對(duì)話中調(diào)用，支持多模態(tài)輸出。四是“組織和管理任務(wù)”方面，推出Projects功能，幫助用戶構(gòu)建體系化知識(shí)庫(kù)，支持設(shè)置自定義指令，并與Canvas集成。五是上線全新訂閱套餐ChatGPT Pro，提供o1 Pro模式和全套功能、Sora慢速生成等無(wú)限使用權(quán)限，月費(fèi)200美元。

（2）強(qiáng)化與蘋果的合作：ChatGPT無(wú)縫接入iPhone、iPad和Mac，并與Siri和Apple Intelligence展開協(xié)同。ChatGPT在蘋果電腦上可支持MatLab、Script Editor等桌面應(yīng)用。

（3）推出ChatGPT熱線：無(wú)需注冊(cè)，用戶可撥打電話與ChatGPT進(jìn)行語(yǔ)音對(duì)話，或通過(guò)WhatsApp給ChatGPT發(fā)消息。

突破與局限

1.o3技術(shù)突破：多領(lǐng)域腦力勞動(dòng)替代的新引擎

科學(xué)、編碼及數(shù)學(xué)能力取得新突破：o3憑借自然語(yǔ)言程序搜索與執(zhí)行機(jī)制，以及鏈?zhǔn)剿季S和自適應(yīng)思考時(shí)間等創(chuàng)新技術(shù)，在處理復(fù)雜任務(wù)和新任務(wù)適應(yīng)性上具有顯著優(yōu)勢(shì)。科學(xué)及推理方面，GPQA Diamond博士級(jí)別科學(xué)問(wèn)題測(cè)試中，o3比o1 高10個(gè)百分點(diǎn)；ARC-AGI圖形邏輯推理測(cè)試，o3 微調(diào)后準(zhǔn)確率達(dá) 87.5%，超人類平均水平（85%）（見下圖）。編碼方面，在 Codeforces 編程競(jìng)賽的 168076 名參賽者中排175名，戰(zhàn)勝99.9%的程序員；在SWE - Bench軟件開發(fā)測(cè)試?yán)铮琽3正確率71.7%，遠(yuǎn)超o1的48.9%。數(shù)學(xué)方面，AIME 2024 測(cè)試中o3正確率96.7%，僅錯(cuò)一題。面對(duì)前沿?cái)?shù)學(xué)難題，o3正確率25.2%，而以往所有模型都未達(dá)2%。

2.新模型o3仍有局限，早先模型o1和Sora的護(hù)城河正消失

（1）o3仍有諸多局限

模型成熟度方面：o3系列僅發(fā)布演示版。o3-mini外部安全測(cè)試申請(qǐng)開放中，o3則連測(cè)試員也還得繼續(xù)等待。

技術(shù)層面：仍然依賴自然語(yǔ)言指令而非可執(zhí)行的符號(hào)程序，指令的模糊性增加了理解難度；無(wú)法像人類那樣通過(guò)與現(xiàn)實(shí)世界的互動(dòng)來(lái)學(xué)習(xí)和適應(yīng)，使其無(wú)法通過(guò)直接執(zhí)行來(lái)評(píng)估自己生成的解決方案的有效性。

性能層面：在某些基礎(chǔ)任務(wù)上仍會(huì)出現(xiàn)失誤。在即將發(fā)布的ARC-AGI-2測(cè)試中，預(yù)計(jì)其得分可能降至30%以下（而普通人類仍能保持95%以上的得分）。

效率層面：高昂的計(jì)算成本，大量的計(jì)算資源消耗，在某些任務(wù)上的效率低于人類。o3在低計(jì)算量模式下每個(gè)任務(wù)需要17-20美元，高計(jì)算量模式下每個(gè)任務(wù)需數(shù)千美元，而對(duì)比o1的費(fèi)用在10美元以下。

（2）o1和Sora等早先模型的護(hù)城河正逐漸被對(duì)手填平

據(jù)11月美國(guó)風(fēng)投公司MenloVentures發(fā)布的《2024年企業(yè)生成式人工智能的現(xiàn)狀》報(bào)告顯示，OpenAI份額卻已從去年的50%降至34%，而Anthropic推出Claude 3.5 Sonnet后，市場(chǎng)份額翻倍至24%。在推理模型方面，谷歌Gemini2.0 Flash Thinking的思考速度比o1快5倍。在視頻生成模型方面，盲測(cè)數(shù)據(jù)顯示谷歌Veo2和快手的可靈1.5表現(xiàn)趕超Sora。

從發(fā)布會(huì)看行業(yè)的發(fā)展趨勢(shì)

1.大模型技術(shù)與產(chǎn)品趨勢(shì)

（1）推理模型是下一階段核心發(fā)展方向

OpenAI本次推出的o3以及谷歌Gemini 2.0 Flash Thinking等推理模型均表現(xiàn)出強(qiáng)大推理能力，在更精準(zhǔn)地處理復(fù)雜任務(wù)方面有顯著優(yōu)勢(shì)。未來(lái)推理模型必將迎來(lái)更多創(chuàng)新和突破，推動(dòng)人工智能向AGI邁進(jìn)。

（2）原生雙向多模態(tài)大模型成為各大廠商競(jìng)爭(zhēng)焦點(diǎn)

OpenAI本次發(fā)布的o1正式版新增多模態(tài)識(shí)別；谷歌Gemini 2.0支持同時(shí)處理文本、圖像、音頻和視頻等多種輸入類型，并能生成圖像和音頻內(nèi)容；亞馬遜發(fā)布自研多模態(tài)系列模型Amazon Nova，并預(yù)告將于2025年推出Any-to-Any模型，解決多模態(tài)轉(zhuǎn)換、內(nèi)容編輯以及AI智能體操作等多種任務(wù)。

（3）AI搜索有望成為殺手級(jí)應(yīng)用

OpenAI此次更新搜索功能，能夠與用戶進(jìn)行自然語(yǔ)言的實(shí)時(shí)對(duì)話交互，極大增強(qiáng)了搜索的靈活性和用戶體驗(yàn)。SimilarWeb最新數(shù)據(jù)顯示，AI搜索滿意度達(dá)74%、訪問(wèn)量持續(xù)攀升。美國(guó)紅杉資本預(yù)測(cè)AI搜索正在成為殺手級(jí)應(yīng)用。

2.基礎(chǔ)模型商業(yè)化趨勢(shì)

（1）通過(guò)快速迭代保持行業(yè)領(lǐng)先地位

OpenAI在o系列上采用GPT系列一樣快速迭代的策略，爭(zhēng)奪AI行業(yè)發(fā)展的重要概念如AGI、Scaling law等定義權(quán)，如OpenAI在o1正式版發(fā)布的15天后推出o3，再次證明了市場(chǎng)領(lǐng)先策略在AI領(lǐng)域的重要性，即通過(guò)技術(shù)上的快速迭代和市場(chǎng)上的聲勢(shì)制造來(lái)保持領(lǐng)先地位。

（2）通過(guò)階梯定價(jià)策略提收入、穩(wěn)客源

OpenAI采用階梯定價(jià)策略，此次發(fā)布會(huì)推出每月200美元的專業(yè)版ChatGPT，是基礎(chǔ)訂閱價(jià)格的十倍。根據(jù)彭博社近日?qǐng)?bào)道，OpenAI首席財(cái)務(wù)官表示正在討論每月2000美元的AI產(chǎn)品訂閱。另一方面，為獲取數(shù)據(jù)和爭(zhēng)奪用戶，GPT-4o和GPT-4o mini等舊模型則免費(fèi)提供給用戶有限制使用。

3.模型能力提升將促進(jìn)安全標(biāo)準(zhǔn)提高與規(guī)范重塑

人工智能安全與風(fēng)險(xiǎn)防范問(wèn)題隨著大模型的日益強(qiáng)大而更受關(guān)注。此次發(fā)布會(huì)OpenAI針對(duì)o系列模型提出新對(duì)齊策略“審議式對(duì)齊”（deliberative alignment），這是一種直接教授模型安全規(guī)范的新范式，使模型能夠高度精確地遵守安全策略，并且不需要人工標(biāo)記的思維鏈或答案。“審議式對(duì)齊”使安全標(biāo)準(zhǔn)更具可操作性和精確性，為提高大模型的安全性提供了一條新途徑。

本文作者

陳曉佳

戰(zhàn)略發(fā)展研究所

二級(jí)分析師

碩士，主要從事運(yùn)營(yíng)商競(jìng)爭(zhēng)研究、產(chǎn)數(shù)市場(chǎng)研究等。

朱瑩瑩

戰(zhàn)略發(fā)展研究所

副主任分析師

高級(jí)經(jīng)濟(jì)師，碩士，長(zhǎng)期從事通信行業(yè)競(jìng)爭(zhēng)分析、數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)及前沿技術(shù)跟蹤研究等工作。

申紅梅

戰(zhàn)略發(fā)展研究所

一級(jí)分析師

碩士，高級(jí)工程師，就職于中國(guó)電信研究院，主要從事數(shù)字經(jīng)濟(jì)重點(diǎn)領(lǐng)域及通信行業(yè)競(jìng)爭(zhēng)對(duì)標(biāo)等相關(guān)研究。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

測(cè)試運(yùn)營(yíng)商蘋果 iPhone 中國(guó)電信

“深思熟慮”的 AI：OpenAI 提出全新安全對(duì)齊方法
IT之家故淵12-25
曝OpenAI考慮開發(fā)人形機(jī)器人或依賴于中國(guó)制造
CNMO 石張鈺12-25
消息稱OpenAI考慮開發(fā)人形機(jī)器人，此前已投資多家機(jī)器人初創(chuàng)公司
IT之家遠(yuǎn)洋12-25
消息稱微軟尋求365 Copilot AI模型多元化，降低成本并減少對(duì)OpenAI的依賴
IT之家遠(yuǎn)洋12-24

o3模型點(diǎn)亮OpenAI發(fā)布會(huì)：突破、局限與趨勢(shì)

o3模型點(diǎn)亮OpenAI發(fā)布會(huì)：突破、局限與趨勢(shì)