OpenAI從2024年12月5日起舉行了連續(xù)12個(gè)工作日的發(fā)布會(huì),發(fā)布內(nèi)容涵蓋了模型、技術(shù)、產(chǎn)品功能、合作等領(lǐng)域。發(fā)布會(huì)不僅是OpenAI技術(shù)更新的展示,也是AI產(chǎn)業(yè)未來(lái)趨勢(shì)的重要信號(hào)。
OpenAI 12天發(fā)布會(huì)內(nèi)容與亮點(diǎn)
12天發(fā)布會(huì)時(shí)間線如下圖:
整體來(lái)看,12天的發(fā)布內(nèi)容分為以下三類:
1.質(zhì)的飛躍:新的推理模型o3和o3 mini
OpenAI在最后一天發(fā)布新一代推理模型o3系列的預(yù)覽版(o2因與英國(guó)運(yùn)營(yíng)商O2重名跳過(guò))。相比o1,o3在理解復(fù)雜任務(wù)、邏輯推理、多模態(tài)支持、可控性等方面的性能有顯著提升,在多個(gè)基準(zhǔn)測(cè)試中達(dá)到或接近飽和點(diǎn)。o3 mini則平衡了性能與成本,在某些場(chǎng)景下性能優(yōu)于o1。根據(jù)OpenAI的安全研究計(jì)劃,目前o3仍處于早期安全測(cè)試階段,并面向公眾開放測(cè)試申請(qǐng)。
2.現(xiàn)有模型升級(jí):發(fā)布o(jì)1完整版與Sora正式版
OpenAI在發(fā)布會(huì)首日推出o1完整版,相較預(yù)覽版速度更快(響應(yīng)速度快50%)、性能更強(qiáng)(在數(shù)學(xué)、科學(xué)、編碼等方面的ML基準(zhǔn)測(cè)試中表現(xiàn)更佳)、準(zhǔn)確率更高(錯(cuò)誤率減少34%),并新增多模態(tài)輸入功能。隨后發(fā)布了基于o1模型的專業(yè)領(lǐng)域定制化方案——強(qiáng)化學(xué)習(xí)微調(diào)技術(shù)(RFT)、開放o1 API、實(shí)時(shí)API集成WebRTC、偏好微調(diào)等更新,提升模型的專業(yè)性與可用性。
Sora正式版于第三天發(fā)布,除了基礎(chǔ)的文本/圖片/視頻生成視頻功能之外,還加入了故事板編輯工具、場(chǎng)景混合和循環(huán)視頻制作等高級(jí)編輯功能,支持最高分辨率1080p和最長(zhǎng)20秒的視頻輸出。
3.現(xiàn)有模型產(chǎn)品化:加速模型的落地應(yīng)用
(1)推出多項(xiàng)更新,將ChatGPT打造為一個(gè)集成的生產(chǎn)力工具:一是在“人+AI協(xié)作”方面,推出Canvas更新并全面開放,集智能寫作、代碼協(xié)作和定制化AI智能體為一體,直接運(yùn)行Python代碼并可被定制的GPT調(diào)用,提升用戶使用大模型工作的效率。二是在交互模式方面,強(qiáng)化了高級(jí)語(yǔ)音模式,增加視頻輸入和實(shí)時(shí)屏幕共享功能。三是在搜索方面,ChatGPT Search全面開放,可在實(shí)時(shí)對(duì)話中調(diào)用,支持多模態(tài)輸出。四是“組織和管理任務(wù)”方面,推出Projects功能,幫助用戶構(gòu)建體系化知識(shí)庫(kù),支持設(shè)置自定義指令,并與Canvas集成。五是上線全新訂閱套餐ChatGPT Pro,提供o1 Pro模式和全套功能、Sora慢速生成等無(wú)限使用權(quán)限,月費(fèi)200美元。
(2)強(qiáng)化與蘋果的合作:ChatGPT無(wú)縫接入iPhone、iPad和Mac,并與Siri和Apple Intelligence展開協(xié)同。ChatGPT在蘋果電腦上可支持MatLab、Script Editor等桌面應(yīng)用。
(3)推出ChatGPT熱線:無(wú)需注冊(cè),用戶可撥打電話與ChatGPT進(jìn)行語(yǔ)音對(duì)話,或通過(guò)WhatsApp給ChatGPT發(fā)消息。
突破與局限
1.o3技術(shù)突破:多領(lǐng)域腦力勞動(dòng)替代的新引擎
科學(xué)、編碼及數(shù)學(xué)能力取得新突破:o3憑借自然語(yǔ)言程序搜索與執(zhí)行機(jī)制,以及鏈?zhǔn)剿季S和自適應(yīng)思考時(shí)間等創(chuàng)新技術(shù),在處理復(fù)雜任務(wù)和新任務(wù)適應(yīng)性上具有顯著優(yōu)勢(shì)。科學(xué)及推理方面,GPQA Diamond博士級(jí)別科學(xué)問(wèn)題測(cè)試中,o3比o1 高10個(gè)百分點(diǎn);ARC-AGI圖形邏輯推理測(cè)試,o3 微調(diào)后準(zhǔn)確率達(dá) 87.5%,超人類平均水平(85%)(見下圖)。編碼方面,在 Codeforces 編程競(jìng)賽的 168076 名參賽者中排175名,戰(zhàn)勝99.9%的程序員;在SWE - Bench軟件開發(fā)測(cè)試?yán)铮琽3正確率71.7%,遠(yuǎn)超o1的48.9%。數(shù)學(xué)方面,AIME 2024 測(cè)試中o3正確率96.7%,僅錯(cuò)一題。面對(duì)前沿?cái)?shù)學(xué)難題,o3正確率25.2%,而以往所有模型都未達(dá)2%。
2.新模型o3仍有局限,早先模型o1和Sora的護(hù)城河正消失
(1)o3仍有諸多局限
模型成熟度方面:o3系列僅發(fā)布演示版。o3-mini外部安全測(cè)試申請(qǐng)開放中,o3則連測(cè)試員也還得繼續(xù)等待。
技術(shù)層面:仍然依賴自然語(yǔ)言指令而非可執(zhí)行的符號(hào)程序,指令的模糊性增加了理解難度;無(wú)法像人類那樣通過(guò)與現(xiàn)實(shí)世界的互動(dòng)來(lái)學(xué)習(xí)和適應(yīng),使其無(wú)法通過(guò)直接執(zhí)行來(lái)評(píng)估自己生成的解決方案的有效性。
性能層面:在某些基礎(chǔ)任務(wù)上仍會(huì)出現(xiàn)失誤。在即將發(fā)布的ARC-AGI-2測(cè)試中,預(yù)計(jì)其得分可能降至30%以下(而普通人類仍能保持95%以上的得分)。
效率層面:高昂的計(jì)算成本,大量的計(jì)算資源消耗,在某些任務(wù)上的效率低于人類。o3在低計(jì)算量模式下每個(gè)任務(wù)需要17-20美元,高計(jì)算量模式下每個(gè)任務(wù)需數(shù)千美元,而對(duì)比o1的費(fèi)用在10美元以下。
(2)o1和Sora等早先模型的護(hù)城河正逐漸被對(duì)手填平
據(jù)11月美國(guó)風(fēng)投公司MenloVentures發(fā)布的《2024年企業(yè)生成式人工智能的現(xiàn)狀》報(bào)告顯示,OpenAI份額卻已從去年的50%降至34%,而Anthropic推出Claude 3.5 Sonnet后,市場(chǎng)份額翻倍至24%。在推理模型方面,谷歌Gemini2.0 Flash Thinking的思考速度比o1快5倍。在視頻生成模型方面,盲測(cè)數(shù)據(jù)顯示谷歌Veo2和快手的可靈1.5表現(xiàn)趕超Sora。
從發(fā)布會(huì)看行業(yè)的發(fā)展趨勢(shì)
1.大模型技術(shù)與產(chǎn)品趨勢(shì)
(1)推理模型是下一階段核心發(fā)展方向
OpenAI本次推出的o3以及谷歌Gemini 2.0 Flash Thinking等推理模型均表現(xiàn)出強(qiáng)大推理能力,在更精準(zhǔn)地處理復(fù)雜任務(wù)方面有顯著優(yōu)勢(shì)。未來(lái)推理模型必將迎來(lái)更多創(chuàng)新和突破,推動(dòng)人工智能向AGI邁進(jìn)。
(2)原生雙向多模態(tài)大模型成為各大廠商競(jìng)爭(zhēng)焦點(diǎn)
OpenAI本次發(fā)布的o1正式版新增多模態(tài)識(shí)別;谷歌Gemini 2.0支持同時(shí)處理文本、圖像、音頻和視頻等多種輸入類型,并能生成圖像和音頻內(nèi)容;亞馬遜發(fā)布自研多模態(tài)系列模型Amazon Nova,并預(yù)告將于2025年推出Any-to-Any模型,解決多模態(tài)轉(zhuǎn)換、內(nèi)容編輯以及AI智能體操作等多種任務(wù)。
(3)AI搜索有望成為殺手級(jí)應(yīng)用
OpenAI此次更新搜索功能,能夠與用戶進(jìn)行自然語(yǔ)言的實(shí)時(shí)對(duì)話交互,極大增強(qiáng)了搜索的靈活性和用戶體驗(yàn)。SimilarWeb最新數(shù)據(jù)顯示,AI搜索滿意度達(dá)74%、訪問(wèn)量持續(xù)攀升。美國(guó)紅杉資本預(yù)測(cè)AI搜索正在成為殺手級(jí)應(yīng)用。
2.基礎(chǔ)模型商業(yè)化趨勢(shì)
(1)通過(guò)快速迭代保持行業(yè)領(lǐng)先地位
OpenAI在o系列上采用GPT系列一樣快速迭代的策略,爭(zhēng)奪AI行業(yè)發(fā)展的重要概念如AGI、Scaling law等定義權(quán),如OpenAI在o1正式版發(fā)布的15天后推出o3,再次證明了市場(chǎng)領(lǐng)先策略在AI領(lǐng)域的重要性,即通過(guò)技術(shù)上的快速迭代和市場(chǎng)上的聲勢(shì)制造來(lái)保持領(lǐng)先地位。
(2)通過(guò)階梯定價(jià)策略提收入、穩(wěn)客源
OpenAI采用階梯定價(jià)策略,此次發(fā)布會(huì)推出每月200美元的專業(yè)版ChatGPT,是基礎(chǔ)訂閱價(jià)格的十倍。根據(jù)彭博社近日?qǐng)?bào)道,OpenAI首席財(cái)務(wù)官表示正在討論每月2000美元的AI產(chǎn)品訂閱。另一方面,為獲取數(shù)據(jù)和爭(zhēng)奪用戶,GPT-4o和GPT-4o mini等舊模型則免費(fèi)提供給用戶有限制使用。
3.模型能力提升將促進(jìn)安全標(biāo)準(zhǔn)提高與規(guī)范重塑
人工智能安全與風(fēng)險(xiǎn)防范問(wèn)題隨著大模型的日益強(qiáng)大而更受關(guān)注。此次發(fā)布會(huì)OpenAI針對(duì)o系列模型提出新對(duì)齊策略“審議式對(duì)齊”(deliberative alignment),這是一種直接教授模型安全規(guī)范的新范式,使模型能夠高度精確地遵守安全策略,并且不需要人工標(biāo)記的思維鏈或答案。“審議式對(duì)齊”使安全標(biāo)準(zhǔn)更具可操作性和精確性,為提高大模型的安全性提供了一條新途徑。
本文作者
陳曉佳
戰(zhàn)略發(fā)展研究所
二級(jí)分析師
碩士,主要從事運(yùn)營(yíng)商競(jìng)爭(zhēng)研究、產(chǎn)數(shù)市場(chǎng)研究等。
朱瑩瑩
戰(zhàn)略發(fā)展研究所
副主任分析師
高級(jí)經(jīng)濟(jì)師,碩士,長(zhǎng)期從事通信行業(yè)競(jìng)爭(zhēng)分析、數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)及前沿技術(shù)跟蹤研究等工作。
申紅梅
戰(zhàn)略發(fā)展研究所
一級(jí)分析師
碩士,高級(jí)工程師,就職于中國(guó)電信研究院,主要從事數(shù)字經(jīng)濟(jì)重點(diǎn)領(lǐng)域及通信行業(yè)競(jìng)爭(zhēng)對(duì)標(biāo)等相關(guān)研究。