五月將至,中美科技巨頭或將迎來新一輪巔峰對決。
先是在4月中旬,OpenAI一口氣發(fā)布了GPT-4.1 o3、o4 mini系列模型;谷歌則拿出了Gemini 2.5 Flash Preview,一個混合推理模型;與谷歌同一天,豆包在杭州巡展中正式發(fā)布了1.5·深度思考模型,在多模態(tài)上展現(xiàn)出了更強的實力。鳳凰網(wǎng)科技從行業(yè)人士處了解到,阿里的下一代大模型Qwen3也將于本月內(nèi)發(fā)布。
混戰(zhàn)之下,那股“神秘的東方力量”似乎也在悄悄準備著新的發(fā)布。
敏感的神經(jīng)之下,一點蛛絲馬跡都會被放大。昨日,全球最大AI開源社區(qū)Hugging Face首席執(zhí)行官Clément Delangue在社交平臺發(fā)布了一條耐人尋味的動態(tài)。這條動態(tài)僅由三個眼睛的表情符號構成,并附上了DeepSeek團隊在Hugging Face平臺的官方資源庫入口。
這組充滿懸念的組合引發(fā)科技圈熱議,業(yè)內(nèi)普遍推測DeepSeek R2模型已進入發(fā)布倒計時。
DeepSeek R2發(fā)布已進入倒計時?
近半個月來,有關“DeepSeek全新模型R2即將問世”的傳聞持續(xù)發(fā)酵。除HuggingFace首席執(zhí)行官Clément Delangue發(fā)布動態(tài)外,玩家@deedydas也在社交平臺貼出了所謂DeepSeek-R2大模型的詳細技術參數(shù)。
1、擁有 1.2萬億參數(shù),活躍參數(shù)為 780億,采用混合 MoE架構
2、成本比 GPT-4o便宜 97.3%(輸入每百萬次 0.07美元,輸出每百萬次 0.27美元)
3、使用了 5.2PB的訓練數(shù)據(jù),在 C-Eval2.0測試中取得了 89.7%的得分
4、視覺能力更強,在 COCO測試集上達到了 92.4%
鳳凰網(wǎng)科技就以上消息向DeepSeek方面發(fā)去詢問,對方表示不予回應。有接近DeepSeek的知情人士對鳳凰網(wǎng)科技表示,目前網(wǎng)上盛傳的消息,真實性含量非常低。
但結合DeepSeek的產(chǎn)品迭代規(guī)律與產(chǎn)業(yè)鏈動態(tài),其五月有望發(fā)布新品的傳聞卻并非空穴來風。
據(jù)《中國企業(yè)家》報道,過去DeepSeek創(chuàng)始人梁文鋒率領的AI團隊始終保持著與國際巨頭同頻的產(chǎn)品迭代節(jié)奏——2024年9月推出V2.5版本,12月發(fā)布V3基礎架構,次年3月即升級至V3-0324版本,形成每季度重大更新的開發(fā)范式。這種緊扣行業(yè)脈搏的研發(fā)策略,使得業(yè)界普遍預測其下一代主力模型R2或將延續(xù)“五一檔”發(fā)布傳統(tǒng)。
路透社此前披露的研發(fā)動向印證了這種猜測:DeepSeek正在加快R1模型的后續(xù)產(chǎn)品R2的研發(fā)和發(fā)布進程,原計劃在5月初發(fā)布,但公司現(xiàn)在希望能夠盡早推出 。
更值得關注的是技術演進方向,此前也有業(yè)內(nèi)人士推測,DeepSeek-R2模型預計將在代碼生成和除英語外的更多語種推理能力方面有不小的提升。
這一預期并非無中生有——今年三月發(fā)布的V3-0324版本已展現(xiàn)驚人實力,根據(jù)Artificial Analysis Intelligence Index最新評測,該模型已經(jīng)成為得分最高的非推理模型。在基準測試中力壓Google Gemini 2.0 Pro、Anthropic Claude 3.7Sonnet及Meta Llama 3.3 70B等頂尖模型。
這種技術積淀與迭代速度,使得R2尚未發(fā)布便已承載全球AI界的較高期待。無論前述傳聞最終是否成真,可以預見的是,當這款新模型正式亮相時,或將改寫新一輪全球算法與算力生態(tài)格局。
該梁文鋒出場了
在國產(chǎn)AI大模型賽道暗流涌動的當下,DeepSeek創(chuàng)始人梁文鋒的每一步都走得很穩(wěn)。他曾說過:“中國也要逐步成為創(chuàng)新貢獻者,而不是一直搭便車。”
盡管近期DeepSeek在公眾視野中保持低調,但梁文鋒一直在向著DeepSeek的核心使命努力,那就是探索通用人工智能的本質。
多位接觸過DeepSeek團隊的人士都認為,梁文鋒的志向不在服務好用戶和做好產(chǎn)品,而是直指終極AGI。這讓他在早年間試探性接觸資方時,優(yōu)先排除了有退出顧慮的絕大多數(shù)機構,甚至主要依托于自有資金,“梁文鋒也有這個資本實力”。
一位在早期就接觸過DeepSeek的機構對鳳凰網(wǎng)科技表示,梁文峰很早就發(fā)現(xiàn)Chatbot產(chǎn)品的可替代性很強,“現(xiàn)在的產(chǎn)品都沒有黏性,所以只要技術強隨時可以把用戶搶過來”。DeepSeek R1的發(fā)布也的確證實了這一觀點。
DeepSeek的最后一次模型更新發(fā)布是在今年3月,發(fā)布了V3-0324版本,也被看作是R2的基礎模型,已針對性能、用戶體驗和實用性進行了優(yōu)化,通過6850億參數(shù)的MoE架構升級,代碼能力顯著增強,又一次深度影響了全球市場。
因而5月或將發(fā)布的旗艦模型R2,也被視為影響全球AI格局的關鍵落子。
特別需要說明的是,這一技術攻堅的窗口期,恰逢國產(chǎn)芯片產(chǎn)業(yè)劇變。美國對英偉達H20芯片的出口禁令,直接斬斷中國AI企業(yè)獲取高端GPU的主渠道,倒逼華為昇騰910C、寒武紀MLUarch04等國產(chǎn)芯片加速填補市場空白。
清程極智的CEO湯雄超曾經(jīng)告訴鳳凰網(wǎng)科技,作為當前開源市場所能用到的最好模型,DeepSeek和最難獲取的芯片一度是深度捆綁的。如此前DeepSeek開源周所呈現(xiàn)的,其推出了一系列針對英偉達H卡的算力優(yōu)化方案。
這讓梁文鋒在早年間曾表達:“我們真正的挑戰(zhàn)從來不是資金,而是高端芯片的出口禁令。”
但禁令也從未真正束縛其技術野心,“英偉達的GPU沒有什么神秘之處,但要趕上他們,就必須重建團隊、付出時間和成本,追趕下一代技術——這才是真正的護城河。”梁文鋒表示。
多位國產(chǎn)算力產(chǎn)業(yè)從業(yè)人士也對鳳凰網(wǎng)科技表示,當前國產(chǎn)生態(tài)已在加速迭代中。
本次DeepSeek新一代旗艦模型發(fā)布,也或將存在另一變量,即在推理側深度適配國產(chǎn)算力。
當前,千行百業(yè)都展現(xiàn)出了旺盛的大模型部署需求,但正如李彥宏所言,DeepSeek最大的問題就是又慢又不穩(wěn)定,如何才能獲取到穩(wěn)定的、便宜的滿血版DeepSeek,這不僅僅是行業(yè)需要解決的問題,更需要DeepSeek官方加入其中。
值得一提的是,鳳凰網(wǎng)科技從行業(yè)人士處了解到,DeepSeek已經(jīng)正在和一些國產(chǎn)芯片合作,“國產(chǎn)芯片中有些頭部的,實際上已經(jīng)在和DeepSeek合作了”。