據(jù)《華爾街日報》報道,中國人工智能(AI)創(chuàng)業(yè)公司發(fā)布的大模型表明,他們追趕美國領(lǐng)先AI模型的速度要比業(yè)內(nèi)許多人預(yù)期的更快。
今年11月,深度求索公司(DeepSeek)發(fā)布了其最新大語言模型的預(yù)覽版。該公司表示,該大模型在難度較高的數(shù)學(xué)和編程任務(wù)上超越了OpenAI在9月推出的預(yù)覽版推理模型o1。
最近幾周,其他中國公司也在其大模型性能方面也取得巨大進步。阿里巴巴和騰訊投資的創(chuàng)業(yè)公司月之暗面表示,它開發(fā)了一個專門研究數(shù)學(xué)的模型,性能接近o1。阿里表示,公司的一個實驗研究模型在數(shù)學(xué)性能上優(yōu)于o1預(yù)覽版。
這些公司尚未發(fā)表介紹其模型的論文,因此難以評估這些說法,而目前還沒有一個公認的統(tǒng)一測試方法來衡量AI模型的性能。不過,一些美國專家表示,中國公司在AI大模型上取得的進展令人印象深刻。
“中國正在以更快的速度趕上。”前OpenAI研究員、現(xiàn)AI企業(yè)家安德魯·卡爾(Andrew Carr)稱。他表示,深度求索的研究人員嘗試復(fù)制OpenAI的推理模型,“在幾個月內(nèi)就弄明白了。坦白說,我的許多同事對此感到驚訝”。
月之暗面創(chuàng)始人楊植麟表示,公司專注于強化學(xué)習(xí),也就是模仿人類的試錯過程。這種方法或許能夠在提升模型性能的同時不需要那么多的算力。
月之暗面創(chuàng)始人楊植麟
自去年年底以來,AI開發(fā)人員越來越多地使用一種名為“混合專家”(MoE,Mixture of Experts)的模型技術(shù)。該技術(shù)的核心是通過組合多個“專家”模型來協(xié)同完成任務(wù)。每個“專家”都是一個獨立的神經(jīng)網(wǎng)絡(luò),它們各自負責(zé)處理不同的數(shù)據(jù)分布和任務(wù)類型。這些“專家”之間通過一種稱為“路由”的機制進行交互,路由機制根據(jù)任務(wù)的特點和需求,將輸入數(shù)據(jù)分配給最適合的“專家”進行處理。
騰訊表示,該公司在11月發(fā)布的MoE模型可媲美臉書母公司Meta在7月推出的Llama 3.1模型。審閱兩家公司所發(fā)表論文的研究人員表示,騰訊訓(xùn)練模型使用的算力可能只有Meta的十分之一左右。
美國AI創(chuàng)業(yè)公司Anthropic的聯(lián)合創(chuàng)始人杰克·克拉克(Jack Clark)在其博客上稱,中國公司的方法就是利用其能夠獲得的硬件,構(gòu)建極其優(yōu)秀的軟件和硬件訓(xùn)練堆棧,“中國制造將成為AI模型的一個標(biāo)簽,就像電動汽車、無人機和其他技術(shù)一樣。”他表示。
中國AI創(chuàng)業(yè)公司正在自己所擅長的領(lǐng)域深耕。例如,深度求索專注于開源模型,強調(diào)數(shù)學(xué)和編程性能。月之暗面的聊天機器人Kimi類似于ChatGPT,擅長處理長文本,受到中國消費者的歡迎。
不過,中國AI創(chuàng)業(yè)公司目前的估值還遠低于OpenAI等美國公司,原因是投資者不確定這些公司能否將其技術(shù)進展變現(xiàn)。而激烈的競爭中,AI模型供應(yīng)商之間的價格戰(zhàn)也已經(jīng)出現(xiàn)。
知情人士稱,智譜AI已推遲了最早于2025年下半年上市的計劃,因為投資銀行家告知該公司不太可能獲得其期望的估值。智譜AI在本月最新一輪融資中的估值約為30億美元。今年11月底,智譜AI展示了其AI智能體,并在7月發(fā)布了類似OpenAI Sora的視頻生成模型。