C114通信網(wǎng)  |  通信人家園

人工智能
2024/12/31 15:53

AI領(lǐng)域“神秘東方力量”震驚世界,英偉達(dá)的最大空頭出現(xiàn)了

鳳凰網(wǎng)科技  Danny

與月之暗面、智譜AI、Minimax、百川智能等獲得大廠投資的AI初創(chuàng)公司不同,DeepSeek與科技巨頭間并無直接關(guān)系。不過,DeepSeek自身的算力儲備卻堪與大廠比肩。

被熱議的東方力量

神秘的東方力量再次震驚了世界,這次是大模型。

12月26日,國內(nèi)私募機(jī)構(gòu)幻方量化旗下的DeepSeek(深度求索)發(fā)布新一代開源大模型DeepSeek-v3,深度求索在技術(shù)報(bào)告中提到,作為一款參數(shù)量高達(dá) 671B 的大型語言模型,DeepSeek-V3在預(yù)訓(xùn)練階段只用 2048 塊 GPU 訓(xùn)練了不到 2 個(gè)月,總計(jì) 266.4 萬個(gè) GPU 小時(shí),且只花費(fèi)了 557.6 萬美元(約4070.1萬元人民幣)。

這意味著DeepSeek-V3的訓(xùn)練成本約為GPT-4o的二十分之一。Anthropic的CEO達(dá)里奧·阿莫迪不久前曾透露,GPT-4o這樣的模型訓(xùn)練成本約為1億美元,而目前正在開發(fā)的AI大模型訓(xùn)練成本可能高達(dá)10億美元。未來三年內(nèi),AI大模型的訓(xùn)練成本將上升至100億美元甚至1000億美元。

性能方面,據(jù)DeepSeek-V3 技術(shù)報(bào)告稱,在英語、代碼、數(shù)學(xué)、漢語以及多語言任務(wù)上,基礎(chǔ)模型 DeepSeek-V3 Base 的表現(xiàn)非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任務(wù)上甚至遠(yuǎn)遠(yuǎn)超過其它開源大模型。就算與 GPT-4o 和 Claude 3.5 Sonnet 這兩大領(lǐng)先的閉源模型相比,DeepSeek-V3 也毫不遜色,并且在 MATH 500、AIME 2024、Codeforces 上都有明顯優(yōu)勢。

廣發(fā)證券分析稱,DeepSeek-V3算力成本降低的原因有兩點(diǎn):第一,DeepSeek-V3采用的DeepSeekMoE是通過參考了各類訓(xùn)練方法后優(yōu)化得到的,避開了行業(yè)內(nèi)AI大模型訓(xùn)練過程中的各類問題;第二,DeepSeek-V3采用的MLA架構(gòu)可以降低推理過程中的kv緩存開銷,其訓(xùn)練方法在特定方向的選擇也使得其算力成本有所降低。

行業(yè)外少有人知道的是,DeepSeek也是大模型價(jià)格戰(zhàn)的最早發(fā)起者,被稱為“AI界拼多多”。2024年5月,DeepSeek發(fā)布的DeepSeek V2的開源模型,提供了一種史無前例的性價(jià)比:推理成本被降到每百萬token僅1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。

在DeepSeek-V3的定價(jià)上,API定價(jià)為輸入每百萬tokens 0.5元(緩存命中)/2元(緩存未命中),輸出每百萬tokens 8元,與字節(jié)Doubao-pro-256k定價(jià)輸入每百萬tokens 5元,輸出每百萬tokens 9元的水平相當(dāng),在國產(chǎn)模型中性價(jià)比較高。

“今天,一家中國AI公司輕而易舉地發(fā)布了一個(gè)前沿大語言模型。”著名人工智能科學(xué)家和特斯拉前人工智能和自動(dòng)駕駛視覺總監(jiān)、OpenAI早期成員安德烈·卡帕西(Andrej Karpathy)評價(jià)DeepSeek-V3的表現(xiàn)時(shí)稱,“如果此模型還能通過各項(xiàng)評估,那么這將是資源受限條件下研究與工程能力的高度令人印象深刻的展示。”

“我一直在關(guān)注DeepSeek。去年他們擁有最好的開源編碼模型之一。卓越的開源模型給前沿的大語言模型商業(yè)公司帶來了巨大的壓力,迫使他們加快步伐。”英偉達(dá)高級科學(xué)家范麟熙(Jim Fan)認(rèn)為,在競爭激烈的人工智能領(lǐng)域中,生存本能是推動(dòng)突破的主要?jiǎng)恿Α?/p>

千億量化私募的AI創(chuàng)業(yè)

在眾多中國大模型創(chuàng)業(yè)公司中,Deepseek的路線最不同。它的中文名是“深度求索”,為知名私募巨頭幻方量化創(chuàng)立的子公司。

2023年4月,幻方宣布成立新組織,集中資源和力量,探索AGI的本質(zhì),在一年多時(shí)間里進(jìn)展迅速。當(dāng)時(shí)幻方就表示,多年以來,該公司堅(jiān)持把營收的大部分投入人工智能領(lǐng)域,建設(shè)領(lǐng)先的AI硬件基礎(chǔ)設(shè)施,進(jìn)行大規(guī)模的研究,探索人類未知的奧秘。

與月之暗面、智譜AI、Minimax、百川智能等獲得大廠投資的AI初創(chuàng)公司不同,DeepSeek與科技巨頭間并無直接關(guān)系。不過,DeepSeek自身的算力儲備卻堪與大廠比肩。

有云計(jì)算專家提出,1萬枚英偉達(dá)A100芯片是做AI大模型的算力門檻。當(dāng)中國云廠商受限于緊缺的GPU芯片時(shí),幻方卻早早押中了大模型賽道的入場券。據(jù)報(bào)道,除商湯科技、百度、騰訊、字節(jié)、阿里等科技巨頭外,幻方也手握著超1萬枚GPU。

幻方量化和Deepseek創(chuàng)始人梁文鋒曾在媒體采訪中表示,幻方對算力的儲備并不突然。在2019年,幻方就已投資2億元自研深度學(xué)習(xí)訓(xùn)練平臺“螢火一號”,搭載了1100塊GPU。到了2021年,“螢火二號”的投入增加到10億元,搭載了約1萬張英偉達(dá)A100顯卡。一年后,OpenAI發(fā)布ChatGPT的公開測試版本,拉開全球新一輪AI熱潮的序幕。

事實(shí)上,在量化投資領(lǐng)域,幻方也是一個(gè)特立獨(dú)行的存在;梅搅炕欢仁侵袊准彝黄魄|私募的量化大廠,準(zhǔn)確的說也是迄今為止業(yè)內(nèi)唯一規(guī)模曾邁過千億大關(guān)的量化私募。

“我們做大模型,其實(shí)跟量化和金融都沒有直接關(guān)系,”被媒體問及為什么一家量化基金選擇入局大模型時(shí),梁文鋒解釋道,“當(dāng)時(shí)我們嘗試了很多場景,最終切入了足夠復(fù)雜的金融,而通用人工智能可能是下一個(gè)最難的事之一,所以對我們來說,這是一個(gè)怎么做的問題,而不是為什么做的問題。”

公開資料顯示,梁文鋒是一個(gè)極致的80后技術(shù)理想主義者,從幻方時(shí)代,就在幕后潛心研究技術(shù),在DeepSeek時(shí)代,依舊延續(xù)著他的低調(diào)作風(fēng),和所有研究員一樣,每天“看論文,寫代碼,參與小組討論”。值得一提是,這家公司還曾對外招聘文科人才,職位定位為“數(shù)據(jù)百曉生”,提供人類歷史、文化、科學(xué)等相關(guān)的知識來源,和數(shù)據(jù)工程師一起構(gòu)建完善的世界語言知識庫。

“我們相信幾乎所有的創(chuàng)新都是從大膽嘗試和點(diǎn)滴積累中孕育而來。我們將充分而持續(xù)地投入,不做中庸的事,用最長期的眼光去回答最大的問題。”梁文鋒曾表示。

在接受媒體《暗涌》的采訪時(shí),梁文鋒表示,降價(jià)一方面是因?yàn)樵谔剿飨乱淮P偷慕Y(jié)構(gòu)中,成本先降下來了,另一方面也覺得無論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西。

“過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn),但這并非是一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展。”梁文鋒稱。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141