C114訊 10月21日專稿(蔣均牧)技術(shù)的每一次突破,都創(chuàng)造了無限的可能。過去數(shù)年中,我們共同見證了人工智能的迅速崛起和跨越拐點——從前沿科技到貼身助理、從星空探索到衣食住行,AI技術(shù)正以驚人速度融入眾多場景,在數(shù)字經(jīng)濟發(fā)展中發(fā)揮越來越重要的作用,成為新質(zhì)生產(chǎn)力核心驅(qū)動因素和新的生產(chǎn)工具。
人工智能當(dāng)前已經(jīng)上升為國家戰(zhàn)略,今年的政府工作報告中明確提出要深化大數(shù)據(jù)、AI等研發(fā)應(yīng)用,開展“人工智能+”行動,打造具有國際競爭力的數(shù)字產(chǎn)業(yè)集群。在硬幣的另一面,AI的技術(shù)迭代和應(yīng)用普惠,離不開強大算力的支持;在各行各業(yè)落地AI大模型以賦能產(chǎn)業(yè)升級的過程中,也依然存在著不少難點、痛點。面向AI+時代,易獲取且好用的智算產(chǎn)品及服務(wù)無疑是擁抱變革浪潮、共建繁榮業(yè)態(tài)的關(guān)鍵所在。
作為云計算和AI領(lǐng)域的“國家隊”,移動云在智算賽道上耕耘多時、領(lǐng)勢先行。就在剛剛召開的2024中國移動全球合作伙伴大會上,移動云攜算網(wǎng)研發(fā)最新成果及智算服務(wù)體系精彩亮相,全面展現(xiàn)了其綜合優(yōu)勢及卓越能力。以此為契機,C114赴蘇州采訪到了中國移動云能力中心平臺產(chǎn)品部總經(jīng)理齊驥,請這位移動“大云”項目最早參與者之一、享受國務(wù)院津貼的資深專家與我們分享對AI+時代云服務(wù)的思考、解讀移動云的新時期布局,特別是在促進AI大模型落地應(yīng)用方面的創(chuàng)新與實踐。
他指出,算力主體由通用算力轉(zhuǎn)向智能算力已是大勢所趨,移動云擁有較大的用戶規(guī)模、廣泛的資源布局、靈活的算網(wǎng)大腦調(diào)度能力和云智產(chǎn)品技術(shù)積累,在此基礎(chǔ)上致力于加快推動“由算融智”、打造AI服務(wù)入口、探索更多應(yīng)用場景,為智算產(chǎn)業(yè)的健康發(fā)展和千行萬業(yè)的數(shù)智化轉(zhuǎn)型注入源源不斷的動力。
多管齊下,鑄就AI+時代強引擎
生成式AI、AI大模型等AI技術(shù)的蓬勃發(fā)展和在行業(yè)中的走實向深,帶來了對算力尤其智能算力需求的爆炸性增長,讓算力成為如“水電煤”般一點接入、隨取隨用的社會級服務(wù)已經(jīng)演變?yōu)橐环N“剛需”。2023年10月,工信部等六部門對外發(fā)布《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,提出到2025年,算力規(guī)模超過300EFLOPS,智能算力占比達到35%,東西部算力平衡協(xié)調(diào)發(fā)展;今年9月,工信部等十一部門聯(lián)合發(fā)布《關(guān)于推動新型信息基礎(chǔ)設(shè)施協(xié)調(diào)發(fā)展有關(guān)事項的通知》,強調(diào)要優(yōu)化布局算力基礎(chǔ)設(shè)施,逐步提升智能算力占比。
中國移動以“信息服務(wù)科技創(chuàng)新公司”為愿景,提出并大力推進“AI+”行動計劃。齊驥介紹說,移動云依托中國移動資源稟賦,從算力、網(wǎng)絡(luò)、調(diào)度、產(chǎn)品、生態(tài)等維度多管齊下,推動算力普及和高效利用,加速云服務(wù)走向“智算原生”,構(gòu)筑AI+時代強引擎。
其一是打造“超級工廠”,釋放算力集群優(yōu)勢。加快算力基礎(chǔ)設(shè)施向通智超量一體化演進,打造多元泛在、綠色低碳的智算集群,強化超算、量算等社會算力并網(wǎng)。面向“AI+”升級,中國移動今年著力深化N個全國性智算中心與X個邊緣智算節(jié)點建設(shè)布局,計劃年內(nèi)建成三個超萬卡智算中心、總規(guī)模近6萬卡,在1500個邊緣節(jié)點按需部署推理卡,形成“中心大集群、邊緣廣分布、中訓(xùn)邊推、訓(xùn)推一體”的智算網(wǎng)絡(luò)。
其二是暢通“信息高速”,發(fā)揮網(wǎng)絡(luò)規(guī)模優(yōu)勢。中國移動在完成國家八大算力樞紐節(jié)點間400G全光高速直連基礎(chǔ)上,開展800G/1.2T超高速下一代網(wǎng)絡(luò)、廣域高吞吐協(xié)議等試點驗證,深化覆蓋全國的算力三級時延圈,通過在網(wǎng)絡(luò)方面的持續(xù)創(chuàng)新,將為AI訓(xùn)推一體提供低時延、大帶寬、高可靠、強彈性的互聯(lián)能力。
其三是研發(fā)“調(diào)度中樞”,筑牢算網(wǎng)融合優(yōu)勢。中國移動將利用自主研發(fā)的算網(wǎng)大腦,實現(xiàn)全網(wǎng)調(diào)度能力和智能化水平的全面躍升,進一步提升算力資源使用效率和效能,支撐更多國家級、樞紐級調(diào)度平臺的構(gòu)建。
其四是建設(shè)“策源之地”,構(gòu)建核心能力優(yōu)勢。中國移動將依托AI智能基座,錨定AI供給者、匯聚者、運營者定位,構(gòu)建“4個1”智算能力體系,即升級1個AI+算網(wǎng)底座、升級1個智能云內(nèi)核、創(chuàng)新1個MaaS平臺、重塑1批AI+應(yīng)用服務(wù)。
其五是開放“產(chǎn)業(yè)生態(tài)”,推動算力模型融通。開展“百川”算力并網(wǎng)行動計劃,覆蓋通、智、超、量多種算力類型,實現(xiàn)昆山超算中心、許昌智算中心、波色量子等3.4 EFLOPS社會算力并網(wǎng)。模型生態(tài)匯聚自研、開源及三方商業(yè)大模型,與行業(yè)龍頭共建行業(yè)大模型,打造最大規(guī)模、最開放的模型生態(tài),推動AI+融合創(chuàng)新應(yīng)用加速落地。
震澤平臺,破解大模型訓(xùn)練難題
AI大模型被公認為是推動行業(yè)變革的關(guān)鍵因素,得益于政策和需求的雙輪驅(qū)動,千億、萬億參數(shù)規(guī)模的大模型不斷涌現(xiàn)、性能也越來越強。但是對傳統(tǒng)產(chǎn)業(yè)來說,AI大模型的落地應(yīng)用面臨不少挑戰(zhàn),例如大模型訓(xùn)練尚處在早期階段,存在著效率低、不穩(wěn)定、門檻高等明顯短板,智算資源池從“建起來”到“易用好用”,還有很長的路要走。
“隨著參數(shù)規(guī)模和訓(xùn)練樣本的增加,千億大模型預(yù)訓(xùn)練周期大約在45~60天,但千卡集群穩(wěn)定訓(xùn)練時長平均只有2天。雖然業(yè)界已有斷點續(xù)訓(xùn)的通用能力,但故障定位、任務(wù)恢復(fù)往往需要消耗幾個小時。同時,由于檢查點非實時保存,依舊存在歷史訓(xùn)練記錄的丟失,從而損失算力的有效訓(xùn)練時間!饼R驥舉例說。
有鑒于此,為加快AI大模型在行業(yè)中的落地,移動云創(chuàng)新打造了一站式智算平臺——震澤智算平臺,以系統(tǒng)性地解決當(dāng)下的矛盾。該平臺具備異構(gòu)算力納管、萬卡并行訓(xùn)練、全棧國產(chǎn)化適配、“通、智、邊”一體化等多類突出能力,能夠為用戶提供更快、更穩(wěn)、更好的大模型訓(xùn)推體驗。在訓(xùn)練效率問題上,設(shè)計和開源了彈性資源管理架構(gòu)KOSMOS,池化智算算力,實現(xiàn)萬卡算力資源分鐘級創(chuàng)建,開箱即用;通過數(shù)據(jù)預(yù)熱和緩存加速,IO性能提升20%,成本壓縮三分之一;通過梯度分段聚合以及算子融合加速等技術(shù),將國產(chǎn)芯片MFU從35%提升至46%。
在長穩(wěn)訓(xùn)練層面,移動云首創(chuàng)了惰性續(xù)訓(xùn)技術(shù),當(dāng)故障來臨時,健康節(jié)點忽略故障繼續(xù)訓(xùn)練,因故障發(fā)生而掉隊的節(jié)點則通過彈性供給快速補齊。利用新增資源追趕訓(xùn)練進度,結(jié)合內(nèi)存實時檢查點實現(xiàn)故障恢復(fù)時間相比主流水平壓降90%,做到斷點不斷訓(xùn),實現(xiàn)了千卡25天超長穩(wěn)訓(xùn)。
在訓(xùn)推平臺易用性層面,移動云提供了一體化工具鏈。依托算網(wǎng)大腦實現(xiàn)通智邊一體化調(diào)度,結(jié)合數(shù)據(jù)快遞實現(xiàn)模型訓(xùn)中熱遷移,各智算中心資源化零為整;同時提供模型一鍵轉(zhuǎn)換能力,轉(zhuǎn)換好的模型自動推送到邊緣異構(gòu)芯片進行推理,為客戶屏蔽底層異構(gòu)芯片的差異以及資源跨域的感知。
齊驥表示,移動云智算平臺在產(chǎn)品設(shè)計上遵循了安全可靠、穩(wěn)定高效、異構(gòu)解耦和用戶導(dǎo)向四大關(guān)鍵原則。在安全可靠上,移動云于2023年高分通過公安部網(wǎng)絡(luò)安全等級保護四級認證,并已獲得20多項安全資質(zhì)。智算平臺基于移動云的安全防線,通過首創(chuàng)的KOSMOS管理架構(gòu),實現(xiàn)租戶間安全物理隔離,確保了多租戶環(huán)境下的數(shù)據(jù)隱私與操作獨立性。在穩(wěn)定高效上,首先將斷點續(xù)訓(xùn)升級為業(yè)界首創(chuàng)的惰性續(xù)訓(xùn),做到斷點不斷訓(xùn);同時,結(jié)合數(shù)據(jù)預(yù)熱、緩存加速、梯度異步聚合、算子融合加速等核心技術(shù)將訓(xùn)練成本壓降15%以上,訓(xùn)練效能提升11%。在異構(gòu)解耦層面,移動云通過支持英偉達和國產(chǎn)芯片模型的一鍵互轉(zhuǎn),將訓(xùn)推任務(wù)與芯片解耦,結(jié)合算網(wǎng)大腦實現(xiàn)訓(xùn)練推理任務(wù)在異地和異構(gòu)算力上的靈活調(diào)度。最后,堅持以用戶為導(dǎo)向,深度整合市場需求、客戶訪談等多維度信息,捕捉用戶真實需求,進而驅(qū)動產(chǎn)品功能創(chuàng)新與交互設(shè)計的持續(xù)優(yōu)化,確保每一項改進都緊密圍繞用戶需求。
多方實踐,打通AI落地“最后一公里”
基于海量算力資源,移動云現(xiàn)已上線自研震澤智算平臺、大模型服務(wù)平臺,提供模型訓(xùn)推、智能體開發(fā)等全鏈路模型及應(yīng)用工具鏈,助力打通AI大模型行業(yè)落地的“最后一公里”。其中,大模型服務(wù)平臺匯聚了開源、九天以及三方商用大模型,建設(shè)“L0基礎(chǔ)模型+L1行業(yè)模型+L2行業(yè)智能體+模型服務(wù)”的體系化生態(tài)服務(wù)內(nèi)容,攜手合作伙伴共建面向用戶需求的商業(yè)閉環(huán)。
“行勝于言”,相比于市場上并不鮮見的“口號式”創(chuàng)新,移動云已經(jīng)拿出了實實在在的實踐成果。齊驥在采訪中與C114分享了幾個成功故事,這在一定程度上或可視作引領(lǐng)發(fā)展方向的一座座“燈塔”。
中國移動云能力中心作為一個擁有3000名以上程序員的研發(fā)型單位,積累了海量代碼數(shù)據(jù),研發(fā)成本在整體成本支出中占比較高。移動云自主研發(fā)并發(fā)布了湛盧代碼大模型,基于九天大模型基座,圍繞包括代碼問答、代碼補全、單元測試等在內(nèi)的IT研發(fā)8大核心場景進行特定優(yōu)化,支持100種以上編程語言,具備文生代碼、圖生代碼、企業(yè)私有知識庫等特色功能。目前,湛盧代碼助手已經(jīng)在移動云內(nèi)部全面推廣使用,覆蓋開發(fā)、測試、運維研發(fā)全流程,預(yù)計今年將為移動云降低10%研發(fā)成本。
移動云在能源、物流、政務(wù)等領(lǐng)域均有大模型相關(guān)的落地項目,涵蓋多種應(yīng)用場景。例如在能源行業(yè),移動云攜手兄弟單位助力客戶實施智能化升級,通過發(fā)揮中國移動算力網(wǎng)絡(luò)優(yōu)勢,為客戶提供從資源到平臺、到模型服務(wù)的端到端產(chǎn)品能力,助力客戶得以快速具備400P的智算資源;搭建統(tǒng)一調(diào)度管理平臺,為上層九天提供豐沛算力,支持各個業(yè)務(wù)場景使用。
再比如在物流行業(yè),面對人工客服標準化程度低、坐席緊張的情況,移動云攜手物流公司打造物流客服大模型,AI客服可解答85%以上的用戶問題,同時在并發(fā)場景下回復(fù)速率更快,從而提高了整體效率和客戶滿意度。
齊驥告訴C114,移動云正在積極推進大模型在各個行業(yè)的應(yīng)用落地,目前在教育、醫(yī)療、工業(yè)、交通等多個行業(yè)都看到了細分場景需求。
在生態(tài)方面,移動云為合作伙伴提供了DICT庫、MaaS云市場、聯(lián)合實驗室等多種合作方式,并且除了開發(fā)工具等技術(shù)能力上的支持,還提供了算力補貼、技術(shù)大賽、沙龍活動等政策扶持。未來將持續(xù)打造完備的模型及應(yīng)用生態(tài),幫助各個合作伙伴實現(xiàn)自己的智能服務(wù)。
面向未來,加快實現(xiàn)商業(yè)閉環(huán)
超大規(guī)模智算集群是AI大模型發(fā)展的技術(shù)基礎(chǔ)。然而“技術(shù)可行”不等于“商業(yè)可行”,AI技術(shù)未來應(yīng)朝著可持續(xù)的商業(yè)閉環(huán)路徑邁進。如何激發(fā)AI應(yīng)用市場需求以拉動整個AI產(chǎn)業(yè)鏈的發(fā)展,是一個亟需探索的方向,這也意味著對于算力的需求將從模型訓(xùn)練到模型應(yīng)用,更強調(diào)計算的高性價比、彈性伸縮和低時延。
“人們總是高估新技術(shù)的短期影響,卻低估其長期價值。電氣技術(shù)也是在成熟了30年以后才逐漸走向廣泛應(yīng)用,引發(fā)電氣革命。現(xiàn)在去擔(dān)憂AI會不會替代或者淘汰人還為時過早,而是要將重點放在AI的普及上來!饼R驥強調(diào)。
他介紹說,過去一年中,AI在軟件研發(fā)領(lǐng)域的應(yīng)用已經(jīng)變得更加廣泛和深入,各類“AI程序員”概念產(chǎn)品頻繁出現(xiàn)。談到,移動云根據(jù)自身的技術(shù)實踐和行業(yè)洞察,AI在該領(lǐng)域?qū)妮o助代碼開發(fā)向輔助軟件研發(fā)全流程發(fā)展、從輔助人類向自主編程發(fā)展。
“技術(shù)為根,人才為本”,AI的發(fā)展是一項長期復(fù)雜的體系化工程,以大模型為例,其全流程就涉及了算力底座、數(shù)據(jù)準備、模型使能、業(yè)務(wù)應(yīng)用等多個環(huán)節(jié)。各行各業(yè)在實現(xiàn)AI大模型落地應(yīng)用的過程中,也亟需由內(nèi)而外構(gòu)建起相應(yīng)的能力。因此對智算與大模型相關(guān)人才的需求將進一步凸顯。
齊驥表示,任何一個產(chǎn)業(yè)的發(fā)展,都離不開大量人才的支持。智算人才的培育,需要“政產(chǎn)學(xué)研”各方共同發(fā)力。移動云除了自身通過內(nèi)培、競賽等方式,促進內(nèi)部人才的成長,還致力于與高校合作,讓在校生更早地接觸到AI知識、激發(fā)他們對新技術(shù)的興趣,從而形成立體、綜合、成批次的人才培育體系。
“在未來幾年內(nèi),我們希望構(gòu)建更穩(wěn)定、易用、好用和普惠的算力服務(wù),供給越來越多的AI應(yīng)用服務(wù)構(gòu)建智算商業(yè)閉環(huán),讓‘能用’的技術(shù)可行,轉(zhuǎn)變?yōu)椤巳擞谩纳虡I(yè)可行。側(cè)重解決算力運營中的問題,解決規(guī);⒓s化和高性價比等難題!痹诓稍L的最后他這樣展望道。
寫在最后
人工智能被譽為是21世紀社會生產(chǎn)力最為重要的賦能技術(shù)。“科技預(yù)言家”、知名科技雜志《連線》創(chuàng)始主編凱文·凱利(Kevin Kelly)曾預(yù)測,未來百年里,人工智能將超越任何一種人工力量,將人類引領(lǐng)到一個前所未有的時代。今年的諾貝爾物理學(xué)獎和諾貝爾化學(xué)獎也都與AI相關(guān)。
如今,我們正處在AI起勢的關(guān)鍵階段。移動云在智算及AI大模型方面的思考與實踐、布局與成果,既為AI的普惠化、產(chǎn)業(yè)化、規(guī);l(fā)展插上了翅膀,也為各行各業(yè)的智能化升級提供了利器,還給AI+時代的云服務(wù)樹立了標桿。攜手移動云,共同在新一輪創(chuàng)新變革浪潮中破浪前行,擘畫數(shù)改智轉(zhuǎn)更美好未來,時不我待!