8月30日,中國移動智算中心(哈爾濱)正式建成并投產(chǎn)使用,作為國內(nèi)運營商最大的單集群智算中心,無論從前期的規(guī)劃設(shè)計、技術(shù)體系制定還是現(xiàn)場的規(guī)模數(shù)量、設(shè)備多樣性、建設(shè)驗收都是一項巨大的、復(fù)雜的系統(tǒng)工程。在工程最繁忙的時候,現(xiàn)場有來自中國移動內(nèi)部相關(guān)單位以及設(shè)備商、集成商等外部合作伙伴近200名技術(shù)人員。而在其中,一名來自中國移動研究院的特殊的“數(shù)智員工”——“AUTO行云”自動化集成驗收工具,以其兢兢業(yè)業(yè)的工作態(tài)度和高效可靠的工作能力,為這一里程碑式的智算萬卡集群順利上線提供了有力保障。
萬卡集群的高效交付為什么需要“數(shù)智員工”
近年來,以大模型為代表的人工智能技術(shù)取得了飛速發(fā)展,這一對未來影響深遠的技術(shù)變革,使得作為人工智能發(fā)展基礎(chǔ)的大規(guī)模智算中心的建設(shè),也日漸成為各大企業(yè)乃至大國之間競爭的新焦點。在這一過程中,不僅算力規(guī)模日益龐大,從千卡向萬卡乃至未來十萬卡的量級快速擴張,算力基礎(chǔ)設(shè)施的快速供應(yīng)也也成為關(guān)鍵。據(jù)消息稱,馬斯克最近投產(chǎn)的10萬卡超算集群,從硬件安裝到投入訓(xùn)練,總共只花了19天時間。
與此同時,在大規(guī);A(chǔ)設(shè)施特別是萬卡新型智算中心建設(shè)過程中,數(shù)千臺設(shè)備、數(shù)萬條網(wǎng)絡(luò)連線、數(shù)十萬項各類設(shè)備規(guī)格等等,會不可避免的發(fā)生設(shè)備硬件故障及驅(qū)動程序錯誤、網(wǎng)絡(luò)連線及光模塊問題,以及人工設(shè)備參數(shù)配置錯誤等。必須要對硬件進行全面、準(zhǔn)確的驗收檢查,發(fā)現(xiàn)、定位和幫助整改各類問題,以高質(zhì)量的算力基礎(chǔ)設(shè)施確保后續(xù)大模型訓(xùn)練的正常運行。
可以想見,對于如此大的工作量,如果采用人工,即使可以通過投入大量資源完成測試,項目工期也是完全不可接受的。為應(yīng)對這一挑戰(zhàn),中國移動研究院自研的“AUTO行云”自動化集成驗收工具應(yīng)運而生。幾年來,該工具已經(jīng)在網(wǎng)絡(luò)云、IT云和智算中心等320多個資源池建設(shè)中累計應(yīng)用超過30萬臺服務(wù)器,將超過95%的人工操作轉(zhuǎn)為自動化,使配置驗收環(huán)節(jié)效率提升10倍以上,整體工期縮短2/3以上。
為了便于現(xiàn)場使用自動化工具開展集成驗收,AUTO團隊打造了可遠程訪問的AUTOBox軟硬一體機設(shè)備,每當(dāng)有類似哈爾濱智算集群這樣的大規(guī)模算網(wǎng)基礎(chǔ)設(shè)施建設(shè)項目,一臺AUTOBox就會作為一名“數(shù)智員工”出差到現(xiàn)場,成為輔助項目集成和驗收的技術(shù)中堅力量。
AUTO“數(shù)智員工”(位于哈爾濱萬卡集群)
“數(shù)智員工”在哈爾濱萬卡集群中的表現(xiàn)可圈可點
在哈爾濱萬卡集群現(xiàn)場,研究院這名被大家親切稱之為“小5”(編號為AUTO-5)的“員工”,在歷時近2個月的集成驗收測試期間表現(xiàn)可謂可圈可點,獲得大家的一致認可。
勇于擔(dān)當(dāng),直面困難不退縮。哈爾濱萬卡集群的各類服務(wù)器、交換機等設(shè)備數(shù)量超過6000臺,連線數(shù)量近7萬條,這一規(guī)模比AUTO以往驗收過的最大規(guī)模資源池還要大3倍以上。雖然AUTO團隊特意選派了“身體素質(zhì)好、戰(zhàn)斗力強”(設(shè)備配置高、性能強)的“小5”前往哈爾濱,但在開始工作之處還是遭遇了嚴重的性能挑戰(zhàn)。
例如,其它集群中,一般1小時就可以完成的一輪全量驗收測試,在萬卡智算集群中需要耗費7至8小時。由于龐大的數(shù)據(jù)量對數(shù)據(jù)庫造成的壓力,可視化測試驗收界面在加載數(shù)據(jù)時頻繁出現(xiàn)響應(yīng)緩慢,使得一線工程師難以實時監(jiān)控和了解測試的具體進展。為此,AUTO團隊迅速在調(diào)度策略、數(shù)據(jù)庫寫入次數(shù)、SQL執(zhí)行解耦、界面加載優(yōu)化等多維度制定優(yōu)化措施,保障“小5”的運行性能。經(jīng)過不斷努力,將單輪全量測試時間壓縮到2小時以內(nèi)完成、錯誤用例的重測間隔時間更是控制到半小時以內(nèi),頁面響應(yīng)速度也大幅提升。
勤勉盡責(zé),默默嚴守質(zhì)量關(guān)。從7月初進駐現(xiàn)場開始,“小5”就默默地待在機房的一個角落,保持著7×24小時的高強度、不間斷自動運轉(zhuǎn)。哈爾濱智算集群的驗收用例總計超過25萬個,“小5”一輪接著一輪運行,第一時間通過頁面、郵件等方式匯報測試結(jié)果和發(fā)現(xiàn)的問題。
“小5”同時也是連接智算集群、一線工程師和AUTO團隊的媒介。一方面,AUTO團隊和一線工程師均可通過“小5”獲取測試結(jié)果的整體情況和詳細報告,并安排“小5”對部分測試用例進行臨時復(fù)測,或者通過更新代碼、數(shù)據(jù)來升級“小5”的能力。另一方面,“小5”還自帶最新的基于大模型的“智能助手”,協(xié)助現(xiàn)網(wǎng)工程師實現(xiàn)快速問題分析并指導(dǎo)整改。
AUTO運行界面(位于哈爾濱萬卡集群)
持續(xù)進步,高效掌握新技能。在AUTO平臺以往的使用模式中,為保障測試過程和結(jié)果的準(zhǔn)確和可靠,通常需要人工預(yù)先準(zhǔn)備詳盡的期望值數(shù)據(jù)作為驗收的依據(jù),期望值的內(nèi)容如有錯漏將直接影響自動化驗收的結(jié)果。在本次哈爾濱萬卡集群中,面對6千余臺設(shè)備規(guī)模、約40種配置模型、每種模型包含30余個參數(shù)項的復(fù)雜場景特征,如何在盡量減少人員投入、避免反復(fù)溝通的情況下,快速準(zhǔn)確準(zhǔn)備數(shù)據(jù)成為關(guān)鍵問題。
為解決這一難題,AUTO團隊為“小5”增加了“自學(xué)習(xí)”的能力。通過我們稱之為AUTOZero的無監(jiān)督自學(xué)習(xí)的數(shù)據(jù)管理算法,通過現(xiàn)場采集設(shè)備信息,采用智能算法來預(yù)測各類設(shè)備的組件規(guī)格、配置參數(shù)等期望結(jié)果,實際使用中預(yù)測準(zhǔn)確率達到95%以上,可減少80%的數(shù)據(jù)準(zhǔn)備及校驗工作量,顯著縮短了驗收的準(zhǔn)備時間。
即時響應(yīng),周到服務(wù)暖人心。在現(xiàn)場駐守的“小5”背后,是AUTO平臺軟件開發(fā)和實施支撐團隊的近10名經(jīng)驗豐富的研究院同事。“保姆式服務(wù)”,是黑龍江省公司負責(zé)萬卡集群驗收的網(wǎng)絡(luò)部同事們,對AUTO團隊現(xiàn)網(wǎng)支撐的敏捷響應(yīng)和實干精神有感而發(fā)的一個“詞”。AUTO團隊為保障萬卡資源池的順利進行,多次與省公司和一線工程師溝通,根據(jù)現(xiàn)場需求快速響應(yīng)實現(xiàn)分批測試、定位報錯設(shè)備位置信息、頁面會話保存、LLD更新時間等功能。通過多方的實時溝通,以及快速的測試問題整改響應(yīng),哈爾濱萬卡集群第一批設(shè)備在一周內(nèi)測試通過率迅速提升至99%,成為智算驗收過程中整改速度最快的集群。省公司同事自己測算,整體驗收效率提升73%以上,通過節(jié)省智算集群的上線時間,也進一步降低了能耗、人工等多項成本。
面向未來,AUTO“數(shù)智員工”時刻待命
兩個“100”天打造了哈爾濱萬卡集群建設(shè)交付的圓滿佳績。AUTO在這個過程中也邁上了新臺階,不僅在集群規(guī)模上突破了歷史記錄,更是在流程、性能、功能、服務(wù)等各方面都取得了新的里程碑式成果。
哈爾濱1.8萬卡的超大規(guī)模智算集群成功上線,未來更多、更大的智算集群仍然在路上。在交流中,省公司對AUTO也提出了更多的應(yīng)用場景和功能需求,如自動化設(shè)備參數(shù)配置、標(biāo)簽智能化識別、數(shù)字孿生場景的網(wǎng)絡(luò)拓撲實現(xiàn)等等。“小5”和小伙伴們將在前期積累的技術(shù)創(chuàng)新和實戰(zhàn)經(jīng)驗,以及與項目一線的良好合作的基礎(chǔ)上,進一步提升能力,隨時準(zhǔn)備奔赴新的智算中心建設(shè)現(xiàn)場,為公司智算集群建設(shè)和國家算力基礎(chǔ)設(shè)施的高質(zhì)量發(fā)展做出貢獻。