隨著全球企業(yè)數(shù)字化轉(zhuǎn)型2.0時(shí)代的到來,企業(yè)數(shù)字化已經(jīng)從降本增效變成生存之本,特別是新冠疫情以來,每個企業(yè)都深刻感受到了企業(yè)ICT能力的重要性,從遠(yuǎn)程辦公到端到端的研-產(chǎn)-銷協(xié)同,企業(yè)的數(shù)字化能力決定了企業(yè)的快速響應(yīng)和應(yīng)急創(chuàng)新等能力。
數(shù)據(jù)中心網(wǎng)絡(luò)作為承載企業(yè)所有數(shù)據(jù)和業(yè)務(wù)的中心,隨著企業(yè)數(shù)字化業(yè)務(wù)的迅猛發(fā)展,自上世紀(jì)90年代至今,無論是在技術(shù)上、還是部署規(guī)模上都極速發(fā)展,并先后歷經(jīng)數(shù)據(jù)大集中及資源池化、云計(jì)算兩個跨越式發(fā)展階段。然而,企業(yè)數(shù)據(jù)中心OPEX也隨著網(wǎng)絡(luò)規(guī)模擴(kuò)大而逐年增加,網(wǎng)絡(luò)運(yùn)營在規(guī)劃、建設(shè)、維護(hù)和優(yōu)化各階段仍嚴(yán)重依賴于人員經(jīng)驗(yàn)和技能,存在大量的人工編排、人工檢校、人工排障、人工恢復(fù)等諸多人工斷裂點(diǎn),結(jié)構(gòu)化矛盾日益凸顯:
規(guī)劃階段:企業(yè)數(shù)據(jù)中心在未來3年仍處于高速建設(shè)期,服務(wù)器規(guī)模將翻倍增加。網(wǎng)絡(luò)設(shè)計(jì)人員需要完成將業(yè)務(wù)需求轉(zhuǎn)化為網(wǎng)絡(luò)設(shè)計(jì),評估應(yīng)用安全要求,規(guī)劃網(wǎng)絡(luò)資源使用等繁瑣工作,這消耗了企業(yè)中約一半網(wǎng)絡(luò)人力資源,急需通過系統(tǒng)化、自動化手段改變疲于奔命的狀態(tài)。
建設(shè)階段:一方面,隨著云化業(yè)務(wù)量大幅上升,業(yè)務(wù)上線周期由原來周級提升至天級,壓力日趨增大。另一方面,企業(yè)關(guān)鍵核心業(yè)務(wù)對可靠性要求越來越高。據(jù)統(tǒng)計(jì),近40%網(wǎng)絡(luò)事故由人為失誤導(dǎo)致,如何保障配置發(fā)放的正確性至關(guān)重要。
維護(hù)階段:當(dāng)前企業(yè)數(shù)據(jù)中心大多采用4個9(99.995%)高可用標(biāo)準(zhǔn),部分核心業(yè)務(wù)要求達(dá)到5個9(99.999%)標(biāo)準(zhǔn)。然而,傳統(tǒng)網(wǎng)絡(luò)運(yùn)維依靠告警、事件和日志等信息,無論是狀態(tài)信息的豐富程度,還是監(jiān)測周期(通常10min)都無法滿足云化數(shù)據(jù)中心的運(yùn)維要求。網(wǎng)絡(luò)故障處在被動應(yīng)對,依賴人工排查,從而導(dǎo)致定位時(shí)間不可控的局面。
優(yōu)化階段:一方面,云化數(shù)據(jù)中心業(yè)務(wù)變化加快,網(wǎng)絡(luò)、安全資源使用容易存在局部熱點(diǎn),如不及時(shí)調(diào)度將可能導(dǎo)致業(yè)務(wù)上線失敗。另一方面,AI訓(xùn)練、大數(shù)據(jù)、高性能計(jì)算和分布式存儲等新興業(yè)務(wù)規(guī)模上線,應(yīng)用之間點(diǎn)到多點(diǎn)分發(fā)式通信模式增多,導(dǎo)致網(wǎng)絡(luò)微突發(fā)情況加劇和亞健康狀態(tài)頻發(fā),嚴(yán)重影響業(yè)務(wù)運(yùn)行效率。當(dāng)前網(wǎng)絡(luò)狀態(tài)評估、業(yè)務(wù)預(yù)測等工作仍嚴(yán)重依賴人工經(jīng)驗(yàn),存在滯后性,潛在風(fēng)險(xiǎn)無法及時(shí)排除,造成業(yè)務(wù)體驗(yàn)差。
以自動、自愈、自優(yōu)、自治為愿景目標(biāo),華為數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)持續(xù)發(fā)展演進(jìn)
類比自動駕駛汽車,華為和多家標(biāo)準(zhǔn)組織、企業(yè)客戶共同提出自動駕駛網(wǎng)絡(luò),致力于消除網(wǎng)絡(luò)全生命周期運(yùn)營維護(hù)中的人工斷裂點(diǎn),逐步實(shí)現(xiàn)網(wǎng)絡(luò)全生命周期高度自治。華為數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)遵循TMForum論壇的分級方法將自動駕駛等級劃分為L0~L5級,每個級別具備不同關(guān)鍵能力特征,覆蓋網(wǎng)絡(luò)規(guī)劃、建設(shè)、運(yùn)維和優(yōu)化等全生命周期過程,從無自動化逐級上升到完全自動化,逐步向的無人值守?cái)?shù)據(jù)中心網(wǎng)絡(luò)演進(jìn)。
2020年9月,華為數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)率先達(dá)到L3級。在這一階段,華為構(gòu)建了“規(guī)、建、維、優(yōu)”四個環(huán)節(jié)全流程的智能化能力,幫助客戶實(shí)現(xiàn)了單一網(wǎng)絡(luò)的自動化,助力業(yè)務(wù)秒級發(fā)放;同時(shí),實(shí)現(xiàn)了網(wǎng)絡(luò)從被動運(yùn)維到主動運(yùn)維的轉(zhuǎn)變,保證業(yè)務(wù)7x24在線。
華為L3數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)關(guān)鍵能力
L3數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)的核心能力包括如下三點(diǎn):
意圖推薦:系統(tǒng)代理人理解業(yè)務(wù)意圖和目標(biāo),來解決網(wǎng)絡(luò)建設(shè)和業(yè)務(wù)部署過程中依賴專家投入,反復(fù)溝通業(yè)務(wù)意圖、設(shè)計(jì)網(wǎng)絡(luò)方案和會審耗時(shí)耗力的問題。首先,通過意圖引擎實(shí)現(xiàn)意圖的理解和意圖的轉(zhuǎn)換,將業(yè)務(wù)意圖轉(zhuǎn)換成網(wǎng)絡(luò)語言,然后以數(shù)字孿生模型為基礎(chǔ),根據(jù)華為在9200多個數(shù)據(jù)中心成功部署總結(jié)的專家經(jīng)驗(yàn)庫,基于專家經(jīng)驗(yàn)并結(jié)合AI算法,向用戶提供符合現(xiàn)網(wǎng)實(shí)際情況的最佳網(wǎng)絡(luò)部署方案。
仿真校驗(yàn):用數(shù)據(jù)驗(yàn)證避免人“考慮不周”,來解決網(wǎng)絡(luò)變更難以評估現(xiàn)網(wǎng)資源充足度、變更是否符合預(yù)期以及是否對現(xiàn)網(wǎng)產(chǎn)生影響的問題。首先,收集網(wǎng)絡(luò)數(shù)據(jù),包括配置、狀態(tài)、流量以及日志、安全等數(shù)據(jù),構(gòu)建五層數(shù)字孿生模型。再基于數(shù)字孿生模型,通過形式化驗(yàn)證算法對于整個網(wǎng)絡(luò)進(jìn)行計(jì)算,即通過數(shù)學(xué)方法對網(wǎng)絡(luò)全量變更驗(yàn)證。
智能運(yùn)維:突破人工經(jīng)驗(yàn)決策極限,來解決依賴專家經(jīng)驗(yàn)故障定位難、故障無法主動預(yù)防的問題。首先,基于AI芯片進(jìn)行全流采集,實(shí)時(shí)感知網(wǎng)絡(luò)異常;然后,基于AI知識圖譜實(shí)現(xiàn)故障根因推理和定位,通過持續(xù)學(xué)習(xí)和訓(xùn)練,目前實(shí)現(xiàn)對7大類75種故障3分鐘之內(nèi)定位根因;最后,基于智能決策系統(tǒng),分析故障影響并推薦最優(yōu)故障處理方案,實(shí)現(xiàn)故障5分鐘快速恢復(fù)。
從L3升級到L3.5,華為著力解決多云多廠商復(fù)雜異構(gòu)網(wǎng)絡(luò)的自動駕駛難題
一方面,隨著云化加速,業(yè)務(wù)上云走向分布式架構(gòu),多云部署成為常態(tài)。另一方面,現(xiàn)實(shí)中企業(yè)的大量業(yè)務(wù)是由多廠商提供支撐的,大量企業(yè)的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)并未統(tǒng)一,從而導(dǎo)致多廠商、多網(wǎng)絡(luò)架構(gòu)并存,這給企業(yè)數(shù)據(jù)中心網(wǎng)絡(luò)進(jìn)一步提升自動化水平帶了諸多挑戰(zhàn):
首先,在七國八制下,多云和多廠商網(wǎng)絡(luò)模型差別非常大,各自的網(wǎng)絡(luò)控制器只能管理各自的設(shè)備,使得人工斷裂點(diǎn)攀升,一個跨云跨廠商的復(fù)雜業(yè)務(wù)甚至?xí)霈F(xiàn)超過100個斷點(diǎn)。
其次,IT團(tuán)隊(duì)和網(wǎng)絡(luò)團(tuán)隊(duì)使用不同的工作視圖,多視圖割裂導(dǎo)致網(wǎng)絡(luò)能力不能被業(yè)務(wù)視圖調(diào)用,進(jìn)而導(dǎo)致業(yè)務(wù)出現(xiàn)異常時(shí)需要多部門人肉式協(xié)同定位故障,耗時(shí)耗力。
最后,多工單并行模式下,網(wǎng)絡(luò)部門被迫不斷在工單間切換,每天都被大量的零散工單淹沒。更折磨人的是,由于逐單執(zhí)行但始終看不到業(yè)務(wù)全局視圖,因此即使所有的業(yè)務(wù)工單都執(zhí)行完成了,網(wǎng)絡(luò)是否能夠完全滿足業(yè)務(wù)的需求也無從判斷。
2021年9月,華為率先發(fā)布L3.5數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò),在L3單一網(wǎng)絡(luò)自動化基礎(chǔ)上推進(jìn)到了多云多廠商全場景網(wǎng)絡(luò)服務(wù)化,致力于在多云多廠商網(wǎng)絡(luò)中實(shí)現(xiàn)無差別管控、靈活編排協(xié)同、仿真驗(yàn)證等高度自動化能力,并與客戶IT管理系統(tǒng)對接繼承已形成的自動化流程,助力企業(yè)業(yè)務(wù)在復(fù)雜異構(gòu)網(wǎng)絡(luò)環(huán)境下也能夠敏捷創(chuàng)新。
華為L3.5數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)架構(gòu)
華為L3.5數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)方案提供異構(gòu)網(wǎng)絡(luò)統(tǒng)一管控、全網(wǎng)靈活編排的關(guān)鍵能力,徹底解決多云多廠網(wǎng)絡(luò)人工管理低效問題,業(yè)務(wù)上線周期從月縮短到分鐘級。
統(tǒng)一管控:南向通過AOC開放可編程平臺,制作和加載設(shè)備驅(qū)動包,南向高效對多廠商網(wǎng)絡(luò)設(shè)備統(tǒng)一納管。
靈活編排:北向通過Runbook業(yè)務(wù)設(shè)計(jì)平臺,開放全量100+網(wǎng)絡(luò)原子能力,全網(wǎng)業(yè)務(wù)流靈活編排;提供全網(wǎng)仿真能力,保障全網(wǎng)無差別精準(zhǔn)部署。同時(shí),業(yè)務(wù)流編排后自動生成API,即提供網(wǎng)絡(luò)服務(wù),供北向系統(tǒng)靈活高頻復(fù)用。
華為數(shù)據(jù)中心自動駕駛網(wǎng)絡(luò)方案,為企業(yè)數(shù)字化轉(zhuǎn)型而生,是網(wǎng)絡(luò)自身數(shù)字化轉(zhuǎn)型的發(fā)動機(jī),智能感知商業(yè)意圖,自主決策執(zhí)行,加速商業(yè)價(jià)值變現(xiàn)。當(dāng)然,數(shù)據(jù)中心網(wǎng)絡(luò)實(shí)現(xiàn)高度自治無法一蹴而就,需要通過3~5年甚至更長的時(shí)間來實(shí)現(xiàn)網(wǎng)絡(luò)高度自動化和智能化。這一發(fā)展歷程,離不開產(chǎn)業(yè)組織和合作伙伴的緊密協(xié)同,更離不開全球客戶的創(chuàng)新實(shí)踐與商業(yè)牽引。目前,自智網(wǎng)絡(luò)已經(jīng)成為業(yè)界共識,希望更多的產(chǎn)業(yè)組織、伙伴和客戶一起,共同推進(jìn)數(shù)據(jù)中心網(wǎng)絡(luò)走進(jìn)自動駕駛時(shí)代。