C114訊 6月8日消息(雋暢)近日,由CIOE中國(guó)光博會(huì)與C114通信網(wǎng)聯(lián)合推出的“2023中國(guó)光通信高質(zhì)量發(fā)展論壇”系列活動(dòng)——“數(shù)據(jù)中心光互連技術(shù)研討會(huì)”成功舉辦。美團(tuán)光網(wǎng)絡(luò)架構(gòu)師岳樹燁應(yīng)邀出席會(huì)議并發(fā)表題為《光模塊故障預(yù)測(cè)》的報(bào)告。
岳樹燁表示,企業(yè)對(duì)高效運(yùn)維和測(cè)試技術(shù)需求日益迫切,通過(guò)激光器老化機(jī)器學(xué)習(xí)建模,可以實(shí)現(xiàn)模塊健康度預(yù)警,提前識(shí)別,快速定位,降低運(yùn)維成本。
借助AIOps提升企業(yè)業(yè)務(wù)能力
隨著產(chǎn)業(yè)規(guī)模不斷擴(kuò)大,需要常態(tài)化運(yùn)維的網(wǎng)絡(luò)節(jié)點(diǎn)規(guī)模已達(dá)到上萬(wàn)級(jí)別,且鏈路數(shù)目達(dá)到幾十萬(wàn)級(jí)別,保持規(guī);W(wǎng)絡(luò)的穩(wěn)定可靠成為一大挑戰(zhàn)。將智能算法引入現(xiàn)有網(wǎng)絡(luò)管理平臺(tái),實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的網(wǎng)絡(luò)閉環(huán)系統(tǒng),將成為解決運(yùn)維效率低下、定位成本高昂現(xiàn)狀的有力途徑。
然而,現(xiàn)有技術(shù)仍待與場(chǎng)景結(jié)合,存在異常檢測(cè)誤差大、故障網(wǎng)元定位難、計(jì)算響應(yīng)不及時(shí)等限制,難以用于特定條件。
“針對(duì)上述情況,構(gòu)建具備容錯(cuò)能力的網(wǎng)絡(luò)已成為當(dāng)前的重中之重。目前,一些通用的網(wǎng)絡(luò)平臺(tái)已經(jīng)實(shí)現(xiàn)了基礎(chǔ)的網(wǎng)絡(luò)異常診斷和故障定位功能,但受運(yùn)行環(huán)境、品牌、型號(hào)等多維環(huán)境影響,工作效率低、誤差大。”岳樹燁指出,大規(guī)模網(wǎng)絡(luò)下,通過(guò)光模塊激光器的監(jiān)控關(guān)鍵指標(biāo)可以預(yù)測(cè)故障的發(fā)生時(shí)間,減少運(yùn)維⼈員壓力,美團(tuán)開展光模塊故障預(yù)測(cè)研究有三大目標(biāo)。
一是異常主動(dòng)發(fā)現(xiàn),故障預(yù)測(cè)。利用機(jī)器學(xué)習(xí)分析告警閾值,網(wǎng)絡(luò)、設(shè)備、光模塊、光傳輸等更多精細(xì)特征指標(biāo)異常發(fā)現(xiàn)及在線趨勢(shì)預(yù)測(cè)。
二是自我診斷,故障定位。結(jié)合業(yè)內(nèi)數(shù)據(jù)、大數(shù)據(jù)分析及專家經(jīng)驗(yàn)和知識(shí)圖譜,分析光模塊異常趨勢(shì)。
三是智能聯(lián)動(dòng),快速通告。聯(lián)動(dòng)失效告警、自動(dòng)隔離、工單派發(fā)、效果驗(yàn)收、業(yè)務(wù)恢復(fù)全鏈條的故障自動(dòng)化處理。
實(shí)現(xiàn)光模塊故障預(yù)測(cè)的三大核心
從實(shí)際情況看,激光器故障在有源類產(chǎn)品故障中占比較高,光模塊單體故障的90%以上。增加故障預(yù)測(cè)可提前評(píng)估風(fēng)險(xiǎn),降低運(yùn)維復(fù)雜度,優(yōu)化全鏈路系統(tǒng)。那么,光模塊故障預(yù)測(cè)要如何實(shí)現(xiàn)呢?
岳樹燁介紹,首先要通過(guò)“針對(duì)異構(gòu)監(jiān)控?cái)?shù)據(jù)的深度清洗和特征提取方法”與“基于狀態(tài)檢測(cè)的激光器異常建模和故障預(yù)測(cè)”實(shí)現(xiàn)小時(shí)級(jí)激光器異常檢測(cè)和故障預(yù)測(cè)。然后,利用“面向真實(shí)網(wǎng)絡(luò)的算法驗(yàn)證平臺(tái)”,以仿真數(shù)據(jù)進(jìn)行有效性、可用性、先進(jìn)性檢驗(yàn),繼而將真實(shí)數(shù)據(jù)接入檢驗(yàn)。
具體而言,由于激光器原始監(jiān)控?cái)?shù)據(jù)中存在噪聲數(shù)據(jù)較多、特征維度過(guò)大、數(shù)據(jù)集不平衡等情況,將導(dǎo)致預(yù)測(cè)精度降低。因此,要通過(guò)多維統(tǒng)計(jì)分析、深度數(shù)據(jù)清洗、上下采樣技術(shù)、動(dòng)態(tài)特征工程,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,從而實(shí)現(xiàn)高效特征提取。
在基于狀態(tài)檢測(cè)的激光器異常建模的初期,要率先構(gòu)建區(qū)分正常和異常激光器的狀態(tài)檢測(cè)模型并生成動(dòng)態(tài)閾值,一旦檢測(cè)到出光功率變化率大于異常閾值則激發(fā)壽命預(yù)測(cè)單元。
針對(duì)正常老化模型,可采用激光器的正常歷史數(shù)據(jù)進(jìn)行建模,預(yù)測(cè)激光器一天后的出光功率,當(dāng)出光功率低于標(biāo)準(zhǔn)規(guī)格時(shí)則上報(bào)⻛險(xiǎn);針對(duì)突發(fā)異常模型,根據(jù)突發(fā)異常前一段時(shí)間的歷史數(shù)據(jù)進(jìn)行建模,當(dāng)出光功率變化率大于計(jì)算閾值時(shí)激活該預(yù)測(cè)單元,計(jì)算異常發(fā)生概率及狀態(tài)分布。
“為實(shí)現(xiàn)異常檢測(cè)和故障定位的算法的有效性與可靠性,就要結(jié)合系統(tǒng)和模型在萬(wàn)級(jí)規(guī)模網(wǎng)絡(luò)仿真平臺(tái)和多拓?fù)洵h(huán)境里進(jìn)行綜合測(cè)試。”岳樹燁表示,測(cè)試平臺(tái)的部署分為三個(gè)階段。首先是經(jīng)典網(wǎng)絡(luò)布局模式下的仿真測(cè)試平臺(tái),其次是VPC網(wǎng)絡(luò)布局模式下的仿真測(cè)試平臺(tái),然后是仿真節(jié)點(diǎn)與實(shí)物并存的半實(shí)物測(cè)試平臺(tái)。完成上述工作后,將基于美團(tuán)真實(shí)網(wǎng)絡(luò)環(huán)境進(jìn)行部署與驗(yàn)證。
會(huì)上,岳樹燁呼吁產(chǎn)業(yè)鏈上下游共同關(guān)注器件穩(wěn)定性,攜手建立有效性、可用性、先進(jìn)性并存的故障預(yù)測(cè)體系,以提高產(chǎn)品的穩(wěn)定性為前提,實(shí)現(xiàn)終端用戶、模塊/設(shè)備商價(jià)、芯片廠商之間的三方共贏。