C114通信網(wǎng)  |  通信人家園

資訊
2025/4/3 15:32

江蘇移動與華為聯(lián)合研發(fā)智能故障治理平臺,從實驗室到生產(chǎn)實際應用的跨越

C114通信網(wǎng)  

江蘇移動與華為聯(lián)合研發(fā)的智能故障治理平臺實現(xiàn)9個月穩(wěn)定運行,標志著基于大模型的云原生運維技術完成從實驗室驗證到生產(chǎn)部署的關鍵跨越。該平臺通過跨模態(tài)數(shù)據(jù)融合治理,構建"大模型推理決策+小模型異常檢測"的雙引擎架構,系統(tǒng)性重構故障處置全流程。經(jīng)生產(chǎn)驗證,其智能診斷準確率提升顯著,MTTR縮短37%(同比降17分鐘),形成"數(shù)據(jù)治理-智能診斷-知識反哺"的增強閉環(huán),為復雜系統(tǒng)故障治理提供可工程化復制的AI轉型路徑。

一、故障處理困境:

. 多云架構日均產(chǎn)生億級運維數(shù)據(jù),分散在監(jiān)控大盤、調用鏈等異構平臺,傳統(tǒng)固定規(guī)則難以識別指標毛刺類隱患,人工監(jiān)控需高頻切換界面進行數(shù)據(jù)交叉驗證,存在故障發(fā)現(xiàn)延遲。

. 由于多代異構技術形成的超復雜的動態(tài)連接,故障傳播路徑冗長,分層逐個定位的運維方法效率低下,故障定位時長難以有效收斂;

. 非結構化故障報告缺乏可復現(xiàn)性,人工維護的知識庫更新滯后且復用率不足,疊加人員流動影響,經(jīng)驗傳承形成斷層。

二、破局之道:

針對上述痛點,以"構建故障全生命周期治理能力"為目標,通過多源運維數(shù)據(jù)融合、異常指標權重擬合、大模型根因推理等技術突破,打造覆蓋“故障感知-診斷-歸檔-經(jīng)驗復用”的閉環(huán)體系。

總體方案:構建覆蓋故障全生命周期的智能化運維體系

1、 事前通過標準化數(shù)據(jù)治理,建立統(tǒng)一運維數(shù)據(jù)模型,實現(xiàn)跨系統(tǒng)(日志/指標/追蹤)數(shù)據(jù)的采集、匯聚與管理,夯實分析底座;

2、 事中聚焦用戶體驗革新,打造低門檻感知診斷工具,運用AI算法關聯(lián)多源數(shù)據(jù),將復雜指標翻譯為可視化的系統(tǒng)健康評分并自動完成根因定位,使新手可5分鐘內完成故障處置;

3、 事后建立故障資產(chǎn)閉環(huán),將案例歸檔融入到故障處理流程中,數(shù)字化且結構化的故障數(shù)據(jù)(如故障指標,案例報告,故障圖譜)反哺到故障發(fā)現(xiàn)和診斷能力的提升。

最終形成“數(shù)據(jù)治理-智能診斷-知識反哺”的增強式運維飛輪。

創(chuàng)新點1:基于多維度系統(tǒng)健康度量化評估模型,構建系統(tǒng)健康曲線,實現(xiàn)全層級系統(tǒng)異常實時感知與可視化

構建統(tǒng)一指標智能分析能力,通過動態(tài)閾值、短長時差分,機器學習等方法對多種不同類型的指標數(shù)據(jù)進行多維度的健康分析,識別關鍵異常指標,通過指標歸一化及權重計算形成一條系統(tǒng)健康曲線,直觀感知系統(tǒng)綜合異常。

基于歷史案例數(shù)據(jù)的多維度指標特征歸一化處理與動態(tài)加權策略,構建具有時序特征工程的機器學習訓練集,通過集成學習框架完成模型訓練后,結合實時采集的多源監(jiān)測數(shù)據(jù),運用訓練完成的分類模型進行在線特征匹配與模式識別,實現(xiàn)實時指標與歷史案例庫的相似度匹配,通過指標特征權重計算系統(tǒng)健康指數(shù)。

與傳統(tǒng)的多平臺輪巡收集離散指標監(jiān)測的方式相比,運維人員只需通過觀察心跳曲線即可全面感知系統(tǒng)各層級的故障情況。

創(chuàng)新點2:基于大模型的智能診斷與恢復推薦,實現(xiàn)故障根因推理與快速恢復

通過知識圖譜與檢索增強生成的協(xié)同架構,構建基于大模型的故障診斷智能體,當系統(tǒng)檢測到異常指標(如API延遲突增)時,首先從向量化指標庫中檢索指標定義(如“數(shù)據(jù)庫連接池耗盡”指標),同時通過知識圖譜關聯(lián)指標傳播鏈信息(如該API依賴的應用、數(shù)據(jù)庫節(jié)點),將檢索到的指標信息注入大模型上下文;大模型基于檢索增強的上下文,結合幻覺抑制技術,生成概率化根因結論,如“OB主庫CPU高導致接口查詢阻塞”,并自動完成自然語言故障診斷報告的輸出,支撐5分鐘故障定位目標達成。

發(fā)生故障時,運維人員只需點擊診斷按鈕,系統(tǒng)即可通過AI算法快速抓取關鍵異常指標,并利用大語言模型(LLM)檢索故障傳播圖譜和運維知識庫生成上下文信息,最終形成結構化的診斷報告與恢復預案。

創(chuàng)新點3:基于案例積累,數(shù)據(jù)飛輪驅動的持續(xù)演進機制

通過持續(xù)收集和沉淀生產(chǎn)系統(tǒng)中的故障案例,系統(tǒng)能夠自動生成高質量的訓練數(shù)據(jù)集,并周期性迭代升級模型,同時將故障資產(chǎn)歸檔融入故障處置流程中,持續(xù)完善指標知識庫,知識圖譜,案例等數(shù)據(jù)。這一過程形成了“數(shù)據(jù)積累-模型優(yōu)化-能力提升”的正向循環(huán),這種自我演進的能力使得系統(tǒng)能夠適應復雜多變的運維環(huán)境,為故障治理平臺的數(shù)智化能力提升提供了可持續(xù)的動力。

三、落地成效:

. 應用于多個核心系統(tǒng),自動完成故障診斷300+次,支撐48次新業(yè)務支付上線以及20多次重大割接;

. 故障感知準確率98%,保障秒級發(fā)現(xiàn)故障;

. 故障診斷準確率從30%提升至73%,大幅降低專家依賴度;

. 1-5-10指標(1分鐘故障發(fā)現(xiàn),5分鐘定位,10分鐘恢復)達標率82%,MTTR(故障平均恢復時長)同比去年縮短17分鐘;

四、未來展望:

目前,已與多家單位深入合作,推動AI運維體系在南通等地的試點應用。未來,將持續(xù)深化技術應用,通過標準化能力輸出,為更多行業(yè)場景提供可復用的智能運維范式,推動行業(yè)擁抱數(shù)智化未來。

給作者點贊
0 VS 0
寫得不太好

  免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權所有 舉報電話:021-54451141