C114訊 9月13日消息(焦焦)9月11日,第25屆中國國際光電博覽會在深圳開幕,在同期舉辦的“智算中心光技術(shù)創(chuàng)新發(fā)展論壇”上,騰訊網(wǎng)絡(luò)運營工程師陸佳寧發(fā)表了以《數(shù)據(jù)中心開放光網(wǎng)絡(luò)中的“自動駕駛”與全局風險管控》為主題的演講,與大家深入探討了在數(shù)據(jù)中心開放光網(wǎng)絡(luò)環(huán)境中,光網(wǎng)絡(luò)中光纖變化所帶來的挑戰(zhàn)及“自動駕駛”的核心技術(shù)與未來展望。
陸佳寧表示,隨著數(shù)據(jù)中心基礎(chǔ)設(shè)施海量運營,光纖數(shù)量增多,光網(wǎng)絡(luò)運維中遇到最大的問題是光纖故障,主要包括:中斷,劣化,抖動/變化等。對于光纖中斷或是出現(xiàn)較大幅度變化等較嚴重光纖事件時,則采取建單,報障運營商,波分運營配合修復(fù)。而對于時常會出現(xiàn)的光纖小幅度抖動和變化時,出單幾率低,維修困難。若光纖衰耗與光放增益失配,無自動化手段恢復(fù),會導(dǎo)致嚴重的系統(tǒng)隱患。
當前光纖量越來越大,造成衰耗抖動愈發(fā)頻繁,對于業(yè)務(wù)的影響逐漸增多,光纖和增益的適配,不僅會影響波道性能,在收端的倒換也會受到影響,甚至會失效。因此,在系統(tǒng)建設(shè)初期,要保證余量足夠,用光放增益和衰耗配置的方法,可以順利運營系統(tǒng)整個生命周期。同時,系統(tǒng)配置自動追蹤是提升系統(tǒng)穩(wěn)定性的關(guān)鍵。
五大核心設(shè)計理念為“自動駕駛”保駕護航
陸佳寧介紹,所謂“自動駕駛”,實際上就是讓系統(tǒng)自動追蹤光纖的變化,并且準確配置光放板卡的增益和VOA。
首先,“自動駕駛”設(shè)計以基準衰耗為基礎(chǔ)。系統(tǒng)準確捕捉光纖衰耗的真實變動,排除瞬時抖動或異常值的干擾,用擬合算法得到真實的光纖基準衰耗。當基準衰耗變化值超過一定的范圍,觸發(fā)“自動駕駛”系統(tǒng),以基準衰耗為基礎(chǔ),計算光放配置,準確配置光放板卡的增益和VOA。
第二,“自動駕駛”需進行模塊化解耦設(shè)計!白詣玉{駛”模塊化設(shè)計的原理為:創(chuàng)建調(diào)測任務(wù)觸發(fā)“自動駕駛”,再進一步調(diào)度任務(wù),執(zhí)行任務(wù)。整體流程需要模塊化解耦對系統(tǒng)進行設(shè)計。為了后續(xù)的全局管控和任務(wù)調(diào)度,需對整體任務(wù)進行分層設(shè)計,分為平面任務(wù)、復(fù)用段任務(wù)和子任務(wù),按優(yōu)先級進行管控。任務(wù)創(chuàng)建后,由任務(wù)自動調(diào)度模塊傳遞到調(diào)測流程中,正式開始配置計算和調(diào)測流程,此外還需要全局管控模塊,統(tǒng)籌風險管控。
第三,“自動駕駛”設(shè)計要有全局視角調(diào)度和控制能力。全局控制調(diào)度包含系統(tǒng)劃分,順序保障以及臨時暫停和恢復(fù)。系統(tǒng)劃分是以傳輸系統(tǒng)的物理層面進行劃分,保障不同調(diào)優(yōu)拓撲的獨立性。順序保障需確保同一個系統(tǒng)中的所有子任務(wù)均已完畢,才開始調(diào)測下一個拓撲。暫停和恢復(fù)則是當“自動駕駛”過程出現(xiàn)其他意外動作狀態(tài),如故障或認為結(jié)束命令時,暫停當前調(diào)優(yōu),意外動作狀態(tài)結(jié)束時,恢復(fù)調(diào)優(yōu)。
第四,“自動駕駛”要有全局視角調(diào)度順序。自動調(diào)度任務(wù)順序是核心,要確保鏈路調(diào)測順序符合人工運維習慣。點對點系統(tǒng)調(diào)測順序無分叉,依據(jù)是簡單的上下游關(guān)系的順序;ROADM系統(tǒng)調(diào)測順序,帶分叉,依據(jù)業(yè)務(wù)流向定義順序。
第五,“自動駕駛”設(shè)計需明確調(diào)測流程關(guān)鍵點。調(diào)測流程設(shè)計要點為準確性和安全性。在任務(wù)執(zhí)行時,配置準確計算,以性能擬合值而非瞬時值計算,還需要對器件類型進行區(qū)分。在調(diào)測過程中分布下發(fā),并且進行校驗,確保配置下發(fā)成功,性能符合標準。此外還設(shè)置安全機制,一定時間內(nèi)OSC無抖動開始任務(wù)調(diào)度,規(guī)避故障疊加,任務(wù)執(zhí)行過程中若發(fā)生非穩(wěn)態(tài)抖動則中止任務(wù),繼續(xù)等待穩(wěn)態(tài),如果有異常直接回退處理。
“自動駕駛”需全局風險管控
為何要做全局風險管控?陸佳寧解釋到,主要是因為波分系統(tǒng)承載了整個騰訊云骨干網(wǎng)的流量。兩者的關(guān)系可以理解為一套波分系統(tǒng)有兩個平面,兩個波分平面分別是一套獨立的波分的物理系統(tǒng),兩個波分平面,承載著骨干網(wǎng)的多個平面。
陸佳寧表示,實際上光放增益配置調(diào)節(jié)存在理論風險,考慮到骨干網(wǎng)風險管控需求,多個波分平面不能同時中斷,所以僅從波分網(wǎng)絡(luò)視角的風險管控,不足以對數(shù)通層面的風險進行管控,需對不同波分網(wǎng)管統(tǒng)一管控,才能同時進行“自動駕駛”。而“自動駕駛”系統(tǒng)是放在每個網(wǎng)管上面,不同網(wǎng)管的“自動駕駛”無法互通,所以騰訊云網(wǎng)絡(luò)進一步引入了全局風險管控,對各網(wǎng)管的“自動駕駛”統(tǒng)一加鎖管控,集中式管控波分“自動駕駛”任務(wù)。
演講最后,在談到對“自動駕駛”的未來展望時,陸佳寧提出,“自動駕駛”實際上是通過對光網(wǎng)絡(luò)配置項做出相應(yīng)動作,讓光網(wǎng)絡(luò)處于最優(yōu)狀態(tài)。今后,可以對光纖故障處理動作精細化,根據(jù)實時光纖余量進行光纖故障場景自動決策。目前,光纖余量計算的精度已經(jīng)得到實驗室的驗證。
此外,陸佳寧認為,對于C+L的“自動駕駛”思路也需轉(zhuǎn)變,從單一的衰耗補償思路轉(zhuǎn)變?yōu)榫C合的入纖譜穩(wěn)定思路。這也是對C+L系統(tǒng)提出的新要求,需考慮光放增益/voa,斜率,WSS voa等配置項,進行統(tǒng)一的“自動駕駛”設(shè)計。