本文版權(quán)為《郵電設(shè)計(jì)技術(shù)》所有,如需轉(zhuǎn)載請(qǐng)聯(lián)系《郵電設(shè)計(jì)技術(shù)》編輯部
摘 要:提出一個(gè)通用的AI驅(qū)動(dòng)的網(wǎng)絡(luò)流量分類框架,闡述了所涉及的工作流程、分類目標(biāo)、設(shè)計(jì)原則以及典型場(chǎng)景等,并提出了一個(gè)基于 BERT 的網(wǎng)絡(luò)流量分類模型,通過(guò)將輸入的分組凈荷進(jìn)行向量化嵌入,然后送入BERT進(jìn)行預(yù)訓(xùn)練,用于實(shí)現(xiàn)流量數(shù)據(jù)的上下文理解并捕獲雙向特征,然后對(duì)接一個(gè)全連接網(wǎng)絡(luò)對(duì)分類下游任務(wù)進(jìn)行微調(diào),從而實(shí)現(xiàn)流量分類。通過(guò)與AE、VAE、ByteSGAN 3個(gè)經(jīng)典的流量分類深度學(xué)習(xí)模型在 CICIDS2017 公開數(shù)據(jù)集上進(jìn)行對(duì)比,發(fā)現(xiàn) BERT的精度明顯高于其他方法。
關(guān)鍵詞:流量分類;流量識(shí)別;入侵檢測(cè);BERT;大模型
doi:10.12045/j.issn.1007-3043.2024.09.003
引言
作為網(wǎng)絡(luò)管理和安全的重要手段,網(wǎng)絡(luò)流量分類(Network Traffic Classification,TC)自上世紀(jì) 90年代末開始就得到學(xué)術(shù)界和工業(yè)界的高度關(guān)注,在 QoS/QoE管理、網(wǎng)絡(luò)資源優(yōu)化、擁塞控制、入侵檢測(cè)等方面都取得了很好的應(yīng)用。隨著新一代網(wǎng)絡(luò)技術(shù)(B5G/6G、物聯(lián)網(wǎng)、天地一體化網(wǎng)絡(luò)等)的快速發(fā)展,網(wǎng)絡(luò)技術(shù)正朝著“自愈、自管理、自優(yōu)化和自保護(hù)”的高度自治化方向發(fā)展,網(wǎng)絡(luò)流量分類技術(shù)作為精細(xì)化網(wǎng)絡(luò)業(yè)務(wù)和安全管理的決策手段之一,扮演著關(guān)鍵角色。然而隨著海量異構(gòu)終端的泛在接入,網(wǎng)絡(luò)呈現(xiàn)出高度的“動(dòng)態(tài)性”“異質(zhì)性”和“復(fù)雜性”,這給網(wǎng)絡(luò)流量分類技術(shù)帶來(lái)了一系列新的挑戰(zhàn)。
TC技術(shù)的發(fā)展大致經(jīng)歷了3個(gè)階段。第1階段基于端口/DPI實(shí)現(xiàn)TC,然而隨著越來(lái)越多的應(yīng)用采用隧道、加密、隨機(jī)端口等技術(shù),加之涉及用戶隱私泄露等安全問(wèn)題,這類技術(shù)很快失效。第 2 階段主要采用機(jī)器學(xué)習(xí)(Machine Learning,ML)、概率統(tǒng)計(jì)等方法,包括 SVM、RF、DT、KNN 等。然而,這類方法需要提取高質(zhì)量的流量特征作為 ML 的訓(xùn)練基礎(chǔ),而這些特征的提取和選擇高度依賴于網(wǎng)絡(luò)專家的經(jīng)驗(yàn),且費(fèi)時(shí)費(fèi)力,無(wú)法滿足網(wǎng)絡(luò)和業(yè)務(wù)的快速演進(jìn)和發(fā)展,從而造成“慢半拍”現(xiàn)象。此外,網(wǎng)絡(luò)流量數(shù)據(jù)的“海量性”使得基于 ML的 TC方法在訓(xùn)練和分類方面不堪重負(fù),難以滿足工業(yè)界的實(shí)際應(yīng)用需求。隨著云計(jì)算、大數(shù)據(jù),尤其是深度學(xué)習(xí)(Deep Learning,DL)和高性能計(jì)算技術(shù)的高速發(fā)展,海量流量數(shù)據(jù)的特征學(xué)習(xí)成為可能,給 TC領(lǐng)域帶來(lái)了新的提升空間。2015年,王占一等人首次提出采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、堆棧式自動(dòng)編碼機(jī)(Stack Auto-Encoder)等 DL模型實(shí)現(xiàn)流量分類,使 TC 技術(shù)發(fā)展進(jìn)入第 3 階段。DL 有 3 個(gè)優(yōu)點(diǎn):自動(dòng)提取特征、可揭示更深層次的數(shù)據(jù)規(guī)律和大量成熟應(yīng)用于計(jì)算機(jī)視覺(jué)/圖像/文本/語(yǔ)音的模型可復(fù)用,這些優(yōu)點(diǎn)恰好是基于 ML 的 TC 方法所欠缺的,自此,基于DL的TC分類技術(shù)(下文簡(jiǎn)稱DL-TC,后文中的AITC指ML/DL-TC)迎來(lái)了新一波的熱潮,一系列的DLTC 分類方法被提出,包括基于 CNN/AE/MLP/LSTM/GAN 等方法,并取得了比 ML-TC 算法更好的分類性能。隨著大語(yǔ)言模型(Large Language Model,LLM)的出現(xiàn),其優(yōu)異的內(nèi)容生成能力給通信網(wǎng)絡(luò)領(lǐng)域的研究者帶來(lái)了全新的思路,本文將 Transformer、BERT 以及LLM賦能于網(wǎng)絡(luò)流量分類定義為TC的第4次浪潮。
盡管DL-TC的研究工作取得了一系列成果,但在工業(yè)界(比如運(yùn)營(yíng)商、工/企業(yè)網(wǎng)等)始終未被實(shí)際應(yīng)用,筆者認(rèn)為現(xiàn)有的AI-TC技術(shù)仍存在諸多局限性。
a)數(shù)據(jù)集問(wèn)題。數(shù)據(jù)集是AI模型的基礎(chǔ),而現(xiàn)有AI-TC 模型訓(xùn)練普遍采用公開數(shù)據(jù)集,這些公開數(shù)據(jù)集往往“量少、過(guò)時(shí)、質(zhì)量無(wú)法考證”。
b)資源受限條件下的模型輕量化問(wèn)題。AI-TC如何在網(wǎng)絡(luò)邊緣設(shè)備(如物聯(lián)網(wǎng)網(wǎng)關(guān)、家用路由器、5GCPE等)乃至一些弱計(jì)算能力的終端上實(shí)現(xiàn)推理/分類功能。
c)成本問(wèn)題。在訓(xùn)練和推理階段,計(jì)算資源(處理器/內(nèi)存/Flash)、時(shí)間、人力等成本消耗與分類性能之間如何求得平衡。
d)可信問(wèn)題。如何解決 AI-TC 模型的“黑盒子”問(wèn)題,讓分類模型的使用者(比如運(yùn)營(yíng)商)信任模型。
e)演進(jìn)問(wèn)題。如何解決因業(yè)務(wù)/應(yīng)用/攻擊的“快速演進(jìn)”而造成的分類模型“慢半拍”以及“道高一尺、魔高一丈”問(wèn)題,比如新應(yīng)用、Zero-day攻擊、“流變種”等。
f)數(shù)據(jù)/模型隱私問(wèn)題。如何防范數(shù)據(jù)集的敏感數(shù)據(jù)泄露以及攻擊者對(duì)分類模型的反推解構(gòu)乃至對(duì)分類模型實(shí)施攻擊等問(wèn)題。
本文針對(duì)以上 AI-TC 所面臨的挑戰(zhàn),提出一個(gè)通用的端到端 AI-TC 的工作流程;并給出 AI-TC 的需求和設(shè)計(jì)原則的定義、應(yīng)用場(chǎng)景;然后圍繞 AI-TC 的工作流程,細(xì)化并總結(jié)當(dāng)前面臨的各項(xiàng)挑戰(zhàn)及研究進(jìn)展;最后提出AI大模型賦能網(wǎng)絡(luò)流量分類的設(shè)想以及存在的困難。