2024/10/15 14:22

AI大模型賦能網(wǎng)絡(luò)流量分類概述

C114通信網(wǎng) 陳雪嬌，付夢(mèng)藝，王攀

本文版權(quán)為《郵電設(shè)計(jì)技術(shù)》所有，如需轉(zhuǎn)載請(qǐng)聯(lián)系《郵電設(shè)計(jì)技術(shù)》編輯部

摘要：提出一個(gè)通用的AI驅(qū)動(dòng)的網(wǎng)絡(luò)流量分類框架，闡述了所涉及的工作流程、分類目標(biāo)、設(shè)計(jì)原則以及典型場(chǎng)景等，并提出了一個(gè)基于 BERT 的網(wǎng)絡(luò)流量分類模型，通過(guò)將輸入的分組凈荷進(jìn)行向量化嵌入，然后送入BERT進(jìn)行預(yù)訓(xùn)練，用于實(shí)現(xiàn)流量數(shù)據(jù)的上下文理解并捕獲雙向特征，然后對(duì)接一個(gè)全連接網(wǎng)絡(luò)對(duì)分類下游任務(wù)進(jìn)行微調(diào)，從而實(shí)現(xiàn)流量分類。通過(guò)與AE、VAE、ByteSGAN 3個(gè)經(jīng)典的流量分類深度學(xué)習(xí)模型在 CICIDS2017 公開數(shù)據(jù)集上進(jìn)行對(duì)比，發(fā)現(xiàn) BERT的精度明顯高于其他方法。

關(guān)鍵詞：流量分類；流量識(shí)別；入侵檢測(cè)；BERT；大模型

doi：10.12045/j.issn.1007-3043.2024.09.003

引言

作為網(wǎng)絡(luò)管理和安全的重要手段，網(wǎng)絡(luò)流量分類（Network Traffic Classification，TC）自上世紀(jì) 90年代末開始就得到學(xué)術(shù)界和工業(yè)界的高度關(guān)注，在 QoS/QoE管理、網(wǎng)絡(luò)資源優(yōu)化、擁塞控制、入侵檢測(cè)等方面都取得了很好的應(yīng)用。隨著新一代網(wǎng)絡(luò)技術(shù)（B5G/6G、物聯(lián)網(wǎng)、天地一體化網(wǎng)絡(luò)等）的快速發(fā)展，網(wǎng)絡(luò)技術(shù)正朝著“自愈、自管理、自優(yōu)化和自保護(hù)”的高度自治化方向發(fā)展，網(wǎng)絡(luò)流量分類技術(shù)作為精細(xì)化網(wǎng)絡(luò)業(yè)務(wù)和安全管理的決策手段之一，扮演著關(guān)鍵角色。然而隨著海量異構(gòu)終端的泛在接入，網(wǎng)絡(luò)呈現(xiàn)出高度的“動(dòng)態(tài)性”“異質(zhì)性”和“復(fù)雜性”，這給網(wǎng)絡(luò)流量分類技術(shù)帶來(lái)了一系列新的挑戰(zhàn)。

TC技術(shù)的發(fā)展大致經(jīng)歷了3個(gè)階段。第1階段基于端口/DPI實(shí)現(xiàn)TC，然而隨著越來(lái)越多的應(yīng)用采用隧道、加密、隨機(jī)端口等技術(shù)，加之涉及用戶隱私泄露等安全問(wèn)題，這類技術(shù)很快失效。第 2 階段主要采用機(jī)器學(xué)習(xí)（Machine Learning，ML）、概率統(tǒng)計(jì)等方法，包括 SVM、RF、DT、KNN 等。然而，這類方法需要提取高質(zhì)量的流量特征作為 ML 的訓(xùn)練基礎(chǔ)，而這些特征的提取和選擇高度依賴于網(wǎng)絡(luò)專家的經(jīng)驗(yàn)，且費(fèi)時(shí)費(fèi)力，無(wú)法滿足網(wǎng)絡(luò)和業(yè)務(wù)的快速演進(jìn)和發(fā)展，從而造成“慢半拍”現(xiàn)象。此外，網(wǎng)絡(luò)流量數(shù)據(jù)的“海量性”使得基于 ML的 TC方法在訓(xùn)練和分類方面不堪重負(fù)，難以滿足工業(yè)界的實(shí)際應(yīng)用需求。隨著云計(jì)算、大數(shù)據(jù)，尤其是深度學(xué)習(xí)（Deep Learning，DL）和高性能計(jì)算技術(shù)的高速發(fā)展，海量流量數(shù)據(jù)的特征學(xué)習(xí)成為可能，給 TC領(lǐng)域帶來(lái)了新的提升空間。2015年，王占一等人首次提出采用卷積神經(jīng)網(wǎng)絡(luò)（CNN）、堆棧式自動(dòng)編碼機(jī)（Stack Auto-Encoder）等 DL模型實(shí)現(xiàn)流量分類，使 TC 技術(shù)發(fā)展進(jìn)入第 3 階段。DL 有 3 個(gè)優(yōu)點(diǎn)：自動(dòng)提取特征、可揭示更深層次的數(shù)據(jù)規(guī)律和大量成熟應(yīng)用于計(jì)算機(jī)視覺(jué)/圖像/文本/語(yǔ)音的模型可復(fù)用，這些優(yōu)點(diǎn)恰好是基于 ML 的 TC 方法所欠缺的，自此，基于DL的TC分類技術(shù)（下文簡(jiǎn)稱DL-TC，后文中的AITC指ML/DL-TC）迎來(lái)了新一波的熱潮，一系列的DLTC 分類方法被提出，包括基于 CNN/AE/MLP/LSTM/GAN 等方法，并取得了比 ML-TC 算法更好的分類性能。隨著大語(yǔ)言模型（Large Language Model，LLM）的出現(xiàn)，其優(yōu)異的內(nèi)容生成能力給通信網(wǎng)絡(luò)領(lǐng)域的研究者帶來(lái)了全新的思路，本文將 Transformer、BERT 以及LLM賦能于網(wǎng)絡(luò)流量分類定義為TC的第4次浪潮。

盡管DL-TC的研究工作取得了一系列成果，但在工業(yè)界（比如運(yùn)營(yíng)商、工/企業(yè)網(wǎng)等）始終未被實(shí)際應(yīng)用，筆者認(rèn)為現(xiàn)有的AI-TC技術(shù)仍存在諸多局限性。

a）數(shù)據(jù)集問(wèn)題。數(shù)據(jù)集是AI模型的基礎(chǔ)，而現(xiàn)有AI-TC 模型訓(xùn)練普遍采用公開數(shù)據(jù)集，這些公開數(shù)據(jù)集往往“量少、過(guò)時(shí)、質(zhì)量無(wú)法考證”。

b）資源受限條件下的模型輕量化問(wèn)題。AI-TC如何在網(wǎng)絡(luò)邊緣設(shè)備（如物聯(lián)網(wǎng)網(wǎng)關(guān)、家用路由器、5GCPE等）乃至一些弱計(jì)算能力的終端上實(shí)現(xiàn)推理/分類功能。

c）成本問(wèn)題。在訓(xùn)練和推理階段，計(jì)算資源（處理器/內(nèi)存/Flash）、時(shí)間、人力等成本消耗與分類性能之間如何求得平衡。

d）可信問(wèn)題。如何解決 AI-TC 模型的“黑盒子”問(wèn)題，讓分類模型的使用者（比如運(yùn)營(yíng)商）信任模型。

e）演進(jìn)問(wèn)題。如何解決因業(yè)務(wù)/應(yīng)用/攻擊的“快速演進(jìn)”而造成的分類模型“慢半拍”以及“道高一尺、魔高一丈”問(wèn)題，比如新應(yīng)用、Zero-day攻擊、“流變種”等。

f）數(shù)據(jù)/模型隱私問(wèn)題。如何防范數(shù)據(jù)集的敏感數(shù)據(jù)泄露以及攻擊者對(duì)分類模型的反推解構(gòu)乃至對(duì)分類模型實(shí)施攻擊等問(wèn)題。

本文針對(duì)以上 AI-TC 所面臨的挑戰(zhàn)，提出一個(gè)通用的端到端 AI-TC 的工作流程；并給出 AI-TC 的需求和設(shè)計(jì)原則的定義、應(yīng)用場(chǎng)景；然后圍繞 AI-TC 的工作流程，細(xì)化并總結(jié)當(dāng)前面臨的各項(xiàng)挑戰(zhàn)及研究進(jìn)展；最后提出AI大模型賦能網(wǎng)絡(luò)流量分類的設(shè)想以及存在的困難。

點(diǎn)擊查看全文（PDF）>

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

網(wǎng)絡(luò)Qos 6G 計(jì)算機(jī)運(yùn)營(yíng)商