隨著互聯(lián)網(wǎng)業(yè)務的高速發(fā)展,對構建互聯(lián)網(wǎng)基礎架構的網(wǎng)絡設備提出了更高要求,例如容量、性能、擴展性以及QoS等諸多關鍵特性,而這往往是由其所采用的硬件架構決定的。以框式核心交換機為例,先后出現(xiàn)了多種硬件架構,而現(xiàn)在最為常用的有三種:Full-Mesh交換架構、Crossbar矩陣交換架構和基于Cell的CLOS交換架構。本文將通過對這三種硬件架構、報文轉發(fā)流程等原理的分析,全面剖析三種架構的優(yōu)劣勢。
名詞解釋
Hash
|
散列函數(shù)
|
DLB
|
Dynamic Load Balancing,動態(tài)負載均衡
|
Arbiter
|
仲裁器
|
LC
|
Line-Card,業(yè)務線卡
|
Ingress
|
入口
|
Egress
|
出口
|
CrossPoint
|
交叉點
|
CICQ
|
Combined Input and Crosspoint Buffered Queuing,聯(lián)合輸入交叉節(jié)點排隊
|
VOQ
|
Virtual Output Queueing,虛擬輸出隊列
|
RR
|
Round Robin,輪詢算法
|
Cell
|
信元
|
FE
|
交換網(wǎng)板
|
PCB
|
Printed Circuit Board,印制電路板
|
Full-Mesh
架構說明
圖1:Full-Mesh架構圖
如圖1所示,所有業(yè)務線卡通過背板走線連接到其它線卡,因為Full-Mesh不需要外部的交換芯片,而是任意兩個節(jié)點間都有直接連接,故得名全連接。
由于各線卡需要Full-Mesh互聯(lián),一個節(jié)點數(shù)為N的Full-Mesh,連接總數(shù)為【N×(N-1)】÷2,所以隨著節(jié)點數(shù)量增加連接總數(shù)也急劇上升,因而可擴展性較差,僅適用于槽位數(shù)量較少的核心設備。
報文轉發(fā)流程
1.報文從線卡進入,跨卡報文送到與目的線卡連接的背板通路;
2.報文到達目的線卡。
Crossbar
架構說明
圖2:Crossbar架構圖
如圖2所示,業(yè)務線卡通過背板走線連接到Crossbar芯片上,Crossbar芯片集成在主控引擎上。
圖3:Crossbar芯片架構
Crossbar芯片架構如圖3所示,每一條輸入鏈路和輸出鏈路都有一個CrossPoint,在CrossPoint處有一個半導體開關連接輸入線路和輸出線路,當來自某個端口的輸入線路需要交換到另一個端口的輸出點時,在CPU或交換矩陣的控制下,將交叉點的開關連接,數(shù)據(jù)就被發(fā)到另一個接口。
簡單地說,Crossbar 架構是一種兩級架構,它是一個開關矩陣,每一個CrossPoint都是一個開關,交換機通過控制開關來完成輸入到特定輸出的轉發(fā)。如果交換具有N個輸入和N個輸出,那么該Crossbar Switch就是一個帶有N*(N-1)≈N?個CrossPoint點的矩陣,可見,隨著端口數(shù)量的增加,交叉點開關的數(shù)量呈幾何級數(shù)增長。對于Crossbar芯片的電路集成水平、矩陣控制開關的制造難度、制造成本都會呈幾何級數(shù)增長。所以,采用一塊Crossbar交換背板的交換機,所能連接的端口數(shù)量也是有限的。
報文轉發(fā)流程
無緩存Crossbar
每個交叉點沒有緩存,業(yè)務調(diào)度采用集中調(diào)度的方式,對輸入輸出進行統(tǒng)一調(diào)度,報文轉發(fā)流程如下:
1.報文從線卡進入,線卡先向Arbiter請求發(fā)送;
2.Arbiter根據(jù)輸出端口隊列擁塞情況,決定是否允許線卡發(fā)送報文到輸出端口;
3.報文通過Crossbar轉發(fā)到目的線卡輸出端口。
由于是集中調(diào)度,所以仲裁器的調(diào)度算法復雜度很高,擴展性較差,系統(tǒng)容量大時仲裁器容易形成瓶頸,難以做到精確調(diào)度。
緩存式Crossbar
最早的緩存式Crossbar只有交叉節(jié)點帶緩存,而輸入端是無緩存的,被稱為”bus matrix”,后來,CICQ的概念被引入,即在輸入端用大的Input Buffer,在中間節(jié)點用小的CrossPoint Buffer。
這種結構采用分布式調(diào)度的方式進行業(yè)務調(diào)度,即輸入和輸出端都有各自的調(diào)度器,報文轉發(fā)流程如下:
1.報文從線卡進入,輸入端口通過特定的調(diào)度算法(如RR算法)獨立地選擇有效的VOQ;
2.將VOQ隊列頭部分組發(fā)送到相應的交叉點緩存;
3.輸出端口通過特定的算法在非空的交叉點緩存中選擇進行服務。
由于輸入和輸出的調(diào)度策略相互獨立,所以很難保證交換系統(tǒng)在每個時隙整體上達到最佳匹配狀態(tài),并且調(diào)度算法復雜度和交換系統(tǒng)規(guī)模有關,限制了其擴展性。
CLOS
架構說明
圖4:CLOS架構圖
如圖4所示,每塊業(yè)務線卡和所有交換網(wǎng)板相連,交換芯片集成在交換網(wǎng)板上,實現(xiàn)了交換網(wǎng)板和主控引擎硬件分離。CLOS架構是一種多級架構,每個入口級開關和每個中間級開關之間只有一個連接,并且,每個中間級開關正好連接到每個出口級開關,這種架構的優(yōu)點是可以通過多個小型Crossbar 開關來實現(xiàn)大量輸入和輸出端口之間的連接,CrossPoint數(shù)量級別低于Crossbar架構的N的2次方,降低了芯片實現(xiàn)難度。
報文轉發(fā)流程
基于Cell的動態(tài)負載
1.入方向線卡將數(shù)據(jù)包切分為N個cell,其中:N=下一跳可用線路數(shù)量;
2.交換網(wǎng)板采用動態(tài)路由方式,即根據(jù)下一級各鏈路的實際可用交換能力,動態(tài)選路和負載均衡,通過多條路徑將分片發(fā)送到出方向線卡;
3.出方向線卡重組報文。
動態(tài)負載關鍵點在于能負載分擔地均衡利用所有可達路徑,由此實現(xiàn)了無阻塞交換。
CLOS架構交換機的分類
非正交背板設計
圖5:非正交背板
如圖5所示,業(yè)務線卡與交換網(wǎng)板互相平行,板卡之間通過背板走線連接。
背板走線會帶來信號干擾,背板設計也限制了帶寬的升級,同時,背板上PCB的走線要求很高,從背板開孔就成了奢望,這直接導致純前后的直通風道設計瓶頸一直無法突破。
正交背板設計
圖6:正交背板
如圖6所示,交換機線卡與交換網(wǎng)板分別與背板對接。
同非正交背板設計一樣,背板帶寬限制了帶寬的升級,同時也增加了散熱的難度。
正交零背板設計
圖7:正交零背板
如圖7所示,業(yè)務線卡與交換網(wǎng)板互相垂直,背板走線為零,甚至無中板。
正交設計能減少背板走線帶來的高速信號衰減,提高了硬件的可靠性,無背板設計能夠解除背板對容量提升的限制,當需要更大帶寬的時候,只需要更換相應板卡即可,大大縮短業(yè)務升級周期,并且因為沒有了背板的限制,交換機直通風道散熱問題迎刃而解,完美匹配數(shù)據(jù)中心機房空氣流的走向,形成了貫穿前后板卡的高速、通暢的氣流。
總結
下表將對以上三種架構做出總結:
|
Full-Mesh
|
Crossbar
|
CLOS
|
|||
分類
|
-
|
無緩存
|
有緩存
|
非正交背板
|
正交背板
|
正交零背板
|
硬件架構
|
· 無交換網(wǎng)板
· 線卡之間通過背板走線相連
|
· 單平面交換
· 集中調(diào)度
· 交叉點無緩存
|
· 單平面交換
· 分布式調(diào)度
· 交叉點有緩存
|
· 多平面交換
· 線卡和交換網(wǎng)板平行
· 背板長走線
|
· 多平面交換
· 線卡和交換網(wǎng)板正交
· 背板短走線
|
· 多平面交換
· 線卡和交換網(wǎng)板正交
· 無背板無走線
|
性能特點
|
· 受限于背板帶寬和連接總數(shù),擴展性差
· 背板帶寬是瓶頸
|
· 隨端口數(shù)增加CrossPoint數(shù)量呈幾何增長
· 系統(tǒng)容量大時仲裁器易形成瓶頸
|
· 隨端口數(shù)增加CrossPoint數(shù)量呈幾何增長
· 調(diào)度算法復雜度限制擴展
|
· 背板限制帶寬擴展且無法實現(xiàn)直通散熱
· 走線帶來信號衰減
· 基于cell的動態(tài)負載實現(xiàn)無阻塞
|
· 背板限制帶寬擴展且無法實現(xiàn)直通散熱
· 基于cell的動態(tài)負載實現(xiàn)無阻塞
|
· 帶寬擴展更換相應網(wǎng)板即可
· 無背板設計實現(xiàn)交換機直通散熱
· 基于cell的動態(tài)負載實現(xiàn)無阻塞
|
適用設備
|
· 低密度槽位
|
· 高密度槽位
· 可面向未來1-3年擴展
|
· 高密度槽位
· 可面向未來1-3年擴展
|
· 高密度槽位
· 可面向未來10年擴展
|
對于高端機架式交換機,以Crossbar交換架構和CLOS交換架構為主。其中CLOS交換架構是當前大容量數(shù)據(jù)中心核心交換機的理想架構。銳捷網(wǎng)絡RG-N18000-X系列交換機基于無阻塞的CLOS架構,并且首次采用“零背板”技術,在提供高效、穩(wěn)定交換服務的同時,可實現(xiàn)未來10年網(wǎng)絡可持續(xù)平滑升級。