相信大(dà)家都聽過網絡環路這(zhè)個(gè)詞吧,網絡環路會對企業網絡存在(zài)很大(dà)的(de)威脅,它會造成網絡裏的(de)廣播風暴,耗盡交換資源,造成交換機癱瘓,最終導緻的(de)就(jiù)是(shì)直接的(de)經濟損失。今天我們就(jiù)來(lái)聊聊,環路的(de)産生、排查、解決以(yǐ)及如何防範。
一、什麽是(shì)環路
以(yǐ)太網交換網絡中爲(wéi / wèi)了(le/liǎo)提高網絡可靠性,通常會采用冗餘設備和(hé / huò)冗餘鏈路,然而(ér)現網中由于(yú)組網調整、配置修改、升級割接等原因,經常會造成數據或協議報文環形轉發,不(bù)可避免的(de)形成環路。如圖所示,三台設備兩兩相連就(jiù)會形成環路。當設備未部署環路保護協議或者組網配置發生變更時(shí),環形組網中就(jiù)可能會産生廣播風暴。
二、環路的(de)危害
二層環路最大(dà)的(de)危害就(jiù)是(shì)會産生廣播風暴,以(yǐ)太網是(shì)一個(gè)支持廣播的(de)網絡,在(zài)沒有環路的(de)環境中,廣播包在(zài)網絡中以(yǐ)泛洪的(de)形式被送達到(dào)網絡的(de)每一個(gè)角落,以(yǐ)保證每個(gè)設備都能夠接受到(dào)它。在(zài)帶寬允許的(de)情況下,每個(gè)網橋在(zài)接收到(dào)廣播報文以(yǐ)後,都會向除接收端口以(yǐ)外的(de)其他(tā)所有接口轉發這(zhè)個(gè)廣播包,一旦網絡中有環路,這(zhè)種簡單的(de)廣播機制就(jiù)會引發災難性後果。
環路中一個(gè)廣播報文被反複轉發了(le/liǎo)千萬次,産生了(le/liǎo)廣播風暴并且很快達到(dào)或接近端口線速,并迅速消耗鏈路帶寬。根據轉發規則,這(zhè)些廣播報文不(bù)僅僅隻是(shì)在(zài)環路上(shàng)無限轉發,環路設備還會向其他(tā)端口轉發一份,這(zhè)樣整個(gè)網絡中都充斥着大(dà)量重複廣播報文。
二層網絡設備處于(yú)同一個(gè)廣播域下,廣播報文在(zài)環路中會反複持續傳送,無限循環,形成廣播風暴,引發MAC地(dì / de)址表不(bù)穩定等現象描述,進而(ér)影響正常業務,導緻用戶通信質量較差,甚至通信中斷。
三、如何判斷環路故障
所有這(zhè)些誘發故障的(de)内在(zài)因素絕大(dà)多數都有其“外在(zài)異常表現”,具體會反映在(zài)特定網元的(de)告警、日志、流量統計、端口狀态等信息中。因此故障快速定位的(de)關鍵在(zài)于(yú),如何有效而(ér)快速的(de)通過事發時(shí)間、影響範圍、所做操作及故障網絡範圍的(de)網元基本信息的(de)查看,快速發現這(zhè)些“外在(zài)異常表現”所在(zài)的(de)點,進而(ér)鎖定故障網元節點,找出(chū)原因分析。
四、環路故障診斷步驟
判斷網絡中是(shì)否存在(zài)二層環路,一般可以(yǐ)使用查看接口帶寬流量、查看MAC漂移告警、部署環路檢測、查看CPU占用率四種方法進行确認。這(zhè)四種方法沒有嚴格的(de)操作順序,爲(wéi / wèi)更加準确判斷故障屬性,可以(yǐ)使用其中的(de)一種或多種方法來(lái)進行問題定位。
五、如何快速破環
以(yǐ)太網環路會在(zài)短時(shí)間内形成數據風暴,當端口的(de)流量達到(dào)帶寬的(de)最大(dà)負荷,會形成鏈路擁塞,影響網絡業務。因此,在(zài)确認現網存在(zài)數據環路後,需要(yào / yāo)第一時(shí)間按照如下步驟處理,盡快恢複數據業務。
梳理網絡拓撲并識别環路
環形網絡拓撲一般較爲(wéi / wèi)複雜,可以(yǐ)尋求到(dào)網絡拓撲結構全圖,具體到(dào)網絡的(de)VLAN規劃信息,每台設備名稱、系統MAC、管理IP,本端端口名稱、對端端口名稱。
完整的(de)拓撲信息是(shì)解決環路問題的(de)首要(yào / yāo)條件,如果沒有拓撲圖,需要(yào / yāo)從發現環路的(de)設備,通過逐跳登錄,記錄設備信息、端口信息和(hé / huò)VLAN信息,手動繪制完整的(de)拓撲。
緊急破環
緊急破環又稱手動破環,當網絡風暴嚴重影響正常的(de)業務時(shí),需要(yào / yāo)使用此方法盡快恢複業務。
端口退出(chū)已成環的(de)VLAN
在(zài)已經成環的(de)網絡上(shàng),将其中一個(gè)端口退出(chū)成環VLAN,屬于(yú)影響面最小的(de)破環方法。
shutdown已經成環的(de)端口
shutdown已經成環的(de)物理端口,也(yě)可以(yǐ)達到(dào)破環的(de)效果。需要(yào / yāo)注意的(de)是(shì)執行此動作之(zhī)前,您需要(yào / yāo)确保在(zài)接口視圖下執行命令shutdown關閉接口後,不(bù)會影響正常的(de)數據業務。
拔出(chū)成環接口破環
通過拔出(chū)成環的(de)端口的(de)連接光纖或網線,也(yě)可以(yǐ)緊急破環。該方法可以(yǐ)使用Shutdown端口代替,在(zài)設備無法遠程登錄時(shí)可以(yǐ)使用。
确認業務已經恢複
通過Ping等操作測證網絡通信質量,并觀察現網業務是(shì)否已經恢複。環路拓撲存在(zài)冗餘鏈路和(hé / huò)配置,因此環路破除後業務一般會自行恢複。
六、網絡加固和(hé / huò)優化
部署适當的(de)破壞協議
如果當前的(de)環路問題是(shì)由于(yú)物理環路引入,按照網絡規劃合理部署破環協議。以(yǐ)太網交換機常見的(de)破環協議爲(wéi / wèi)STP/RSTP/MSTP/VBST、RRPP、SEP、ERPS等。
部署廣播抑制提升網絡健壯性
爲(wéi / wèi)了(le/liǎo)避免再次成環,成環後再次引入數據風暴,建議在(zài)環上(shàng)設備端口下,部署廣播抑制,按照經驗,部署5%的(de)廣播抑制可以(yǐ)很好的(de)防止廣播風暴,具體抑制的(de)比例值可以(yǐ)按照現網并發廣播流量來(lái)評估确認。
優化網絡設計,提升網絡
複雜組網可以(yǐ)通過分層控制,建議合理規劃設計接入層、彙聚層,通過堆疊、集群等橫向虛拟化技術簡化網絡架構。單層組網内設備數量較多時(shí),建議按照邏輯組織和(hé / huò)地(dì / de)理分布,劃分不(bù)同的(de)域。