那些網絡中容易出現(xiàn)的故障!
來源:弱電工程師的圈子 編輯:小月亮 2020-07-21 17:07:13 加入收藏
運維人最怕網絡出故障。先拋開一些閑話不談,網絡故障從大體上來講,有下面幾種情況:
// 硬件問題 //
既然網絡設備是一臺機器,就有可能出現(xiàn)“疲勞”,從而導致各種各樣的硬件故障出現(xiàn)。硬件的故障,一般有下面幾種情況。
第一種是造成整機停機的故障。
停機屬于重大安全問題,造成停機的原因一般有以下幾點:
(1)設備電源模塊損壞,常見于一些單電源的盒式交換機;
(2)設備在搬移過程中,因為碰撞,摔打造成的主板芯片受損;
(3)一些使用超年限的設備,在重啟的時候出現(xiàn)問題,起不來了;
(4)因為機房環(huán)境不好,設備溫度過高造成“假死”的現(xiàn)象。
設備停機屬于重大安全問題,也是特別緊急的事件,需要馬上更換設備。即使是假死,都要把備機準備好了再操作,防止假死的設備重啟時真的掛了。
第二種是設備的模塊、板卡損壞,不至于造成停機,但是引起了單點故障的隱患或者部分網絡業(yè)務中斷。
比如,Cisco 6509一般都會配備兩款引擎板卡,如果其中一塊引擎板卡損壞了,不至于造成該交換機停機,也不會導致網絡業(yè)務中斷。但如果不及時換掉這塊壞引擎板,就造成了這臺Cisco 6509單引擎運行,這肯定就是單點故障的隱患。如果這臺Cisco 6509壞掉的是一塊48口的千兆電口板呢?那肯定連接在這塊電口板上的業(yè)務全部中斷了。這種情況,就看根據(jù)整體的網絡業(yè)務有沒有受到影響來確定緊急程度了。對于客戶來說,壞一個板卡也是需要立即更換的。
// 軟件問題 //
軟件問題一般分為操作系統(tǒng)自身BUG,還有人為因素導致的操作系統(tǒng)拷貝不完整造成的一系列問題。操作系統(tǒng)本來是一類軟件,或多或少都會有一些BUG,可能體現(xiàn)在一些功能上面。
比較經典的一個BUG就是H3C R6600系列,出廠自帶的操作系統(tǒng)Comware v7.1.059, ESS 0322,在配置BFD和BGP聯(lián)動的時候(對端是Cisco),BFD就不生效,需要升級為v7.1.064, Release 7618才可以。這也就是為什么說官網經常對一些設備的操作系統(tǒng)軟件提供一些新版本的軟件包或者補丁包。
人為因素則是因為在對設備做軟件升級的時候,因為對設備操作系統(tǒng)軟件.bin文件拷貝不完整導致設備重啟以后就起不來了。導致這個問題的原因一般都是在拷貝軟件到設備的Flash里時,沒有仔細核對拷貝后文件的大小。
// 實施造成的問題 //
實施造成故障,這也算是一種比較常見的問題。網絡割接實施本來就有風險。如果是操作人員經驗不足或者技藝不精,對割接的風險評估不足,前期的測試準備不充分,就有可能在網絡割接的時候不僅沒能對網絡完成優(yōu)化改造,反而帶來一些新的故障。
一個很典型的例子,就是思科的設備換成華為或者H3C。比如拿一個拓撲圖來說:
第一個風險點就是私有協(xié)議要改通用協(xié)議。
之前的Cisco 4503E使用的網關冗余協(xié)議是HSRP,換成華為就要換成VRRP。在這里要注意的就是,HSRP的組播地址是224.0.0.2,VRRP的組播地址是224.0.0.18,這里是HSRP和VRRP最關鍵的一個差異點。所以,HSRP改VRRP,首先就要檢查Cisco 4503E上的所有VLAN接口(SVI),看看VLAN接口下是否掛了ACL,這個ACL下必須增加放行224.0.0.18。
隨后的風險點,就是這個鏈路捆綁 。
你可能會說,LACP是通用協(xié)議,華為的設備也支持啊!但是你要知道的是,思科的鏈路捆綁是Port-Channel,華為是Eth-Trunk。華為Eth-Trunk捆綁的默認是手工模式,也不是LACP,所以,華為這邊需要在配置Eth-Trunk的時候,加一條“mode lacp”命令。
還有呢,就是路由協(xié)議這邊的風險了。
可能你也會認為,OSPF是通用協(xié)議,靜態(tài)路由更是幾乎所有三層設備都能支持,又能有什么問題呢?
在這個例子中,兩臺Cisco 4503E通過OSPF收取路由,再利用靜態(tài)路由進行分流。對于Cisco設備來說,OSPF路由的AD值是110,靜態(tài)路由的AD值默認是1。而華為設備,OSPF內部路由Pref值(類似于Cisco的AD值)是10,OSPF外部路由的Pref值是150,靜態(tài)路由的Pref值是60。所以這里可以看見:對于Cisco設備,靜態(tài)路由優(yōu)先級高于OSPF;而華為設備,OSPF內部路由的優(yōu)先級卻高于靜態(tài)路由。所以為了防止思科換華為以后分流失效,所以在華為設備上配置靜態(tài)路由時,將pref值強行改為1。
如果是多路由協(xié)議混跑的骨干網中,思科設備換華為或H3C后,有時候也要在把華為或H3C上,把路由的Prefer值強行改為與Cisco一致。
當然,這里說的風險都是從宏觀上就能發(fā)現(xiàn)的一些風險,還有一些小細節(jié)也可能是風險點。比如光模塊能兼容Cisco,但不一定能兼容華為這些問題,能考慮到哪些就考慮到哪些,考慮得越細致,割接時出問題的概率就越低。
// 用戶造成的問題 //
這里說的用戶指的都是一些非專業(yè)用戶。很多運維人員都說:不怕這個用戶一點都不懂,就怕這個用戶是個似懂不懂的。有時候在辦公室里面悄悄接一個HUB,然后這個HUB上接滿了網線,一不小心就把網線的兩頭就插在同一個HUB上造成環(huán)路了;還有就是有些人不知道從哪里聽來的“旁門左道”,網速稍微一慢就亂改IP,認為一改IP上網就快了,結果搞得IP沖突。還有就是亂接U盤,亂下載軟件,整一些ARP相關的病毒,弄得一個網段內的主機全部都掉線。
// 設計缺陷導致的故障 //
設計的缺陷分為以下幾種情況:
IP地址規(guī)劃問題。
任何一個企業(yè),網絡規(guī)模都是從小到大的,在最初的時候,因為用戶數(shù)量少,IP地址充足,所以在規(guī)劃IP地址的時候都比較“奔放”。到了后期,用戶數(shù)量逐漸增加,業(yè)務分類也越來越多,IP地址的管理也會變得越來越復雜。如果在最初的時候就沒有對IP地址有一個較好的規(guī)劃,就很容易在后期導致IP不夠用或者是把兩段IP地址規(guī)劃到了不同的站點里面。
一些人員技藝不精的問題。
比如設計二層網絡的時候,讓生成樹的計算拓撲圖變得比較復雜,使得STP無法收斂;還有就是OSPF的區(qū)域規(guī)劃欠考慮,路由協(xié)議也是隨心所欲的用,設備上重分發(fā)很多,這些都會大大提升網絡中出故障的概率。
評論comment