當?shù)貢r間2021年10月25日11點20分開始,韓國運營商KT的整個有線和無線互聯(lián)網(wǎng)服務在全國范圍內(nèi)發(fā)生中斷,導致其所有客戶在大約一個小時內(nèi)無法連接互聯(lián)網(wǎng)和使用電話服務。
同時,因KT整網(wǎng)服務中斷,還并發(fā)導致了韓國另外兩家運營商SKT和LG U+的網(wǎng)絡擁塞。
可以說,在這一個小時內(nèi),韓國通信界遭遇了“至暗時刻”。
10月26日,KT官網(wǎng)以CEO的名義發(fā)布了公開致歉信,并對事故原因進行了確認。
信中表示,對于引起這起重大網(wǎng)絡事故的原因,最初估計是因外部DDoS攻擊導致,但最終確認原因為:在更換路由器以升級網(wǎng)絡的時候,因網(wǎng)絡路由設置錯誤導致。
路由設置錯誤,可能會導致數(shù)據(jù)流量流向不正確而引起局部節(jié)點負荷過載,從而引發(fā)全網(wǎng)癱瘓。
看起來,與前幾天日本軟銀遭遇的網(wǎng)絡重大故障相似,本次事故也是因割接導致。
盡管KT已公布故障原因,但并未進行詳細解釋,仍然給業(yè)界留下了不少謎團...
1 為何沒有自愈保護?
電信網(wǎng)絡一直以高穩(wěn)定性、高可靠性著稱,早在PSTN電話網(wǎng)絡時代,網(wǎng)絡線路就設置了1+1保護或自愈保護,主用線路在發(fā)生中斷后,通??稍?0ms內(nèi)自動切換到備用線路,或從相反方向迂回連通。
2018年11月,因KT位于首爾Ahyeon區(qū)中心的電信大樓發(fā)生火災,導致該地區(qū)網(wǎng)絡癱瘓,通信服務中斷了數(shù)天。事后,有韓國業(yè)內(nèi)人士質疑,這可能是因為KT的網(wǎng)絡拓撲設計不夠先進,設備和線路的冗余配置和自愈保護不夠完善導致。他認為,盡管KT的骨干匯聚網(wǎng)絡擁有充分的冗余配置和自愈保護機制,但在昂貴而龐大的接入網(wǎng)部分,冗余配置不夠充足,環(huán)狀自愈保護設計不夠完善,從而導致了此次火災后網(wǎng)絡長時間中斷。
但本次事故比2018年的火災事故要嚴重得多,火災事故影響范圍為一個區(qū)域,而本次事故影響范圍為全國。既然影響范圍這么廣,可以估計,本次事故的故障點并非在網(wǎng)絡接入層,而是在網(wǎng)絡骨干核心部分,這就好比“主動脈”阻塞,導致全網(wǎng)的“血液”輸送不暢。
那問題是,難道KT的核心網(wǎng)絡也缺乏完善的自愈保護機制?這顯然是不太可能的。那是不是還有其他原因?
2 是否因為BGP路由配置錯誤導致?
BGP路由錯誤會阻止數(shù)據(jù)包到達其預期的IP 地址和服務器而導致服務中斷。聯(lián)想到最近 Facebook、Instagram和WhatsApp服務中斷均由BGP路由問題導致,一些業(yè)內(nèi)人士推測可能是由于BGP配置錯誤導致。
3 為什么割接操作在白天進行?
為避免影響網(wǎng)絡業(yè)務,割接操作一般都在凌晨進行,這是電信業(yè)的常識。但本次事故因“更換路由器以升級網(wǎng)絡”引起,且事故發(fā)生時間為白天。難道有什么不得已的原因非要在白天11點進行割接操作?還是因為凌晨割接操作后,白天才發(fā)生了故障?
4 是設備問題還是人工操作失誤?
路由配置可能是自動化的,也可能是人工操作,那到底是設備的問題,還是人工操作失誤?
不管是設備問題,還是人為操作失誤,還是缺乏備份系統(tǒng),一些韓國業(yè)內(nèi)人士表示,這都反映了KT在網(wǎng)絡和流程管理上存在疏忽。