6月8日下午,有大量廣東電信用戶反饋手機出現(xiàn)了打不了電話,上不了網(wǎng)的情況。事發(fā)時正值高考期間,而且斷連并沒有在短時間內(nèi)迅速恢復,這一消息也迅速被頂上各大平臺熱搜。
據(jù)悉,本次受到影響的用戶并不只是位于廣東的電信用戶。據(jù)網(wǎng)友證實,只要你用的是廣東電信卡,不論人在哪里,都一定會出現(xiàn)不能打電話的情況。根據(jù)2021年廣東電信官方資料顯示,廣東電信的用戶總數(shù)量達到4500萬以上。
更可怕的是,這次“斷連”事件不僅影響范圍廣,恢復時間還很長。據(jù)網(wǎng)友評論稱,很多人在下午兩點左右就出現(xiàn)了不能撥打電話的情況。官方微博在下午4點左右通報了這一事件。
不過,斷連被沒能像以往一樣很快恢復。一般來說,發(fā)生概率最高的服務器宕機事件可以通過重啟服務器解決。而省級電信部門是一定擁有一套可快速上線的服務器備份的。在備用服務器協(xié)助下重啟,可以保證絕大部分問題在半小時內(nèi)解決。
2021年12月10日下午5點20左右,陜西電信曾出現(xiàn)網(wǎng)絡故障,西安、臨潼、寶雞等多地用戶無法上網(wǎng),但在下午5點50分前后,網(wǎng)絡就已經(jīng)基本順暢。2022年1月12日0:27,中國電信出海信號受阻,官方通報為設備故障,經(jīng)過緊急處置,于0:51修復完畢。
然而回顧本次事件,通信全面恢復時間可能長達4-5小時。直到晚上7點多才完全恢復。
本次事件還有一點十分特殊,就是受影響用戶僅電話與短信功能無法使用,上網(wǎng)功能不受影響。
在斷連之初,電信內(nèi)部其實已經(jīng)流出了本次事故的大致原因。后來經(jīng)過多名通信專家確認,已經(jīng)可以基本得出結(jié)論:廣東電信的核心網(wǎng)出現(xiàn)故障,LDRA到HDRA之間鏈路出現(xiàn)擁塞現(xiàn)象。專家解釋,鏈路擁塞原因可能為某設備商的數(shù)通設備出現(xiàn)異常,導致數(shù)據(jù)包重傳,引起信令風暴。應急處理方法是在SBC部署了流量控制流程,以及將某設備商的路由器隔離。
什么是LDRA與HDRA?為什么只有廣東電信的用戶受影響?為什么故障只影響通話而不影響網(wǎng)絡?本文將帶你分析手機通話的內(nèi)部過程,找到斷連的真正原因。
從撥出到接聽,發(fā)生了什么?
圖源:攝圖網(wǎng)
手機從電話按下?lián)艹鲦I,到接聽人接聽為止,這一過程并不簡單,其中要涉及到復雜的信令流程。
在你撥出電話前,手機其實早早的開始準備將你的“聲音”傳遞出去。
通常手機在剛開機的時候是不能撥打電話的。這時需要等待手機進行“搜索信號”。只有當手機頂部狀態(tài)欄出現(xiàn)三大運營商的名字后,我們才能撥打電話。這個過程其實就是在手機與小區(qū)基站之間建立連接,包含小區(qū)搜索、讀取系統(tǒng)廣播(隨機接入)和網(wǎng)絡側(cè)注冊登記(附著)三個過程。
這里的“小區(qū)”并不是我們認識中的居住小區(qū),而是被蜂窩網(wǎng)絡劃分出的一個個六邊形區(qū)域,每個區(qū)域都會有一個基站。通常來講一個基站對應一個小區(qū),即以基站為中心的一片覆蓋區(qū)域,若基站覆蓋范圍較大,還可以將小區(qū)劃為不同的扇區(qū),一根天線負責一個扇區(qū)的信號傳輸。
當手機開機后,一般會從手機射頻端檢測出一個功率最大的小區(qū),接著手機會和該小區(qū)的基站達成頻率與時隙同步,這樣手機就可以使用當前基站的網(wǎng)絡服務,最后再進行驗證等工作,確認該手機入網(wǎng)的合法性。之后你就具備了撥打電話的條件了。這個過程在開機后會多次重復,使手機始終與信號最強的基站(或多個近處的基站)保持連接。
回到打電話的流程中,手機中的麥克風會將聲音這種模擬信號轉(zhuǎn)化為數(shù)字信號,通過基帶芯片進行編碼后,通過天線將信號(高頻脈沖)散發(fā)出去。基站的收發(fā)器收到信號,會對信號進行進一步處理并上行,然后通過光纜傳遞到目標區(qū)域的基站。之后的流程便是將上述流程反向走一遍,接收方就能聽到語音了。
4G時代基站 ?圖源:攝圖網(wǎng)
不過,這個過程十分簡化,其中也省略了一個關鍵步驟,基站怎么知道你要打電話的人在哪個基站旁邊?其實,這個流程與手機初次連接基站時的信息交換相關。手機SIM卡在注冊時都會有歸屬地,比如本次上了熱搜的廣東電信,歸屬地就是廣東,當然歸屬地往往還會細分,例如廣州電信、深圳電信、佛山電信等。歸屬地的交換中心(MSC)中會存儲所有注冊的SIM卡信息。
MSC具有號碼儲存譯碼、呼叫處理、路由選擇、回波抵消、超負荷控制等功能。作為網(wǎng)絡核心,還支持位置登記、越區(qū)切換和自動漫游等移動管理功能,以及信道管理、數(shù)據(jù)傳輸,以及包括鑒權(quán)、信息加密、移動設備識別等安全保密功能。
當手機上網(wǎng)后,運營商的服務器(交換中心,MSC)會記錄該手機最后出現(xiàn)在哪個基站旁邊。如果呼出用戶和被呼用戶都在歸屬地,那么手機的信號就會通過呼出手機——基站——呼出地MSC——光纜(核心網(wǎng)內(nèi)部通信)——被呼地MSC——基站——被呼手機傳輸。如果被呼用戶不在歸屬地,被呼MSC會向被呼用戶所在地的MSC轉(zhuǎn)發(fā)呼叫請求,再通過基站連接。這個路徑就是呼出手機——基站——呼出地MSC——光纜——被呼歸屬地MSC(轉(zhuǎn)發(fā)請求)——光纜——被呼地MSC——基站——被呼手機,此時呼出地與被呼地之間仍然通過核心網(wǎng)內(nèi)部光纜直連,但這中間需要通過當?shù)氐腗SC轉(zhuǎn)發(fā)才能接通。
斷連的原因
在初步的了解了手機通話原理后,我們來嘗試一步步分析斷連原因。
或許你曾經(jīng)有過這種經(jīng)歷,當你正在玩手機網(wǎng)游,與對手大戰(zhàn)300回合的時候,突然一個電話打過來,手機瞬間失去網(wǎng)絡連接。雖然你一瞬間掛掉了電話,但這短暫的斷網(wǎng)還是讓你輸?shù)袅岁P鍵團戰(zhàn),導致游戲失敗。
如今這種令人“暴躁”的經(jīng)歷已成歷史,4G時代后,使用VoLTE網(wǎng)絡的手機已經(jīng)可以做到邊打電話邊上網(wǎng)了。這種改變的關鍵,就在于過去上網(wǎng)與通話使用的是同一條鏈路,如今則變?yōu)閮蓷l,打電話業(yè)務通過IMS(IP Multimedia Subsystem,IP多媒體子系統(tǒng))線路傳輸,而互聯(lián)網(wǎng)則通過LTE線路傳輸,通話再也不會占用網(wǎng)絡通信的通道。
圖源:鮮棗課堂
正是由于通話與網(wǎng)絡各自獨立,造成了故障僅影響通話與短信,而不影響網(wǎng)絡的結(jié)果。不過這僅解釋了其中一部分原因,斷連的關鍵還是要剖析核心網(wǎng)內(nèi)部的故障。
我們常見的網(wǎng)絡構(gòu)造,從2G到5G,基本可分為3層,即接入層、匯聚層、核心網(wǎng)。我們?nèi)粘D芸吹降幕?,就屬于接入層?/p>
當基站收集到手機發(fā)出的信號后,會經(jīng)過承載網(wǎng)傳輸?shù)胶诵木W(wǎng),承載網(wǎng)可以簡單理解為信號的傳輸高速路,通過光纖將信號從基站傳輸?shù)胶诵木W(wǎng)上。這一過程與前文提到的手機撥打電話的通信過程類似。
核心網(wǎng)是連接移動接入網(wǎng)和外部網(wǎng)絡的關鍵部分,為用戶提供了核心業(yè)務的支持,如語音通話、短信、數(shù)據(jù)業(yè)務等。它就像一個巨大的交換機或路由器,將來自世界不同角落的信號分發(fā)到目的地。因此,核心網(wǎng)需要支持海量的用戶接入,還需要保證高可靠性與安全性。
前文提到的MSC交換機也是核心網(wǎng)的一部分,只不過MSC是基于2G通信網(wǎng)絡架設的,在進入LTE時代后,MSC的功能就被集成在了電路域(CS網(wǎng)絡)中,3G時代又歸為IMS系統(tǒng)中。
隨著4G、5G網(wǎng)絡的鋪開,核心網(wǎng)逐級向基于IP的全互聯(lián)的網(wǎng)狀網(wǎng)絡轉(zhuǎn)向,這其中業(yè)務、安全、維護及擴展性等問題,都將成為網(wǎng)關升級重點。目前,DRA的部署和建設,可以真正實現(xiàn)核心網(wǎng)的擴展,簡化網(wǎng)絡,實現(xiàn)快速部署、高效維護及增強網(wǎng)絡安全。
DRA即Diameter Routing Agent,路由代理節(jié)點。DRA節(jié)點負責LTE Diameter信令目的地址翻譯和轉(zhuǎn)接, 實現(xiàn)LTE用戶的鑒權(quán)、位置更新、計費管理等功能。Diameter信令網(wǎng)采用分級、分區(qū)組網(wǎng)架構(gòu),由信令轉(zhuǎn)接點DRA分區(qū)匯接Diameter信令節(jié)點的信令消息。一般DRA節(jié)點會劃分省內(nèi)與省外。其中省內(nèi)按照各地區(qū)承載量部署LDRA,每個LDRA再劃分不同網(wǎng)元,網(wǎng)元與不同LDRA通過網(wǎng)狀相連。最終,省內(nèi)不同的LDRA會統(tǒng)一接入省級的HDRA中。
Diameter信令網(wǎng)網(wǎng)絡結(jié)構(gòu) ?圖源:51學通信
現(xiàn)在我們可以簡單分析廣東電信斷連的真正原因了。
從通報中,我們了解到LDRA向HDRA傳輸受阻,而本次事故影響遍及全省,則HDRA的某臺設備出問題的概率較高。其中DRA節(jié)點掌握著用戶的鑒權(quán)、位置更新等重要功能,可以說已經(jīng)成為本地用戶的數(shù)據(jù)庫。DRA還承擔了曾經(jīng)MSC交換機的責任,負責向外界發(fā)送注冊用戶信息。因此,重要DRA節(jié)點宕機,導致整條IMS線路不通,直接影響了所有廣東電信用戶的通話與短信功能,即使是身處外地的用戶也無法避免“用戶數(shù)據(jù)庫丟失”的問題。
有業(yè)內(nèi)人士分析了多個受影響案例后發(fā)現(xiàn),廣東電信用戶之間不能互打電話,顯示空號,而電信用戶撥打其他運營商(移動、連通)則可以打通,反過來卻不行。這也證明DRA某設備損壞推論的合理性。
寫在最后
圖源:攝圖網(wǎng)
其實,本次廣東電信大范圍長時間斷連背后,其實隱藏著一個更加重要的隱患,那就是防災冗余機制沒能發(fā)揮作用。
2022年12月,人民郵電報刊文《中國電信研究院:5G核心網(wǎng)容災和安全能力提升》,文中重點講述了中國電信已經(jīng)實現(xiàn)了5G核心網(wǎng)用戶數(shù)據(jù)庫網(wǎng)元全故障極端場景下仍保持用戶業(yè)務的可用,數(shù)據(jù)逃生時長從原本的180分鐘縮短到10分鐘。
其中在辦法的實施上,中國電信采用5G用戶數(shù)據(jù)庫全故障快速應急逃生方案,當雙機熱備的兩臺用戶數(shù)據(jù)庫網(wǎng)元中的一臺發(fā)生故障時,就觸發(fā)提前向4G核心網(wǎng)快速批量導入用戶逃生數(shù)據(jù);當5G用戶數(shù)據(jù)庫兩臺都發(fā)生故障時,快速逃生到由4G核心網(wǎng)承接業(yè)務。文章講到,該方案在5G用戶數(shù)據(jù)庫網(wǎng)元全故障場景下,對已經(jīng)在線的用戶啟用特殊的免鑒權(quán)流程,保障超過80%已在線用戶的基礎業(yè)務不受影響。
然而本次斷連事件中,中國電信曾經(jīng)測試的防災措施并沒有發(fā)揮作用,甚至數(shù)據(jù)恢復時間要遠超180分鐘。這或許是因為5G核心網(wǎng)并沒有出現(xiàn)故障,該防災機制并沒有設置3G數(shù)據(jù)向上逃逸的方案。
但就目前來說,電話與短信仍然是用戶的重要通信方案,它并沒有因為數(shù)據(jù)網(wǎng)絡的出現(xiàn)而完全消失。更重要的是,無論4G、5G通信有多快,但依舊面臨覆蓋面積有限的問題,因此2G或3G通信仍舊是重要的備份通信方式。
縱使電話與短信功能的重要性在逐漸下降,還是希望全國運營商能能通過該事件警醒,繼續(xù)提高或優(yōu)化防災能力,若未來發(fā)生“斷網(wǎng)”5小時事故的話,那造成的影響,可能就不可估量了。