作者:Levin
昨日,阿里云香港地域發(fā)生長時間持續(xù)性故障,服務中斷一度超過12小時。
昨日上午10點47分,阿里云發(fā)布公告稱,阿里云監(jiān)控發(fā)現香港地域某機房設備異常,影響香港地域可用區(qū)C的云服務器ECS、云數據庫PolarDB等云產品使用,工程師已在緊急處理中。阿里云稱,這一故障也影響了香港地域控制臺訪問和API調用操作,阿里云工程師昨日一直在配合PCCW機房工程師加速處理。截至目前,與該故障相關的官方網站和APP均可正常訪問。
受此故障影響,昨日澳門司法警察局官微發(fā)布消息稱,“由于阿里云的香港機房節(jié)點發(fā)生故障,導致澳門金融管理局、澳門銀河、蓮花衛(wèi)視、澳門水泥廠等關鍵基礎設施營運者的網站、澳覓和MFood等外賣平臺、以及澳門日報等本地傳媒應用程式,自今天(18日)中午開始暫時無法訪問使用 ”。
不僅如此, 甚至Linux中國的官網也因此而無法訪問,很多個人站長也表示阿里云的長時間故障影響了他們網站的運營。
除此之外,此次故障對于“幣圈”影響也頗為嚴重。知名交易平臺“Gate.io”發(fā)布公告表示,受運營商部分網絡節(jié)點維護影響,充提服務將出現延緩。而知名加密貨幣交易所OKX(歐易)則在18日上午11:00至19日上午02:50期間交易服務中斷了數個小時,直接關停了所有用戶的交易并限制提幣,此舉還導致了部分OKX用戶的加密資產顯示為0,一度引發(fā)該平臺用戶的擔憂??上攵?,此次故障將會對交易所上的投資者信心產生不可估量的打擊。
歷史上云服務商已發(fā)生過多次故障
據零壹智庫的不完全統(tǒng)計,自2010年以來,混合云上市公司青云QingCloud發(fā)生過約4次故障宕機事件,阿里云發(fā)生過約5次故障宕機事件,騰訊云發(fā)生過約8次故障宕機事件。其中,阿里云、騰訊云所發(fā)生的故障大多發(fā)生2018-2019年間——即盡管云服務已經進入技術較為成熟的階段,但仍有較大概率發(fā)生宕機事件。從全球范圍來看,自2010年以來,亞馬遜云科技AWS發(fā)生過約22次故障宕機事件,谷歌云計算平臺發(fā)生過約12次故障宕機事件,微軟Azure發(fā)生過約8次故障宕機事件。
在已知發(fā)生的云服務故障修復中,修復時間在短至40秒長至24小時不等。而作為一家具備雄厚技術實力的云服務商,阿里云出現如此長時間的持續(xù)性服務故障,在業(yè)界也屬于相當罕見的事件,OKGroup的創(chuàng)始人徐明星甚至把此次故障稱為“阿里云發(fā)展史上重大丑聞”。
當前,使用云服務的大多都是提供各種服務的APP和網站客戶,試想一下,如果用戶在點外賣時無法下單或在刷短視頻無法播放,都將嚴重影響用戶體驗。還有測試結果表明,大多數用戶打開網頁等待時間的忍耐度是在2秒鐘之內,最長不超過8秒,如果故障出現的時間比較久,用戶便會關閉網頁和APP,給企業(yè)帶來不同程度的用戶流失。
對此,為了衡量云服務商提供的服務質量和系統(tǒng)的穩(wěn)定性,就必須設定一個統(tǒng)一標準,SLA也為此應運而生。
SLA為云服務用戶提供保障
其中,SLA是服務等級協(xié)議Service-Level Agreement的縮寫,指的是服務提供商與客戶之間就服務質量所達成的雙方共同認可的協(xié)議,它表明了公有云提供服務的等級以及質量,也是云服務商對產品服務能力的保障,云服務商及其產品團隊一個很重要的目標就是圍繞這些SLA來進行產品設計和運維保障。
舉例來說,假設是月度99.95%的SLA,按照每月30天計算,則每個月云服務出現故障的時間只能占總時間的 0.05%,即每月最多存在30天×24小時×60分鐘×(100%-99.95%)=21.6分鐘的不可用時間。如果提升到99.995%,則每個月服務的不可用時間是2.16分鐘,不可用時間大幅縮短,也意味著云服務器的穩(wěn)定性大幅提升。
近期,阿里云還公布了最新的云服務器ECS服務等級協(xié)議SLA,單實例的可用性從99.95%提升至99.975%,多可用區(qū)多實例可用性從99.99%提升至99.995%,均為全球最高水準。這一簡單的數字變化背后,是過去十年阿里云為云計算穩(wěn)定性做出的努力,除了升級SLA之外,阿里云還提供了企業(yè)級云災備解決方案,為制造、金融、醫(yī)療等企業(yè)提供一鍵容災能力,例如業(yè)務恢復、數據保護和網絡自愈等,最大程度保護本地和云上業(yè)務穩(wěn)定運行,而此次香港地區(qū)超過12小時的服務故障,著實讓阿里云體驗了一把打臉的感覺。
據阿里云官方公告表示,對于受本次故障影響的產品,阿里云將根據相關產品的SLA協(xié)議進行賠付,下圖即是阿里云服務器ECS服務等級協(xié)議文檔中有關賠償標準的部分:
如今,越來越多的企業(yè)在用云服務代替本地的數據中心,主要原因就是傳統(tǒng)的數據中心難以達到云服務商保證的超高SLA。通常情況下,云廠商的SLA是線下數據中心的5倍以上,而云的成本則是線下數據中心的幾分之一。也正是因為有了相關的賠付承諾,所以各大云服務提供商對于提升SLA都非常謹慎,過度承諾往往意味著公司損失的概率提升。
當然,完全避免云服務發(fā)生故障是不可能完成的任務,但提前做好事前預案并及時通知客戶做好準備,或許可以進一步降低故障造成的影響。就像歐易交易平臺所說,云服務用戶也不能對于單個云服務廠商過度依賴,可以快速推進多云戰(zhàn)略,確保核心服務部署在多個云服務商,在單個云服務商平臺出現故障時,可以快速切換至其他平臺,保證服務的穩(wěn)定性。
雖有“丑聞”,但云服務前景依舊良好
從成立的第一天起,阿里云就在穩(wěn)定性上進行了大量的技術投入和建設,經過十多年的技術探索,阿里云已經推出了基于自研的飛天大規(guī)模操作系統(tǒng)自研服務器、網絡、存儲、智能調度等技術,不僅大幅提升了系統(tǒng)的穩(wěn)定性,還可預測感知系統(tǒng)異常,運用熱遷移等技術保障客戶業(yè)務不受影響,最終實現了超高的SLA標準。
目前,阿里云已經是國內公有云行業(yè)的第一。在當前的中國公有云服務市場中,雖然天翼云、浪潮云、金山云、京東云等云廠商的名字也有所耳聞,但阿里云、騰訊云、華為云和百度智能云是知名的國產“四朵云”,共同占據了國內云服務的大半江山。從全球市場來看,阿里云在全球市場排名第三,在全球28個地域運營了86個可用區(qū),同時也是亞太市場基礎設施規(guī)模最大的云計算平臺,超過了亞馬遜云科技和微軟。過去三年,阿里云在海外市場營收增長更是超過了10倍。
不僅如此,今年阿里云還首次實現了年度盈利。據阿里巴巴于今年5月發(fā)布的2022年財報顯示,其云業(yè)務同比增長23%,全年收入在抵銷跨分部交易前和抵銷后分別為1001.8億元和745.68億元,實現盈利11.46億元。這不僅是阿里云成立13年以來首次實現年度盈利,而且也成為國內首家實現持續(xù)盈利的云計算公司。
不過,在盈利的背后,阿里云也面臨著云計算市場的增速放緩難題。根據Canalys公布的數據顯示,在今年第三季度,國內云基礎設施服務支出同比增長8%達到78億美元,占全球云支出的12%。自2022年第一季度以來,年增長率已經連續(xù)三個季度放緩,并首次跌破10% 。究其原因,大概是對云服務需求更高的互聯網行業(yè)大中型客戶已經基本完成布局,而現在的云計算不僅需要深入各行各業(yè),還要完成市場教育和前沿技術的研發(fā)難題。
寫在最后
雖然云服務出現故障時有發(fā)生,但相比傳統(tǒng)的本地服務,云服務發(fā)生故障的概率已經大大降低。而且隨著技術的不斷完善,云服務還將在更多場景中發(fā)揮獨一無二的作用。
對于云服務來說,發(fā)生故障的原因不僅與技術有關,還可能受到技術處理能力、自然天氣、故障原因等多方面因素的影響。盡管阿里云在過去幾年取得了長足的進步,但此次超過12小時的持續(xù)故障,也足以對云服務廠商敲響警鐘,作為云服務平臺,確保平臺的安全、穩(wěn)定運行,永遠是其最關鍵的工作之一。
參考資料:
1.《阿里云發(fā)生嚴重事故,故障超12小時,張建鋒剛帶公司實現年度盈利》,子彈財觀2.《阿里云香港故障:發(fā)展史上新的“至暗時刻”》,IT時代網3.《17次云巨頭故障事件梳理,云服務還可靠嗎?》,零壹財經