偌大的數(shù)據(jù)中心僅留3名員工值班 微軟在澳大利亞的數(shù)據(jù)中心起火損毀硬件 – 藍(lán)點(diǎn)網(wǎng)
時(shí)間:2025-12-04 01:49:00 出處:熱點(diǎn)閱讀(143)
上周 Microsoft Azure 位于澳大利亞新南威爾士州的數(shù)的數(shù)點(diǎn)網(wǎng)數(shù)據(jù)中心發(fā)生起火,除了服務(wù)全部離線外,據(jù)中據(jù)中件藍(lán)這次事故還導(dǎo)致部分硬件被燒毀。心僅心起青島市北空乘外圍vx《189-4143》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)此次事故持續(xù)將近 24 小時(shí)才陸續(xù)恢復(fù),留名利亞其中由于硬件損壞,員工部分客戶的值班數(shù)據(jù)無(wú)法轉(zhuǎn)移只能通過(guò)恢復(fù)手段進(jìn)行復(fù)原。
微軟已經(jīng)發(fā)布了這次事故的微軟詳細(xì)報(bào)告,報(bào)告中提到了一些令人匪夷所思的火損毀硬情況,例如偌大的數(shù)的數(shù)點(diǎn)網(wǎng)青島市北空乘外圍vx《189-4143》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)數(shù)據(jù)中心,在夜間竟然只有 3 名工程師值班,據(jù)中據(jù)中件藍(lán)盡管這 3 名工程師已經(jīng)盡力,心僅心起但面對(duì)這種情況時(shí)仍然忙不過(guò)來(lái),留名利亞進(jìn)而導(dǎo)致事故變得更嚴(yán)重。員工
澳大利亞?wèn)|區(qū)數(shù)據(jù)中心概況:由多個(gè)機(jī)房組成、值班使用水冷系統(tǒng)、微軟有 7 臺(tái)水冷設(shè)備其中 5 臺(tái)為常開(kāi)機(jī) 2 臺(tái)為備用。

事故時(shí)間線:
事故觸發(fā)原因是新南威爾士州的市電供應(yīng)出現(xiàn)問(wèn)題 (8 月 30 日 08:41,注意是 UTC+0 時(shí)間非當(dāng)?shù)貢r(shí)間),導(dǎo)致 5 臺(tái)常開(kāi)水冷機(jī)組全部掛掉,只有 1 臺(tái)備用機(jī)組自動(dòng)開(kāi)機(jī),另一臺(tái)開(kāi)機(jī)了但又跳閘了。
現(xiàn)場(chǎng)值班工程師按照緊急操作程序試圖恢復(fù)常開(kāi)水冷機(jī)組但失敗了,微軟承認(rèn)由于數(shù)據(jù)中心園區(qū)的規(guī)模,夜間團(tuán)隊(duì)配備的人手不足以及時(shí)重啟水冷機(jī)組,為此微軟臨時(shí)將夜間值班工程師由 3 名增加到 7 名。
在水冷機(jī)組歇菜后,存儲(chǔ)和 SQL 服務(wù)器發(fā)出了告警,此時(shí)距離市電供應(yīng)問(wèn)題已經(jīng)過(guò)去了 1 個(gè)小時(shí) 50 分鐘。隨著水冷機(jī)組的歇菜,服務(wù)器的溫度也越來(lái)越高。
接著工程師繼續(xù)嘗試啟動(dòng)水冷機(jī)組,但依然沒(méi)能成功,到 11:20 水冷機(jī)組的 OEM 支持工程師抵達(dá)現(xiàn)場(chǎng)進(jìn)行處理,到 11:34 現(xiàn)場(chǎng)工程師最終決定關(guān)閉兩個(gè)受影響的數(shù)據(jù)大廳的基礎(chǔ)設(shè)施。
到 12:12 五臺(tái)常開(kāi)水冷機(jī)組終于手動(dòng)重啟成功,接著數(shù)據(jù)中心溫度開(kāi)始逐漸下降,隨后工程師開(kāi)始為受影響的基礎(chǔ)設(shè)施恢復(fù)供電,最終到次日 06:40 所有設(shè)施恢復(fù)、所有數(shù)據(jù)恢復(fù)。
微軟大客戶受影響嚴(yán)重:
新南威爾士州數(shù)據(jù)中心托管著微軟多個(gè)大客戶的數(shù)據(jù),包括但不限于昆士蘭銀行、捷星航空 (澳航旗下子公司) 等,這次事故導(dǎo)致微軟的這些大客戶受到嚴(yán)重影響。
從事故報(bào)告來(lái)看,故障自動(dòng)轉(zhuǎn)移進(jìn)行的似乎并不是很順利,按照設(shè)計(jì)邏輯,一旦出現(xiàn)故障,服務(wù)會(huì)自動(dòng)轉(zhuǎn)移到其他數(shù)據(jù)中心確??蛻舨皇苡绊憽?/p>
此次故障 Azure 的故障轉(zhuǎn)移也進(jìn)行了,但效果好像并不是很好,微軟表示后續(xù)要重新改進(jìn)。
微軟的事后反思:
1. 由于數(shù)據(jù)中心規(guī)模較大,夜間團(tuán)隊(duì)人員配備不足,無(wú)法及時(shí)重啟水冷機(jī)組,微軟暫時(shí)將夜間值班人員從 3 名增加到 7 名。
2. 對(duì)于這類大型事故,重啟水冷機(jī)組的經(jīng)濟(jì)操作程序執(zhí)行速度很慢,微軟正在探索改進(jìn)自動(dòng)化方案用來(lái)應(yīng)對(duì)供電等問(wèn)題。
3. 展望未來(lái),微軟正在評(píng)估各種方法確??梢詫?duì)各個(gè)水冷機(jī)組的子集負(fù)載曲線進(jìn)行優(yōu)先級(jí)排序,以便掛了的時(shí)候先將負(fù)載最高的機(jī)組重啟。
4. 利用流程表對(duì)工作負(fù)載故障轉(zhuǎn)移和設(shè)備關(guān)閉進(jìn)行排序,用來(lái)確定不同的優(yōu)先級(jí),同時(shí)微軟正在改進(jìn)水冷溫度報(bào)告,以便更好的根據(jù)溫度閾值來(lái)決定何時(shí)進(jìn)行故障轉(zhuǎn)移或關(guān)閉服務(wù)器。
5. 五臺(tái)水冷機(jī)組沒(méi)有重啟,因?yàn)橄鄳?yīng)的水泵沒(méi)有收到水冷機(jī)組的運(yùn)行信號(hào),這很重要,因?yàn)樗脤?duì)水冷機(jī)組的成功啟動(dòng)至關(guān)重要,為此微軟正在找水冷機(jī)組 OEM 調(diào)查為什么水冷機(jī)組沒(méi)有命令各自的水泵重啟。
6. 由于未知錯(cuò)誤,一臺(tái)備用水冷機(jī)組就是跳閘那個(gè)沒(méi)能自動(dòng)重啟,微軟正在找 OEM 診斷。
上一篇: 兩只小懶熊買西瓜的故事
猜你喜歡
- 中世紀(jì)幻想主題RPG《Mirthwood》9月11日登陸Steam
- 《離子襲擊》游戲視頻+游戲截圖首頁(yè)
- 小小收納五光十色通關(guān)攻略
- DNF新深淵派對(duì)模式時(shí)空裂縫上線時(shí)間 DNF時(shí)空裂縫打法技巧分享
- 《真三國(guó)無(wú)雙8》聲優(yōu)配音視頻 認(rèn)識(shí)不一樣的工作背后
- LOL銀白槍騎布里茨皮膚特效 布里茨銀白槍騎皮膚售價(jià)
- 《東京叢林》預(yù)計(jì)明年打入歐洲PSN
- CFS2017總決賽門票預(yù)售活動(dòng)網(wǎng)址 預(yù)購(gòu)門票領(lǐng)禮包
- 兔子不喜歡黑夜的故事