814 停機事件
2023-08-14 停機事件,又稱為 814 停機事件,為美代子伺服器進入 Season 2 以來嚴重停機事件之一,發生於早上 08:56 以及下午 07:18。
儘管沒有造成玩家實際物品上的損失,但仍需花費大量時間將伺服器復原到以往可用狀態。
事發經過
2023 年 8 月 14 日總共發生兩次停機,先是在上午 08:56 由美代子造成的停機,接著是在下午 7:18 由卡屁造成的停機。
原先是為了要瞭解與解決伺服器於當日上午 01:36 左右發生的卡頓當機問題,最後導致嚴重停機事件。
第一次停機
2023 年 8 月 14 日上午 01:36,卡屁回報伺服器大當機,且附上 Webmin 截圖顯示伺服器所有資源吃重。
同日上午 07:42 ,伺服器最後一次備份完畢後,由於無玩家在這之後上線,伺服器備份被暫停。
同日上午 08:30 左右,美代子接獲通知後登入伺服器 SSH 查詢伺服器資源占用狀況,但上午 08:56 ,在查看伺服器檔案占用大小時,致命地輸入錯誤指令將主伺服器的所有檔案刪除。美代子發現之後立刻將伺服器還原到最新備份狀態,最後於上午 09:18 復原完畢後於 Discord Server 上發布公告告知此事。
第二次停機
由於在排查 Lag 問題時發現 NTFS-3G 持續占用不小的 CPU 資源,與卡屁討論之後決議將卡屁自己的資料碟轉為 ext4 格式。轉換工作於同日下午 02:00 左右開始。
同日下午 05:21,卡屁截圖 Webmin 畫面並回報記憶體不夠用,故於同日下午 06:19 美代子試圖登入 SSH 查閱資源占用狀況,出現 key_exchange_identification 錯誤。由於美代子連 XRDP 都無法順利連上,故先請卡屁幫忙查閱。
後來在後續討論後,發現卡屁犯下致命錯誤:卡屁在轉換硬碟格式時,暫時插入了另外一個暫時的 SSD,但在格式化並掛載之後,由於權限不足,卡屁試圖設定掛載目錄權限,卻錯誤地沒有將路徑打上相對路徑,而是根目錄的絕對路徑 (/)。由於當下卡屁使用 Webmin 的 Console (自帶 root 權限) 進行權限修改,使得系統所有檔案權限一同變更。
下午 06:48 起,美代子與卡屁開始嘗試進行權限修復,經過將近快一小時修復未果,於下午 07:43 決定重灌作業系統。於隔日 (2023 年 8 月 15 日) 上午 02:27 確認沒有其他問題後發布公告。
後續
伺服器本次事件後恢復正常連線。但由於伺服器仍然有其他問題,如 Intel i5-12500T QS 鎖頻問題,在運作上仍不正常,直到更換 CPU 為 Intel i5-12500 後運作才比較穩定。
No Comments