zumix

開発マネジメントtoマーケティング

ZOZOTOWNでシステム長い障害発生

1日中止まっていたとこのこと。
DB障害らしい。
障害原因分析、対応こそ、AIに任せたい(笑)

自分の関わっているところも、
障害は起きる。1時間止まっただけで超大変。
起きたときは、周りに人数がいくらいてもほぼ意味がない。
エース級の1人が、障害の原因を調べ、対応する。
見守るしかない。

推測するに、復旧するまでに1日掛かったということは、
機能のリリースとの絡みで、DBが高負荷状態になったと思われる。
そういう場合は、とりあえずリリース前の状態に戻すのが一番早く普及する。
それが、出来ないとなると、リアルタイムでバグ対応になる。

これを回避するためには、コストも時間も、2-3倍は掛かるはずで、
スピード優先、競合激しいみたいな世界だと、そうはいかない。
とても悩ましい開発マネジメントの領域。

で、怒られるのは、いつも開発。
ストレスフルになるわな。