今年も無事システムエンジニアとして生き延びることが出来た。
今年、個人的には余りシステム障害と付き合わなくても済んだ幸せな一年間ではあったが、世間では我々エンジニアを震わす障害が幾つも発生している。
今年の締め括りとして、2020年-2021年に発生した障害とそれに対する所感を述べていきたい。
東京証券取引所株式売買システムの取引停止
参考:東京証券取引所で過去最大のシステム障害 全銘柄の株式売買、初の終日停止
影響
東証の全取引が終日停止。
原因
メイン機異常時にサブ機への切り替えが行われず。
所感
メイン機障害→サブ機切り替えの設定がオフになっていたらしい。起因はハード障害であり、実際にハード障害が起こらなければ切り替えも発生しないため、これまで検知出来なかったということだろう。
このシステム自体は1代目、現在稼働しているものが2代目となっており、1代目の切り替え設定は上手く行っていたが、2代目の時点で切り替え設定がオフになったという。
これだけ見ると、システムアップデート時の可用性試験が正しく行われていなかった or そもそも行わなかったのが原因と言える。
このケースに関しては、1代目の稼働実績があるため、2代目移行時の検証は緩くても大丈夫だろう、みたいなジャッジがされたのではなかろうか。
長期運用を前提としたシステムでは、大体5年を目処にシステムを最新状態に整備する。(システム更改と言われるもの。ハードだけでなく、アプリケーションも対象となる)
この例では2015年に2代目となっており、発生が2020年のため、システム更改の最中か検討中のタイミングだった可能性もある。最も、2代目で検知出来なかったものが次世代で検知出来たかは怪しいが。。
自分はSESなアプリケーション開発者のため、この手の非機能要件の部分については余り詳しくはない。
が、ステップアップとして意識しなければならない部分であるし、本事象から学んだことは今後生かしていきたい。
みずほ銀行システムATM4300台停止
参考:システム過負荷でなぜATMにトラブルが? みずほ銀システム障害、運用面の課題あらわに
今年のみずほ銀行システム障害のトリガーを引いてしまったもの。これをスタートととし、普通のシステムであれば一件発生しただけで震えるレベルの障害が今年だけで何件も発生しており、なんなら昨日も発生している。
ここでは2021年2月のものを取り上げる。
影響
ATM4300台停止、インターネットバンキングの一部取引停止。
原因
月次処理バッチと不要データ削除作業の処理輻輳により高負荷、処理制限。
所感
処理件数が多くなるのが予め分かっていたタイミングでの謎データパッチによりシステム障害。みずほ銀行が障害を起こすのは何時もの事で、発生自体は何とも思わないが、これについては原因がヤバい。
内容的にはいつ実施しても大丈夫そうなデータパッチを何故わざわざ月次処理バッチのタイミングに合わせてしまったのか。謎すぎる。
事前に性能試験をしたとの事だが、そうであってもこのタイミングにはならないし、この雰囲気だとそもそも性能試験の質も怪しい。
普通のプロジェクトであれば間違いなくGOは出ないし、出たとしても自分はやらない。流石にこの指示は受け入れられない。
世間的には人災扱い、体質の問題とか言われてるが、自分から見てもそう感じる。誰も何も言わずにこれが実行されたのであれば、もう個がどうこう出来る状態ではないだろう。
結果として金融庁マジギレ介入案件になってしまったが、どこまで効果があるかは未知数。
プロジェクトチームの体質、スキル向上について考えさせられる事象だった。
障害は起こる。全て防ぐのは無理
世間で大きく取り上げられた障害を2つ挙げた。障害を完全に無くす事は出来ない。どんなに自信がある状態でシステムリリースしたとて、結局は自分が把握できている部分だけに過ぎず、ハード障害、ネットワーク障害、アプリケーション障害、運用障害、など障害の発生起因も多様だ。
全てを完璧にするには余りにも広すぎるし、開発期間との兼ね合いもある。全力をもってしても起こる時には起きてしまう。
過去に発生した障害に学び、また障害が発生してしまった場合に迅速な対応が出来るよう、自身の関わるプロジェクトはもちろん、今後もこういったニュースにも目を向けていきたい。
最後に
今年冬休み少なくね?もっと休みあっても良くね?