東証のストレージ障害
2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog
個人的な経験では、ストレージ1筐体に最低二個のコントローラを用意するはず。
設計思想がわからないのでなんとも言えないが・・・
ActiveActive構成(クラスタを組んで、Write:ActiveStanby、Read:ActiveActiveかな?)でも、コントローラ障害であれば、二号機へフェイルオーバせず一号機の中でコントローラが切り替わるんでは??
記事だけからの推測だけど、、、筐体ごとフェイルオーバするほどの障害でもなく、コントローラが切り替わるほどのものでもなく、かな~り中途半端な壊れ方をしたのではないかなぁ・・・・。
多分FCな気がするので、マルチパス構成でしょう。。。。
極端だけど、パス異常も起きたのかなぁ・・・・。うーん、謎は深まるばかり。
導入時のフェイルオーバ試験ってどうやったんだろ。
試験で、ストレージ一号機の電源を強制的に落とすとか、実際の障害に近いことはやってるのかなぁ・・・・。そりゃそれがいいんだけど、試験で実際の納入機器が壊れそうです。。。
実際のところ、ホストバスアダプタに接続されているFCケーブルを引っこ抜いて、フェイルオーバするか確認するくらいじゃないかなぁ(ザ素人発想)
ともあれ、原因解明されることを祈っています。