システム障害発生時に機能する対策を用意してますか?

コラムカテゴリー:,

【システムダウンとどう向き合うか】

皆さんの会社ではシステムがダウンした際の対応策は用意していますか。
システムがダウンすると、多くの場合に経済的損失が伴います。
その経済的損失をどうすれば小さくできるかについて、本コラムで説明します。

まず最初にお伝えしたいことは「システムのダウンは決して珍しいことではない」ということです。

最近の事例ですとLINE や Youtube の通信障害、より大きな障害として東証の終日取引停止や
福井ナビのデータ消失などのニュースが流れております。
(引用元:
https://www.itmedia.co.jp/news/articles/2011/09/news118.html
https://www.itmedia.co.jp/news/articles/2011/12/news065.html
https://www.itmedia.co.jp/news/articles/2010/01/news094.html
https://www.itmedia.co.jp/news/articles/2011/09/news064.html

システムダウン発生に対する一般的な対策の一例として、以下の対策が挙げられます。
 ■システムダウンを未然に防ぐ対策
  ・障害発生箇所を事前に想定/対策実施(冗長構成構築など)
 ■システムダウン後の対策
  ・早期復旧に向けたリカバリ手順の策定やバックアップデータ取得

上述の対策は皆さんの会社でも実施していることだと思いますが、
これらの対策をしておけばシステムダウン対策は万全と言えるでしょうか。

実は、システムダウン後の対策はそのままでは機能しないことが多いので、
システム障害発生時に機能する対策となるように準備をしておく必要があります。
機能する対策が準備できていないと復旧に時間がかかり、経済的な損失を招いてしまいます。

東証の障害を例にしますと、冗長構成は確保していたものの、設定に誤りがあり
障害発生時に副系に切り替わらなかったため終日取引停止となってしまいました。

「システム障害発生時に機能する対策」を準備するためにはどのようにすればよいのでしょうか。

 

【システムダウンによる影響と最小化の方法】

社外に提供しているシステムでダウンが発生した場合を例にどのような影響があるのか考えてみます。

 <システムがダウンした際の影響>
  ■お客様がシステムがシステムを利用できなくなることによる影響
   ・信頼失墜により他社サービスへの切り替える
   ・販売/契約などの機会損失が発生
    =売上が減少する

  ■システム障害発生による内部影響
   障害対応に関する稼働の発生
   ・問題個所の特定と対応の稼働
   ・クレーム対応の稼働
   ・再発防止策検討の稼働
    =コストが増加する

システムダウン発生時の経済的損失の見積りは、
[発生時の単位時間損失×発生確率×ダウンタイム]
で計算します。

経済的損失を最小化するには「発生確率を下げる」と「ダウンタイムを短くする」の2つのアプローチがあります。
(「障害発生時の単位時間損失」については、今回は一定とします。)

「発生確率を下げる」アプローチは、冒頭の一般的な対策で記載した「発生箇所の事前想定/対策」などを行い達成します。
例えば、冗長構成を取ることで2台のサーバが同時に故障しない限りシステムダウンが発生しないように設計することで、
1台構成の時よりも発生確率を大きく下げることが可能です。

「ダウンタイムを短くする」アプローチは、事前に準備しているリカバリ手順の品質を向上させて達成します。
机上で策定した対策でも効果がないわけではありませんが、より高い品質にするためにはどうすればよいのでしょうか。

対策の品質を高める方法はいろいろありますが、その中でも最も費用対効果が優れているのは
「リハーサルを実施すること」と私は考えております。
しかし定期的なリハーサルを対策の一つと実施している会社は多くないと感じております。

リハーサルを行うことで、机上では気づけない様々なことを発見することができます。
例として、
 ・策定した手順で本当に実行できるか?
 ・初版作成から時間が経過している場合、現在でも実行可能な手順となっているか?
などについて確認することができます。

定期的にリハーサルを行うことはつい見過ごしがちです。
リハーサルを実施しないよりした方が良いことは理解に難くないと思いますが、
なぜリハーサルを行わない会社が多いのでしょうか。

私が考える最大の理由(デメリット)は「コストがかかるから」だと思います。

しかし経済的損失額の大きさと比べると、リハーサルを行うコストは微々たるものです。

上記でも触れた東証の事例では、1日取引が停止されたことにより取引機会損失が2兆円発生したといわれています。
(引用:https://www.jiji.com/jc/article?k=2020100300417&g=eco
もし定期的にリハーサルを実施し、設定の不備に気づいていれば、
今回の損失はゼロ、あるいは極小化されていたはずです。

 

【最後に】

経済的損失額は会社やシステムの規模によって異なりますので、
自社の場合はどれだけ経済的損失が発生するか確認しておくことが非常に重要になります。

「経済的損失がこれくらいになる」ということが明確になれば、
「そのリスクヘッジにどれだけのコストをかけべきなのか」が見えてくるはずです。

「システムがダウンした際の経済的損失」をしっかり見積もり、
そのリスクを過小評価せずにリハーサルの実施等の対策を行うことが必要です。

2020年11月16日 (月)

青山システムコンサルティング株式会社

関根 真悟