システム本番作業のミスを防ぐ

コラムカテゴリー:

稼働中のシステムにおいては、以下のような本番環境に対する作業(以下、本番作業とします)が日々発生します。

  • 新規/修正プログラムのリリース
  • 各種ログの収集・調査
  • サーバーの再起動
  • 各種アップデートの適用
  • データベースのデータ更新
  • 各種設定の変更
  • ハードウェアの交換/拡張

新規システムのリリースや大規模改修においては本番移行に向けての入念な準備を行いますが、システム運用/保守における本番作業は日常的なことであり、緊張感を失いがちです。

ところが、操作ミス/データ入力ミス/作業誤り等のうっかりミスに起因する本番障害は少なくありません。
それが大規模なシステム障害ともなれば、たった一つの小さなミスが利用者の利便性や提供者の利益を損ね、IT部門やシステムサービス会社の信用を大きく失墜させてしまう場合もあります。

そのようなことにならないよう、システム本番作業のミスを防ぐにはどうしたらよいのでしょうか。
今まで関わってきた運用/保守のプロジェクトにおいて、有効と考えられる運用やルールをご紹介致します。

 

■1.簡単な作業でも手順書を作る/定型化する/自動化する

初めての作業や手の込んだ作業で手順書を作成するのは、当たり前のことです。

しかし、
「本番環境のログを参照する」「データベースのデータを参照する」など、手慣れた作業や簡単な作業においては、手順書なしでいきなり本番作業を行っていないでしょうか。

ミスは思わぬところで起こります。どのような本番作業においても必ず作業手順書を作りましょう。

また、毎回同じ作業を一から行っていませんか。

「定型の作業手順書を準備しておく」
「できるだけ作業を自動化する」

これらにより、人為的なミスを防ぐだけではなく、作業効率化、属人化防止につながります。

■2.本番環境と同等のテスト環境でリハーサルを行う

安全そうな作業だからといって、いきなり本番環境で文字通り「ぶっつけ本番」の作業を行っていませんか。

しかし、
「調査のため本番のデータベースで検索コマンドを実行したところ、データベースに想定外の負荷がかかり、システム全体の応答パフォーマンスを低下させてしまった。」
などということも起こり得るのです。

どのような作業も、テスト環境で確認してから本番環境で実行しましょう。

■3.切り戻し手順(リカバリプラン)を作る

テスト環境では成功した作業も、本番環境では予期せぬ事態が発生し、作業を中止せざるを得ない場合があります。
このような場合、大抵は一刻も早くシステムを元の状態に復旧する必要があります。
また、復旧を手探りで行うのは非効率かつリスキーです。更なるシステム障害を誘発しかねません。

切り戻しが想定される作業においては、必ず切り戻しの手順書を準備しておきましょう。

■4.本番作業判定レビューを行う

本番作業を作業担当者一人に任せきりにしていないでしょうか。

作業手順が正しいか、また、本番環境で行っても問題がない作業であるかどうか、リーダークラスをレビュアとした判定会を行いましょう。
作業担当者本人だけでは分からないリスクが潜んでいるケースがありますし、副次的な効果として、リーダー、作業者ともに緊張感を持たせることができます。

予めレビューのチェックリストを準備しておくと、チェックの抜け漏れを防ぐことができます。

■5.ペアで指さし確認を行う/手順書にチェックを入れる

人は必ずミスをするものですから、作業は2人体制で行いましょう。

また、手順が一つ抜けただけでも大規模なシステム障害につながる場合があります。
手順一つ毎に画面で指さし確認を行い、手元の作業手順書にチェックを付けていきましょう。

■6.手順書にない作業は行わない

「作業ミスで不要なディレクトリを作ってしまい、とっさに削除コマンドを実行した。ところが、削除コマンドのオプションが誤っており、本番サーバーの全てのファイルを削除してしまった。」
信じられないような出来事ですが、実際に耳にしたことがあります。

このようなことにならないために、手順書にない作業は行わないでください。

ミスに対する対処はケース・バイ・ケースなので一言では言えませんが、ミスに気づいたらすぐに上長やリーダーに報告し、対策を検討するようにしましょう。

■7.ふりかえりを行う

本番作業でミスが発生した場合、必ず「ふりかえり」を行い、原因と対策を考えましょう。

その成果を上記1の「定型の手順書」や上記4の「本番作業のチェックリスト」に盛り込めば、同じミスを繰り返さないようになります。

 

以上、本番作業でのミスを防ぐポイントを見てきました。
当たり前のことばかりと思われる方もいらっしゃるかもしれませんが、その当たり前が意外に出来ていないことがあります。

これを機に、本番作業の運用やルールを見直してみてはいかがでしょうか。

2017年11月20日 (月)

青山システムコンサルティング株式会社

山口 晃司