障害の影響を最小限とするために
システム本部 テクニカルディレクター 吉原 誠Webディレクションに携わっていると、時にWebサイトに障害が発生するケースに遭遇します。誰も望んでいないことですが、意図せず発生してしまうケースに対して、できる限り傷口を広げず、影響を最小限に抑え、正確な対応を行うためにできることは何でしょうか。
発生初期段階
障害が発生する理由はさまざまですが、初期段階で共有される情報は、すぐに原因を特定できないことが多くあります。
- ページが閲覧できない
- ページを公開したが意図した状態にならない
- レイアウトが崩れている
- 特定の環境に接続できない
- メールが届かない
- 手順通り行ったが思い通りにならない
この第一報の段階では、根拠のないその場しのぎのアクションを行ってはいけません。情報の投げ手は、緊急性が高いときほど、慌てて連絡してしまうためか、障害解決に必要な情報が不足しており、正確性も欠けています。このとき、受け手が後先考えず、慌てて動き出してしまうと、さらに状況を悪化させたり、貴重な対応時間を無駄にロスしてしまう恐れがあります。ですから、不用意な動きは自重する必要があるのです。
現状の把握
緊急事態になると、心理的にいち早く原因を特定することにウェイトを置いてしまいますが、それを正しく実施するための現状把握というプロセスは、対象が複雑、多様、大規模であるほど、重要になってきます。
「特定のページが閲覧できない」と、発信したところで、誰も正確には動けません。誰が、いつ、何をしたのか(いわゆる5W1H)を確認するとともに、情報源の正確性についても同時に確認します。障害報告に限らず、正確な報告をするためには、報告する側にも5W1Hなど情報を提供するためのノウハウが必要ですが、必ずしも情報の投げ手がそうしたノウハウを持っているとは限りません。連携された情報の精度を再確認することで、事後のアクションがより正確なものに変わっていきます。
ミツエーリンクスでは、より的確に問題を解決に導くため、専門分野ごとに部署や担当者を分け相互に連携する体制をとっています。その場合、正しい情報をしかるべき専門部署、専門の担当者にエスカレーションしていく、情報の精度が、後の解決スピードを大きく左右します。
原因の切り分け
一定の情報が入手できたら、その情報を元に原因を特定していきます。「ページが閲覧できない」という事象の原因を、何の情報もなく特定することは難しいものの、正しい情報があれば、糸口をつかむことができます。おおよそのターゲット判明後も、さらなる原因究明が必要になりますが、ここから先は、実際に対応を実施する専門の担当者と正確な情報のやり取りさえできれば、自ずと先は見えてきます。原因究明や対策について、対象システムの開発元や提供元と連携するケースでも、前工程の精度が保持されていれば、たとえ社外の担当者とのやり取りでも、正しい情報を伝えることができ、解決スピードの短縮につながります。
対策の実施
調査を継続し、原因が特定できると、すぐに対策を実施したくなるのが心情ですが、まずは落ち着いてしかるべき検証と影響評価を行うことが先決です。正しい検証や影響評価を実施せず、慌てて対策したことで、初期の問題は解決したものの、新たな別の不具合が発生し、副次的に新たな被害を受けてしまうことも考えられます。いち早く復旧したい気持ちを抑えて、事前に取るべきアクションを落ち着いて判断し、的確に消化することが大切です。
また、対策の実施後に万が一、不具合が発生してしまった場合でも、元の状態に戻せるプランを事前にもっておけば、少なくとも傷口を広げるのは防止できます。手段の一つとして、一時的な暫定対応後に、根本解決を図るフェーズを切った対応が有効な場合もあります。障害による影響や緊急性、実際の対応方法を照合し、素早く最善策を見極める判断能力が求められる重要な局面です。
状況の報告
一連の工程を進めるにあたり、障害復旧を優先するあまり、関係者に何の報告もなく進行してしまうと、あらぬ方向に事態が向いてしまいます。緊急性が高いときほど、対処するメンバー、サポートするメンバー、解決を待っている人への局面に応じた正確な情報連携と、密なコミュニケーションが極めて重要です。特に「解決を待っている人」は、常に不安です。ハンドルを握って目的地に向かっている人は、進むべき道、到着までの残り時間が予測できますが、到着を待っている人は、それを知りません。
心理的負担を軽減するためにも、進捗の有無に関わらず、状況報告を適宜実施することが良い結果につながります。
また、意識をスピードに傾けた状態で進行すると、指示や報告を口頭や電話のみ行ってしまう流れに自然と傾向してしまいます。ただ、これは記録の残らない危険なすすめ方です。当事者間のみの閉ざされたやり取りに終始してしまうことで周囲から状況が見えません。結果として、第三者のサポートも受けられないばかりか、二次被害が発生した場合にも、後のケアができない状況を自ら作り出してしまい、原因の見えない新たな障害を誘引する恐れがあります。
予防と対策
障害の発生理由を明確にし、以降、同様の事態を避けるためにできる対策を精査します。その対象は、何かしらのコードだったり、プログラムだったり、人、手順やルール、組織、環境など、さまざま考えられますが、何れも確実に実施できるよう、その対策についての周知を徹底し、浸透させる必要があります。過去の障害事例の蓄積、定期チェック、アップデートも、障害発生の未然防止につながる有効な手段です。
次期Xデーに向けた心の持ちよう
障害対応こそ、真価が問われるシチュエーションでもあり、少なからずWebサイトに関わっていれば、私も貴方もその対象です。
「落ち着いて」「冷静に」と言いつつも、「非常事態に冷静に対応する」というのは、相反するものを同時に抱えているように思えます。非日常の緊張状態が継続すれば、正しい判断を行うことが難しくなり、セルフコントロールし辛い局面も出てきます。時には事の原因を生み出してしまったり、事を解決に導いたりすることも、あるでしょう。
もとより障害を完全にゼロにすることはできません。事故や障害が発生する前提で物事を捉える視点を持つこと、そのうえで過去から学び、事後対応に活かすことが、結果として、その抑制と影響の低減につながります。
Newsletter
メールニュースでは、本サイトの更新情報や業界動向などをお伝えしています。ぜひご購読ください。