Home > 障害対応は、こうして自動化する

障害対応は、こうして自動化する

  • Posted by: itil
  • 2010年9月17日 11:08
先日、「構成管理の成功事例はないみたいです」
とお伝えしたばかりで恐縮ですが、
「これは!」と思うデモを、最近、セミナーで拝見しました。
クラウドで運用管理のPDCAが自動化される様に、目を見張りました。

9/15(水)に行われました、G-Cloud(主催:技術評論社)のプログラム。
富士通研究所 クラウドコンピューティング研究センターの安達基光様が、
「高信頼なクラウドコンピューティングを実現する障害対処技術の開発」
と題して行われた研究発表です。

クラウドはここに来て日本のサービスプロバイダが次々に対応を発表し、
企業でも導入が加速しています。
安達様は、クラウドにおける障害対応の課題を整理し、
運用管理の考え方に変革が必要であるとしました。
 [大規模化/複雑化]障害の影響が拡大しやすいため、スピードが求められる
 [安定性重視]「事後処理」から「事前回避」へ

すると、運用管理の方針は、これまでの事後処理から、
早期発見・迅速な対処、すなわち事前回避が方針となり、
故障機器は交換せず放置することで、低コストで高可用性を実現できるとしました。

夜中にシステム管理者が、機器交換のために、人里離れたデータセンターに飛んでいく...
そんな姿は、近い将来、笑い話になってしまうのでしょうか。

そして、いよいよデモです。クラウド障害対応技術のデモですが、
こんな障害対応プロセスが自動化していました。

 ○監視:高速パケットキャプチャと品質/性能分析
→○予兆:メッセージ分析による予知
→○診断:構成要素の症状を追跡し、原因箇所特定
→○対処:過去のトラブル対応手順を実行
 すべてのフェーズでCMDBの参照、書き込みが行われる。

例えば、こんな感じです。
システム内のすべてのノードは常時、パケットがキャプチャーされており、
同時にエラーメッセージの分析がリアルタイムで行われています。
過去のメッセージのパターンと照合し、またパケットの微細な変化を読み取り、
障害の兆候があると、構成アイテムがラックの見取り図で、視覚的に特定されます。
異常があるノードが、赤く光るんですね。
概ね、障害が発生する、30分前にはわかるようです。
そのノードをクリックすると、更に関連する構成アイテムや附属文書が参照できます。
過去の対応履歴から、対応フローが確認できるばかりでなく、
定型化できている対応フロー(63%が定型化できるとのこと!)は、
自動化して、障害対応が未然に完結してしまうのです。
例えば、再起動とか、切り離してしまうとか。
そのあたりが、意識しなくても、完了してしまうというのです。

我が意を得たり!「これ、これ!」と思わず口にするところでした。
もしかしたら、会場にいたシステム管理者の多くが、
同じように思っていたかもしれませんね。

私達がCMDBの構築を進めていたときは、障害発生後の迅速な対応を意識していましたが、
ここまでプロアクティブな対応ができるとは。
システム管理者が安眠できる日が、近づいていますね!
クラウドにより、ITILの考え方は運用管理のベースになりそう。
そんな確信を得た講演でした。

Comments:0

Comment Form

Trackbacks:0

TrackBack URL for this entry
http://iso20000.info/cgi-bin/mt-tb.cgi/33
Listed below are links to weblogs that reference
障害対応は、こうして自動化する from クラウド/ホスティング屋のISO20000ブログ

Home > 障害対応は、こうして自動化する

Search
Feeds

Return to page top