- 2010年9月17日 11:08
先日、「構成管理の成功事例はないみたいです」
とお伝えしたばかりで恐縮ですが、
「これは!」と思うデモを、最近、セミナーで拝見しました。
クラウドで運用管理のPDCAが自動化される様に、目を見張りました。
9/15(水)に行われました、G-Cloud(主催:技術評論社)のプログラム。
富士通研究所 クラウドコンピューティング研究センターの安達基光様が、
「高信頼なクラウドコンピューティングを実現する障害対処技術の開発」
と題して行われた研究発表です。
クラウドはここに来て日本のサービスプロバイダが次々に対応を発表し、
企業でも導入が加速しています。
安達様は、クラウドにおける障害対応の課題を整理し、
運用管理の考え方に変革が必要であるとしました。
[大規模化/複雑化]障害の影響が拡大しやすいため、スピードが求められる
[安定性重視]「事後処理」から「事前回避」へ
すると、運用管理の方針は、これまでの事後処理から、
早期発見・迅速な対処、すなわち事前回避が方針となり、
故障機器は交換せず放置することで、低コストで高可用性を実現できるとしました。
夜中にシステム管理者が、機器交換のために、人里離れたデータセンターに飛んでいく...
そんな姿は、近い将来、笑い話になってしまうのでしょうか。
そして、いよいよデモです。クラウド障害対応技術のデモですが、
こんな障害対応プロセスが自動化していました。
○監視:高速パケットキャプチャと品質/性能分析
→○予兆:メッセージ分析による予知
→○診断:構成要素の症状を追跡し、原因箇所特定
→○対処:過去のトラブル対応手順を実行
すべてのフェーズでCMDBの参照、書き込みが行われる。
例えば、こんな感じです。
システム内のすべてのノードは常時、パケットがキャプチャーされており、
同時にエラーメッセージの分析がリアルタイムで行われています。
過去のメッセージのパターンと照合し、またパケットの微細な変化を読み取り、
障害の兆候があると、構成アイテムがラックの見取り図で、視覚的に特定されます。
異常があるノードが、赤く光るんですね。
概ね、障害が発生する、30分前にはわかるようです。
そのノードをクリックすると、更に関連する構成アイテムや附属文書が参照できます。
過去の対応履歴から、対応フローが確認できるばかりでなく、
定型化できている対応フロー(63%が定型化できるとのこと!)は、
自動化して、障害対応が未然に完結してしまうのです。
例えば、再起動とか、切り離してしまうとか。
そのあたりが、意識しなくても、完了してしまうというのです。
我が意を得たり!「これ、これ!」と思わず口にするところでした。
もしかしたら、会場にいたシステム管理者の多くが、
同じように思っていたかもしれませんね。
私達がCMDBの構築を進めていたときは、障害発生後の迅速な対応を意識していましたが、
ここまでプロアクティブな対応ができるとは。
システム管理者が安眠できる日が、近づいていますね!
クラウドにより、ITILの考え方は運用管理のベースになりそう。
そんな確信を得た講演でした。
とお伝えしたばかりで恐縮ですが、
「これは!」と思うデモを、最近、セミナーで拝見しました。
クラウドで運用管理のPDCAが自動化される様に、目を見張りました。
9/15(水)に行われました、G-Cloud(主催:技術評論社)のプログラム。
富士通研究所 クラウドコンピューティング研究センターの安達基光様が、
「高信頼なクラウドコンピューティングを実現する障害対処技術の開発」
と題して行われた研究発表です。
クラウドはここに来て日本のサービスプロバイダが次々に対応を発表し、
企業でも導入が加速しています。
安達様は、クラウドにおける障害対応の課題を整理し、
運用管理の考え方に変革が必要であるとしました。
[大規模化/複雑化]障害の影響が拡大しやすいため、スピードが求められる
[安定性重視]「事後処理」から「事前回避」へ
すると、運用管理の方針は、これまでの事後処理から、
早期発見・迅速な対処、すなわち事前回避が方針となり、
故障機器は交換せず放置することで、低コストで高可用性を実現できるとしました。
夜中にシステム管理者が、機器交換のために、人里離れたデータセンターに飛んでいく...
そんな姿は、近い将来、笑い話になってしまうのでしょうか。
そして、いよいよデモです。クラウド障害対応技術のデモですが、
こんな障害対応プロセスが自動化していました。
○監視:高速パケットキャプチャと品質/性能分析
→○予兆:メッセージ分析による予知
→○診断:構成要素の症状を追跡し、原因箇所特定
→○対処:過去のトラブル対応手順を実行
すべてのフェーズでCMDBの参照、書き込みが行われる。
例えば、こんな感じです。
システム内のすべてのノードは常時、パケットがキャプチャーされており、
同時にエラーメッセージの分析がリアルタイムで行われています。
過去のメッセージのパターンと照合し、またパケットの微細な変化を読み取り、
障害の兆候があると、構成アイテムがラックの見取り図で、視覚的に特定されます。
異常があるノードが、赤く光るんですね。
概ね、障害が発生する、30分前にはわかるようです。
そのノードをクリックすると、更に関連する構成アイテムや附属文書が参照できます。
過去の対応履歴から、対応フローが確認できるばかりでなく、
定型化できている対応フロー(63%が定型化できるとのこと!)は、
自動化して、障害対応が未然に完結してしまうのです。
例えば、再起動とか、切り離してしまうとか。
そのあたりが、意識しなくても、完了してしまうというのです。
我が意を得たり!「これ、これ!」と思わず口にするところでした。
もしかしたら、会場にいたシステム管理者の多くが、
同じように思っていたかもしれませんね。
私達がCMDBの構築を進めていたときは、障害発生後の迅速な対応を意識していましたが、
ここまでプロアクティブな対応ができるとは。
システム管理者が安眠できる日が、近づいていますね!
クラウドにより、ITILの考え方は運用管理のベースになりそう。
そんな確信を得た講演でした。
- Newer: 改善のフレームワーク(2) : 3S
- Older: 反省(3)構成管理に成功事例なし
Comments:0
Trackbacks:0
- TrackBack URL for this entry
- http://iso20000.info/cgi-bin/mt-tb.cgi/33
- Listed below are links to weblogs that reference
- 障害対応は、こうして自動化する from クラウド/ホスティング屋のISO20000ブログ