[GGW3.2.1/GGH4.X] 障害が発生した時,サーバやOSのベンダーに調査を依頼したところ 「GGの中で障害が発生しているので,GGに問題があると回答があった」 が,その通りなのか?
技術ノート
2012/06/22
[番号]
技術ノート KGTN 2012062203
[現象]
[GGW3.2.1/GGH4.X] 障害が発生した時,サーバやOSのベンダーに調査を依頼したところ 「GGの中で障害が発生しているので,GGに問題があると回答があった」 が,その通りなのか?
[説明]
GG上で実行されるアプリケーションは,GGが構築するマルチユーザ環境上で動作するため,メモリダンプ等を解析するとGGのモジュールが障害に関与しているように見えます.しかし,メモリ絡みの問題が発生したケースの多くは, 「アプリケーションの要求に従って」 GGがメモリの獲得や参照を行った時に発生しており,根本的な原因はアプリケーションの不具合やOSの不安定が大部分です.
ある金融系の案件 (同時数千ユーザ) の事例ですが,ログオンが正常に完了しないという問題が発生し,サーバベンダーがOSベンダーの解析結果を示して 「GO-Global の問題です」 とシステムの運用チームに回答しました.運用チームの担当者はGGの特性を熟知されておりますので,この回答には納得できず,原因の可能性が高そうなADサーバとアンチウイルスソフトの調査を行いました.この結果,アンチウイルスソフトのパターンファイルが切り替わった (サイズが大きくなった) 時点から障害が発生したことが判明し,アンチウイルスソフトのベンダーに調査を依頼しました.ここでも 「恐らくGO-Global の問題です」 と回答があったため,パターンファイルをそれ以前の状態に戻して運用したところ,問題の発生が止まりました.この事実からアンチウイルスソフトに原因がある可能性が高く,アンチウイルスソフトのベンダーに詳細な再調査を依頼したところ,その後1ヶ月ほどでアンチウイルスソフトに不具合があることが分りました.
この他にも同じような事例が多数あります.問題の解決には,可能な限り運用上の情報を採取することが肝要です.上記の事例では,パターンファイルのサイズの差異に気付かねば,原因がまったく分らず (GGの中には原因が無かったので) ,問題が解決しなかった可能性も考えられます.