NECサーバーで Event ID 11(Disk)が発生

NEC

― \Device\Harddisk2 は本当に物理障害なのか ―

1. 事象

Windows Server のシステムログに以下が記録。

ソース: Disk
イベント ID: 11
ドライバーは \Device\Harddisk2\DR2 でコントローラー エラーを検出しました。

Disk の Event ID 11 は典型的には

  • メディアエラー
  • I/O タイムアウト
  • コントローラ障害

の前兆として扱われるため,通常は緊急度が高い。しかし今回は RAID 構成の NEC サーバーで発生。


2. 環境

  • サーバー:NEC
  • RAIDコントローラ:MegaRAID 946N-8i
  • 構成:RAID1 × 2
  • 物理ディスク:SAS
  • RAID状態:All Online
  • BBU:正常
  • 発生回数:単発

3. Windows の Harddisk 番号の正体

\Device\HarddiskX

  • ディスクの管理画面にあるディスク番号と一致しないことがある
  • RAID仮想ディスク番号とも一致しない

これは カーネルのデバイスオブジェクト番号 である。つまり上図で確認してはダメ。

確認コマンドを使用する:

Get-WmiObject Win32_DiskDrive | Select Index,Model,SerialNumber,Size

結果:

Index 0 AVAGO MR946N-8i SCSI Disk Device
Index 1 AVAGO MR946N-8i SCSI Disk Device
Index 2 MP EMS Virtual Media USB Device

この内容で確認です。つまり RAID ディスクではない。


MP EMS Virtual Media USB Device

これは NEC の EXPRESSSCOPE(BMC)による仮想メディア。リモートマウント用の USB エミュレーションデバイスである。


4. なぜ Event ID 11 が出るのか

Disk.sys は

  • Storport
  • SCSI ミニポート
  • USB ストレージスタック

いずれからも I/O エラー通知を受け取ると Event 11 を出す。

EXPRESSSCOPE 仮想メディアは

  • USBエミュレーション
  • ネットワーク経由の仮想接続

のため,

  • コンソール切断
  • 仮想メディアアンマウント
  • BMC通信瞬断

が起きると I/O リトライが発生。

このとき

STATUS_IO_TIMEOUT
STATUS_DEVICE_NOT_CONNECTED

が返り,

Disk.sys が Event 11 をログする。

物理ディスクは無関係。


5. 本当に危険な Event 11 との違い

物理ディスク劣化の場合

  • 同一 Harddisk番号で継続発生
  • Storport Event 129 併発
  • RAIDログに Media Error 増加
  • Predictive Failure カウント増加
  • リビルド開始

仮想USBの場合

  • 単発
  • RAIDログ正常
  • Harddisk番号が USB デバイス
  • 発生タイミングがリモート操作前後

今回のケースは後者。


6. 誤診が起きる理由

多くの記事が

「Event ID 11 = ディスク交換」

と短絡する。

しかし

Disk.sys は「ブロックデバイス全般」の抽象レイヤである。

USB仮想メディアも同じ扱いになる。

RAID配下の実ディスクでなくても Event 11 は出る。


7. 切り分け手順(技術者向け)

Step1: Harddisk番号特定

Get-WmiObject Win32_DiskDrive

Step2: RAIDログ確認

storcli:

storcli /c0 /eall /sall show all

確認項目:

  • Media Error Count
  • Predictive Failure Count
  • Other Error Count

Step3: Storportログ確認

イベントログ:

  • storport
  • megaraid
  • disk

の時系列確認。


8. 今回の結論

項目状態
RAID正常
物理ディスク正常
発生回数単発
対象デバイス仮想USB
緊急度

→ 対応不要


9. 教訓

Event ID 11 は

「物理ディスクの死刑宣告」ではない。

重要なのは:

  • Harddisk番号の実体確認
  • RAIDログの裏取り
  • 発生頻度

抽象レイヤで騒がないこと。


10.まとめ

MegaRAID 環境で Event 11 が出た場合でも

まずは

  1. \Device\HarddiskX の正体確認
  2. RAIDログ照合
  3. 発生回数評価

を行う。

今回のように BMC 仮想メディアが原因のケースもある。

冷静なレイヤ分離がトラブルシュートの鍵である。

コメント

スポンサーリンク
タイトルとURLをコピーしました