【管理者必見】RAIDのデータ復旧について知っておきたいいくつかのこと

RAIDのデータ復旧のための解決方法は一つではありません。かつ、経験のないまま復旧作業を進めるのは危険ですらあります。ここではまず、データ消失の危険を防ぐため、ケーススタディを確認してもらったうえで、データ復旧のための解決の道筋を見つけられるようにプロセスの整理をしました。きっと、大事なデータを復旧させられるために方法が見つかるはずです。

目次

  1. まず、やってはいけないこと。「データ消失」のリスクを除外しよう
    1. RAIDのリビルド(データの再構成)は初心者には難しい
    2. HDDの入れ替え・交換は基本的にNG
    3. HDDを単体稼働させる場合は、フォーマットしないこと
  2. RAIDの構成とそれぞれで起こりうるトラブル事例
    1. RAID 1で起こりうるトラブルのケース
    2. RAID 5で起こりうるトラブルのケース
    3. RAID 6で起こりうるトラブルのケース
    4. RAID 10で起こりうるトラブルのケース
  3. OS別 トラブルのケースと対策
    1. Linux 系OSで起こり得る可能性のあるトラブル
    2. Macので起こり得る可能性のあるトラブル
    3. Windowsので起こり得る可能性のあるトラブル
  4. データ復旧までの解決プロセスを確認
    1. 「データ復旧」までのプロセスをまとめる〜自分で確認できることはなにか
    2. データ復旧のために試せること
  5. まとめ

まず、やってはいけないこと。「データ消失」のリスクを除外しよう

RAIDは、データを分散して複数のHDD(ハードディスクドライブ)に保存し、耐障害性を併せて確保するための技術です。しかし、データ分散は時に障害や大きなトラブルを生む可能性も秘めています。障害が発生したとき、どうするべきかを確認していきましょう。

RAIDのリビルド(データの再構成)は初心者には難しい

例えば、HDDの交換を自分で行ったことがあるなど、ハードウェアの取扱に少し自信のある方だと、「HDDエラーと言ってもなんとかなるのでは」と考えがちです。その時に取る行動の一つが「リビルド(データの再構成)」のトライ。しかし、未経験者がリビルドを行っても、その多くはそもそも障害が起きていなかった部分に新たな障害を生んでしまうという致命的な失敗に陥ることがあります。

リビルドを実行して問題なく終了すれば、結果、データ復旧は成功するわけですが、その道は非常に険しいものであると心得てください。

HDDの入れ替え・交換は基本的にNG

先に「リビルド」に関する注意喚起をしたのには理由があります。HDDの交換の経験がある方なら、RAIDに関しても同じように「HDDを交換すれば解決するじゃないか」と発想されるでしょうが、これは極めて危険です。HDDを交換する際に「リビルド」が自動的に始まることがあるからです。これが原因でRAID構成が崩れてしまうのです。改めて説明すると、RAIDとは複数台のハードディスクを1つのそれと認識させる技術です。ディスクの順番が変わるとデータ構成も変わります。その結果、残念なことにデータ復旧が困難になってしまうわけです。

HDDを単体稼働させる場合は、フォーマットしないこと

RAIDに収めていたHDDが単体稼働できるものだと勘違いをして、RAIDから独立させてそれ単体で稼働させて中身を確認しようとします。これもありがちな失敗例のひとつです。この方法では残念ながらHDDの中身を見ることはできず、それどころか、「フォーマットしますか?」とアラートが出ることになります。当然ですが、フォーマットしてしまっては、データ復旧どころではありませんし、仮にフォーマットをしなくても単体稼働させたことでなにかデータを上書きしてしまう恐れもあります。データを上書きしてしまっては、データ復旧させるのに非常に大きな障害となります

RAIDの構成とそれぞれで起こりうるトラブル事例

それでは、RAID構成ごとに注意しておきたいトラブル例についてご紹介したいと思います。

RAID 1で起こりうるトラブルのケース

RAID 1は「ミラーリング」とも表現されます。まったく同じデータを別のHDDに書き込み、冗長化させます。通常は、2つのHDDを使用して、それぞれに同一データを保存します。したがって、どちらかのHDDに障害が発生しても、もう一方があるので継続的に活用が可能です。一方のHDDが故障していたにもかかわらず、放置をしていたらついにRAID崩壊してしまうという事例も少なくありません。HDDの異常には気をつけましょう。

また、気軽にリビルドをされることで障害を生むことも多いのですが、一つご提案を。リビルドの失敗をなくすために、一方のHDDに障害が発生したら、正常なHDDも同時に交換する方法で運用されるとストレスが減りますよ。そのため、RAID構成とは別にバックアップシステムも十分に検討してください。

RAID 5で起こりうるトラブルのケース

RAID 5は「分散データ・ガーディング」とも言われます。高速化、大容量化、冗長化のすべてを実現する構成で、「パリティ」(誤り訂正符号)と呼ばれるコードが生成されデータが書き込まれるところが特徴。 3つ以上のHDDを組み合わせて、それぞれに「パリティ」が生成・負荷分散して保存されます。したがって、いずれかのHDDに障害が発生しても他のHDDのデータとパリティ情報をもとに復旧が可能です。しかし、2つのHDDが同時に障害発生した場合、RAIDとして成り立たなくなります。こういうケースも決して少なくありません。

また、リビルドを実行する際には、リビルド中にほかのHDDが故障する可能性があるというリスクがあることを十分承知して作業を進めてください。

RAID 6で起こりうるトラブルのケース

上記のRAID 5 のデメリットをカバーしているのが、RAID 6です。技術的には、RAID 5と同様ですが、「パリティ」を2重で生成して異なるディスクに記録することで耐障害性がアップしました。RAID 5では2台のHDDに障害が発生した場合は復旧が困難ですが、RAID 6では2台のHDDに障害が発生したとしても不安なく稼働させることが可能です。

一方でその「安心」ゆえに、3台目のHDDに障害が発生してしまうことになると、データが見られなくなってしまいますので、決してメンテナンスを怠ることのないようにしてください。

RAID 10で起こりうるトラブルのケース

複数のミラーリング(=RAID 1)をストライピング(=RAID 0)したシステム。冗長性の点で一日の長があります。最低でもHDDが4台搭載されているはずで、そのうち2台までのHDDが破損してもリビルドが実行されます。が、ミラーリング構成のHDDが2台とも壊れてはリビルドできません。その場合は、プロに委託することを考えてください。

OS別 トラブルのケースと対策

それでは、RAID構成ごとに注意しておきたいトラブル例についてご紹介したいと思います。

RAID 1で起こりうるトラブルのケース

RAID 1は「ミラーリング」とも表現されます。まったく同じデータを別のHDDに書き込み、冗長化させます。通常は、2つのHDDを使用して、それぞれに同一データを保存します。したがって、どちらかのHDDに障害が発生しても、もう一方があるので継続的に活用が可能です。一方のHDDが故障していたにもかかわらず、放置をしていたらついにRAID崩壊してしまうという事例も少なくありません。HDDの異常には気をつけましょう。

また、気軽にリビルドをされることで障害を生むことも多いのですが、一つご提案を。リビルドの失敗をなくすために、一方のHDDに障害が発生したら、正常なHDDも同時に交換する方法で運用されるとストレスが減りますよ。そのため、RAID構成とは別にバックアップシステムも十分に検討してください。

RAID 5で起こりうるトラブルのケース

RAID 5は「分散データ・ガーディング」とも言われます。高速化、大容量化、冗長化のすべてを実現する構成で、「パリティ」(誤り訂正符号)と呼ばれるコードが生成されデータが書き込まれるところが特徴。 3つ以上のHDDを組み合わせて、それぞれに「パリティ」が生成・負荷分散して保存されます。したがって、いずれかのHDDに障害が発生しても他のHDDのデータとパリティ情報をもとに復旧が可能です。しかし、2つのHDDが同時に障害発生した場合、RAIDとして成り立たなくなります。こういうケースも決して少なくありません。

また、リビルドを実行する際には、リビルド中にほかのHDDが故障する可能性があるというリスクがあることを十分承知して作業を進めてください。

RAID 6で起こりうるトラブルのケース

上記のRAID 5 のデメリットをカバーしているのが、RAID 6です。技術的には、RAID 5と同様ですが、「パリティ」を2重で生成して異なるディスクに記録することで耐障害性がアップしました。RAID 5では2台のHDDに障害が発生した場合は復旧が困難ですが、RAID 6では2台のHDDに障害が発生したとしても不安なく稼働させることが可能です。

一方でその「安心」ゆえに、3台目のHDDに障害が発生してしまうことになると、データが見られなくなってしまいますので、決してメンテナンスを怠ることのないようにしてください。

RAID 10で起こりうるトラブルのケース

複数のミラーリング(=RAID 1)をストライピング(=RAID 0)したシステム。冗長性の点で一日の長があります。最低でもHDDが4台搭載されているはずで、そのうち2台までのHDDが破損してもリビルドが実行されます。が、ミラーリング構成のHDDが2台とも壊れてはリビルドできません。その場合は、プロに委託することを考えてください。

OS別 トラブルのケースと対策

続いてOSごとにRAID運用時に起こり得るトラブルをまとめてみました。導入時、運用時の参考にしてみてください。

Linux 系OSで起こり得る可能性のあるトラブル

RAIDボードと呼ばれる専用のインターフェースボードを利用して実現するものではありますが、LinuxではソフトウェアRAIDの仕組みを活用するケースも決して少なくありません。

前者の場合、HDDに障害が発生した場合、一度サーバーの電源を落としてHDDを交換し、RAIDの再構築を終了するまでの数十分~数時間は、サーバーとして機能できません。一方で、後者のソフトウェアRAIDは、RAIDの再構築中でも並行してサーバー機能が継続可能なため、サービスの中断はHDDの交換作業時間だけで済みます。

Macので起こり得る可能性のあるトラブル

Mac OSには、ミラーリング、ストライピング、単純な(ハードディスクの)合算の3通りのRAIDを作る機能が備わっていることはご存知でしょうか。具体的には、ディスクユーティリティ.appからGUIでRAIDを作成することができます。(diskutilコマンドで作ることもできます)

ファイルメニューからRAIDアシスタントを起動すると、RAID 0あるいはRAID 1が選択できます。

Windowsので起こり得る可能性のあるトラブル

Windowsも標準でストライピング(=RAID 0)とミラーリング(=RAID 1)の設定をすることが可能です。 ただし、こちらのソフトウェアRAIDはかなりパフォーマンスに不満があるという評判が多いようですので、実用には向かないと判断します。実際に、ハードウェア的にRAIDを構成する活用が主流でしょう。

データ復旧までの解決プロセスを確認

実際にトラブルが発生したら、まずは落ち着くこと。そして原因が何であるかを冷静に切り分け、迅速に善処することが必要です。ここではトラブル発生からデータ復旧までのプロセスを一例としてご紹介します。

「データ復旧」までのプロセスをまとめる〜自分で確認できることはなにか

RAIDのデータ復旧のための第一ステップは、RAIDのレベルによって決まります。まずは落ち着いて、発生している問題を確認しましょう。いずれかのHDDが故障しているなら、常にオフラインランプが点灯しています。

<HDD交換に踏み出してよいかどうかを確認>

RAID 1(ミラーリング)ならば、ご自身でHDDの交換をすることは可能かもしれません。

<RAIDコントローラーの稼働を確認する>

ランプの点灯の再チェック

<問題発生の原因がわからない場合は何もしない>

HDDだけのエラーではなく、RAIDコントローラーが原因も場合も少なくありません。
この場合、特にHDDを操作することは危険です。

データ復旧のために試せること

<ファイルシステムやファイルの破損に起因したデータ故障>

この原因としては、必要なプログラムやファイル誤操作による削除やウイルス感染。また、RAID障害発生時のリビルド失敗、リフォーマットも原因としてとても多いものです。

まずは、障害の原因を確認しましょう。特定プログラムによる原因であれば、早めの障害復旧の見込みもありえます。

<パーツやハードディスクなどの物理的な故障に起因する障害>

ハードディスクを構成する部品が物理的に破損したことで障害が発生したのではありませんか? 基盤不良(ファームウェア障害含む)、不良セクタ、ヘッド損傷などさまざまな原因があります。この場合は、速やかに対応業者に連絡をしてください。

まとめ まずは落ち着き“見込み”で復旧作業に入らないこと

最後に、改めて、RAIDのデータ復旧のための解決方法は一つではないということを繰り返しておきます。経験のないまま復旧作業を進めるのは危険ということも再度お伝えします。

<トラブル発生時に確認すべきこと>

・RAID構成を確認しましょう
・自分でできる作業かどうか、再確認しましょう
・もういちど、本当にHDDのエラーなのかどうかを確認
・ハードウェアの損傷であれば、業者に連絡
・原因もわからず、ご自分で対応する自信がない場合は、プロにお願いをすることを検討しましょう

無事に、速やかに「データ復旧」できますように。