データ復旧TOP RAID(NAS/サーバー)データ復旧一覧 RAID崩壊時の原因と対処法

RAID崩壊は突然に。慌てず焦らず、原因を特定し対処できるために知っておきたいこと

突然のRAID崩壊。バックアップデータは無事なのかと不安にもなります。その原因はさまざま考えられます。もちろん、事態は深刻で早急な解決が求められますが、まずは何が原因なのかを確かめて早く解決を図りましょう。この記事では、RAID崩壊で考えられるさまざまな事例を紹介しながら、正しく対処できるようにまとめました。あなたの環境下で発生したケースと同様な原因が見つかるかもしれません。

RAID崩壊とは? まずその原因は何かを探ること

いまやインターネット誕生時とは違って、シェアリングビジネスが隆盛を極めたり、ネット社会の主役がスマホに移行したり大きな変化が進行中です。それを支えているのは、サーバでありそこ保管されているデータそのもの。したがって、企業に限らず個人であっても、失われてはならないデータの量は膨大となっています。

例えば、「スマホ」をなくした場合を少し想像してみてください。なかには個人情報や思い出のデータ、キャッシュ情報などなくてはならないものがデータとして保管されています。これが紛失、消失してしまったとなるとゾッとし、不安で眠れなくなりそうです。

企業にとっても個人にとっても、それほど重要なデータを、安全な状態で管理するために導入された技術のひとつが「RAID」と呼ばれるものです。しかし、このRAID、問答無用で安心というわけではありません。HDDの消耗など致命的な故障でデータが復旧不可能になることがあり、それを「RAID崩壊」と言います。

今回は、RAID崩壊とは、より具体的にどのような症状なのか、あるいはその原因はなにかを確認していきましょう。

RAIDの種類とそのケースを簡単におさらい

代表的なRAID構成のみ紹介しましょう。

<RAID 0>

RAID0は「ストライピング」と呼ばれます。0って何と思う方もいるかもしれませんが、これは複数のハードディスクに同時に分散して読み書きを実行します。これにより、アクセスの高速化を実現できるうえ、複数のHDDに同じデータが保存 されていないことから、このRAID構成のみ冗長性や耐障害性がありません。

一方で、1つのHDDに障害が発生するとデータが復旧できず、全てのデータが失われることになります。

<RAID 1>

RAID 1は、別名を「ミラーリング」と言います。複数のHDDに同じデータを書き込む仕組みです。つまり、片方のHDDに障害が生じても、もう一方の(別の)HDDに同じデータが存在しているのでシステムは稼動し続けられるわけです。

ただし、RAID1では同じデータを2台以上のディスクに書き込むので ディスク容量の利用効率が50%以下になってしまうデメリットがあります。また、読み出し書き込みに対する速度はRAID0の方が優れています。

<RAID5>

RAID 5は、別名を「分散データガーディング」と言います。最小3台のHDDを使用しデータを分割して保存し、「パリティ」と呼ばれる冗長コード(同じ内容を繰り返し書き込む、あるいは内容が変化する可能性が無いのに繰り返し読み出す実行性のないコード)を、それぞれのHDDに書き込むことが最大の特徴です。

このパリティというのは、障害が生じたHDDの失われたデータを修復するためのコードです。ちなみに、このパリティを使ってシステムを元の正常な状態に戻すことを「リビルド」と呼んでいます。

RAID崩壊で考えられるさまざまな事例

さて、ではRAID崩壊の原因を確認していきましょう。

一般的にHDDの寿命は4年から5年と言われ、そもそも消耗品です。まず、いつかは必ず壊れるものとして認識することが重要です。

消耗品であるため、日々の管理も重要です。例えばホコリやたばこの煙などの微細な粒子がHDDを傷付けてしまうこともあるし、熱の影響で障害が発生することもあります。近しい障害例では、8月23日にAWSの東京リージョンでの大変大きな障害があります。この障害について、事後の発表によると、「一部EC2サーバのオーバーヒートによる停止。制御システム障害により冷却システムが故障したことに起因」でした。つまり、熱対策による障害発生例です。一般的に猛暑日などはRAID機器の故障のリスクが高いようですので、非常に亜熱帯化している日本でも同様の障害リスクは高くなっていると言えるでしょう。

RAID0(スクレイピング)で考えられること

RAID崩壊の原因はやはりHDDの故障がもっとも多いので、まず物理的な故障がないか疑うこと。さらに表示されているLEDアラートなどをまずチェックしましょう。

RAID1で考えられること

このRADI構成は、LinkStationやLANDISKなどを利用しての小規模・中規模稼働が非常に多い状況です。この場合、滅多なことがなければデータを失うことはないだろう、という安心がありますが、
・ RAID1を制御しているシステムの異常
・ 筺体側の不測のエラー
・ 経年劣化
などで、そもそもデータを取り出すことすらできなくなるという危険な障害を生じやすく、この点に留意いただく必要があります。

RAID5で考えられること

保存していたフォルダやファイルまたはHDDへのアクセスができない場合、RAID崩壊しているという判断をしなければなりません。RAID崩壊をしている場合、製品によってはサーバ機前面のディスプレイ、ドライブランプの点灯/点滅で、HDDの状態や筐体の状態を知らせる機能があるはずなので、まずはそれをチェックしましょう。

原因別に、対処法を詳しく確認する

RAID崩壊の「原因」を確認できたら、その内容によっては対処方法が異なります。その違いと、具体的な対処法を確認していきます。

・ホコリ

ホコリなどが筐体内に入ると、発熱で基板が焼け焦げるなどの物理的な障害を発生させます。この場合は、物理的な障害ですから、HDDの交換などで対処できます。ホコリ程度でと考えがちですが、あまり軽く考えないほうが良いです。その証拠に、堅牢なレンタルサーバのサーバルームでは防塵対応を謳っているところも決して少なくありません。それだけデータ保管で重要だということです。

・熱暴走

上記に紹介したAWSの障害に限らず、熱対策も重要です。比較的すぐに実行できるのは、冷却ファン周りの掃除をすることです。簡単ですが、効果てきめんです。

・リビルド時のエラー

同時に2台以上の機器が故障することなどあるのでしょうか? リビルドが失敗しまう原因の一つとして挙げられるのが、HDDのうち1台が問題なく稼働しているようにみえてすでに一部壊れていた、RAID5には冗長性がないため、結果、リビルドに失敗したという話があります。さらに、RAIDを構成している複数台のハードディスクは同じタイミングで、同じ機種を揃えることが多く、ほぼ同じ時間稼働していることになり、経年劣化のタイミングがあってしまいがちなどの理由が挙げられます。

こういった部分を、常日頃m配慮なくリビルドを行ってしまうと、途中でリビルドが停止したり、RAID構成レベルを誤ってリビルドをしようと異常データを書き込みしようとしたりという2次的な障害を生んでしまいます。致命的なエラーを生じた場合は、プロの助けが必要になります。

・管理画面の操作ミス

もちろん、人の手によることなのでうっかりミスはありえます。例えば、管理画面で誤ってRAIDレベルを異なるものに変更してしまったり、HDDを初期化してしまったり。この場合も、RAID崩壊してしまいます。データ復旧が可能かどうか、その判断から進めることになります。

要注意! RAIDO障害時にやっていはいけないこと

RAID障害時に慣れていない担当者が初期対応をすることで、RAID全体を壊してしまう事態を生じさせることになりかねないので、以下では「やってはいけないこと」を挙げてみました。

・リビルド

リビルドを行い症状が悪化してしまうということ。少し上記でも挙げましたが、 「リビルドの途中でそれまで障害が起きていなかった別のHDDに障害が併発してしまう」というものです。リビルドが失敗に終わるということは、HDD構成が崩れデータがバラバラになるということです。結果的に、リビルドを行う前よりもデータの状態が悪化してしまい、データ復旧をより困難にします。

・HDDの入れ替え

RAIDとは、複数台のハードディスクを1つのハードディスクとして認識させる技術のことです。これは、あるルールで複数台のハードディスクを介してデータを保存していることになります。 つまりそのルールを変更してしまうと、「1つのハードディスクとして認識させる」ことができなくなります。HDDの入れ替えということはそのルールを壊すことにほかなりません。HDDの入れ替えは比較的簡単に作業できため、手をつけてしまいがちですが絶対にやってはいけないことです。

・HDDを単体でPCにつなぐ

もう一つ、「試してみたくなりそうなこと」を挙げます。これも絶対にやってはいけないことのひとつです。

異常が起きていると思われるHDDを取り外して、外付けハードディスクとしてパソコンに繋いでみるということ。そもそも、RAID構成で成り立っていたHDDを単体でPCに繋いでも、その中身は確認できませんし、さらに危険なのがHDDをフォーマットしてしまう恐れがあることです。初期化(フォーマット)してしまっては、RAIDの復旧は不可能です。プロに相談するしかありません。

まとめ まずはあせらず原因追求。最悪のケースなら業者にお願いすること

RAID崩壊の理由は、物理的な故障、ホコリの吸い込みや熱暴走以外にも人為的なミスによることは決して少なくありません。幸いにもこの記事を読んでいる方がまだRAID崩壊していないのであれば、今からでも日々、できることには最新の注意を払い、後に深刻なエラーを生まないようにしましょう

一方で、すでに崩壊してしまっている場合、今回は対処方法をお伝えしましがた、深刻な障害を生じさせてしまった場合は、プロでないと復旧もままならないことがあります。重要なことはデータを自分で復旧させることではなく、今あるデータを守ることです。わからない、自信がないというのであれば、まずは相談だけでもプロにしてみることをおすすめします。