こんにちは。SCSKの鮫嶋です。
先日、以下の記事でSnowball Edgeの概要について記載させていただきましたが、今回はSnowball Edgeを利用した際に発生した障害事例について記載させていただきます。
障害事例
発生した事象
ある朝、いつも通りSnowball Edgeで作業をしようとしたところ、導入したSnowball Edgeの5台中1台へアクセスできなくなってました。
具体的な症状としては以下の通りでした。
- AWS OpsHub:サインイン後の画面で真っ白になり操作不可
- AWS CLI:”An error occurred (ServiceUnavailable) when calling the ListObjects operation (reached max retries: 4): Reduce your request rate.”というエラーが発生
暫定対応
色々試してみたものの復旧しなかったため、AWSのサイトに記載の方法で再起動をしてみました。
10分後に起動し、Snowball Edgeのロック解除を実施しました。
Snowball Clientで解除コマンドを実行すると、”Your Snowball Edge device is unlocking”と表示され、”describe-device”コマンドでも「”State” : “UNLOCKING”」となっていたため、問題なくロック解除できると思われましたが、数分後に再度”describe-device”コマンドを実行すると、「”State” : “LOCKED”」になってしまい、ロック解除すらできない状況となってしまいました。
※ 正常時は「”State” : “UNLOCKING”」から「”State” : “UNLOCKED”」になります。
念のため、AWS OpsHubでもロック解除を試しましたが、「デバイスをロック解除しています」という画面から一向に進まず、5~10分程度経ってから”DeviceUnlock.Form.maxRetriesReached”というエラーが発生するだけでした。
AWSサポートへの問合せ
ロック解除ができず作業もできない状況となったため、AWSのサポートへ問合せを実施し以下の確認依頼がありました。
以下、サポートの回答の抜粋になります。
確認事項:
1) ご利用のスイッチは 1Gbps 以上対応されておりますでしょうか。
2) お客様のワークステーションと Snowball Edge デバイス間のトラフィックをブロックしているパケットフィルターがあるかご確認いただけますでしょうか。
3) ポート 22、9091、および 8080 から Telnet 接続できることをご確認いただけますでしょうか。
4) 通気性のある場所で Snowball Edge デバイスを設置していることをご確認ください。
5) AWS OpsHub のアプリケーションを停止し、再起動をして再度アンロックをお試しくださいませ。maxRetriesReached エラーが依然と発生する場合は ~/.aws/ops-hub/logs/ におけるログファイルをご共有くださいませ。
デバイスの再起動手順:
- 電源ボタンを数秒押し続けて、強制的に Snowball Edge の起動を停止させてください。
- 起動を停止させたまま 30 秒待ちます。
- その後、電源ケーブル、ネットワークケーブル、全てのケーブルを Snowball Edge から抜きます。抜いた状態で 10 分待ちます
- その後、あらためて電源ケーブル、ネットワークケーブル、全てのケーブルを Snowball Edge に繋げます。繋げたら、そのまま 30 秒待ちます。
- 4. でケーブルを挿してから 30 秒経過した後に、あらためて電源ボタンを押して電源を入れて起動ください。
確認事項を一通り確認したところ、ポート8080に接続できないことが分かりました。
上記をサポートに伝えると、故障している可能性が高いためデバイスの交換対応ということになりました。
Snowball Edge交換対応事例
Snowball Edgeの交換について、今回は以下の対応となりました。
故障端末のデータについて
故障したSnowball Edgeのデータが取り出せるか(S3へインポートできるか)が肝心と思いますが、これはデバイスの故障状況に依存するため、必ずしも復旧できるとは限らないようです。
今回は無事、AWS側にてS3へのコピーをしていただくことができました。
利用額の調整
今回はSnowball Edgeの故障であったためAWS利用額の調整を行うことになりました。
なおサポートへ申請する必要がありますので、忘れずに申請しましょう。
※ 問合せから1か月程度で処理がなされるようです。
故障原因の調査
調査をサポートへ依頼したところ、例外的に原因を調査をしていただけることになりました。
1.5か月ほど経過後、下記の回答がありました。
なお当該プロセスに関連したログが現時点取得できない状態であり、恐れ入りますが詳細原因の特定には至りませんでした。
Snowball内でIAMに関連したプロセスが起動できていなかったことが原因のようでしたが、詳細な原因については分かりませんでした。
回答に時間が時間が掛った点については、AWS側に改善をお願いできればと思います。
終わりに
今回の作業で利用したSnowball Edgeの5台中1台が運悪く故障となりました。
可能性は低いとは思いますが、ハードウェアデバイスであるため故障することはあるかと思います。
本件はSnowball Edgeの故障対応を行った事例でしたので、ご報告いたしました。
本対応事例が、皆様の参考になれば幸いです。