2017
03.09

AWSのヒューマンエラーによるトラブルを考える

日記

AWSとはアマゾンが運営する、クラウドシステムだ。そこで、機能停止をするトラブルが起きた。ユーザーにとっても時間とお金の損失があり、アマゾンはその原因と対策を公表した。

「原因」は、「ヒューマン・エラー」。

人間による操作ミスである。機械は壊れないと操作ミスをしない。人間は元気でも操作ミスを犯してしまう。それ自体はしょうがないことである。よく聞くことだし、これに対しての対応としては二重三重の確認だろうけれど、

  • ヒューマン・エラーに対して最小限のトラブルになる対応ができていなかった

と言う部分があった。担当者は、一部のサブシステムを停止しようとして間違え、別の範囲も停止させる操作をしてしまった。これが実は基幹的なシステムで他のシステムにも影響を与え、復旧に4時間もかかってしまった。

こう言うことは起きうることなので、何らかの対応はしている。アマゾンもそれはしていたが、今回の操作ミスに対する対策は完全ではなかったようだ。完全と言うのは語弊があるな。できる対応ができていなかったのだそうな。

考えるに、これはAWS側の問題ではない。

  • クラウドしてステムの中に何が存在しているのか、ユーザーはわかるのか?

と言う疑問も残るが。つまり、AWS側としては、中身を把握しているが、ユーザー側が複数のシステムを利用したい時、それぞれのサブシステムがどのクラウドに入っているかわかり得るのか?と言うこと。

AWSの中にはアマゾンのシステムも入っていたようだが。

AWS took a lot of heat when its S3 storage component went down for several hours on Tuesday, and rightly so, but today they published a..

情報源: AWS cloudsplains what happened during S3 storage outage