6月20日、その会社が運営するサーバー上にアップロードされたデータや設定情報、メールデータ等が消失してしまう障害が発生しました。
このニュース、ちょっと追ってみるとエラく重大な事故だとわかりました。サイボーズもこのサーバーを利用していたようで、うっかりするとひつの会社がすっ飛んじゃうかもしれない規模です。Twitterでもちょっと検索すると悲鳴・怒号が飛び交っている状態で、かなりの深刻さが伺えます。
ファーストサーバの発表は「このたび弊社の提供しております一部サービスにおいて発生いたしました障害により、お客様に多大なご迷惑とご心配をおかけしておりますことを、深くお詫び申し上げます。 」との内容で、いまいち深刻味にかけています。
これに対してグループ長のソフトバンクからも全くコメントが無いようで、これに対しても批判が集中していますね。
通常の感覚で考えると、サーバーなんだからバックアップデータから復旧出来るんじゃないかと思うのですが、どうやらバックアップも同時に死んじゃったようです。とんでもない話です。
何故そんなことになっちゃったかというと、プログラムのバグと運用方法に問題があったそうです。
管理プログラムのアップデータにファイル削除コマンドを停止させるための記述漏れ、早い話、全てのファイルを無許可で削除するってコマンドが含まれていたそうです。それをテストマシンで確認したが問題なかったのでメインのマシンとバックアップのマシンに同時にアップデートをかけたそうで、もうこの後は上流から下流までファイルは消えるに任せるしか無いわけですね。
削除といってもディレクトリの削除のみならデータ救出できそうな気もしますが、どうだったのでしょう?噂ではその後の処理でも不適切な処置があり、ことさら復旧できなくしてしまったのだとか・・・噂ですけど。
さて、この事故を受けて、僕自身が教訓として捉えるべきことを書きだしておきます。
◎重要なファイルのバックアップは、必ず複数作成しておくこと。
ローカル、外部メディア、複数のクラウドにバックアップを作成しておけば、もちろん手間は掛かるもののより確実な現状復帰を期待できる。
◎システムの変更は段階的に実施すること。
完璧なシステムは存在しないことを念頭に、常にバックアップを取れる段階的な展開を計算する。これによりより堅固な全体システムを構築できる。
って、システムエンジニアでもない自分がこんなことを書いたのは、データ管理云々だけではなく、現実社会での様々な仕事を進めていく中にこの教訓は生かされると思うからです。
情報の共有が出来ていないがために、進むべき話が頓挫してしまった、とか、あまりに一度に環境を変えてしまったために、結局全てが無駄になってしまったとか…
この事故を対岸の火事と捉えずに、自身の多方面での教訓としたいと思います。
0 件のコメント:
コメントを投稿