先日発生したGoogleの大規模障害の原因について

googleは8月20日、Gmailに画像を添付できない等の障害を発生させました。GmailのみならずGoogleの提供する多数のサービスにまたがって一度に発生しました。

wp-content/uploads/img/banner/banner/banner9.jpg photo
google障害の原因


異変に気づかなかった人もいる?

障害は日本時間8月20日午後2時半ぐらいから発生しました。Twitterを見ていたらなんとなく目にはいったので、当方でも告知のために記事にしています。

以下の記事がその内容ですが、Downdetectorという障害発生時のチェックサイトも紹介していますので、一度ご覧になってください。

gmailやgoogleドライブなど8つのサービスに大規模障害発生中!
本日午後あたりからgoogleの提供する8つのサービスに大規模障害が発生中で、復旧のめどが立たない状況が続いています。

大規模障害としていますが、当方ではあまり気になりませんでしたね。でも、当方の調べただけでもGoogleの13のサービスに影響が出ていたようですし、カナダやアメリカの状況も調べてみましたが、やはり障害発生中のようでした。

この障害は、googleの公式アナウンスにより6時間後の午後8時ぐらいには復旧したことがわかりました。

原因

障害がサービス全体に発生していたこと、世界中でおこっていたこと(未確認ですが)などを考えるとかなり根本的な問題とは思っていましたが、原因を端的にいうと、画像や音声などの大容量データをデータベースに格納するためのバイナリ・ラージ・オブジェクト(BLOB)の処理中にエラーが発生し、これを原因としてつぎつぎと他のタスクに波及して、リクエストがキャンセルされたということでした。今時分散処理でしょうからこういったこともかなりレアケースだと思いますが、以前はよく起こっていたことでもあります。

Googleが構じた再発防止策

こういったエラーは原因があるようでないもの。要するにリソースの枯渇ですからその部分のハードウェアの増強しかありませんね。また、具体的な発生場所もわかっていますので、その前後のチェックを強化したというところでしょうか。Gigazineさんが再発防止策を掲載していましたので、そのまま紹介します。

  • 根本原因が完全修復されるまで、BLOBメタデータサービスへの計算リソースの割り当てを増量。
  • メタデータサービスタスクの起動時に実行されるヘルスチェックを調査・改善し、リソースが供給される前にタスクが早期に停止しないよう改善。
  • メタデータ操作が失敗した場合に使用されるバックオフおよび再試行手順の評価・改善。
  • 単体エラー発生によってリソースのレプリケーション全体に取り消し要求が殺到する可能性がある問題の修正。
  • タスクの起動時およびリソース割り当て時の問題を早期検知できるよう、BLOBストレージシステムが使用するオートスケーリングのアラート機能を改善。
  • BLOBストレージサービスへのリクエストに対する包括的なレート制限制御の実装。BLOB操作を効果的にデバッグ可能にする計測機能を追加。
  • タスク間でのリソースの転送の速度、効率、自動化の向上。
  • BLOBストレージサービスのレート制限制御に関する内部マニュアル改善。

Gigazineさんの記事にはさらに詳しい詳細がのっていましたので、ご参照ください。

Google ドライブ・Gmailなどで発生した大規模障害の原因と対策をGoogleが説明
Googleは現地時間の2020年8月19日午後8時55分から2020年8月20日午前3時30分までの間に、Gmail・Google ドライブなどのサービスやG Suite・Google Cloud Platformで発生した大規模なサービス障害について、障害の詳細および原因と対策を発表しました。

以上

\タロイモ(管理人)をフォローする/
タイトルとURLをコピーしました