Google : les raisons de la panne

[et_pb_section][et_pb_row][et_pb_column type="4_4"][et_pb_text]

Lundi 14 décembre, la majeure partie des services de Google est tombée en panne. Les raisons de ce dysfonctionnement, qui a duré 40 minutes, une éternité pour certains, sont désormais expliquées par le géant de Mountain View, qui désigne comme coupable son systÚme d'authentification.

Le 14 dĂ©cembre, pendant prĂšs de 50 minutes, bon nombre de services Google sont tombĂ©s en rade. Gmail, YouTube, Doc, Drive, Agenda ou encore Sheets, ainsi que certains outils entreprises, Ă  l’instar de Google Cloud Console ou de Google Workspace Ă©taient inaccessibles, tandis que BigQuery et GKE (Google Kubernetes Engine) tournaient au ralenti. Leur point commun ? Tous utilisent le systĂšme d’authentification Google OAuth.

Le service Google User ID gĂšre un identifiant unique pour chaque compte Google ainsi que les informations d'authentification pour les jetons et cookies OAuth. Les donnĂ©es de compte sont stockĂ©es dans une base de donnĂ©es distribuĂ©e qui utilise les protocoles Paxos pour coordonner les mises Ă  jour de ces informations, rejetant les requĂȘtes lorsqu’il dĂ©tecte des donnĂ©es obsolĂštes, sĂ©curitĂ© oblige. 

La faute Ă  Paxos

Cela dit, Google signale qu’il utilise une suite d’outils pour automatiser la gestion des quotas des ressources qu’il alloue Ă  ses diffĂ©rents services. Or, alors qu’il migre vers un nouveau systĂšme de quotas en octobre, certains des anciens Ă©lĂ©ments de quotas sont laissĂ©s en place, signalant Ă  tort l’usage pour l’User ID Service Ă  0. Soit un scĂ©nario dit “à charge nulle” que ne couvrait pas les mĂ©canismes de sĂ©curitĂ© en place. 

AprĂšs une pĂ©riode “de grĂące” sur l’application des restrictions de quotas dans le cadre de cette migration, qui retarde la catastrophe, l’automatisation reprend son cours, avec une soudaine rĂ©duction des quotas des services dont l’utilisation est signalĂ©e Ă  0. Ce qui diminue le quota autorisĂ© pour le service d'identification de l'utilisateur. “Peu de temps aprĂšs, la majoritĂ© des opĂ©rations de lecture sont devenues obsolĂštes, ce qui a entraĂźnĂ© des erreurs lors des recherches d'authentification” Ă©crit Mountain View

“Par consĂ©quent, nous n'avons pas pu vĂ©rifier que les demandes des utilisateurs Ă©taient authentifiĂ©es et affichions des erreurs 5xx sur pratiquement tout le trafic authentifiĂ©â€ poursuit Google. Bilan, des taux d’erreur Ă©levĂ©s sur l’ensemble des services grand public de Google, et sur une partie des outils de Google Cloud. 

[/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]