Le Cloud d'Amazon est hors service
par Orianne Vatin, le 22 avril 2011 03:40
L'infrastructure Cloud d'Amazon connaît une panne sévère depuis la nuit dernière (heure américaine), qui a un impact sur de nombreux services en ligne et se poursuit encore à l'heure actuelle.
A partir de deux heures du matin (heure locale), le service EC2 (Amazon Elastic Compute Cloud) a été signalé comme très perturbé. Ce qui a mis sans dessus dessous Amazon Web Services, mais également les applications et services d'autres compagnies qui s'appuient fortement sur ces technologies (dont Foursquare, Quora, le Cydia Store, Hootsuite, etc.). Une énorme pagaille virtuelle, qui affecte des centaines de milliers de personnes, et qui n'est toujours pas entièrement résolue.
Concrètement, les sites concernés (hébergés sur EC2) rencontrent des temps de connexion allongés, mais aussi des affichages de pages d'erreur intempestives.
Très rapidement, la console de suivi d'état des datacenters d'Amazon Web Services à confirmé les problèmes sur de nombreuses Availability Zones, dont l'origine réside en des malfonctions des bases de données relationnelles hébergées sur le datacenter principal du service, qui se trouve en Virginie (USA).
L'évolution de la situation semble incertaine, après déjà plus de douze heures de perturbations. En effet, des dysfonctionnements supplémentaires seraient apparus sur d'autres services d'Amazon, comme Elastic Beanstalk ou Cloudwatch.
Ainsi, à 08h12 (heure de la côte Est des Etats-Unis), Amazon publiait ceci : «Malgré les efforts ininterrompus de l'équipe pour résoudre les problèmes, nous n'avons fait aucun progrès significatif pour les instances de bases de données affectées. Les requêtes Create et Restore pour les instances RDS ne fonctionnent pas dans la région US-EAST-1».
A l'heure où ces lignes sont écrites, il semble cependant que la situation progresse dans le bon sens. Amazon dit avoir avancé dans la stabilisation des services de contrôle EBS concernés, et dans la résolution des autres problèmes également. Si ils récupèrent lentement, il n'est malgré tout pas encore possible pour la firme d'annoncer sous quel délai tout sera rétabli.
Pour les bases de données, les conseils suivants sont donnés : ne pas tenter de les restaurer avec les APIs Restore ou Reboot, et ne pas créer un snapshot utilisateur pour les instances RDS (car ces requêtes ne sont pas réalisables actuellement). D'ailleurs, l'accès à ces dernières est en train d'être restauré, et les latences sont réduites.
Amazon ajoute que les instances touchées ne seront pas facturées, et promet de décrire en détails le problème lorsqu'il sera résolu, et que son autopsie aura été réalisée.