CrowdStrike dénonce un logiciel de tests défectueux comme cause de la panne mondiale
La mise à jour défectueuse a provoqué une fuite mémoire, déclenchant ainsi une "exception irrécupérable".
TL;DR
- CrowdStrike a attribué un dysfonctionnement logiciel à sa propre mise à jour buguée.
- Le bug a entraîné la défaillance de 8,5 millions de machines Windows mondialement.
- La société a promis d’implémenter de nouvelles mesures pour éviter la répétition de ce problème.
L’erreur de mise à jour de CrowdStrike affecte 8,5 millions de machines Windows
L’entreprise de sécurité informatique, CrowdStrike, a récemment reconnu sa responsabilité dans la défaillance de 8,5 millions de machines Windows à travers le monde, suite à une mise à jour défectueuse. Celle-ci a provoqué ce qu’on appelle communément le BSOD (Blue Screen of Death), obligeant ainsi les machines Windows à entrer dans une boucle de redémarrage sans fin.
Le dysfonctionnement et ses victimes
Parmi les victimes de cette défaillance massive, on note des entreprises à l’échelle mondiale telles que des compagnies aériennes, des diffuseurs de télévision, la Bourse de Londres et bien d’autres. Certains, comme la compagnie aérienne Delta, sont toujours en phase de récupération. Il est important de noter que seuls les ordinateurs équipés de Windows étaient touchés.
La validation malencontreuse d’une mise à jour
Selon un post incident review (PIR) publié par la société, le coupable serait un bug dans le logiciel de test. « En raison d’un bug dans le Content Validator, l’une des deux mises à jour a passé la validation malgré des données problématiques », a déclaré la société.
En fait, la défaillance est due à l’un des deux nouveaux « Template Instances » déployés le 19 juillet, qui, bien qu’étant simplement de taille de 40 Ko, contenait ces données problématiques et a passé la validation. Suite à cela, une anomalie a été déclenchée dans le système d’exploitation Windows, entraînant son plantage.
Des mesures préventives en vue
Après ce fiasco, CrowdStrike a promis de prendre plusieurs mesures pour éviter qu’un incident similaire ne se produise à l’avenir. Parmi ces mesures figurent des tests plus rigoureux du contenu de la réponse rapide, incluant des tests de développement locaux, des tests de mise à jour et de retour en arrière, des tests de résistance et de stabilité, ainsi qu’une amélioration de la gestion des erreurs.
Néanmoins, des ingénieurs et analystes estiment que ces mesures auraient dû être mises en place dès le début. « CrowdStrike aurait dû être conscient que ces mises à jour sont interprétées par les pilotes et peuvent causer des problèmes », commente l’ingénieur Florian Roth.