Vous avez méticuleusement suivi les bonnes pratiques pour votre configuration cloud AWS : vos serveurs sont hautement disponibles, répartis sur plusieurs centres de données (zones de disponibilité dans AWS), la plupart de vos applications sont sans état et disposent de plusieurs réplicas, et vous avez trafic entrant provenant d'un équilibreur de charge ciblant les différents types de serveurs que vous avez configurés. Vous vous sentez en sécurité et prêt à gérer plus de clients.
Cependant, lors d'une réunion de direction, quelqu'un demande :
L'année dernière, la région X a connu une panne pendant plus de Y heures pour le service D. Nos clients seraient-ils affectés si cela se reproduisait ?
La question est généralement posée à un niveau très élevé et ne concerne pas spécifiquement votre configuration spécifique et ses composants sous-jacents.
Vous marmonnez donc quelques choses sur être HA, le SLA commercial, les temps d'arrêt faibles et la capacité de récupérer rapidement. , et comme la vie a été incroyable depuis que vous n'avez jamais été déprimé, tout en transpirant. Vous n'avez pas répondu, mais vous espérez que leur confiance en vous est suffisante. Mais au fond, vous savez que vous ne dormirez plus aussi bien qu'avant.
Décomposons la question en :
Que s'est-il passé l'année dernière ?
Pourquoi est-ce important ?
Devez-vous le planifier ?
Que s'est-il passé l'année dernière ?
L'année dernière, votre entreprise a subi les effets d'une catastrophe, qui répondent généralement aux critères suivants : impact généralisé, imprévisibilité et nécessité d'efforts de rétablissement substantiels.
Par exemple, en 2020, la région AWS US-East-1 a connu une panne qui a affecté plusieurs services, entraînant une perturbation généralisée pour les entreprises qui dépendaient de cette région pour leur infrastructure cloud.
Voici des exemples typiques de catastrophes pouvant affecter votre infrastructure cloud :
Catastrophes naturelles telles que les ouragans, les tremblements de terre ou les inondations.
Catastrophes d'origine humaine telles que cyberattaques, attaques terroristes ou pannes de courant.
L'impact va au-delà de l'infrastructure, affectant vos équipes, vos clients et même vos actionnaires.
Pourquoi est-ce important ?
Bien qu'il soit facile d'écarter la possibilité d'un sinistre affectant votre entreprise, surtout si vous n'avez rencontré aucun problème par le passé, il est important d'en comprendre les conséquences potentielles.
Nous n'avons jamais eu de problème ces dernières années... alors pourquoi me soucierais-je d'un événement peu impair ?
Parce que ce qui peut arriver arrivera." -- disent les gars intelligents.
Plus sérieusement, l'impact d'une catastrophe peut être considérable, affectant non seulement votre infrastructure mais également vos équipes, vos clients et même vos actionnaires.
Par exemple, un petit détaillant en ligne qui s'appuie sur AWS pour héberger son site Web et gérer son inventaire pourrait être gravement touché en cas de panne. Même quelques heures d'arrêt pendant une saison de magasinage chargée pourraient entraîner des milliers de dollars de ventes perdues, sans parler des dommages potentiels à la réputation de l'entreprise si les clients ne peuvent pas accéder au site ou finaliser leurs achats.
De plus, à l'ère des médias sociaux, la nouvelle de votre temps d'arrêt peut se propager rapidement, entraînant une perte de confiance des clients qui peut avoir des effets à long terme.
Voici des exemples de catastrophes antérieures qui ont touché différentes entreprises et leurs effets sur leurs équipes, leurs clients et leurs actionnaires :
En 2017, une grande compagnie aérienne a connu une panne informatique mondiale qui a bloqué 75 000 passagers, ce qui a coûté à l'entreprise environ 100 millions de dollars et nui à sa réputation.
Une petite entreprise de commerce électronique a connu une panne pendant le Black Friday, entraînant une perte de ventes et une réputation ternie, car des clients frustrés se sont tournés vers les réseaux sociaux pour exprimer leur mécontentement.
Voulez-vous être l'un d'entre eux ? Peut être pas; peut-être pensez-vous que vous êtes également trop petit pour vous en soucier, mais comme le montrent les exemples, les entreprises de toutes tailles peuvent être affectées.
Et rappelez-vous que :
Cela va au-delà de l'infra... affectant vos équipes, vos clients et même vos actionnaires
Devriez-vous le planifier ?
Mais qu'en est-il du coût ? Quand j'entends "coût", Je le décompose en deux types différents : le coût monétaire et le coût de réputation. Êtes-vous prêt à souffrir d'une mauvaise réputation auprès de vos actionnaires et utilisateurs en économisant davantage d'argent ?
Ou utilisez de l'argent pour conserver ou améliorer votre réputation. Il est important de comprendre que dépenser de l'argent pour la reprise après sinistre n'est pas seulement une dépense ; c'est un investissement dans la résilience et la réputation de votre entreprise. En ce sens, cela s'apparente à la souscription d'une assurance.
Tout comme vous assureriez les actifs physiques de votre entreprise contre l'incendie, le vol ou d'autres catastrophes, il est crucial d'investir dans un plan de reprise après sinistre pour protéger vos actifs numériques et assurer la continuité de vos activités.
Cet investissement peut vous aider à éviter les coûts potentiellement catastrophiques associés aux temps d'arrêt, à la perte de données et à l'atteinte à votre réputation.
Alors, dois-je appeler un courtier d'assurance au téléphone maintenant ?
Pas encore. Tout d'abord, comprenons ce que nous devons savoir.
L'art de se remettre d'une catastrophe est possible et doit être couvert par un plan de reprise après sinistre. Un tel plan comprend :
Évaluation des risques : identifiez les éléments critiques de votre entreprise et les risques qui y sont associés.
Stratégies de récupération : déterminez les meilleures stratégies pour récupérer vos fonctions commerciales critiques.
Élaboration d'un plan : élaborez un plan de rétablissement complet, comprenant les rôles, les responsabilités et les actions à prendre avant, pendant et après une catastrophe.
Tests et maintenance : testez et mettez à jour régulièrement le plan pour vous assurer qu'il reste efficace.
Retour à AWS, pour avoir un bon plan en place, certaines métriques doivent être connues à l'avance. Les plus importants ici sont le RPO (Recovery Point Objective) et le RTO (Recovery Time Objective). En utilisant ces deux éléments, vous pouvez facilement définir quelle stratégie serait logique.
Nous n'entrerons pas dans le détail de chaque stratégie aujourd'hui, mais voici une image intéressante de vos possibilités. Nous ferons bientôt connaissance avec chacun d'eux dans un autre post 😉
Quoi qu'il en soit, la prochaine fois qu'on vous posera cette question lors d'une telle réunion, vous serez en mesure d'éduquer votre public sur la nécessité d'être hautement disponible et d'avoir un plan en cas de catastrophe.
コメント