Identifier les dépendances cachées entre services AWS non visibles dans les schémas
Évaluer les choix de services AWS DR (Route 53 failover, Aurora Global Database, RDS cross-region, S3 Cross-Region Replication, EKS multi-cluster) et proposer des alternatives argumentées
Défendre les recommandations en arbitrant entre coût, délai et complexité opérationnelle
Implémentation IaC & GitOps
Implémenter en Terragrunt :
configurations multi-comptes, multi-régions, modules DRY, orchestration des dépendances entre stacks
Configurer ArgoCD pour les environnements DR :
ApplicationSets multi-cluster, stratégies de sync, gestion des secrets
Mettre en place les pipelines GitLab CI/CD pour la validation IaC et les tests automatisés
Garantir la cohérence GitOps end-to-end :
aucun changement d'infrastructure hors du pipeline
Résilience, Réplication & Failover
Implémenter les mécanismes de réplication selon les services (synchrone/asynchrone) :
données, configurations, secrets
Concevoir et implémenter les procédures de failover et de failback orchestrées
Définir et implémenter les critères de déclenchement du basculement (health checks, alerting, seuils)
Assurer la cohérence des RPO/RTO par application avec les équipes applicatives
Sécurité Cross-Region & Conformité
IAM cross-account, KMS cross-region, VPC peering / Transit Gateway dans le contexte DR
Garantir la conformité des données répliquées :
souveraineté, chiffrement, audit trail
Collaborer avec les équipes sécurité sur les contraintes spécifiques au contexte DR
Testabilité & Documentation
Automatiser les tests de DR :
scénarios de failover répétables et non-destructifs, validation des RTO/RPO atteints
Chaos engineering basique pour valider la résilience en conditions contrôlées
Runbooks de failover/failback exploitables par des équipes ops à 3h du matin en conditions de stress
Architecture Decision Records (ADR) documentant les choix techniques et leurs justifications