Nous recherchons un(e) Ops Engineer / SRE confirmé(e) pour renforcer une équipe Accompagnement Résilience dédiée à l’amélioration de la fiabilité, performance et résilience de services numériques à fort trafic, dans un environnement Cloud natif (AWS).
Contexte / Équipe
Équipe orientée SRE composée de :
2 Ops Engineers
1 Lead Résilience
Support transverse :
Product Manager / Product Owner / Agile Master
Assets pilotés :
Tests de charge & performance :
Gatling
Chaos engineering :
Gremlin
SLO :
Datadog
Audits de résilience auprès des équipes internes
Enjeux :
accompagnement, industrialisation et gouvernance des pratiques de résilience, avec une attention forte à l’équilibre performance / fiabilité / coûts.
Missions
En tant qu’Ops Engineerconfirmé(e), vous intervenez sur :
Définition et pilotage des SLO/SLI (mise en place, suivi, dashboards)
Industrialisation des processus de déploiement / exploitation (CI/CD, automatisation)
Réalisation et restitution d’audits de résilience (analyse + recommandations actionnables)
Exploitation & optimisation AWS dans une logique SRE
Challenge des équipes sur leurs choix techniques & architecturaux
Propositions d’optimisation performance / coût
Administration & maintien des outils (Gatling, Gremlin, dashboards SLO)
Contribution aux analyses d’incidents et post-mortem
Livrables
Scripts d’automatisation / industrialisation
Tableaux de bord SLO & indicateurs Cloud
Configurations et scénarios de tests (charge, chaos)
Documentation d’exploitation, guides, procédures de résilience