About the job Site Reliability Engineer (SRE)
Description du poste:
Lieu : Télétravail à 100 %, fuseau horaire européen (CET ± 2 heures)
Date de début : Dès que possible
Langues : Français et anglais obligatoires
Nous recherchons un(e) Site Reliability Engineer (SRE) expérimenté(e) avec une expertise approfondie sur AWS pour contribuer à la montée en charge et à la sécurisation de notre infrastructure. En tant que SRE, vous jouerez un rôle clé dans la fiabilité, la performance et la scalabilité de nos systèmes en production. Vous collaborerez étroitement avec les équipes dingénierie pour automatiser les opérations, améliorer la supervision et concevoir des systèmes résilients.
Responsabilités
-
Concevoir, mettre en œuvre et maintenir une infrastructure AWS évolutive et résiliente
-
Développer et gérer les pipelines CI/CD et linfrastructure-as-code (Terraform ou équivalent)
-
Mettre en place et optimiser les processus de supervision, dalerting et de gestion des incidents
-
Identifier de manière proactive les problèmes de performance, de fiabilité et de sécurité, et y apporter des solutions
-
Collaborer avec les équipes de développement pour intégrer les meilleures pratiques SRE dans leurs workflows
-
Réaliser des post-mortems et des analyses de causes racines suite aux incidents
-
Participer aux rotations dastreinte pour garantir la disponibilité 24/7 des systèmes
-
Minimum 5 ans dexpérience en tant que SRE ou dans un rôle similaire
-
Expertise avancée des services AWS (EC2, ECS, RDS, Lambda, S3, etc.)
-
Maîtrise des outils dinfrastructure-as-code (Terraform, CloudFormation, etc.)
-
Solide expérience en administration de systèmes Linux et en concepts réseau
-
Compétences en programmation ou scripting (Python, Bash, Go, etc.)
-
Expérience avec des outils CI/CD (GitLab CI, Jenkins, etc.)
-
Connaissance des outils dobservabilité (Prometheus, Grafana, Datadog, etc.)
-
Expérience en orchestration de conteneurs (ECS, EKS ou Kubernetes)
-
Connaissance des bonnes pratiques de sécurité dans les environnements cloud
-
Familiarité avec les cadres de gestion des incidents (SRE handbook, etc.)
-
Télétravail à 100 % avec des horaires flexibles
-
Poste à fort impact, avec autonomie et prise dinitiative
-
Équipe dingénierie internationale et collaborative
-
Stack technologique moderne, avec un fort accent sur la fiabilité et lautomatisation