Text copied to clipboard!

Titre

Text copied to clipboard!

Ingénieur Fiabilité de Site (SRE)

Description

Text copied to clipboard!
Nous recherchons un Ingénieur Fiabilité de Site (SRE) passionné et expérimenté pour rejoindre notre équipe technologique dynamique. En tant que SRE, vous jouerez un rôle clé dans la conception, la mise en œuvre et la maintenance de systèmes hautement disponibles, évolutifs et performants. Vous travaillerez en étroite collaboration avec les équipes de développement, d'infrastructure et d'exploitation pour garantir que nos services répondent aux normes les plus élevées en matière de fiabilité et de performance. Votre mission principale sera de combler le fossé entre le développement logiciel et les opérations informatiques, en automatisant les processus, en surveillant les systèmes et en résolvant les incidents rapidement. Vous serez responsable de la mise en place de pratiques DevOps, de la gestion des incidents, de l'amélioration continue des systèmes et de la réduction du temps d'indisponibilité. Vous participerez également à la définition des indicateurs de performance clés (SLA, SLO, SLI), à l’analyse des causes profondes des incidents et à la mise en œuvre de solutions durables. Vous contribuerez à la culture de l’ingénierie de fiabilité en partageant vos connaissances et en formant les autres membres de l’équipe. Ce poste est idéal pour un professionnel rigoureux, orienté résultats, avec une forte capacité d’analyse et une passion pour l’automatisation et l’optimisation des systèmes. Si vous aimez résoudre des problèmes complexes, travailler dans un environnement agile et contribuer à la stabilité des services critiques, ce poste est fait pour vous.

Responsabilités

Text copied to clipboard!
  • Assurer la disponibilité, la performance et la fiabilité des systèmes en production
  • Mettre en œuvre des outils de surveillance et d’alerte
  • Automatiser les tâches opérationnelles répétitives
  • Collaborer avec les équipes de développement pour améliorer la résilience des applications
  • Analyser les incidents et mettre en place des actions correctives
  • Définir et suivre les indicateurs de fiabilité (SLA, SLO, SLI)
  • Participer à la gestion des incidents majeurs et aux post-mortems
  • Optimiser les performances des systèmes et des applications
  • Contribuer à la documentation technique et aux procédures opérationnelles
  • Promouvoir les bonnes pratiques DevOps et SRE au sein de l’organisation

Exigences

Text copied to clipboard!
  • Diplôme en informatique, ingénierie ou domaine connexe
  • Expérience avérée en administration système ou en ingénierie logicielle
  • Maîtrise des systèmes Linux/Unix et des outils de scripting (Bash, Python, etc.)
  • Connaissance des outils de surveillance (Prometheus, Grafana, ELK, etc.)
  • Expérience avec les plateformes cloud (AWS, GCP, Azure)
  • Compréhension des principes DevOps et CI/CD
  • Capacité à diagnostiquer et résoudre des problèmes complexes
  • Excellentes compétences en communication et en travail d’équipe
  • Expérience avec les conteneurs et orchestrateurs (Docker, Kubernetes)
  • Maîtrise des bases de données relationnelles et NoSQL

Questions potentielles d'entretien

Text copied to clipboard!
  • Quelle est votre expérience avec les systèmes de surveillance comme Prometheus ou Grafana ?
  • Avez-vous déjà géré des incidents critiques en production ?
  • Comment définissez-vous un SLO et un SLA ?
  • Quelle est votre approche pour automatiser les tâches répétitives ?
  • Avez-vous de l’expérience avec les outils CI/CD ?
  • Comment gérez-vous la communication lors d’un incident majeur ?
  • Quels langages de script maîtrisez-vous ?
  • Quelle est votre expérience avec les environnements cloud ?
  • Comment assurez-vous la sécurité des systèmes que vous gérez ?
  • Avez-vous déjà participé à des post-mortems d’incidents ?