Text copied to clipboard!

Titel

Text copied to clipboard!

Site Reliability Ingenieur

Beschreibung

Text copied to clipboard!
Wir suchen einen Site Reliability Ingenieur, der für die Sicherstellung der Verfügbarkeit, Zuverlässigkeit und Leistungsfähigkeit unserer IT-Systeme verantwortlich ist. In dieser Rolle arbeiten Sie eng mit Entwicklungsteams zusammen, um robuste und skalierbare Infrastruktur zu entwerfen, zu implementieren und zu warten. Sie überwachen Systeme, analysieren Vorfälle und entwickeln Automatisierungslösungen, um manuelle Prozesse zu minimieren und die Effizienz zu steigern. Ihre Aufgabe ist es, Ausfallzeiten zu minimieren und die Benutzererfahrung durch proaktive Fehlerbehebung und Kapazitätsplanung zu verbessern. Sie sind ein wichtiger Bestandteil unseres Teams, das die Stabilität und Sicherheit unserer Plattform gewährleistet und kontinuierlich an der Optimierung unserer Betriebsabläufe arbeitet. Zudem tragen Sie zur Dokumentation und Schulung bei, um Best Practices im Bereich Site Reliability Engineering zu etablieren und weiterzugeben.

Verantwortlichkeiten

Text copied to clipboard!
  • Überwachung und Wartung der Systemverfügbarkeit und -leistung
  • Automatisierung von Betriebsprozessen und Fehlerbehebung
  • Zusammenarbeit mit Entwicklungsteams zur Verbesserung der Systemarchitektur
  • Analyse und Behebung von Systemausfällen und Störungen
  • Kapazitätsplanung und Skalierung der Infrastruktur
  • Implementierung von Sicherheitsmaßnahmen und Compliance-Richtlinien
  • Erstellung und Pflege von Dokumentationen und Betriebsanleitungen
  • Durchführung von Post-Mortem-Analysen nach Vorfällen
  • Optimierung von Monitoring- und Alarmierungssystemen
  • Schulung von Teammitgliedern in Site Reliability Engineering Praktiken

Anforderungen

Text copied to clipboard!
  • Abgeschlossenes Studium im Bereich Informatik oder vergleichbare Qualifikation
  • Erfahrung im Betrieb und der Wartung von verteilten Systemen
  • Kenntnisse in Automatisierungstools wie Ansible, Puppet oder Terraform
  • Erfahrung mit Cloud-Plattformen wie AWS, Azure oder Google Cloud
  • Fundierte Kenntnisse in Linux-Systemadministration
  • Vertrautheit mit Container-Technologien wie Docker und Kubernetes
  • Kenntnisse in Programmiersprachen wie Python, Go oder Bash
  • Erfahrung mit Monitoring- und Logging-Tools wie Prometheus, Grafana oder ELK Stack
  • Problemlösungsfähigkeiten und analytisches Denken
  • Teamfähigkeit und gute Kommunikationsfähigkeiten

Potenzielle Interviewfragen

Text copied to clipboard!
  • Wie gehen Sie mit einem plötzlichen Systemausfall um?
  • Welche Automatisierungstools haben Sie bereits eingesetzt?
  • Wie stellen Sie die Skalierbarkeit einer Anwendung sicher?
  • Beschreiben Sie Ihre Erfahrung mit Cloud-Infrastrukturen.
  • Wie dokumentieren Sie Ihre Betriebsprozesse?
  • Welche Monitoring-Tools bevorzugen Sie und warum?
  • Wie integrieren Sie Sicherheitsaspekte in Ihre Arbeit?
  • Erzählen Sie von einem komplexen Vorfall, den Sie gelöst haben.