Text copied to clipboard!
Название
Text copied to clipboard!Инженер по надежности сайтов (SRE)
Описание
Text copied to clipboard!
Мы ищем инженера по надежности сайтов (SRE), который будет отвечать за поддержание высокой доступности, производительности и надежности наших веб-приложений и сервисов. Ваша задача — разработка и внедрение автоматизированных решений для мониторинга, предупреждения и устранения сбоев, а также оптимизация инфраструктуры для обеспечения бесперебойной работы систем. Вы будете тесно сотрудничать с командами разработки и эксплуатации, чтобы выявлять узкие места, анализировать инциденты и внедрять лучшие практики надежности. Важной частью работы является создание и поддержка систем резервного копирования, аварийного восстановления и масштабирования. Мы ценим инициативность, аналитический подход и умение работать в динамичной среде, где качество и стабильность сервисов имеют первостепенное значение.
Обязанности
Text copied to clipboard!- Разработка и поддержка систем мониторинга и алертинга.
- Анализ инцидентов и проведение постмортемов для предотвращения повторных сбоев.
- Оптимизация производительности и масштабируемости сервисов.
- Автоматизация процессов развертывания и управления инфраструктурой.
- Внедрение практик DevOps и CI/CD для повышения эффективности работы.
- Обеспечение безопасности и соответствия стандартам надежности.
- Сотрудничество с командами разработки для улучшения качества кода и архитектуры.
- Поддержка и развитие систем резервного копирования и аварийного восстановления.
- Документирование процессов и создание обучающих материалов.
- Участие в планировании и реализации проектов по улучшению инфраструктуры.
Требования
Text copied to clipboard!- Опыт работы на позиции SRE или в смежных областях не менее 3 лет.
- Глубокие знания Linux и сетевых технологий.
- Опыт работы с системами мониторинга (Prometheus, Grafana, Zabbix и др.).
- Знание инструментов автоматизации (Ansible, Terraform, Jenkins и др.).
- Навыки программирования на Python, Go или других языках.
- Понимание принципов контейнеризации и оркестрации (Docker, Kubernetes).
- Опыт работы с облачными платформами (AWS, GCP, Azure).
- Знание принципов безопасности и защиты данных.
- Умение работать в команде и эффективно коммуницировать.
- Высшее техническое образование.
Возможные вопросы на интервью
Text copied to clipboard!- Опишите ваш опыт работы с системами мониторинга и алертинга.
- Какие инструменты автоматизации вы использовали в предыдущих проектах?
- Как вы подходите к анализу и устранению инцидентов?
- Расскажите о вашем опыте работы с облачными платформами.
- Какие методы масштабирования сервисов вы применяли?
- Как вы обеспечиваете безопасность и надежность инфраструктуры?
- Опишите ситуацию, когда вам пришлось быстро реагировать на критический сбой.
- Какие практики DevOps вы считаете наиболее эффективными?
- Как вы документируете и передаете знания в команде?
- Какие языки программирования вы используете для автоматизации?