«У нас уже заканчивается бюджет на ошибки» – или почему DevOps не хватает?

Мониторинг есть, алерты настроены, контейнеры крутятся. Но внезапно прод лёг. Почему?

На Highload++ мы поговорили с Антоном Быстровым, техлидом SRE в Cloud.ru, о том, чем Site Reliability Engineering отличается от DevOps и почему 100% аптайм – это не главное. Разбираем должен ли SRE-инженер писать на всех языках сразу по ссылочкам