Роняем прод, чтобы стать сильнее. Всё о Chaos Engineering | «В SREду на кухне» | AvitoTech

Аватар автора
В этом выпуске говорим о том, что на самом деле стоит за Chaos Engineering. Разбираем, как компании сознательно создают сбои, чтобы проверить надёжность инфраструктуры и готовность команд к инцидентам. Обсуждаем: — чем Chaos Engineering отличается от нагрузочного тестирования — кто принимает решение «ломать прод» — можно ли делать chaos без SLO — как хаос связан с инженерной культурой — есть ли у Chaos Engineering реальный ROI — тестируем ли мы систему или людей Ведущие Андрей Волхонский, руководитель юнита System в Центре разработки инфраструктуры Авито Михаил Савин, SRE Community Lead в Авито Илья Садыков, старший инженер команды TestOps Гость Дмитрий Баскаков, Head of Platform в MindBox 00:00:00 Тизер 00:01:04 Chaos Engineering простыми словами 00:02:38 Чем хаос-тесты отличаются от нагрузочного тестирования 00:03:08 Почему без инженерной культуры хаос не работает 00:05:32 Сложность современных систем 00:06:38 Первые хаос-эксперименты: выключаем сервис 00:09:22 Кто должен запускать хаос-тесты 00:11:16 Планирование экспериментов и ответственность команд 00:12:27 Инструменты и платформенные команды 00:13:25 Как часто нужно запускать хаос-тесты 00:14:18 Автоматизация экспериментов 00:14:37 Почему глобальные тесты могут сломать всё 00:15:29 Реальные кейсы хаос-тестирования 00:16:29 Chaos Engineering как контроль качества 00:17:40 Какие инструменты нужны для хаос-инженерии 00:19:07 Почему важна blameless-культура 00:20:52 Error budget и хаос-эксперименты 00:22:13 Как...

0/0


0/0

0/0

0/0

0/0