Valuable insights
1.Качество важнее количества алертов: Основная цель управления оповещениями — сокращение их общего числа, фокусируясь на повышении качества и релевантности каждого поступающего сигнала для инженера.
2.Усталость от алертов как медицинский феномен: Механизм усталости аналогичен десенсибилизации, наблюдаемой в медицине: постоянное воздействие стрессора приводит к выработке толерантности и снижению реакции.
3.Влияние ложных срабатываний на инженеров: Большинство алертов часто оказываются некритичными или ложноположительными, что приводит к игнорированию действительно важных сообщений и снижению времени реакции.
4.Внимание — конечный когнитивный ресурс: Многозадачность является иллюзией; переключение контекста, вызванное постоянными отвлечениями, является дорогостоящей операцией, повышающей риск ошибок в работе.
5.Строгая классификация критичности обязательна: Необходимо внедрять четкие уровни критичности, как это принято в авиации и медицине, чтобы однозначно определять требуемую скорость реакции на событие.
6.Разделение каналов оповещения по назойливости: Критические алерты должны использовать инвазивные каналы (звонки), в то время как низкоприоритетные оповещения должны доставляться через неназойливые средства (почта).
7.Автоматизация рутинных действий снижает шум: Если реакция на алерт типовая и повторяющаяся, необходимо автоматизировать выполнение этих действий, убирая оповещение из поля зрения инженера.
8.Алерты должны быть краткими и действенными: Текст оповещения должен быть максимально кратким и содержать ссылки на документацию или инструменты, позволяющие немедленно приступить к устранению проблемы.
Введение: Проблема усталости от алертов и аналогии
Выступление посвящено проблеме усталости от алертов (Alert Fatigue), которую докладчик, Виктор Попов из НЛМК, рассматривает с позиции инженера централизованной платформы. Основной акцент делается не на том, как генерировать больше оповещений, а на том, как сделать их качество высоким, минимизируя общее количество поступающих сигналов.
Аналогия с десенсибилизацией
Усталость от алертов имеет корни в медицине, где метод десенсибилизации используется для борьбы с фобиями. Противоположностью страху является скука, и при постоянном воздействии стрессора, которым являются алерты, организм автоматически вырабатывает толерантность, привыкая к постоянному внешнему воздействию.
- Чрезмерное количество поступающих оповещений.
- Большая часть алертов требует ненужных действий или имеет неправильно установленную серьезность.
- Алерты не требуют немедленной реакции, что позволяет отложить их обработку.
Повторение одного и того же аверта оно снижает шанс, что этот алерт отреагирует.
Важно понимать, что проблемы, связанные с алертами, не являются уникальными для IT-сферы. Медицина, например, генерирует огромное количество сигналов от датчиков, и там уже давно разработаны методы борьбы с этой проблемой, что полезно перенять.
Причины, последствия и классификация
Усталость от алертов неизбежно ведет к тому, что важные оповещения пропускаются или игнорируются. Если система постоянно генерирует неважные сообщения, инженер перестает реагировать на вибрацию телефона, воспринимая ее как фоновый шум, что критически снижает время реакции.
Когнитивные ресурсы и многозадачность
Внимание инженера — это конечный когнитивный ресурс. Распространенное убеждение в способности к многозадачности, когда человек одновременно следит за работой, мессенджерами и развлечениями, является иллюзией. Мозг работает в режиме вытесняющей многозадачности, делая переключение контекста очень дорогостоящей операцией.
Встает резонный вопрос о том, как правильно приоритизировать алерты, поскольку часто наблюдается либо переоценка, либо недооценка их важности. Необходимо выработать систему, основанную на том, насколько немедленно требуется реакция.
Система критичности по SRE
Основываясь на рекомендациях, например, из SRE Book, необходимо определить уровни критичности. Для средней инфраструктуры количество Критикал-алертов должно составлять не более нескольких штук в месяц.
Иерархия алертов и отраслевые стандарты
- Критикал (Critical Alerts): Требуют немедленного реагирования, необходимо бросить все дела.
- Хай (High Alerts): Требуют реакции, но не мгновенной, обычно в течение рабочего дня, оформляются тикетами.
- Медиум (Medium), Ворнинг (Warning) и Инфо (Info): Часто являются шумом и могут быть отключены без последствий.
Какой-то мужик со сцены много чем может говорить, а тут целая индустрия есть.
Уроки из авиационной индустрии
Авиация, являясь консервативной отраслью, выработала строгую и стандартизированную систему оповещения для предотвращения катастрофических сбоев, таких как сваливание самолета. Эта система демонстрирует, насколько важно однозначное соответствие между типом оповещения и требуемой реакцией.
Стратегии управления каналами оповещения
Для эффективного управления алертами недостаточно просто присвоить им уровень критичности; необходимо привязать важность к соответствующему каналу оповещения, чтобы обеспечить предсказуемость реакции.
Инвазивные и неинвазивные каналы
Назойливые (инвазивные) алерты — это те, которые вторгаются в личную жизнь и нарушают баланс работы и жизни. К ним относятся прямые звонки и сообщения в личных мессенджерах, таких как Телеграм. Для таких алертов мы сознательно хотим нарушать Work-Life Balance.
- Почта: Читается в удобное время, прекращает работать после окончания рабочего дня.
- Рабочие мессенджеры (например, Slack), если уведомления отключены на ночь.
- Уведомления в системах тикетов для L2 поддержки.
Привязка важности к каналу
По человеческим часам всё в порядке, а по когнитивной нагрузке по стрессу они просто не вывозят эти ваши алерты.
Правила написания эффективных алертов
Оптимизация и написание действенных оповещений
- Краткость: Избегать длинных описаний; писать просто, например: «Сервер упал».
- Actionable (Трансформация для действия): Прикладывать прямые ссылки на документацию или мониторинг для быстрого устранения проблемы.
Структурированное представление
Структура оповещения должна быть единой и позволять читать его по диагонали. Самая важная информация должна располагаться сверху, чтобы инженер мог быстро оценить ситуацию и решить, требуется ли ему углубляться в детали или искать дополнительную информацию по приложенным ссылкам.
Несмотря на наличие мощных инструментов мониторинга, таких как Prometheus и Zabbix, проблема создания качественных алертов остается когнитивной задачей, которую автоматизация пока не заменила.
- Google SRE Book
- Книга «Отвлеченный инцидент-менеджмент»
- System Safety — область знаний о построении безопасных систем.
Ответы на вопросы и выводы
Автоматизация, решающая рутинные задачи, может стать бомбой замедленного действия, если не настроить мониторинг самой автоматизации. В большинстве случаев автоматика решает проблему, но в редких случаях сбоя требуется оповещение о том, что автоматика не сработала.
Фокус на ложноположительных срабатываниях
Ложноположительные срабатывания (False Positives) являются одной из главных причин усталости. Если инженера будят в 4:00 утра, а проблема не стоила того, он будет крайне недоволен, что повышает вероятность игнорирования следующего подобного оповещения.
При обсуждении дублирования критических алертов между каналами (звонок и Телеграм) делается вывод, что прямое дублирование не требуется. Привязка канала и алертов должна быть однозначной, как рефлекс. Текстовое дублирование допустимо только как дополнительный канал для инженера, который уже был оповещен основным способом.
В контексте коммуникации с пользователями во время инцидентов, предпочтение отдается открытости и честному информированию о том, что произошло и когда будет исправлено. Это вызывает лучшую реакцию у пользователей, чем формальные, бездушные сообщения.
Подводя итог, если канал оповещения уходит в мут, он не должен использоваться для критических алертов. Каналы для Ворнингов могут быть менее строгими, но если они часто мутятся, это свидетельствует о проблемах с их настройкой или важностью.
Useful links
These links were generated based on the content of the video to help you deepen your knowledge about the topics discussed.