Valuable insights
1.Прозрачность формирует доверие пользователей к команде: Пользователи должны узнавать о проблемах от команды первой. Прозрачность, даже в отношении неудач, укрепляет доверие и предотвращает распространение ложной информации.
2.Определение ролей критично для управления инцидентами: Необходимо четко определить роли: Пожарный, Координатор и Лидер коммуникации. Эти роли обеспечивают структурированное и сфокусированное реагирование на сбои.
3.Лидер коммуникации защищает команду от отвлекающих факторов: Эта роль изолирует инженеров, устраняющих проблему, от внешнего шума, включая запросы от высшего руководства, позволяя им сосредоточиться на восстановлении сервиса.
4.Человеческий фактор — симптом системных проблем: Проблемы, приписываемые человеческому фактору, часто являются следствием давно существующих недостатков в процессах. Наказание за ошибки неэффективно, если не исправлена система.
5.Журнал инцидента — основа для передачи эстафеты: Ведение лога инцидента необходимо для документирования решений и результатов. Это обеспечивает плавную передачу ролей между сменами и помогает в последующем анализе.
6.Постмортемы требуют реальных задач для выполнения: Анализ инцидента бесполезен без формализованных, измеримых задач по предотвращению повторения. Публичное обещание исправить проблему конвертируется в доверие только через выполнение этих задач.
7.Информационный стиль обеспечивает читаемость коммуникаций: Сообщения должны быть краткими, структурированными, интересными и честными. Это уважение к чужому времени и повышение вероятности того, что важное сообщение будет прочитано.
8.Проактивное информирование укрепляет бренд команды: Публикация обзоров новых функций, анонсов работ и ответов на часто задаваемые вопросы показывает ценность работы команды и снижает поток отвлекающих запросов.
Введение: Инженеры и коммуникация
Спикер представляет себя как специалиста, занимающегося PR платформы, несмотря на инженерный контекст команды. Отмечается, что многие технические специалисты испытывают трудности с формулированием своих достижений, неспособные четко описать, что именно ценного было сделано за отчетный период. В рамках доклада определяются пользователи как все, кому предоставляется сервис, включая внутренние команды разработки и других специалистов, использующих платформу. Важно понимать, что опыт основан на коммуникации с технически грамотными пользователями, которые заведомо не являются враждебными, что упрощает построение доверия.
Определение границ применимости опыта
Опыт, которым делится докладчик, не претендует на абсолютную истину, а основан на личной практике в X5 на протяжении полутора лет. Применение изложенных методов требует критического осмысления применимости к конкретным условиям. В контексте пользователей, это могут быть как внешние клиенты, так и 500+ разработчиков и Data Scientists, использующих внутреннюю платформу. Всегда следует помнить о дисклеймере: собственная голова должна применяться для оценки релевантности методов.
Формирование доверия через прозрачность
Первый ключевой аспект — это доверие. В любой системе рано или поздно произойдет инцидент, и важно быть готовым говорить об этом открыто. Технические планы восстановления и отказоустойчивости важны, но не менее важна прозрачность перед пользователями о самой проблеме. Пользователи всегда узнают о сбое, и лучше, если они получат информацию от ответственной команды, а не из слухов.
Траст ми потому что вот надо верить
Последствия сокрытия информации
Если пользователь получает обрывочную информацию о недоступности сервиса, он склонен трактовать ее произвольно, делая выводы, далекие от правды, что немедленно подрывает доверие. Прозрачность заключается в том, чтобы заявить о проблеме первым. Например, в GitLab открыто демонстрируются публичные доски с метриками доступности, включая не самые лучшие показатели. Это формирует доверие, поскольку сервис не заявляет о недостижимых 100% аптайме, а честно сообщает о достигнутых 99.8%.
Потенциал помощи от пользователей
Когда пользователи доверяют компетенции команды и верят в транслируемую правду, они не только не мешают процессу восстановления, но и могут проявить неожиданную компетенцию и оказать помощь в решении инцидента.
Человеческий фактор и принятие ответственности
Человеческий фактор часто называется основной причиной проблем в отрасли, однако это утрирование. Если проблема вызвана человеческим фактором, это, скорее всего, означает, что процессы не были настроены так, чтобы исключить возможность ошибки. Исключая случаи откровенного злого умысла или крайней некомпетентности, необходимо сосредоточиться на устранении системных уязвимостей.
Я никогда никому не вру потому что никого не боюсь только ты лжешь только когда боишься
Выбор между сокрытием и раскрытием
Существует два пути при возникновении инцидента: скрыть проблему, заявив пользователям, что «вам показалось», или раскрыть факт сбоя и сделать выводы. Второй путь требует уверенности в себе и своей компетенции. Уверенность в том, что даже в случае несогласия работодателя специалист найдет новую работу, позволяет работать, а не прикрывать свою ответственность.
Счастье не оставляет шрамов вот инциденты шрамы оставляют
- Рассказывая об инцидентах, команда превращает негативный опыт в обучающий материал.
- Шрамы, оставленные инцидентами, служат ярким напоминанием о необходимости улучшений.
Основы менеджмента инцидентов
В мировой практике существуют документы по менеджменту инцидентов, применимые даже к IT-сбоям. Логика поведения при аварии, даже крупной, транслируется в IT-сферу, требуя схожих, хоть и менее масштабных, действий.
Ключевые роли в управлении инцидентами
На основе SRE-подходов выделяются ключевые роли, необходимые для эффективного реагирования на инциденты. Эти роли должны быть известны и понятны заранее. Чем более автономна и четко прописана роль, тем выше ее эффективность, поскольку это минимизирует необходимость в постоянных согласованиях, что критично в условиях сбоя.
Особенности роли Координатора
Роль координатора не обязательно должна принадлежать самому опытному или высокопоставленному сотруднику. Джуниор-специалист, который не до конца понимает систему, может быть отличным координатором, поскольку эта роль больше связана с софт скиллами — помощью пожарным и синхронизацией их действий. Центр принятия технических решений может находиться вне координатора, например, у одного из пожарных.
Обязанности Лидера коммуникации
Лидер коммуникации отвечает за информирование пользователей о происходящем. Однако его ключевая задача — защита пожарных от прерываний, включая постоянные запросы от руководства, желающего знать, почему теряются деньги. Лидер коммуникации должен сглаживать гнев и негатив, соглашаясь с руководством и предоставляя нужную информацию, чтобы инженеры могли сконцентрироваться на работе.
К сожалению, не стопроцентная есть какие-то большие боссы которым очень интересно почему они теряют деньги прямо сейчас
Передача эстафеты и поддержание работоспособности
Масштаб инцидента определяет необходимость формального разбиения ролей. Для мелких сбоев достаточно одного-двух человек, совмещающих несколько функций. Однако при длительных авариях, занимающих дни, критически важна явная передача эстафеты ролей. Любое недопонимание на этапе смены ответственного может привести к серьезным проблемам, поэтому требуется гарантированное подтверждение приема роли.
- Задачи, которые были выполнены.
- Результаты проведенных исследований.
- Планы на следующий этап работ.
Опасность героизма и роль поддержки
Героизм, когда сотрудник работает 20 часов подряд, часто является признаком нехватки профессионализма в системе. Усталость приводит к ухудшению качества принимаемых решений. Вводится понятие саппорт-роли, которая может взять на себя задачи по обеспечению базовых потребностей команды, например, заказ еды. Это простая задача, которую может выполнить не задействованный в тушении сотрудник, но о которой часто забывают в условиях кризиса.
Коммуникации во время активного инцидента
Во время инцидента важно не молчать, так как в отсутствие информации пользователи склонны придумывать мрачные сценарии. Однако флуд недопустим — необходимо давать регулярный статус, соответствующий заявленным срокам. Если сроки сдвигаются, нужно объяснить причину, чтобы не подорвать доверие к компетенции команды в прогнозировании.
Таргетирование каналов информирования
Коммуникации должны быть максимально таргетированы. Рассылка информации о специфическом инциденте на максимально широкую группу может быть неэффективной. Важно оценивать сроки трезво, так как многократное продление сроков из-за заниженных оценок подрывает доверие к прогнозированию. В случае длительных аварий, если пользователи не получают четкого объяснения причин задержек, возникает вопрос об адекватности занимаемой должности.
Действия после устранения проблемы
После устранения аварии необходимо сообщить статус о том, что все работает, но с какими ограничениями (например, сохраняется проблема с производительностью). Важно указать реалистичные сроки полного возврата в эталонное состояние. Если требуются действия от пользователей (например, перезапуск пайплайнов), они охотнее их выполнят, если доверяют команде и понимают, почему это необходимо.
Постмортем и культура отсутствия обвинений (Blameless)
Написание постмортема — это не формальность, а критически важный процесс, требующий артефактов инцидента, таких как журнал инцидента и записи координатора. В постмортеме важна хронология событий, откуда поступила информация, и, самое главное, какие конкретные шаги предприняты, чтобы подобное больше не повторилось. Если инцидент повторяется по той же причине, проблема заключается в процессах, а не в ошибке.
Принцип «Пяти Почему» в анализе
Для достижения корневой причины используется метод «Пять Почему». Это позволяет докопаться до истинного источника проблемы, который часто представляет собой череду случайностей. Например, удаление основной базы данных произошло потому, что случайно удалили реплику, а это было необходимо для остановки реплики из-за выросшей нагрузки, совпавшей с плановыми работами.
- Хронология событий и источник информации о них.
- Описание предпринятых действий и их результатов.
- Конкретные задачи, направленные на предотвращение повторения инцидента.
Превращение анализа в обещание
Постмортем без реальных задач бесполезен. Публичное освещение проблемы — это публичное обещание, что ситуация не повторится. Задачи из постмортема должны быть реальными, иметь сроки и ответственных, а не быть абстрактными формулировками. Выполнение этих обещаний конвертируется в доверие пользователей, а их невыполнение — в потерю этого доверия.
Проактивная коммуникация и анонсы
Помимо реагирования на инциденты, важно поддерживать доверие через проактивную коммуникацию. Это включает анонсы плановых работ, обзоры новых функций и предупреждения о потенциальных проблемах. Проактивное информирование снижает количество одинаковых вопросов и демонстрирует ценность работы инфраструктурной команды, которая часто воспринимается как «черный ящик».
Анонсирование плановых работ
Анонсы работ должны быть сделаны «с человеческим лицом», объясняя, зачем они нужны и обосновывая срочность. Необходимо четко указывать влияние работ: какие сервисы будут недоступны или какие действия станут невозможными (например, отключение админки Kubernetes). Объяснение пользы (например, появление нового функционала или исправление бага с бэкапами) оправдывает временный простой.
- Анонсы плановых работ с указанием влияния и обоснованием срочности.
- Обзоры новых функций, о которых пользователи могут не знать.
- Предупреждения о грядущих изменениях, которые могут сломать клиентский код (например, смена названия ветки master на main).
Ответы на часто задаваемые вопросы (FAQ)
Если вопрос задается более двух раз, на него стоит ответить массово. Это экономит время команды и снижает уровень стресса. Аналогия с табличкой в туалете в клинике показывает, как простое системное решение устраняет постоянный поток идентичных запросов, делая сотрудников менее задолбанными и ускоряя получение информации пользователями.
Принципы информационного стиля в общении
Ключ к эффективной коммуникации — краткость, которая является сестрой таланта. Необходимо отбрасывать все, что не несет смысла, включая излишнюю вежливость или канцеляризмы. Сообщения должны быть структурированы: одна мысль — один абзац. Это повышает конверсию чтения, так как пользователи сначала считывают жирный текст или заголовки, а затем углубляются в детали, если это необходимо.
Три кита информационного стиля
Информационный стиль базируется на трех принципах: лаконичность (краткость), интерес и честность. Интерес достигается добавлением забавных фактов или шуток (например, о тануки, логотипе GitLab). Честность означает отказ от уверток и прямое освещение проблем, поскольку любая ложь вскроется. Для первичного анализа читаемости текста рекомендуется использовать сервис Главред.ру.
- Сокращать текст, убирая лишние прилагательные и вводные конструкции.
- Использовать структурированные абзацы, где каждый несет одну законченную мысль.
- Включать элементы, делающие текст интересным, например, забавные факты.
Важность честности и ресурсов
Книга «Пиши, сокращай» рекомендуется к прочтению инженерам, поскольку общение с людьми неизбежно. Правильное общение в мессенджерах (сразу изложение проблемы, а не просто «привет») экономит время. Честность в коммуникации гарантирует, что пользователи будут доверять сервису, даже когда возникают сложности.
Заключение: Пользователи как друзья и DevUserOps
В конечном итоге, пользователи являются друзьями команды, даже если они еще не осознали этого. Предоставление лучшего сервиса — это не только высокие показатели аптайма, но и хороший пользовательский опыт (UX) и опыт разработчика (DX). Доверительные отношения позволяют получать ценную обратную связь, которая повышает качество продукта и лояльность.
Концепция DevUserOps
Традиционное разделение Dev/Ops часто приводит к перекидыванию ответственности. В эту конструкцию необходимо добавить пользователя. Предлагается концепция DevUserOps, где фокус смещается на удовлетворение потребностей конечного пользователя. Это гарантирует, что правильность решений будет понята и использована теми, для кого они предназначены, минимизируя ошибки интерпретации.
Useful links
These links were generated based on the content of the video to help you deepen your knowledge about the topics discussed.