Valuable insights
1.Параллели между управлением домом и SRE: Базовые принципы эксплуатации сложных систем, такие как обслуживание, бесперебойность и безопасность, применимы как к многоквартирным домам, так и к IT-инфраструктуре.
2.Кросс-функциональность команды эксплуатации: Эффективная команда должна включать инженеров разного профиля, работать над общими целями и иметь четкую матрицу компетенций, избегая изолированной ответственности.
3.Делегирование ответственности лидеру: Принятие решений следует делегировать заинтересованному лидеру, который несет ответственность за результат, а не полагаться на анонимные роли в команде.
4.Применение Change Management в ЖКХ: Плановые работы, такие как уборка снега или ремонт, требуют формализованных процессов: календаря работ, планов отката и определения порогов успеха.
5.Наблюдаемость и понимание SLO: Необходимо измерять не только технические показатели, но и понимать, как оказываемые услуги влияют на комфорт пользователей, определяя четкие SLO и SLA.
6.Важность документирования инцидентов: Способность восстановить хронологию сбоев и наличие четких инструкций по восстановлению (Runbooks) критически важны для минимизации времени простоя.
7.Принцип 'Agree and Commit': После принятия стратегического решения, даже меньшинство должно следовать ему. Это обеспечивает последовательность выполнения планов, в отличие от постоянного саботажа.
Введение: Параллели между ЖКХ и IT
Докладчик представил опыт эксплуатации инженерных систем многоквартирного дома, проводя параллели с принципами SRE. В многоквартирных домах, где проживает большинство россиян, эксплуатация систем водоснабжения, отопления и электричества требует грамотного сопровождения на протяжении всего жизненного цикла строения.
Организационная структура ЖКХ и IT
Организационная структура жилищно-коммунального хозяйства имеет прямые аналоги в IT. Управляющие компании (УК) выступают службами эксплуатации, отчитывающимися перед жилищной инспекцией (аналог QA). Ресурсные компании сравнимы с поставщиками внешних услуг. Роль жильцов выполняют конечные пользователи, а старший по дому соответствует специалисту, внедряющему SRE-практики для обеспечения надежности и обучения всех участников.
- Регулярное обслуживание и настройка систем.
- Обеспечение бесперебойности работы (круглосуточное наблюдение).
- Защита от проникновения или утечек информации.
- Готовность к решению непредвиденных проблем и восстановлению после сбоев.
Сходства и различия в эксплуатации систем
Эксплуатация домов и компьютерных систем имеет общую основу в виде необходимости поддерживать работоспособность сложных инфраструктур. Обе сферы требуют непрерывного наблюдения, чтобы системы не прекращали работу, например, система отопления должна функционировать круглосуточно зимой. Безопасность, будь то защита от проникновения в здание или защита от утечек данных, также входит в обязанности службы эксплуатации.
Ключевые отличия предметных областей
Существуют очевидные различия в задачах и подходах. Эксплуатация домов связана с физическим пространством и требует знаний в области строительства, сантехники и электрики. IT-эксплуатация нуждается в знаниях разработки и тестирования. Кроме того, обновление программного обеспечения происходит значительно чаще, чем полная модернизация здания, которая часто является дорогостоящей.
Несмотря на различия, в основе обеих сфер лежит менеджмент и инженерия. Масштаб в России, где насчитывается порядка 14 млн домов, позволяет нивелировать некоторые различия, поскольку принципы управления остаются схожими.
История 1: Управляющая компания и кросс-функциональность
При выборе новой управляющей компании для сорокавосьмиквартирного дома возник вопрос о необходимых компетенциях. Изначально предполагалось, что достаточно иметь штат инженеров разного профиля (сантехник, электрик) с определенными квалификационными категориями и инструментами, например, грейдером для чистки снега. Предпочтение отдали небольшой компании, обслуживающей всего десять домов.
Ошибки изолированной работы
Первая совместная задача — ремонт подъезда — была провалена. Проблема заключалась в том, что каждый специалист (плиточник, маляр, электрик) отвечал только за свою зону ответственности и работал изолированно. Это стало очевидной ошибкой управления, требующей перехода к по-настоящему кросс-функциональной команде.
Для решения проблемы команда должна быть по-настоящему кросс-функциональной.
- Включение инженеров разного профиля.
- Наличие матрицы грейдов, отражающей владение инструментами.
- Использование технологического радара и составление карт компетенций (стар-мапов).
- Небольшой размер (не более десяти человек) для эффективной коммуникации.
- Наличие общих целей и ценностей (например, с использованием Тим Канваса).
История 2: Голуби и делегирование лидерства
Проблема с голубями, гнездившимися на открытом балконе лестничной клетки, решалась собственницей на протяжении 12 лет безуспешно. После прихода председателя ТСЖ вопрос был решен за один день путем закупки и монтажа полимерных сеток из бюджета дома.
Принцип ответственного исполнителя
Любой процесс должен иметь ответственного исполнителя. Принятие решения должно быть делегировано именно заинтересованному лидеру за вознаграждение, что в иерархических структурах должно быть должностью, а не просто ролью. Иначе результат становится «ничьим», нарушая принцип прямой ответственности, что отличается от культуры blameless.
Принятие решения должно быть делегировано именно заинтересованному лидеру за вознаграждение.
История 3: Капитальный ремонт и принятие решений
Ежегодное голосование собственников по проектам текущего и капитального ремонта — это сложный бюрократический процесс, включающий формирование повестки, сбор подписей и публикацию итогов. Изначально эта бюрократия казалась неэффективной, но со временем была оценена ее ценность для управления стратегией развития инфраструктуры.
Важность повестки и протоколирования
Встречи по развитию инфраструктуры должны проводиться совместно, чтобы все заинтересованные стороны могли влиять на стратегию. Перед встречей обязательно формируется повестка и критерии успеха, поскольку очные собрания очень дороги и ресурсоемки. Рекомендуется вести протокол, желательно в режиме стенографии, который затем можно хранить, например, в Confluence для легкого поиска.
После подведения итогов важно следовать принципу agree and commit. В мире ЖКХ меньшинство обязано выполнять решение о замене стояка, даже если было не согласно. В IT-культуре этот принцип соблюдается не всегда, что замедляет реализацию принятых большинством планов.
История 4: Лавочки, двери и прозрачность коммуникаций
Даже продуманная стратегия может потерпеть неудачу из-за саботажа на местах. В позапрошлом году входная домофонная дверь постоянно оставалась открытой, так как один из жильцов открывал ее для пожилых людей, мотивируя это отсутствием лавочки у подъезда. Решение проблемы было найдено в установке лавочек, после чего дверь стала закрываться.
Каналы для разногласий и обратной связи
Для решения разногласий в команде критически важно поддерживать правильные коммуникации, используя организованные синхронные и асинхронные встречи. Полезной практикой является ведение единой Канбан-доски или системы тикетов, где каждый может следить за прогрессом, что повышает доверие пользователей.
- Публикация объявлений, новостей и материалов на открытом интернет-сайте.
- Ведение дел открыто и прозрачно.
- Использование единых систем управления задачами.
Нет ни одной разумной причины создавать общедомовые чаты. Коммуникации всех со всеми неэффективны.
История 5: Термометр и наблюдаемость
Жительница первого этажа регулярно жаловалась на холод в квартире, будучи готовой подать в суд. Проверка с поверенным термометром показала, что температура в норме. Выяснилось, что проблема заключалась в деревянном стеклопакете со щелями, а не в отопительной системе. Причина — непонимание пользователем норм оказываемых услуг.
Измерение качества предоставляемых услуг
Команды SRE должны делать свои системы наблюдаемыми, разделяя индикаторы на технические, пользовательские и бизнес-метрики. Важно понимать пороги обслуживания (SLA) и санкции за их невыполнение. Регулярное ревью показателей, например, SLO Weekly review, позволяет отслеживать влияние изменений.
Для обеспечения качества выбираются цели, не слишком низкие и не слишком высокие. Например, в инфраструктуре сервисы делятся на тиры, к которым предъявляются разные требования. Также важно готовить системы к высокому сезону, автоматизируя запуск нагрузочных тестов на основе SLO и собирая единый граф-дашборд для наблюдения.
История 6: Уборка снега и управление изменениями
Плановые работы по уборке снега с использованием грейдера провалились, поскольку объявления в подъезде не гарантировали, что жильцы уберут машины. Это выявило недостаточную подготовку к плановым работам, когда несколько задач выполняются параллельно на одном объекте. Необходимо применять процессы чейнж менеджмента.
Процессы управления изменениями (Change Management)
Самый простой рецепт — следовать процессам Change Management. В первую очередь, заводится общий календарь плановых работ, что увеличивает прозрачность и предотвращает пересечения задач. Правильно организованные работы должны иметь не только план наката, но и четкий план отката, что часто недооценивается.
- Общий календарь плановых работ для предотвращения пересечений.
- Анализ временных слотов с разной степенью риска для категорирования работ.
- Составление плана отката, который очевиден всем участникам.
- Определение пороговых величин для признания работ успешными или неуспешными.
Как ресурсные компании проводят гидравлические испытания летом, так и IT-компаниям стоит готовить проекты к высокому сезону. Важно автоматизировать запуск нагрузочных тестов и генерировать единый дашборд для наблюдения за поведением системы под нагрузкой, чтобы отслеживать как улучшения, так и ухудшения, привнесенные разработкой.
История 7: Потоп и работа с инцидентами
Регулярные протечки в доме приводили к серьезным проблемам. В случае прорыва трубы на двенадцатом этаже возникли сложности с поиском диспетчерской, доступом сантехника в подвал и последующей заменой испорченного фрагмента трубы. Это демонстрирует отсутствие готовности к инцидентам, аналогично тому, как если бы не удалось найти вора аккумулятора, несмотря на наличие камер.
Готовность к инцидентам и документация
В случае возникновения инцидента необходимо быть способным восстановить хронологию событий. Команды, практикующие SRE, должны уметь грамотно работать с инцидентами, используя метрики, логи и трейсы для понимания происходящего. Обязательно наличие дежурств (on-call) для оперативного реагирования и выделения инженера на прерывания.
Инструкции по восстановлению (Runbooks) рекомендуется вести в статических сайт-генераторах, что позволяет проводить их ревью и автоматизированные проверки. После инцидента необходимо писать постмортемы, анализируя опыт и извлекая уроки. Также полезно проводить учения согласно подходу хаос-инжиниринга для проверки гипотез по отказоустойчивости.
Заключение и ответы на вопросы
Подводя итог, рекомендуется чаще оглядываться по сторонам в поисках вдохновения, поскольку многие инженерные сферы уже выработали подходы, позволяющие делать системы надежными. В мире ЖКХ многие процессы, такие как ведение протоколов и открытость, являются обязательными по закону, что обеспечивает их выполнение, в отличие от добровольного внедрения SRE-практик в IT.
Ответы на вопросы аудитории
В реальной жизни в ТСЖ все процессы выполняет один человек — председатель, который является и бухгалтером, и инженером, и юристом. В IT не стоит повторять такой подвиг; рекомендуется делать это частью функций выделенной SRE-команды или практикой кросс-функциональной команды. Модель сравнения ЖКХ и IT не всегда полна и не учитывает, например, влияние топ-менеджеров или бухгалтеров на разработку.
Лидер, ответственный за результат команды, должен иметь делегированные функции управления и развития. В ТСЖ такая «дрим-тим» включала специалиста по IT, юриста, специалиста по пожарной безопасности и затейника, но ответственность за результат нес один человек. Важно, чтобы ментальные модели инженеров не были полностью синхронизированы, сохраняя возможность взгляда на систему с разных сторон.
Useful links
These links were generated based on the content of the video to help you deepen your knowledge about the topics discussed.