Video thumbnail

    SRE-практики как управление многоквартирным домом / Глеб Гончаров (СберМаркет)

    Valuable insights

    1.Параллели между управлением домом и SRE: Базовые принципы эксплуатации сложных систем, такие как обслуживание, бесперебойность и безопасность, применимы как к многоквартирным домам, так и к IT-инфраструктуре.

    2.Кросс-функциональность команды эксплуатации: Эффективная команда должна включать инженеров разного профиля, работать над общими целями и иметь четкую матрицу компетенций, избегая изолированной ответственности.

    3.Делегирование ответственности лидеру: Принятие решений следует делегировать заинтересованному лидеру, который несет ответственность за результат, а не полагаться на анонимные роли в команде.

    4.Применение Change Management в ЖКХ: Плановые работы, такие как уборка снега или ремонт, требуют формализованных процессов: календаря работ, планов отката и определения порогов успеха.

    5.Наблюдаемость и понимание SLO: Необходимо измерять не только технические показатели, но и понимать, как оказываемые услуги влияют на комфорт пользователей, определяя четкие SLO и SLA.

    6.Важность документирования инцидентов: Способность восстановить хронологию сбоев и наличие четких инструкций по восстановлению (Runbooks) критически важны для минимизации времени простоя.

    7.Принцип 'Agree and Commit': После принятия стратегического решения, даже меньшинство должно следовать ему. Это обеспечивает последовательность выполнения планов, в отличие от постоянного саботажа.

    Введение: Параллели между ЖКХ и IT

    Докладчик представил опыт эксплуатации инженерных систем многоквартирного дома, проводя параллели с принципами SRE. В многоквартирных домах, где проживает большинство россиян, эксплуатация систем водоснабжения, отопления и электричества требует грамотного сопровождения на протяжении всего жизненного цикла строения.

    Организационная структура ЖКХ и IT

    Организационная структура жилищно-коммунального хозяйства имеет прямые аналоги в IT. Управляющие компании (УК) выступают службами эксплуатации, отчитывающимися перед жилищной инспекцией (аналог QA). Ресурсные компании сравнимы с поставщиками внешних услуг. Роль жильцов выполняют конечные пользователи, а старший по дому соответствует специалисту, внедряющему SRE-практики для обеспечения надежности и обучения всех участников.

    • Регулярное обслуживание и настройка систем.
    • Обеспечение бесперебойности работы (круглосуточное наблюдение).
    • Защита от проникновения или утечек информации.
    • Готовность к решению непредвиденных проблем и восстановлению после сбоев.

    Сходства и различия в эксплуатации систем

    Эксплуатация домов и компьютерных систем имеет общую основу в виде необходимости поддерживать работоспособность сложных инфраструктур. Обе сферы требуют непрерывного наблюдения, чтобы системы не прекращали работу, например, система отопления должна функционировать круглосуточно зимой. Безопасность, будь то защита от проникновения в здание или защита от утечек данных, также входит в обязанности службы эксплуатации.

    Ключевые отличия предметных областей

    Существуют очевидные различия в задачах и подходах. Эксплуатация домов связана с физическим пространством и требует знаний в области строительства, сантехники и электрики. IT-эксплуатация нуждается в знаниях разработки и тестирования. Кроме того, обновление программного обеспечения происходит значительно чаще, чем полная модернизация здания, которая часто является дорогостоящей.

    Аспект
    ЖКХ (Дом)
    IT (Система)
    Предметная область
    Физическое пространство, объекты
    Обновление
    Редко и дорого
    Масштабируемость
    Ограничена физическим пространством

    Несмотря на различия, в основе обеих сфер лежит менеджмент и инженерия. Масштаб в России, где насчитывается порядка 14 млн домов, позволяет нивелировать некоторые различия, поскольку принципы управления остаются схожими.

    История 1: Управляющая компания и кросс-функциональность

    При выборе новой управляющей компании для сорокавосьмиквартирного дома возник вопрос о необходимых компетенциях. Изначально предполагалось, что достаточно иметь штат инженеров разного профиля (сантехник, электрик) с определенными квалификационными категориями и инструментами, например, грейдером для чистки снега. Предпочтение отдали небольшой компании, обслуживающей всего десять домов.

    Ошибки изолированной работы

    Первая совместная задача — ремонт подъезда — была провалена. Проблема заключалась в том, что каждый специалист (плиточник, маляр, электрик) отвечал только за свою зону ответственности и работал изолированно. Это стало очевидной ошибкой управления, требующей перехода к по-настоящему кросс-функциональной команде.

    Для решения проблемы команда должна быть по-настоящему кросс-функциональной.
    • Включение инженеров разного профиля.
    • Наличие матрицы грейдов, отражающей владение инструментами.
    • Использование технологического радара и составление карт компетенций (стар-мапов).
    • Небольшой размер (не более десяти человек) для эффективной коммуникации.
    • Наличие общих целей и ценностей (например, с использованием Тим Канваса).

    История 2: Голуби и делегирование лидерства

    Проблема с голубями, гнездившимися на открытом балконе лестничной клетки, решалась собственницей на протяжении 12 лет безуспешно. После прихода председателя ТСЖ вопрос был решен за один день путем закупки и монтажа полимерных сеток из бюджета дома.

    Принцип ответственного исполнителя

    Любой процесс должен иметь ответственного исполнителя. Принятие решения должно быть делегировано именно заинтересованному лидеру за вознаграждение, что в иерархических структурах должно быть должностью, а не просто ролью. Иначе результат становится «ничьим», нарушая принцип прямой ответственности, что отличается от культуры blameless.

    Принятие решения должно быть делегировано именно заинтересованному лидеру за вознаграждение.

    История 3: Капитальный ремонт и принятие решений

    Ежегодное голосование собственников по проектам текущего и капитального ремонта — это сложный бюрократический процесс, включающий формирование повестки, сбор подписей и публикацию итогов. Изначально эта бюрократия казалась неэффективной, но со временем была оценена ее ценность для управления стратегией развития инфраструктуры.

    Важность повестки и протоколирования

    Встречи по развитию инфраструктуры должны проводиться совместно, чтобы все заинтересованные стороны могли влиять на стратегию. Перед встречей обязательно формируется повестка и критерии успеха, поскольку очные собрания очень дороги и ресурсоемки. Рекомендуется вести протокол, желательно в режиме стенографии, который затем можно хранить, например, в Confluence для легкого поиска.

    Сфера
    Принцип учета голоса
    ЖКХ
    Голос учитывается согласно доле владения площадью
    IT (Стратегия)
    Вес голоса старших инженеров должен быть выше веса начинающих разработчиков

    После подведения итогов важно следовать принципу agree and commit. В мире ЖКХ меньшинство обязано выполнять решение о замене стояка, даже если было не согласно. В IT-культуре этот принцип соблюдается не всегда, что замедляет реализацию принятых большинством планов.

    История 4: Лавочки, двери и прозрачность коммуникаций

    Даже продуманная стратегия может потерпеть неудачу из-за саботажа на местах. В позапрошлом году входная домофонная дверь постоянно оставалась открытой, так как один из жильцов открывал ее для пожилых людей, мотивируя это отсутствием лавочки у подъезда. Решение проблемы было найдено в установке лавочек, после чего дверь стала закрываться.

    Каналы для разногласий и обратной связи

    Для решения разногласий в команде критически важно поддерживать правильные коммуникации, используя организованные синхронные и асинхронные встречи. Полезной практикой является ведение единой Канбан-доски или системы тикетов, где каждый может следить за прогрессом, что повышает доверие пользователей.

    • Публикация объявлений, новостей и материалов на открытом интернет-сайте.
    • Ведение дел открыто и прозрачно.
    • Использование единых систем управления задачами.
    Нет ни одной разумной причины создавать общедомовые чаты. Коммуникации всех со всеми неэффективны.

    История 5: Термометр и наблюдаемость

    Жительница первого этажа регулярно жаловалась на холод в квартире, будучи готовой подать в суд. Проверка с поверенным термометром показала, что температура в норме. Выяснилось, что проблема заключалась в деревянном стеклопакете со щелями, а не в отопительной системе. Причина — непонимание пользователем норм оказываемых услуг.

    Измерение качества предоставляемых услуг

    Команды SRE должны делать свои системы наблюдаемыми, разделяя индикаторы на технические, пользовательские и бизнес-метрики. Важно понимать пороги обслуживания (SLA) и санкции за их невыполнение. Регулярное ревью показателей, например, SLO Weekly review, позволяет отслеживать влияние изменений.

    Компонент
    Примеры инструментов/Практики
    Сбор телеметрии
    Измерение SLO
    Использование SLO Burn Rate Time в контейнерной среде
    Структура качества
    Разделение сервисов на категории (тиры)

    Для обеспечения качества выбираются цели, не слишком низкие и не слишком высокие. Например, в инфраструктуре сервисы делятся на тиры, к которым предъявляются разные требования. Также важно готовить системы к высокому сезону, автоматизируя запуск нагрузочных тестов на основе SLO и собирая единый граф-дашборд для наблюдения.

    История 6: Уборка снега и управление изменениями

    Плановые работы по уборке снега с использованием грейдера провалились, поскольку объявления в подъезде не гарантировали, что жильцы уберут машины. Это выявило недостаточную подготовку к плановым работам, когда несколько задач выполняются параллельно на одном объекте. Необходимо применять процессы чейнж менеджмента.

    Процессы управления изменениями (Change Management)

    Самый простой рецепт — следовать процессам Change Management. В первую очередь, заводится общий календарь плановых работ, что увеличивает прозрачность и предотвращает пересечения задач. Правильно организованные работы должны иметь не только план наката, но и четкий план отката, что часто недооценивается.

    • Общий календарь плановых работ для предотвращения пересечений.
    • Анализ временных слотов с разной степенью риска для категорирования работ.
    • Составление плана отката, который очевиден всем участникам.
    • Определение пороговых величин для признания работ успешными или неуспешными.

    Как ресурсные компании проводят гидравлические испытания летом, так и IT-компаниям стоит готовить проекты к высокому сезону. Важно автоматизировать запуск нагрузочных тестов и генерировать единый дашборд для наблюдения за поведением системы под нагрузкой, чтобы отслеживать как улучшения, так и ухудшения, привнесенные разработкой.

    История 7: Потоп и работа с инцидентами

    Регулярные протечки в доме приводили к серьезным проблемам. В случае прорыва трубы на двенадцатом этаже возникли сложности с поиском диспетчерской, доступом сантехника в подвал и последующей заменой испорченного фрагмента трубы. Это демонстрирует отсутствие готовности к инцидентам, аналогично тому, как если бы не удалось найти вора аккумулятора, несмотря на наличие камер.

    Готовность к инцидентам и документация

    В случае возникновения инцидента необходимо быть способным восстановить хронологию событий. Команды, практикующие SRE, должны уметь грамотно работать с инцидентами, используя метрики, логи и трейсы для понимания происходящего. Обязательно наличие дежурств (on-call) для оперативного реагирования и выделения инженера на прерывания.

    Аспект
    ЖКХ
    IT
    Безопасность
    Соблюдение СанПиН, пожарная безопасность
    Мониторинг
    Диспетчерская, контроль температуры
    Реагирование
    Наличие списка важных контактов, Runbooks

    Инструкции по восстановлению (Runbooks) рекомендуется вести в статических сайт-генераторах, что позволяет проводить их ревью и автоматизированные проверки. После инцидента необходимо писать постмортемы, анализируя опыт и извлекая уроки. Также полезно проводить учения согласно подходу хаос-инжиниринга для проверки гипотез по отказоустойчивости.

    Заключение и ответы на вопросы

    Подводя итог, рекомендуется чаще оглядываться по сторонам в поисках вдохновения, поскольку многие инженерные сферы уже выработали подходы, позволяющие делать системы надежными. В мире ЖКХ многие процессы, такие как ведение протоколов и открытость, являются обязательными по закону, что обеспечивает их выполнение, в отличие от добровольного внедрения SRE-практик в IT.

    Ответы на вопросы аудитории

    В реальной жизни в ТСЖ все процессы выполняет один человек — председатель, который является и бухгалтером, и инженером, и юристом. В IT не стоит повторять такой подвиг; рекомендуется делать это частью функций выделенной SRE-команды или практикой кросс-функциональной команды. Модель сравнения ЖКХ и IT не всегда полна и не учитывает, например, влияние топ-менеджеров или бухгалтеров на разработку.

    Лидер, ответственный за результат команды, должен иметь делегированные функции управления и развития. В ТСЖ такая «дрим-тим» включала специалиста по IT, юриста, специалиста по пожарной безопасности и затейника, но ответственность за результат нес один человек. Важно, чтобы ментальные модели инженеров не были полностью синхронизированы, сохраняя возможность взгляда на систему с разных сторон.

    Useful links

    These links were generated based on the content of the video to help you deepen your knowledge about the topics discussed.

    This article was AI generated. It may contain errors and should be verified with the original source.
    VideoToWordsClarifyTube

    © 2025 ClarifyTube. All rights reserved.