← Главная
Встреча про проблему
Локализуй, найди причину, прими решение — быстро
00:00
Старт
↺
Сбросить
0 из 6 шагов выполнено
✓ Инцидент закрыт — время решения:
—
Уровень критичности — выбери перед началом
🔴
P1 — Критично
Всё сломалось, все затронуты
🟡
P2 — Частичная
Часть пользователей, есть обходной путь
🔵
P3 — Некритично
Косметика или редкий кейс
Кто подключён к решению
Разработка
Тестирование
Поддержка
Маркетинг
Аналитика
Финансы
Юристы
CTO / Руководство
Продакт
+ Добавить
1
Зафиксировать факт
Что случилось?
Что именно не работает, когда началось, кто сообщил
⌄
Вопросы
Что именно не работает — опиши симптом?
i
Фиксируй симптом, а не предположение о причине. "Кнопка оплаты не реагирует" — симптом. "Сломался платёжный модуль" — уже гипотеза.
Когда это началось — точное время?
i
Точное время поможет найти что изменилось прямо перед инцидентом — деплой, миграция, внешний сервис.
Кто обнаружил и как сообщил?
i
Пользователь, мониторинг или коллега — это влияет на оценку масштаба.
Сколько пользователей затронуто — все или часть?
i
Масштаб определяет приоритет и срочность. Если затронут 1 пользователь — это P3. Если все — P1.
Свой вопрос
+ Добавить
Заметки
2
Локализовать проблему
Где ломается?
На каком именно шаге, в какой части системы
⌄
Вопросы
На каком шаге пользователь сталкивается с проблемой?
i
Чем точнее локализация — тем быстрее найдёт причину разработчик.
Это происходит всегда или при определённых условиях?
i
Если не всегда — ищи паттерн. Определённый браузер, устройство, регион, сумма заказа.
Какое сообщение об ошибке видит пользователь?
i
Текст ошибки или код — прямая подсказка для разработчика где смотреть в логах.
Проблема воспроизводится стабильно?
i
Если воспроизводится стабильно — проще чинить. Если нет — возможно гонка состояний.
Свой вопрос
+ Добавить
Заметки
3
Найти причину
Почему сломалось?
Что изменилось перед инцидентом — деплой, данные, внешний сервис
⌄
Вопросы
Что изменялось в системе перед появлением проблемы?
i
Деплой, миграция базы, изменение конфига — всё что могло стать триггером за последние 24 часа.
Что говорят логи и мониторинг?
i
Логи — первый источник правды. Попроси разработчика показать ошибки в период инцидента.
Зависит ли проблема от внешнего сервиса?
i
Платёжный шлюз, SMS-сервис, карты — внешние сервисы падают независимо от вас.
Была ли похожая проблема раньше?
i
Если да — возможно это повторяющийся баг или системная проблема которую не починили до конца.
Свой вопрос
+ Добавить
Заметки
4
Оценить влияние
Насколько критично?
Потери, обходной путь, срочность
⌄
Вопросы
Какие потери несёт бизнес каждую минуту?
i
Деньги, репутация, SLA — конкретные потери помогают правильно расставить приоритет.
Есть ли обходной путь для пользователей прямо сейчас?
i
Даже временное решение снижает ущерб пока ищется причина.
Затронуты ли другие части системы?
i
Иногда одна проблема — симптом более широкого сбоя. Проверь смежные функции.
Есть ли SLA или обязательства перед клиентами?
i
Нарушение SLA может стоить штрафов или потери контракта.
Свой вопрос
+ Добавить
Заметки
5
Принять решение
Что делаем?
Варианты с рисками — и кто принимает финальное решение
⌄
Вопросы
Какие варианты решения есть — быстрый и надёжный?
i
Всегда есть минимум два варианта: быстрый с риском и медленный но надёжный.
Кто имеет полномочия принять решение о действиях?
i
BA не принимает решение об откате или деплое — это техлид, CTO или продакт.
Сколько времени займёт каждый вариант?
i
Время — критичный параметр при инциденте.
Нужен ли откат или хватит точечного фикса?
i
Откат безопаснее но теряешь новый функционал. Точечный фикс быстрее но риск что что-то упустишь.
Свой вопрос
+ Добавить
Заметки
6
Коммуникация и следующие шаги
Кто и что сообщает?
Пользователи, команда, руководство — все должны знать статус
⌄
Вопросы
Кто и как сообщает пользователям о проблеме?
i
Молчание злит больше чем признание проблемы. Даже "мы знаем, чиним" снижает поток жалоб.
Кто информирует руководство о статусе?
i
При P1 руководство должно знать сразу.
Как проверим что проблема решена?
i
Нужен чёткий критерий — не "разработчик сказал что починил", а "проверили на продакшене".
Что делаем чтобы это не повторилось?
i
Post-mortem, тест на стейджинге, алерт в мониторинге — зафиксируй что конкретно меняем.
Свой вопрос
+ Добавить
Заметки
Итог инцидента
Заметки по всем шагам
📋 Скопировать итог
Заполни заметки в шагах — они появятся здесь
Скопировано в буфер ✓