Что будешь делать, когда маркетолог попросит сделать модель оттока

Когда маркетолог просит построить модель оттока (churn model), цель — предсказать, какие клиенты с высокой вероятностью уйдут (перестанут пользоваться продуктом, откажутся от подписки, не вернутся и т.д.). Это типичная задача бинарной классификации в машинном обучении, в которой класс “1” обозначает факт оттока, а “0” — удержание.

Выполнение такой задачи включает множество этапов — от постановки гипотез до внедрения модели в бизнес-процессы.

🔹 1. Уточнение задачи у маркетолога

Перед тем как начать моделирование, нужно задать уточняющие вопросы:

  • Что считается оттоком в конкретном контексте? Например:

    • Клиент не заходил в приложение 30+ дней?

    • Отменил подписку?

    • Не сделал покупок в течение N недель?

  • Какой горизонт предсказания? (например, “предскажи за 7 дней до оттока”)

  • Какие действия планируются после предсказания?

    • Удержание push'ами, письмами, звонками и т.п.
  • Какая цель бизнеса: минимизировать отток или оптимизировать стоимость удержания?

🔹 2. Подготовка и сбор данных

На этом этапе собираются все возможные данные, которые могут повлиять на поведение клиента. Источники:

  • Транзакционные данные: заказы, пополнения, подписки, отмены.

  • Лог активности: частота входа, клики, сессии.

  • История взаимодействия с продуктом.

  • Поведенческие признаки: время между сессиями, изменение интересов.

  • Канальные данные: откуда пришёл клиент, канал привлечения.

  • Служба поддержки: жалобы, обращения.

Обязательно необходимо сформировать:

  • Фичи за lookback период (например, 30 дней) — модель не может знать будущего.

  • Таргет — бинарная метка оттока, сформированная по бизнес-правилам.

🔹 3. Формирование обучающей выборки

Создаётся дата-срез: для каждого клиента на определённый момент времени (обычно T), формируется:

  • Вектор признаков за период до T (например, 30 дней до T);

  • Метка “отток/не отток” на горизонте после T (например, 30 дней после T).

Это может быть реализовано с помощью фреймворков типа feature store, либо в виде SQL-запросов.

🔹 4. Обработка дисбаланса классов

Отток, как правило, — редкое событие. Например, только 10% пользователей отваливаются.

Методы борьбы с этим:

  • Undersampling большинства;

  • Oversampling меньшинства (например, SMOTE);

  • Использование взвешенных потерь (class weight) в моделях;

  • Подходы типа XGBoost, у которых есть встроенные средства борьбы с дисбалансом.

🔹 5. Выбор и обучение модели

Чаще всего используют:

  • Логистическую регрессию — легко интерпретировать.

  • Деревья решений, Random Forest, XGBoost/LightGBM — высокоточные.

  • Нейронные сети — если есть много сигналов и сложные паттерны.

  • Seq2seq / RNN / трансформеры — при наличии временных рядов активности.

Для ускорения — можно начать с простых моделей (baseline), потом усложнять.

🔹 6. Валидация и метрики

Поскольку важен правильный порядок по времени, train/test split делают по времени, а не случайным образом.

Метрики:

  • AUC-ROC / AUC-PR — качество ранжирования;

  • LogLoss — качество вероятностных предсказаний;

  • Precision@K / Recall@K — в top-K наиболее «рискованных» клиентов;

  • Lift / Gain-кривые — эффект от таргетирования.

Важно не просто “предсказывать churn”, а “предсказывать так, чтобы можно было использовать в удержании”.

🔹 7. Интерпретация модели

Чтобы объяснить, почему модель считает клиента склонным к оттоку, применяются:

  • SHAP — объяснение вклада признаков;

  • Feature importance — особенно в деревьях;

  • В логистической регрессии — анализ коэффициентов.

Это помогает маркетологу понять, какие признаки влияют, и адаптировать стратегию удержания.

🔹 8. Построение scoring-пайплайна

  • Регулярный перерасчёт вероятностей оттока для всех клиентов (например, ежедневно или еженедельно);

  • Обогащение клиентской базы этим признаком;

  • Формирование таргет-листов для кампаний удержания;

  • Оптимизация cut-off значения вероятности для таргетирования.

🔹 9. Валидация бизнес-эффекта

  • A/B-тест: сравнивается контрольная группа с таргетированной по модели;

  • Оценивается lift: сколько дополнительных удержанных клиентов получено;

  • Считается ROI удержания: окупаемость воздействия.

🔹 10. Поддержка и улучшение

  • Обновление данных и переобучение по расписанию (retraining);

  • Добавление новых признаков, учёт сезонности;

  • Мониторинг качества предсказаний со временем;

  • Внедрение uplift-моделирования — если задача состоит не только в предсказании оттока, но и в прогнозе эффекта удерживающих действий.

Дополнительно можно сегментировать клиентов по типу поведения, применять кластеризацию или строить персонализированные стратегии удержания на основе результатов модели. Всё это делает модель оттока не просто инструментом предсказания, а активным элементом в стратегии повышения LTV и снижения CAC.