Продвинутая аналитика [2022] [karpov.courses] [М. Годзи, Р. Беднарский, И. Мирмахмадов, В. Черемисинов, Е. Ермаков]

Toxich · 19 дек 2021

Продвинутая аналитика [2022]
HARD Аналитика [2022]
karpov.courses
Максим Годзи, Роман Беднарский, Искандер Мирмахмадов, Виталий Черемисинов, Евгений Ермаков

Глубоко копаем в продукт и поведение пользователей.

Для кого эта программа:
1. Middle/Senior аналитик

Умеете проводить простые A/B-тесты, считать метрики и RFM-анализ. Хотите решать более сложные и интересные задачи и развиваться.
2. Junior/Middle Data Scientist

Хотите копнуть в продукт и статистику. Узнаете больше о том как функционирует продукт и как с ним работать с точки зрения аналитики.

Глубокие продуктовые задачи:
1. Выбирайте оптимальные методы для проведения эксперимента и его оценки
2. Ищите самые популярные пути в продукте, а также точки оттока
3. Считайте юнит-экономику продукта в связке с метриками
4. Определяйте оптимальный аналитический стек, настраивайте мониторинги метрик и алёрты
5. Применяйте машинное обучение в продуктовой аналитике

Модуль 1 - Работы с экспериментами

Разберемся, какие ошибки допускаются при проектировании и проведении экспериментов, как дизайнить эксперименты для оффлайна и онлайна, что такое оптимальный бутстрап, как ускорять эксперименты, как проверять сплит-систему на качество и где применять баесовские методы.

1. Дизайн метрик

На вводном занятии расскажем про дизайн метрик.

Разберем основные паттерны создания метрик продукта и на примерах рассмотрим, как и когда лучше этим пользоваться.

2. Какие ошибки можно допустить при дизайне и проведении эксперимента

Поговорим про поправку на множественное тестирование, про подглядывания и пересечение групп.

3. Способы проведения экспериментов. Доказательная лестница.

Чистый эксперимент.

Статистический эксперимент (рандомизированные контролируемые исследования).

Квази эксперимент (когда нет возможности поделить объекты на группы).

Counterfactuals (синтетические методы: очень сложно и низкая доказательная сила. Как правило, ретроспективные данные).

4. Как дизайнить эксперименты в онлайне

Как подобрать оптимально мощные критерии для оценки эксперимента.

Как структурировать эксперименты.

5. Как дизайнить эксперименты в оффлайне

Как проводить эксперименты, если субъектом является не пользователь, а магазин/терминал/ресторан.

6. Как понять, что Т-тест не работает, и что делать в таком случае

Как убедиться, что статистический критерий действительно работает и проверить это на основе реальных данных.

7. Как и зачем использовать бутстрап.

Примеры задач, где лучше через бутстрап.

Как работает бутстрап.

Почему он работает.

Почему повсеместно не используют бутстрап: границы применимости.

Различные варианты применения.

Выбор параметров.

Типичные ошибки

8. Зачем и как ускорять эксперименты

Повышение чувствительности метрик, особые приемы обработки.

Включение в эксперимент по триггерам.

Проверка комбинаций гипотез.

9. 5 разных примеров дизайна экспериментов и их результатов с разными типами метрик и способами оценки

Разберем реальные кейсы планирования, запуска, оценки и интерпретации результатов экспериментов.

10. Зачем и как проверять сплит-систему на качество

От качества работы сплит системы зависит исход эксперимента.

Если система ошибается, то результат эксперимента будет зависеть не от гипотезы, а от поломок.

На модуле разберем, как убедиться, что система работает корректно и научимся искать ошибки.

Модуль 2 - Работа с продуктом

Узнаем, как искать пользовательские пути, ключевые фичи в продукте, определять аномалии и делать расчет юнит-экономики продукта.

1. Зачем знать марковские цепи, графы, фиттинг

Ключевой скрытый шаг продуктовой аналитики — выбор модели.

Воронка как модель: плюсы и минусы.

Проблема с детальным анализом траекторий пользователей, полюса подхода.

Постановка задачи перед более детальной моделью.

Проблема весов и нормировок.

Эквивалентность графа и матрицы переходов.

Ограничения матрицы как марковской модели.

Пайплайн работы с данными.

2. Как определить основные пользовательские пути в продукте с помощью инструментов анализа графов

Постановка задачи.

Подготовка данных.

Первичный анализ.

Выбор варианта векторизации.

Построение графов и матриц.

Сравнение графов и матриц.

Необходимость разделения на сегменты, варианты сегментации.

3. Поиск сегментов в продукте через кластеризацию

Построение поведенческих сегментов.

Анализ сегментов (анализ качества кластеризации и верификация).

Влияние качества и метода обработки сырых данных на кластеризацию.

Итеративный процесс анализа, иерархическая кластеризация.

4. Поиск сегментов через эвристики

Альтернативные способы сегментации: эвристики, классификаторы, внешние данные.

Совмещение сегментаций.

5. Как понять, приносит ли продукт деньги.

Расчет юнит-экономики и прогнозирование роста аудитории продукта с помощью когортного анализа.

Финансовая оценка когорт.

Модуль 3 - Машинное обучение для аналитика

Аналитик, не владеющий машинным обучением, сильно ограничен в своих возможностях. Разберем задачу прогноза метрик, подход к оптимизации метрики предсказания, а также прогноз оттока с помощью ML-алгоритмов.

1. Работа с векторами, построение и анализ предсказательных моделей в продуктовой аналитике

Зачем строить предсказательную модель, когда вам не нужно ничего предсказывать.

Подготовка данных для предиктора (тонкие моменты, feature engineering, feature reduction, перекрестное влияние фичей).

Траектории пользователей как фичи: декомпозиция траекторий, события и переходы, варианты векторизации, сравнение результатов, выбор n-грам, выбор нормировок, включение дополнительных фичей.

Критерии качества результата, метрики качества моделей для продуктовой аналитики.

Feature importance, как и зачем, связь с другими метриками фичей и событий.

2. Поиск ключевых фичей

Анализ важности событий.

Почему не только события, но и переходы, и паттерны.

Учет временных задержек.

Сравнение результатов и валидация.

Feature importance сводится к корреляции.

Неочевидные системы причинно-следственных связей, необходимость экспериментов.

3. Что такое прокси-метрики и зачем они нужны. Как искать прокси-метрики.

Разные определения прокси метрик.

Плохая vs хорошая прокси метрика.

Предиктивные прокти-метрики.

Устойчивость и точность предиктора.

Некоторые нюансы из статистики (сдвиги между прокси и целью, смеси распределений, особые случаи).

Зачем смотреть на ROC-AUC при анализе прокси-метрики (экономика ошибок предиктора).

Как выбрать модель для прокси-метрики: предсказательная, экстраполяционная и интерполяционная сила модели.

4. Кейс: Как отлаживать работу предиктора

Анализ точности и валидация.

Наблюдение за работой предиктора на примере модели скоринга.

Средства мониторинга моделей.

5. Кейс: Как и зачем предсказывать отток пользователей.

Разберемся, зачем и как считать отток.

Обучим модель машинного обучения и проверим её качество.

Обсудим, что с этим делать дальше.

Модуль 4 - Аналитическая архитектура

Поговорим про то как организовать сбор сырых данных кликстрима, его обработку. Как решаются типичные проблемы на уровне данных - обнаружение дубликатов записей, проклейка пользователей по различным идентификаторам, а также про построение регулярных процессов выявления аномалий и выбросов для мониторинга качества данных и генерации алертов.

Содержание дорабатывается на момент оформления темы.

Продажник

evane · 15 фев 2022

Давайте поднажмём!

madydog · 19 май 2022

Может уже начать ?

Aesma · 20 май 2022

madydog сказал(а): ↑

Может уже начать ?
Нажмите, чтобы раскрыть...

Орга же нет

influte · 20 май 2022

Aesma сказал(а): ↑

Орга же нет
Нажмите, чтобы раскрыть...

мало того, что орга нет, так и курса еще такого нет, первый поток возможно будет осенью только.