Открыто

Data Science c экспертом от Сбербанка [Skill-Branch] [Часть 1]

Тема в разделе "Курсы по программированию", создана пользователем stclaus, 9 сен 2020.

Цена: 10368р.-96%
Взнос: 357р.

Основной список: 33 участников

Резервный список: 10 участников

  1. 9 сен 2020
    #1
    stclaus
    stclaus ОргОрганизатор

    Складчина: Data Science c экспертом от Сбербанка [Skill-Branch] [Часть 1]

    Онлайн-курс с экспертом от СберБанка
    Data Science

    upload_2020-9-9_20-32-37.png

    01.Введение в машинное обучение
    • - Что такое машинное обучение?
    • - Для чего используется машинное обучение?
    • - Какие типы задач можно решать с помощью машинного обучения?
    • - Основные проблемы машинного обучения
    • - Почему будем использовать python?
    • - Обзор основных инструментов и библиотек (Jupyter Notebook, sklearn, NumPy, SciPy, matplotlib, pandas).

    02. Основы Python
    • - типы данных
    • - ссылки на объекты
    • - коллекции данных
    • - логические операции
    • - инструкции управления потоком выполнения
    • - арифметические операторы
    • - ввод / вывод
    • - создание и вызов функций
    Практика
    • Работа с объектами в Python, написание функций для работы с данными
    03. Математика, необходимая в DS / ML
    • - функция
    • - производная, частная производная, градиент функции
    • - теория вероятности: основные определения
    • - определение вероятности, вычисление вероятностей сложных событий
    • - распределение вероятностей, независимые и зависимые переменные
    • - генеральные совокупности и выборки
    • - центральная предельная теорема
    • - меры центральной тенденции, меры разброса
    • - выбросы
    Практика
    • реализация указанных математических сущностей на Python
    04. Управление данными и их интерпретация
    • - введение в массивы библиотеки NumPy
    • - выполнение вычислений над массивами NumPy
    • - сравнения, макси и булева логика в NumPy
    • - сортировка массивов NumPy
    • - введение в библиотеку pandas
    • - операции над данными в библиотеке pandas
    • - объединение наборов данных: конкатенация, слияние и соединение
    • - агрегирование и группировка в pandas
    • - сводные таблицы в pandas
    • - векторизованные операции и методы повышения производительности pandas
    • - визуализация данных с помощью matplotlib
    • - линейные графики и диаграммы рассеяния в matplotlib
    • - графики плотности, гистограммы в matplotlib
    • - настройка легенды на графикам, тексты и поясняющие надписи
    • - множественные графики
    Практика
    • векторные вычисление с помощью NumPy, операции над векторами и матрицами, анализ данных с помощью pandas, вычисление основных статистик, фильтрация и отбор данных с помощью pandas, визуализация данных с помощью matplotlib / seaborn
    05. Линейные модели
    • - измерение ошибки в задачах регрессии
    • - обучение линейной регрессии
    • - градиентный спуск и модификация градиентного спуска
    • - интерпретация коэффициентов линейной регрессии
    • - подготовка данных для линейной модели
    • - оценка качества моделей
    • - регуляризация линейной модели и гиперпараметры
    Практика
    • реализация метрик качества для задачи регрессии, анализ их слабых и сильных сторон, реализация классического решения для модели линейной регрессии, реализация алгоритма градиентного спуска, визуализация траекторий градиентного спуска и стохастического градиентного спуска, сравнение скорости схождения алгоритма градиентного спуска и стохастического градиентного спуска, реализация L1, L2 регуляризации для линейной модели. Опционально: реализация более сложных методов оптимизации для поиска решения линейной регрессии.
    06. Логистическая регрессия
    • - измерение ошибки в задачах бинарной классификации
    • - оценивание вероятностей
    • - переобучение, кривые обучения, кривые валидации
    • - интерпретация коэффициентов логистической регрессии
    • - границы решения
    Практика
    • реализация метрик качества для задачи классификации, анализ их слабых и сильных сторон, реализация модели логистической регрессии, построение и анализ кривых обучения и валидационных кривых. Применение модели логистической регрессии для реальных данных, оценка качества модели. Реализация собственных элементов пайплайнов, объединение элементов предобработки данных и обучения модели в единый пайплайн.

    Опционально
    • самостоятельная реализация модели логистической регрессии.
    07. Решающие деревья
    • - обучение и визуализация дерева принятия решений
    • - применение дерева для получения прогнозов
    • - оценивание вероятностей классов
    • - оценивание непрерывной величины
    • - алгоритм обучения CART
    • - вычислительная сложность деревьев решений
    • - выбор критериев разбиения
    • - гиперпараметры, регуляризация, неустойчивость деревьев решений
    Практика
    • обучение решающих деревьев для задачи классификации и регрессии, сравнение критериев информативностей деревьев решений, сравнение критериев останова деревьев решений, визуализация плоскостей решения при различных значениях гиперпараметров деревьев решений, сравнение способов регуляризации деревьев решений на практике. Сравнение решающих деревьев с линейными моделями, сравнение качества решения и устойчивости решения.

    Опционально
    • самостоятельная реализация модели решающего дерева для задачи классификации и регрессии.
    08. Бэггинг, случайный лес
    • - разложение ошибки на смещение и дисперсию
    • - бутстрап, бэггинг, out-of-bag ошибка
    • - метод случайных подпространств
    • - случайный лес
    • - экстремально случайные деревья
    • - работа с текстовыми данными
    • - оценка важности признаков
    Практика
    • самостоятельная реализация модели бэггинга с использованием решающих деревьев и линейных моделей. Векторизоация текстовых данных, использования TF-IDF для текстовых данных. Использование лемматизации и стемминга для улучшения качества текстовых данных. Использование модели случайного леса и линейных моделей для работы с текстовыми данными. Использование методов для оценки важности признаков для модели случайного леса.

    Опциональносамостоятельная реализация модели случайного леса для задачи классификации и регрессии.
    09. Градиентный бустинг
    • - бустинг как направленная композиция алгоритмов
    • - AdaBoost
    • - XGBoost
    • - LightGBM
    • - CatBoost
    Практика
    • сравнение градиетного бустинга и случайного леса, анализ смещения и дисперсии модели градиетного бустинга, Сравнение реализация алгоритма градиентного бустинга (AdaBoost, XGBoost, LightGBM, CatBoost) на задачах бинарной классификации и регрессии.
    10. Важность признаков и методы снижения размерности
    • - Встроенные методы оценки важности признаков, + / -
    • - Оценка важности признаков на основе перестановок
    • - SHAP для оценки важности признаков и интерпретации blackbox-моделей
    • - Проблема проклятия размерности
    • - PCA для снижения размерности
    • - Анализ главных компонент
    Практика
    • использование встроенных методов оценки важности признаков для линейных моделей, решающих деревьев, случайного леса и градиентного бустинга, анализ их плюсов и минусов. Использование универсальных методов оценки важности, анализ их преимуществ перед встроенными методами оценки важности признаков, отбора признаков. Использование SHAP, PCA для отбора признаков.
    11. Обучение без учителя (кластеризация)
    • - [опциональная лекция]
    12. Основы А-Б тестирования
    • - распределение вероятностей
    • - независимые и зависимые переменные
    • - проверка гипотез
    • - доверительные интервалы
    • - p-value, z-статистика
    • - проверка гипотез с помощью t - критерия
    • - проверка гипотез для долей
    Практика
    • моделирование распределения вероятностей с помощью python, проверка одновыборочных гипотез, двухвыбороных гипотез для независимых выборок и двухвыборочных гипотез для зависимых выборок с помощью python.
    13. Полный проект машинного обучения (основные этапы + демонстрация)
    • - работа с реальными данными
    • - постановка задачи
    • - получение данных
    • - обнаружение и визуализация данных для понимания их сущности
    • - подготовка данных для алгоритмов машинного обучения
    • - выбор и обучение модели
    • - настройка гиперпараметров модели
    • - анализ ошибок / поиск возможностей для улучшения качества модели
    • - проверка модели на реальных данных
    • - запуск и сопровождение модели


    Продажник
     
  2. Последние события

    1. ДенисДенисДенис
      ДенисДенисДенис участвует.
      17 ноя 2024
    2. bukvar
      bukvar не участвует.
      27 июл 2024
    3. Axelrod
      Axelrod не участвует.
      14 июн 2024
    4. roberto1
      roberto1 не участвует.
      30 мар 2024
  3. Обсуждение
  4. 11 сен 2020
    #2
    stclaus
    stclaus ОргОрганизатор
    У курса рассрочка на 24 месяца - 2160 ₽/мес (хоть и написано что для первых 10, но скорее всего для всех)
     
  5. 6 ноя 2020
    #3
    stclaus
    stclaus ОргОрганизатор
    25 января начнется новый поток