Доступно

Машинное обучение с подкреплением на Python [Udemy] [Центр digital-профессий ITtensive]

Тема в разделе "Курсы по программированию", создана пользователем Топикстартер, 19 дек 2021.

Цена: 999р.-86%
Взнос: 134р.
100%

Основной список: 27 участников

Статус обсуждения:
Комментирование ограничено.
  1. 19 дек 2021
    #1
    Топикстартер
    Топикстартер ЧКЧлен клуба
    Машинное обучение с подкреплением на Python
    Изучим взаимодействие среды и агенты, Q-обучение, Монте-Карло и Deep Q-Network

    Описание
    Это завершающий курс программы Машинное обучение от ITtensive., В этом курсе мы разберем 3 задачи обучения с подкреплением:

    1. Игра в крестики-нолики на доске 3x3. Запрограммируем среду, условия выигрыша и обучим простых и не очень агентов (игроков) сводить игру к ничье. На примере базовых стратегий рассмотрим работу уравнения Беллмана, Q-обучения и обучения с преследованием.

    Используя различные стратегии, включая эпсилон жадные и оптимизированные эпсилон жадные, сравним их эффективность при игре друг с другом.

    Проект: разработка собственного выигрышного агента для игры в крестики-нолики.

    2. Задача балансировка тележки в физическом окружении. Используем CartPole AI Gym и научимся балансировать тележку в зависимости от данных сенсоров. Изучим принципы построения нейросети обучения с подкреплением (DQN = Deep Q-Network) и используем ее для ускорения и стабилизации процесса обучения.

    Сравним обучение агента на случайных процессах, на изучении распределения состояний среды (априорные и постериорные вероятности), на эмуляции кратковременной и долговременной памяти агента, разберем проблемы обучения и оптимизации полносвязной нейросети.

    Проект: разработка оптимизированной DQN для балансировки тележки.

    3. Игра в блекджек (21 очко). Используем окружение AI Gym для расчета оптимальных ходов при игре в Блекджек. Используем методы Монте-Карло, включая одиночные и множественные касания, единую и разделенную политики, а также оптимизацию исследовательских стартов.

    Визуализируем оптимальную политику поведения агента через изоповерхности в пространстве состояний среды.

    Проект: расчет оптимальной стратегии игры в блекджек.

    Теория по курсу включает:
    • Задачи машинного обучения и обучения с подкреплением

    • Метрики обучения с подкреплением

    • Проблема баланса эксплуатации и разведки

    • Цепь случайных процессов Маркова

    • Принцип и уравнение Беллмана

    • Методы Монте-Карло

    • Q-таблица и Q-обучение

    • Эпсилон-жадная стратегии

    • Эпсилон-жадная стратегия с убыванием

    • UCB-стратегия

    • Стратегия Томпсона

    • Создание и обучение Deep Q-Network

    • Кратковременная и долговременная память

    • Единая и разделенная политики
    Скрытая ссылка
     
    Последнее редактирование модератором: 19 дек 2021
  2. Последние события

    1. skladchik.com
      Складчина доступна.
      2 июн 2024
    2. skladchik.com
      Хранитель хранитель.
      2 июн 2024
    3. skladchik.com
      Складчина закрыта.
      2 мар 2022
    4. skladchik.com
      Складчина доступна.
      26 дек 2021

    Последние важные события

    1. skladchik.com
      Складчина доступна.
      2 июн 2024
    2. skladchik.com
      Хранитель хранитель.
      2 июн 2024
    3. skladchik.com
      Складчина закрыта.
      2 мар 2022
    4. skladchik.com
      Складчина доступна.
      26 дек 2021
Статус обсуждения:
Комментирование ограничено.