Abstract

Градиентные методы — одни из самых популярных в практических приложениях. Они легко имплементируемы, есть надежные решения для их использования (torch, tensorflow,...). Всё, что требуется от пользователя — правильно задать целевую функцию и подобрать гиперпараметры. Задачу обучения с подкреплением, которая по сути является задачей оптимального управления, тоже можно напрямую решать градиентными методами, используя подход policy gradient. В своём докладе я расскажу, как устроены такие методы и как мы их улучшаем, снижая дисперсию в оценках градиента.

Спикер – Максим Каледин

Презентация

Презентация_Каледин.pdf