DRL Course 2023 | Лекция 6. Policy Gradient.On-Policy Algorithms

Аватар автора
OPEN DATA SCIENCE (ODS.AI)
В шестой лекции: Рассматриваются MDP с бесконечным пространством действий Обсуждается Policy Gradient теоремы Выводятся алгоритмы Reinforce, A2C и PPO Автор курса: Антон Плаксин, исследователь в группе Yandex.Research и доцент Уральского федерального университета. Наши соц.сети:

0/0


0/0

0/0

0/0