DRL Course 2023 |Dynamic Programming. Policy and Value Iterations

Аватар автора
OPEN DATA SCIENCE (ODS.AI)
В третьей лекции: - Поговорили про принцип динамического программирования - Рассмотрели понятия v- и q-функций, а также понятия оптимальной политики. - Выписали уравнения Белламана и научились их решать методами Policy Iteration и Value Iteration. Автор курса: Антон Плаксин, исследователь в группе Yandex.Research и доцент Уральского федерального университета. Наши соц.сети:

0/0


0/0

0/0

0/0