Пчелин К.К. - Машинное обучение с подкреплением - 5. Deep RL и policy gradient methods
Teach-In
От табличного RL к Deep RL и policy gradient methods Пчелин Константин Константинович 00:17 Вступление 02:10 Когда табличный RL перестает масштабироваться 07:13 Аппроксимация функций 14:25 Проекционный оператор Беллмана 19:55 Deadly Triad 23:02 Deep Q-Network 40:44 Почему переходят к policy-based подходу 43:02 Policy Gradient 01:03:26 Сравнение подходов