Пчелин К.К. - Машинное обучение с подкреплением - 6. Actor-Critic и Proximal Policy Optimization

Аватар автора
Teach-In
Actor-Critic и Proximal Policy Optimization Пчелин Константин Константинович 00:17 Вступление 02:21 REINFORCE: краткое повторение 08:00 Advantage-функция и TD-ошибка 16:21 Actor-Critic 37:20 Trust Region: основы 51:55 Proximal Policy Optimization (PPO) 01:12:30 PPO для языковых моделей (RLHF) 01:18:03 Практические советы для PPO и RLHF

0/0


0/0

0/0

0/0

0/0