Пчелин К.К. - Машинное обучение с подкреплением - 7. Reward Modelling

Аватар автора
Reward Modelling Пчелин Константин Константинович 00:17 Вступление 02:33 Языковая модель как MDP 04:24 Зачем нужна reward model ? 09:26 Модель Брэдли-Терри 11:57 Обучение Reward Model 21:32 Reward Overoptimization 31:48 Reward Shaping 36:32 ORM и PRM 47:59 Практические аспекты

0/0


0/0

0/0

0/0

0/0