Пчелин К.К. - Машинное обучение с подкреплением - 8. DPO и семейство offline-методов
Teach-In
Direct Preference Optimization и семейство offline-методов Пчелин Константин Константинович 00:17 Введение 03:52 Мотивация: ограничения RLHF с PPO 06:43 Вывод DPO 19:48 Rejection Sampling Fine-Tuning 27:21 Патологии DPO и практические рецепты 42:07 IPO, KTO и другие методы семейства 52:39 Оценка алгоритмов выравнивания 55:28 Сравнение алгоритмов