Scaling Agent Learning via Experience Synthesis

Аватар автора
Paper debate
Масштабирование обучения агентов посредством синтеза опыта В этом документе представлен DreamGym, унифицированный фреймворк, разработанный для масштабируемого синтеза опыта, чтобы обеспечить эффективное онлайн-обучение с подкреплением (RL) для агентов на основе больших языковых моделей (LLM). Он решает такие проблемы, как дорогостоящие развертывания, ограниченное разнообразие задач и ненадежные сигналы вознаграждения, используя модель опыта, основанную на рассуждениях, вместо того, чтобы полагаться на реальные среды. DreamGym преобразует динамику среды в текстовое пространство, генерируя согласованные переходы состояний и обратную связь. Буфер воспроизведения опыта, инициализированный офлайн-данными и постоянно обновляемый, улучшает стабильность и качество переходов. Фреймворк адаптивно генерирует новые задачи, обеспечивая эффективное онлайн-обучение на основе учебной программы. Эксперименты показывают, что DreamGym улучшает RL-обучение как в синтетических, так и в сценариях sim-to-real, превосходя базовые показатели в таких задачах, как WebArena. Он предлагает масштабируемую стратегию «теплого старта», обеспечивая прирост производительности при меньшем количестве взаимодействий в реальном мире. #ИИ отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

0/0


0/0

0/0

0/0