PPO в Reinforcement Learning: почему агент всегда покупает (разбор трейдинг-среды)
Alex Klimov / трейдинг / алготрейдинг / криптовалюта / торговые роботы / арбитраж / скальпинг / algotrading / crypto
В этом видео мы подключаем PPO (Proximal Policy Optimization) к простой трейдинг-среде Gymnasium и подробно разбираем результаты обучения агента. Без иллюзий и «волшебных кнопок»: ты увидишь, почему PPO выбирает стратегию “покупай всегда”, что означают метрики обучения (entropy, explained_variance, loss) и почему алгоритм работает правильно — даже если стратегия выглядит опасной. Это видео — про реальный Reinforcement Learning, а не про маркетинг. 🔍 В видео разбираем - как PPO обучается в трейдинг-среде - что означают логи обучения stable-baselines3 - почему explained_variance = 1 — тревожный сигнал - почему агент перестаёт продавать - как reward формирует поведение агента - где проходит граница между RL и реальным трейдингом PPO не учится торговать. Он учится максимизировать reward, который ты сам ему задал. И если reward плохой — алгоритм будет идеально плохим. Код из видео: ✅️ Кешбэк до 45% для уже зарегистрированных аккаунтов Bybit. В поле Реферальный код нужно указать: 52082 Телеграм канал: Личка: #reinforcementlearning #ppo #gymnasium #rlтрейдинг #алготрейдинг #python #machinelearning #stablebaselines3 #rl #aiтрейдинг 00:00 — Введение и цель видео 00:04 — Что мы сделали в прошлом видео (RL + Gymnasium) 00:10 — Сегодняшний шаг: подключаем PPO 00:17 — Важное предупреждение о рисках трейдинга 00:27 — Учебный формат и дисклеймер 00:34 — Кэшбэк 45% на Bybit (партнёрская ссылка) 00:39 — Зачем подключаем PPO к трейдинг-среде 00:45 — PPO не сделает вас...