Тихомиров М.М. - Обучение больших языковых моделей - 11. Альтернативы классическому трансформеру

Аватар автора
Альтернативы классическому трансформеру (вниманию), SSM, Mamba, DeltaNet Тихомиров Михаил Михайлович 00:16 Проблема классического внимания 06:07 Linformer 08:45 Longformer 11:43 DeepSeek: MLA (Multi-head Latent Attention) 12:56 Linear Attention (Линейное внимание) 17:24 RNN 19:51 Истоки State Space Models (SSM) 31:48 Селективная SSM (Mamba-1) 41:28 State Space Duality (SSD) 45:32 Mamba-2 51:19 Delta Net - развитие линейного внимания 56:34 Qwen 3.5 — гибридная модель 01:00:44 Выводы #language_models

0/0


0/0

0/0

0/0

0/0