Тихомиров М.М. - Обучение больших языковых моделей - 11. Альтернативы классическому трансформеру

Аватар автора
Teach-In
Альтернативы классическому трансформеру (вниманию), SSM, Mamba, DeltaNet Тихомиров Михаил Михайлович 00:17 Проблема классического внимания 06:08 Linformer 08:45 Longformer 11:45 DeepSeek: MLA (Multi-head Latent Attention) 12:57 Linear Attention (Линейное внимание) 17:26 RNN 19:53 Истоки State Space Models (SSM) 31:49 Селективная SSM (Mamba-1) 41:30 State Space Duality (SSD) 45:34 Mamba-2 51:21 Delta Net - развитие линейного внимания 56:40 Qwen 3.5 — гибридная модель 01:00:45 Выводы #language_models

0/0


0/0

0/0

0/0

0/0