Тихомиров М.М. - Обучение больших языковых моделей - 9. MoE, DeepSeek, Qwen3

Аватар автора
Teach-In
MoE, DeepSeek, Qwen3 Тихомиров Михаил Михайлович 00:16 GPT-4 с архитектурой MoE (Mixture of Experts) 03:07 MoE: Sparsity 07:50 Switch Transformer 13:31 Mixtral 8x7B 18:17 MoE: параметры, total и active 25:08 Mixture of Experts: выводы 28:42 DeepSeek 41:03 DeepSeek: параметры 52:05 GRPO vs PPO 56:09 Qwen3 #neuralnetworks

0/0


0/0

0/0

0/0

0/0