Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model

Аватар автора
Paper debate
Uni-MoE-2.0-Omni: Масштабирование Мультимодальной Большой Модели, Ориентированной на Язык В документе представлена Uni-MoE-2.0-Omni, полностью открытая мультимодальная большая модель (OLM), основанная на серии Lychee. Она улучшает мультимодальное понимание, рассуждение и генерацию, используя подход, ориентированный на язык. Модель основана на архитектуре Qwen2.5-7B и включает в себя дизайн Mixture-of-Experts (MoE) с динамической емкостью, прогрессивную стратегию обучения и сопоставление мультимодальных данных. Uni-MoE-2.0-Omni способна понимать различные модальности и генерировать изображения, текст и речь. Архитектура обеспечивает баланс между вычислительной эффективностью и возможностями с использованием общих, маршрутизируемых и нулевых экспертов. Процесс обучения включает предварительное обучение между модальностями и контролируемую точную настройку. Оцененная по многочисленным тестам, Uni-MoE-2.0-Omni демонстрирует конкурентоспособную производительность, особенно в понимании видео и мультимодальности, аудиовизуальном рассуждении, обработке речи большой формы и обработке изображений. #omnimodal отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

0/0


0/0

0/0

0/0