StreamingVLM__ИИ,_который_может_смотреть_вечно

Аватар автора
Paper debate
STREAMINGVLM: ПОНИМАНИЕ БЕСКОНЕЧНЫХ ВИДЕОПОТОКОВ В РЕАЛЬНОМ ВРЕМЕНИ В статье представлена StreamingVLM, модель зрения и языка, разработанная для стабильного понимания бесконечных видеопотоков в реальном времени. Она решает проблему обработки длинных видео без увеличения задержки и использования памяти. Модель согласовывает обучение с потоковым выводом, поддерживая компактный KV-кеш путем повторного использования состояний приемников внимания и краткосрочных/долгосрочных токенов. Стратегия контролируемой точной настройки с использованием коротких перекрывающихся видеофрагментов имитирует внимание во время вывода. Авторы создали Inf-Streams-Eval, новый бенчмарк для оценки соответствия кадров и текста в длинных видео с посекундной точностью. StreamingVLM демонстрирует высокий процент побед над GPT-4O mini на этом бенчмарке, сохраняя при этом производительность в реальном времени. Модель также улучшает общие возможности VQA без специальной точной настройки VQA. Подход использует комбинацию приемников внимания, скользящих окон и повторного использования KV-кеша для эффективной и стабильной обработки непрерывного видеовхода. #ГлубокоеОбучение отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

0/0


0/0

0/0

0/0