TwelveLabs делает Ctrl+F для видео

Аватар автора
Стартап TwelveLabs из Сан-Франциско представил инструмент для поиска по видео по содержимому кадра, а не по имени файла или тегам. Модель позволяет находить моменты по текстовому запросу, например, «человек берёт нож» или «спортсмен бросает трёхочковый», различая контекст сцены. Система анализирует картинку, звук и речь одновременно, делая поиск максимально точным. В основе решения две модели: Marengo превращает видео в эмбеддинги и ищет по любому запросу на 47 языках с точностью около 78%, а Pegasus описывает ролик, делает нарезку с таймкодами и извлекает смысл видео длительностью до двух часов. Часовое видео индексируется примерно за минуту, и платформа способна обрабатывать до 10 тысяч часов в сутки, обрабатывая до 4 часов за один запрос. Сервис уже используют NFL и поддерживают Nvidia, Intel и Samsung. TwelveLabs позволяет быстро находить нужные сцены, создавая функционал вроде Ctrl+F для видео, что особенно полезно для спортивных, обучающих и коммерческих материалов, где важно быстро извлечь ключевые моменты. #videoanalytics

0/0


0/0

0/0

0/0

0/0