🔥 Перевод больших видео и транскрибация русской речи с GigaAM

Аватар автора
Это многофункциональная схема для перевода видео на различные языки. Но схему можно использовать как транскрибатор аудио в текст. Модель для транскрибирования аудио GigaAM - это модель от российских разработчиков Giga которая обучалась на Русском языке и с русской речью работает очень, хорошо, а так же быстро и с низким потреблением VRAM (в пределах 8Гб). На выходе вы можете получать текст с таймингами с разными разбивками по словам или предложениями, а так же делать диаризацию говорящих (разделение по говорящим). В схеме используются LLM модели для корректировки транскрибированного текста и перевода. Чтобы LLM хватило контекста, текст разбивается на чанки (части). Загрузчик аудио/видео специально разработан под эту схему, чтобы переваривать многочасовые аудио/видео. Озвучка переведенного текста может быть сделана на любой TTS модели, в этой схеме CosyVoice3 и OmniVoice3. Причем озвучку можно делать в режиме Multi Speak. Для склейки видео и новой аудио дорожки специально разработан для больших видео файлов - работает моментально. Обязательно пользуйте меню, так как видео очень большое. УЗЛЫ ВИДЕО 🍕 МЕНЮ 00:00 - Кратко о технологии перевода видео и транскрибаторе GigaAM 03:21 - Как установить ComfyUI 03:50 - Нюансы по LLM моделям 05:32 - Установка узлов GigaAM и OreX nodes 08:32 - Обзор Audio Loader, который загружает большие видео и аудио 08:28 - Обзор схемы 10:14 - Обзор узла GigaAM 20:28 - Почему CosyVoice лучше OmniVoice 22:23 - LM-Studio для исправления транскрибации...

0/0


0/0

0/0

0/0

0/0