VibeVoice - Текст в Речь на русском

Аватар автора
StableDif | ComfyUI | Automatic1111
VibeVoice от Microsoft. Это современная TTS-модель (text-to-speech, преобразование текста в речь), которая позволяет генерировать длинные аудиозаписи — например, диалоги или подкасты продолжительностью до 90 минут с участием до четырёх персонажей. Модель поддерживает русский, английский и другие языки, имитирует естественные разговоры, но пока не умеет добавлять фоновые звуки или музыку. VibeVoice доступна с открытым исходным кодом, что позволяет исследователям и разработчикам использовать её для своих проектов. Также в модель встроены механизмы защиты от неправомерного использования, например, водяные знаки в аудиофайлах и предупреждения о том, что запись сгенерирована нейросетью. Квантованная модель Large потребляет 9,5Гб VRAM 🔑 Все ссылки и файлы доступны на Boosty:

0/0


0/0

0/0

0/0