Qwen TTS - обучение, клонирование, кастомизация голоса

Аватар автора
StableDif | ComfyUI | Automatic1111
Qwen TTS - это модель для преобразования текста в речь. Qwen TTS имеет лучшее качество, высокую скорость и низкое потребление VRAM (7 ГБ на старшей модели). Качество сравнимо с платными аналогами ElevenLabs и MiniMax. В этом видео вы узнаете: как преобразовать текст в речь, как клонировать голос, как кастомизировать голос, как записать голос и даже как обучить модель Qwen TTS (fine-tune qwen tts). Все это будет работать в comfyui. МЕНЮ 00:00 - Что такое Qwen TTS 00:40 - Обзор Qwen TTS 02:45 - Установка Qwen 3 TTS в ComfyUI 03:32 - Базовые схемы Qwen TTS 04:32 - Клонирование голоса с Qwen3 TTS 08:00 - Коллекция голосов Qwen TTS 10:46 - Disign Voice - создание своего голоса 11:45 - Multi speaker - озвучка с несколькими спикерами 20:05 - Обучение модели Qwen TTS - Fine tune model 21:36 - Wisper для транскрибации аудио - audio to text 33:56 - Выводы Сборку ComfyUI можно скачать бесплатно тут: 🔑 Все ссылки и файлы доступны на Boosty:

0/0


0/0

0/0

0/0