So vits svc нейросеть как пользоваться

0
15

Как сделать ИИ-кавер при помощи нейросети

Чат-бот всему голова

Идея бота в том, чтобы предоставить ему исходную вокальную дорожку, а затем на её основе сгенерировать новый аудиофайл с другим голосом. Таким нехитрым способом виртуальная Ариана Гранде запоёт вместо реального Юры Шатунова в «Белых розах», а искусственный Кендрик Ламар сменит живого Джеймса Хетфилда в «Enter Sandman».

Интерфейс поддерживает перетаскивание, благодаря чему файлы можно закидывать прямо в окно генератора. Окно программы отображает спектрограммы голосов и поддерживает горячие клавиши: так, например, можно привязать «Пробел» к запуску воспроизведения оригинального голоса, а «Ввод» сделать ответственным за запуск генерации.

Для тех, кто не хочет возиться с кодом, существуют альтернативные варианты получения доступа к технологии. Самый простой и быстрый — подключение к Discord-серверу AI World, где собираются экспериментаторы в области искусственного голоса. Для генерации вокала на сервере размещён бот, работающий на основе So-VITS-SVC и функционально идентичный программе, выложенной на GitHub.

Музыка защищена авторским правом, поэтому использовать в коммерческих целях ее нельзя. Будьте готовы к тому, что ваш сгенерированный трек могут удалить с «Ютуба» или других платформ по требованию правообладателя. Либо выбирайте песни, доступные по лицензии Creative Commons.

Искусственный интеллект и нейросети захватывают музыкальный мир: пока одни алгоритмы генерируют музыку и подсказывают идеи для текстов, другие — имитируют голоса знаменитых исполнителей. В последние месяцы интернет захлестнула волна новостей о появлении песен Дрейка, The Weeknd и Канье Уэста, в которых сами музыканты не спели ни одной ноты — всю работу за них сделали нейросети. Само собой, без их ведома.

Uberduck — одна из самых популярных коммерческих платформ для мимикрии голосов. Одна из отличительных особенностей сервиса — большой выбор голосов, среди которых присутствуют как современные вокалисты (Леди Гага, Граймс), так и те, кого уже давно нет в живых (Дэвид Боуи, Марвин Гэй, Фредди Меркьюри). Сервис также позволяет создавать собственные модели для генерации любых голосов.

Способ, не требующий навыков программирования или мощного компьютера: воспользоваться нейросетью на Google Colab. Полностью готовый ИИ-кавер можно сделать примерно за полчаса. Сгенерировать песню можно с голосом исполнителя, чью модель выложили в открытый доступ энтузиасты.

Нейросети уже умеют имитировать голос, подменяя одного человека другим в заранее заданных границах. Следующим шагом станет полная свобода алгоритмов: сети научатся говорить и петь за известных людей самостоятельно, не привязываясь к какому-либо шаблону или источнику. Когда это произойдёт, неизвестно, но, само собой, ждать осталось не долго.

ЧИТАТЬ ТАКЖЕ:  Как нейросеть видит будущее

Как сгенерировать голос с помощью искусственного интеллекта

Дольше всего загружается Setup 1 — около 10 минут. Остальным требуется несколько секунд. Вам не придется загружать код для каждого трека, достаточно сделать это один раз. Но спустя примерно два часа код автоматически сбросится. В таком случае придется начинать весь процесс заново.

Нейросети уже вошли в нашу жизнь — алгоритмы подсказывают дорогу, рисуют картины, пишут рассказы, программируют и даже поют. При этом, чтобы воспользоваться их умениями, не обязательно быть продвинутым программистом — возможности нейросетей доступны широкому кругу пользователей совершенно бесплатно. Из этого материала вы узнаете, как за несколько минут и без финансовых вложений сгенерировать вокальную дорожку голосом известного исполнителя с помощью популярного алгоритма So-VITS-SVC.

Генерация голоса происходит на серверах Google и не требует от пользователя никаких дополнительных действий. Единственный минус такого способа — некоторая непредсказуемость таблиц. По какой-то причине имитация срабатывает не всегда корректно, из-за чего на выходе можно получить тот же файл, что использовался в качестве источника.

Для создания каверов с голосами известных исполнителей большинство авторов используют программу SoftVC VITS Singing Voice Conversion (So-VITS-SVC). Проект с открытым исходным кодом представляет собой модель на базе искусственного интеллекта, обучающуюся на основе аудиофайлов с записью голоса. Модель генерирует вокальные партии с голосом, на котором была обучена, при этом высота, характер и тембр не играют роли — So-VITS-SVC споёт вам так, как вы захотите.

Получить доступ к So-VITS-SVC можно несколькими способами. Самый прямолинейный — посетить страницу проекта на GitHub, скачать файлы программы и запустить их на своём компьютере. Процесс установки довольно запутан и требует от пользователя базовых знаний о написании кода и работы с проектами. К тому же локальная копия алгоритма требовательна к компьютеру — анализ, обработка и генерация голоса происходят на мощностях видеокарты, поэтому чем выше производительность графического адаптера в вашей машине, тем быстрее и эффективнее работает модель.

Получить доступ к So-VITS-SVC можно и без установки локальной копии проекта и регистрации в Discord, используя тематические «голосовые таблицы» в сервисе Google Colab (например, эту, эту или эту). Способ относительно простой и максимально доступный: для мимикрии одного певца под другого достаточно открыть ссылку в браузере, а затем следовать пошаговой инструкции, нажимая кнопки в таблице.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь