Содержание статьи
Deepfake голоса и создание новых композиций с помощью нейросети
53 комментария
Отдельно отмечу что по крайней мере для SVC не все эпохи одинаково полезны)
Лучше тестить промежуточные итерации (я сохраняю каждую 1000ю потому говорю за них) скажем 42000 шаг может звучать с откровенный металлическим голосом робота работая хуже чем 16000й а тем временем 41000 был идеален о_о а 40000 тоже мусор.
Металл кстати многое прощает! Как раз плотное музло скрывает многие косяки) Голос понизил в редакторе на децибел и ваще хорошо стало)
А вот с простым музлом типа голоса под гитару засада) косяки как на ладони — их нечем маскировать!
Естественно всё это зависит от того чей голос куда натягивать)
Когото проще когото сложнее.
Это индивидуально даже не для каждого исполнителя а для для каждой песни.
Вариант голоса можно выбрать по клику на выпадающее меню, там же можно послушать примеры. После ввода текста нажмите Generate speech — результат будет готов через несколько секунд. Чтобы скачать, нажмите на кнопку сохранения. Сервис сразу покажет, сколько символов у вас осталось.
Российский сервис с семью версиями нейросети, которые различаются лимитом по символам и количеством голосов. Например, в V1 — 1000 символов и 17 голосов, в V2 — уже 500 символов и 20 голосов. Модели различаются по качеству генерации, набору эмоций, скорости обработки.
К слову если ваша любимая поп певица или певец никогда не будет петь ваш любимый всякий лютый метал это не проблема.
Нейросеть в недавних версиях наловчилась адекватно переваривать гроул и скрим и петь его внятно чистым голосом))
Например вот так Милен Фармер поёт лютый похоронный дум митол)
https://www.youtube.com/watch?v=TfkuXjirPYU
А вот так русскую алтьтернативу 2007го))
https://www.youtube.com/watch?v=nne3wxyzeZU
Почему у всех в описании так всё просто? Запустите и работайте 🙂 Так она не запускается просто. Моя система Win7 64, видео АМД, 32 память. При запуске не может загрузить модуль cudart64_110.dll, который точно есть. И нигде никто не пишет, как это можно исправить. Или, какие требования, чтоб RVC точно работала :(((
Предварительно можно задать настройки: сделать голос нейтральным, дружеским или раздраженным. А еще выбрать высоту, скорость и длину паузы. Если хотите получить хорошую озвучку, обязательно ставьте ударения и знаки препинания. Без них не будет интонации и пауз.
Инструкция
RVC-GUI — это удобная оболочка с открытым исходным кодом созданная для упрощения управления параметрами нейронной сети RVC применяемой для синтеза любого голоса/музыкальной композиции. По сравнению с аналогами, не требует установки и настройки сложных библиотек или использования Linux. Для работы программы достаточно Windows 10/11 и относительно современного ПК.
Чтобы озвучить текст, напишите или скопируйте его, выберите настройки и нажмите «Озвучить». Результат можно скачать в MP3 и WAV. Не рекомендую регистрироваться на сайте, потому что Apihost сразу потребует оплатить подписку. Бесплатные попытки доступны только без регистрации.
Так это обычная демонстрация, что в итоге получится. Ссылки указаны на оригинал под видео и в самом видео. Присмотритесь. Не говоря уже о том, что я дополнил видео и создаю в видеоредакторе совершенно другую композицию. Гайд структрурирован и дополнен для ixbt/live.
____________________
https://sun9-68.userapi.com/impg/kd6PbLiwqeZXUQUaGrhvfO7RzOsKtzyNKRdvrA/nqmmeGHt7uM.jpg?size=408×799&quality=96&sign=732996bb6c0bcb3d8034bd250d444997&type=album
_____________________
https://sun9-44.userapi.com/impg/xPuiy1N3LeDzaej6LE9FLz5RQ5zA7jnLboEJng/hXQC4cymEEI.jpg?size=1118×211&quality=95&sign=6aa0749ba4a3e0c6e2520597d41d4f62&type=album
3. Чтобы программа могла воссоздать полноценную музыкальную композицию с интересующем нас голосом, необходимо заранее подготовить голосовую модель и отделить вокал солиста от инструментала в интересующей нас композиции. В общем, чтобы голос стал отдельно от музыки.
Если вы хотите пойти дальше и работать с более длинными текстами, а еще и добавлять к ним эмоции, придется зарегистрироваться. Правда, после сервис попросит вас оплатить хотя бы минимальное количество символов, чтобы озвучить текст. Из интересного — можно сохранять голоса в избранное и менять их эмоцию. Доступно всего два варианта: Neutral и Robot.
В бесплатной версии есть ограничения только на озвучку. Максимальный размер текста — 1000 символов, а еще у голосов нет эмоциональной окраски. Это значит, что они будут озвучивать текст нейтрально, даже если поиграться с функционалом. Например, можно поменять бас, эхо, скорость, высоту, частоту и громкость.