Содержание статьи
Как создать ИИ-кавер с помощью нейросети: генерация несуществующих песен с голосами знаменитых артистов1
Как создать трек на сайте musicfy: простой способ без использования Google Collab
Шаг 7. Выберите голос, который будет использоваться для создания песни. Для этого найдите поле model_url под заголовком Other Downloads (.zip) Step o.1 и добавьте в него ссылку на папку с моделью голоса. Вы можете выбрать голос из списка доступных в этой же ячейке, например, Канье Вест, Кендрик Ламар или Дрейк. Также можно использовать библиотеку голосов на huggingface и скопировать ссылку на нужную папку оттуда. Доступны голоса российских исполнителей, таких как Oxxxymiron или Моргенштерн. Обратите внимание, что Мирон Федоров, выступающий под именем Oxxxymiron, и Алишер Моргенштерн внесены Минюстом в реестр иноагентов. Нейросеть поддерживает ссылки на любые заархивированные папки с Google Drive, MEGA, huggingface и других ресурсов. Вы можете использовать любую модель, которую найдете в интернете.
В социальных сетях стали популярны несуществующие песни, созданные при помощи нейросетей. В апреле этого года пользователь ghostwriter977 загрузил на Spotify трек Heart on My Sleeve, который набрал более миллиона прослушиваний. Звучание песни было похоже на исполнение The Weeknd и Дрейка, но на самом деле её создала нейросеть. Эта история разошлась по миру, но позже трек был удалён по требованию правообладателя Universal.
Чтобы не тратить время на программирование и не заниматься обучением модели, можно воспользоваться нейросетью на Google Collab. За полчаса вы можете создать полностью готовый ИИ-кавер. Процесс генерации песни с голосом исполнителя, чью модель выложили в открытый доступ, не требует специальных знаний.
Есть и другие нейросети, работающие по такому же принципу, некоторые имеют лучше модель ИИ или же позволяют более качественно подменять голос, однако такие платные или пока еще недостаточно известные для широкого применения. Поэтому процесс создания кавера был продемонстрирован именно на RVC, как средстве, которое используется повсеместно для создания видео с каверами на YouTube или в TikTok.
Тем не менее, в социальных сетях продолжают появляться другие каверы: голосом Фредди Меркьюри была исполнена песня Imagine Dragons, а Канье Уэст «спел» Just The Two of Us. Тренд распространился и на рунет: песни стали перепевать голосами Доры и Элджея. А ИИ-каверы от нейро-Моргенштерна произвели фурор в TikTok.
Нейросеть RVC работает таким образом, что анализирует одну голосовую модель и подменяет ее на другую. Поэтому вам нужно либо найти акапеллу из интересующей песни, либо создать ее самостоятельно. Поступить по второму плану проще, поскольку можно использовать разные онлайн-сервисы на базе ИИ, которые отделяют музыку от вокала. Этим я и предлагаю заняться далее.
Программа RVC
Подготовка практически завершена, остается только разобраться с голосовой моделью. Их можно скачать с самых разных сайтов, предназначенных для замены голоса через RVC. Большинство известных артистов, включая отечественных, уже имеют свои голосовые модели, созданные энтузиастами. Если вы хотите сделать кавер с голосом вашего знакомого, понадобится звуковая дорожка с его речью, длиною не менее 10 минут. После чего она должна быть обработана через другую нейросеть для получения необходимых файлов. Этот процесс сложный и требует отдельного разбора, поэтому лучше посмотреть видеогайды по этой теме.
Если мы говорим о продвинутом инструменте, который позволяет голос в треке заменить на абсолютно любой другой, то в первую очередь стоит отметить именно RVC. Это десктопная программа, имеющая несколько разных моделей нейросетей. Работает по принципу анализа загруженной голосовой модели и замены ею оригинальной. Как раз через такую программу можно сделать кавер, используя любую готовую голосовую модель.
Шаг 9. Нажмите на иконку папки и перетащите в нее аудиофайл с а капеллой в формате wav, который вы подготовили на третьем шаге. Загрузка файла может занять несколько минут — длительность зависит от длины файла. Когда загрузка завершится, запустите код.
Наибольшее время занимает загрузка Setup 1, которая может занять до 10 минут. Остальные ячейки загружаются за несколько секунд. Загружать код для каждого трека не нужно — достаточно сделать это один раз. Обратите внимание, что через 2 часа код автоматически сбросится, и все действия придется повторить.
Шаг 10. Нажмите на кнопку «Convert». После этого появится плеер со сгенерированным голосом. Скачайте готовый трек, нажав правой кнопкой мыши на плеере. Если плеер не появился, то загрузите последний файл в папке слева. Обратите внимание, что на этом этапе могут возникнуть ошибки. Их причиной может быть выбор нерабочей модели или использование слишком длинной а капеллы. Проверьте правильность ввода текста и настройки языка, а также убедитесь в стабильности интернет-соединения.
В итоге мы получили новый файл с акапеллой из песни, где вместо голоса оригинального артиста – выбранная голосовая модель. Ее нужно использовать вместе с минусом, который был отделен при помощи онлайн-сервиса. Происходит наложение голоса на музыку, чтобы сформировать песню. Для этого можете использовать любой аудиоредактор, работающий в десктопном режиме или онлайн.
В марте 2023 года китайские разработчики выложили на GitHub нейросеть SoftVC VITS Singing Voice Conversion, известную онлайн как so-vits-svc. Эта нейросеть может имитировать певцов и создавать новые песни с их голосами. Алгоритм был разработан энтузиастами и доступен для всех, но чтобы запустить его локально, нужны знания программирования и мощный компьютер.
Шаг 6. Последовательно запустите следующие ячейки: Check GPU, Setup 1, Setup 2, Download ContentVec, и Setup HF Downloads. Нажмите на кнопку «Play» рядом с каждым заголовком для запуска кода. Когда загрузка завершится, появится зеленая галочка около названия ячейки. Следующую ячейку нужно запускать только после полной загрузки предыдущей — если пропустить одну из строк, программа не сработает.