Содержание статьи
Как сделать кавер нейросетью
Как создать трек в нейросети so-vits-svc с помощью Google Collab: генерация ИИ-каверов
Наибольшее время занимает загрузка Setup 1, которая может занять до 10 минут. Остальные ячейки загружаются за несколько секунд. Загружать код для каждого трека не нужно — достаточно сделать это один раз. Обратите внимание, что через 2 часа код автоматически сбросится, и все действия придется повторить.
Шаг 4. Выберите один из готовых голосов. На сайте доступны вокалы множества исполнителей, например, Арианы Гранде, Дрейка, Граймса, Канье Уэста, Трэвиса Скотта и других. Также можно выбрать персонажей мультфильмов, таких как Губка Боб Квадратные Штаны или Питер Гриффин. Все эти голоса могут использоваться для записи русскоязычного текста.
Suno – нейросеть, работающая в виде сайта. Может создавать песни с нуля, занимаясь написанием текста и музыки. Однако она подходит и для создания каверов, поскольку вы самостоятельно можете загрузить текст или инструментал, а далее выбрать жанр и задать дополнительные подсказки для нейросети. Ее главное отличие от предыдущего инструмента – невозможность самостоятельно выбрать голосовую модель. Голос артиста будет сгенерирован тоже с нуля.
Чтобы не тратить время на программирование и не заниматься обучением модели, можно воспользоваться нейросетью на Google Collab. За полчаса вы можете создать полностью готовый ИИ-кавер. Процесс генерации песни с голосом исполнителя, чью модель выложили в открытый доступ, не требует специальных знаний.
Шаг 11. После того, как вы получили готовый трек, откройте любой аудиоредактор, например, бесплатную программу Audacity или онлайн-сервис veed.io. Совместите минус со сгенерированной а капеллой. При этом могут пригодиться навыки мастеринга и сведения музыки, если они у вас есть.
Есть и другие нейросети, работающие по такому же принципу, некоторые имеют лучше модель ИИ или же позволяют более качественно подменять голос, однако такие платные или пока еще недостаточно известные для широкого применения. Поэтому процесс создания кавера был продемонстрирован именно на RVC, как средстве, которое используется повсеместно для создания видео с каверами на YouTube или в TikTok.
Шаг 9. Нажмите на иконку папки и перетащите в нее аудиофайл с а капеллой в формате wav, который вы подготовили на третьем шаге. Загрузка файла может занять несколько минут — длительность зависит от длины файла. Когда загрузка завершится, запустите код.
Шаг 7. Выберите голос, который будет использоваться для создания песни. Для этого найдите поле model_url под заголовком Other Downloads (.zip) Step o.1 и добавьте в него ссылку на папку с моделью голоса. Вы можете выбрать голос из списка доступных в этой же ячейке, например, Канье Вест, Кендрик Ламар или Дрейк. Также можно использовать библиотеку голосов на huggingface и скопировать ссылку на нужную папку оттуда. Доступны голоса российских исполнителей, таких как Oxxxymiron или Моргенштерн. Обратите внимание, что Мирон Федоров, выступающий под именем Oxxxymiron, и Алишер Моргенштерн внесены Минюстом в реестр иноагентов. Нейросеть поддерживает ссылки на любые заархивированные папки с Google Drive, MEGA, huggingface и других ресурсов. Вы можете использовать любую модель, которую найдете в интернете.
Онлайн-сервис Suno
Как видите, каждая из предложенных нейросетей имеет свой набор возможностей и функций, которые помогают в создании каверов. Отталкивайтесь от того, какую цель вы преследуете. Если желаете, чтобы известная личность спела какую-нибудь песню, то остановиться лучше на RVC. Если популярный трек должен звучать по-новому, в другом жанре, тогда присмотритесь к Suno.
В итоге мы получили новый файл с акапеллой из песни, где вместо голоса оригинального артиста – выбранная голосовая модель. Ее нужно использовать вместе с минусом, который был отделен при помощи онлайн-сервиса. Происходит наложение голоса на музыку, чтобы сформировать песню. Для этого можете использовать любой аудиоредактор, работающий в десктопном режиме или онлайн.
Шаг 6. Последовательно запустите следующие ячейки: Check GPU, Setup 1, Setup 2, Download ContentVec, и Setup HF Downloads. Нажмите на кнопку «Play» рядом с каждым заголовком для запуска кода. Когда загрузка завершится, появится зеленая галочка около названия ячейки. Следующую ячейку нужно запускать только после полной загрузки предыдущей — если пропустить одну из строк, программа не сработает.
В марте 2023 года китайские разработчики выложили на GitHub нейросеть SoftVC VITS Singing Voice Conversion, известную онлайн как so-vits-svc. Эта нейросеть может имитировать певцов и создавать новые песни с их голосами. Алгоритм был разработан энтузиастами и доступен для всех, но чтобы запустить его локально, нужны знания программирования и мощный компьютер.
Тем не менее, в социальных сетях продолжают появляться другие каверы: голосом Фредди Меркьюри была исполнена песня Imagine Dragons, а Канье Уэст «спел» Just The Two of Us. Тренд распространился и на рунет: песни стали перепевать голосами Доры и Элджея. А ИИ-каверы от нейро-Моргенштерна произвели фурор в TikTok.
Подготовка практически завершена, остается только разобраться с голосовой моделью. Их можно скачать с самых разных сайтов, предназначенных для замены голоса через RVC. Большинство известных артистов, включая отечественных, уже имеют свои голосовые модели, созданные энтузиастами. Если вы хотите сделать кавер с голосом вашего знакомого, понадобится звуковая дорожка с его речью, длиною не менее 10 минут. После чего она должна быть обработана через другую нейросеть для получения необходимых файлов. Этот процесс сложный и требует отдельного разбора, поэтому лучше посмотреть видеогайды по этой теме.
В социальных сетях стали популярны несуществующие песни, созданные при помощи нейросетей. В апреле этого года пользователь ghostwriter977 загрузил на Spotify трек Heart on My Sleeve, который набрал более миллиона прослушиваний. Звучание песни было похоже на исполнение The Weeknd и Дрейка, но на самом деле её создала нейросеть. Эта история разошлась по миру, но позже трек был удалён по требованию правообладателя Universal.
Нейросеть RVC работает таким образом, что анализирует одну голосовую модель и подменяет ее на другую. Поэтому вам нужно либо найти акапеллу из интересующей песни, либо создать ее самостоятельно. Поступить по второму плану проще, поскольку можно использовать разные онлайн-сервисы на базе ИИ, которые отделяют музыку от вокала. Этим я и предлагаю заняться далее.