Содержание статьи
Как сделать ИИ-кавер при помощи нейросети
Как сгенерировать трек на сайте musicfy
Способ, не требующий навыков программирования или мощного компьютера: воспользоваться нейросетью на Google Colab. Полностью готовый ИИ-кавер можно сделать примерно за полчаса. Сгенерировать песню можно с голосом исполнителя, чью модель выложили в открытый доступ энтузиасты.
Musicfy позволяет генерировать треки гораздо проще: с коротким ожиданием, без запуска кода и возможности столкнуться с ошибками. С этим способом даже не требуется конвертировать аудиофайлы. Главный минус — на сайте представлен ограниченный набор голосов.
Шаг 7. Выберите голос, который будет исполнять вашу песню. Для этого под заголовком Other Downloads (.zip) Step o.1 найдите поле model_url и добавьте туда ссылку на папку с моделью голоса. Ссылки можно взять из списка предложенных в этой же ячейке: Канье Вест, Кендрик Ламар, Дрейк.
Пока нашим нейрокомпозиторам остаётся заниматься самостоятельным сочинительством или, если муза не отвечает взаимностью, воспользоваться одной из LLM. Лучше всего с задачей справляются YandexGPT 3 Pro, интегрированная в чат «Алиса Про», и GigaChat. Можно попробовать сделать одинаковые запросы к двум нейросетям и выбрать лучший вариант или собрать текст из двух ответов.
Разработчики Soundraw добавили ряд инструментов для редактирования сгенерированных композиций. Нейросеть создаёт многоканальную запись и разделяет трек на логические части: вступление, куплеты, развязку, финал и другие. К примеру, в специальном меню можно полностью убрать бас в начале, а в припевах добавить больше ударных.
Suno хорошо справляется с созданием музыки, умеет работать с любыми жанрами и даже изобретать новые. А вот с текстами дела обстоят значительно хуже. Функция автоматической генерации работает только на английском. Будет ли нейронка обучаться рифмоплётству на других языках, в том числе на великом и могучем, — неизвестно.
Шаг 9. Нажмите на иконку папки и перетащите в пустое пространство аудиофайл с а капеллой в формате wav, который вы подготовили в третьем шаге. Загрузка файла может занять несколько минут — все зависит от его длины. Когда файл загрузится, запустите код.
Шаг 6. Поочередно запустите ячейки Check GPU, Setup 1, Setup 2, Download ContentVec, Setup HF Downloads. Для этого нужно нажать кнопку Play возле соответствующего заголовка. Когда код загрузится, возле названия ячейки появится зеленая галочка. Запускайте следующую ячейку, только когда закончится загрузка предыдущей. Если вы пропустите одну из строчек, программа не сработает.
Автоматический режим
Дольше всего загружается Setup 1 — около 10 минут. Остальным требуется несколько секунд. Вам не придется загружать код для каждого трека, достаточно сделать это один раз. Но спустя примерно два часа код автоматически сбросится. В таком случае придется начинать весь процесс заново.
Нейросеть генерирует полноценные песни длительностью до двух минут, знакома практически со всеми популярными жанрами и поддерживает русский язык. Так что если вы мечтали услышать рэп-версию песенки мамонтёнка или хиты Валерия Сюткина в исполнении AC/DC, то Suno — это то, что надо.
Сервис платный, и у него нет пробного режима. Самый дешёвый тариф обойдётся в 17 долларов. Этот уровень подписки не позволяет публиковать на стримингах работы, созданные с помощью Soundraw. Перед оплатой можно послушать примеры сгенерированного контента и попробовать режим редактирования. Есть API для разработчиков.
Шаг 4. Выберите один из предложенных голосов. На сайте доступны вокалы Арианы Гранде, Дрейка, Граймс, Канье Уэста, Трэвиса Скотта и других. Есть два персонажа мультфильмов — Губка Боб Квадратные Штаны и Питер Гриффин. При этом все эти голоса могут воспроизводить русскоязычный текст.
Для ограничения трафика разработчики Suno используют внутреннюю валюту — кредиты. Одна композиция стоит 5 кредитов, при этом счёт ежедневно пополняется на 50 кредитов (которых хватает на создание 10 треков). Пользователи платной версии получают больше валюты и возможностей.
Откроется поле с промптом композиции — его можно редактировать как угодно. Нейросеть попытается сгенерировать что-то похожее на исходный трек, но учтёт новые параметры. Также в режиме ремиксов есть функция Extend, которая позволяет увеличить длительность определённого фрагмента песни или сгенерировать на его основе совершенно новую композицию.