Содержание статьи
Как сделать ИИ-кавер при помощи нейросети
Как сгенерировать трек в нейросети so-vits-svc при помощи Google Colab
История про трек разошлась, и позже его удалили со всех площадок по требованию правообладателя Universal. Но в соцсетях стали появляться другие коллаборации: голосом Фредди Меркьюри исполнили песню Imagine Dragons, а Канье Уэст «спел» Just The Two of Us. Тренд добрался и до рунета: песни стали перепевать голосами Доры и Элджея. А ИИ-каверы нейро-Моргенштерна сильно разошлись в «Тиктоке».
Пока нашим нейрокомпозиторам остаётся заниматься самостоятельным сочинительством или, если муза не отвечает взаимностью, воспользоваться одной из LLM. Лучше всего с задачей справляются YandexGPT 3 Pro, интегрированная в чат «Алиса Про», и GigaChat. Можно попробовать сделать одинаковые запросы к двум нейросетям и выбрать лучший вариант или собрать текст из двух ответов.
Нейросеть генерирует полноценные песни длительностью до двух минут, знакома практически со всеми популярными жанрами и поддерживает русский язык. Так что если вы мечтали услышать рэп-версию песенки мамонтёнка или хиты Валерия Сюткина в исполнении AC/DC, то Suno — это то, что надо.
Нейросеть из Google Colab позволяет сгенерировать трек сотней голосов, модели которых сделали пользователи. Этот способ затратен по времени: нужно ждать загрузки кода, часто он выдает ошибки. Разобраться в причинах с ходу сложно — сервис не говорит, в чем именно проблема. Порой приходится проводить время на форумах и «Ютубе», чтобы устранить ошибку — а через пять минут наткнуться уже на новую.
Откроется поле с промптом композиции — его можно редактировать как угодно. Нейросеть попытается сгенерировать что-то похожее на исходный трек, но учтёт новые параметры. Также в режиме ремиксов есть функция Extend, которая позволяет увеличить длительность определённого фрагмента песни или сгенерировать на его основе совершенно новую композицию.
Дольше всего загружается Setup 1 — около 10 минут. Остальным требуется несколько секунд. Вам не придется загружать код для каждого трека, достаточно сделать это один раз. Но спустя примерно два часа код автоматически сбросится. В таком случае придется начинать весь процесс заново.
Что такое Suno
Шаг 6. Поочередно запустите ячейки Check GPU, Setup 1, Setup 2, Download ContentVec, Setup HF Downloads. Для этого нужно нажать кнопку Play возле соответствующего заголовка. Когда код загрузится, возле названия ячейки появится зеленая галочка. Запускайте следующую ячейку, только когда закончится загрузка предыдущей. Если вы пропустите одну из строчек, программа не сработает.
Разработчики Soundraw добавили ряд инструментов для редактирования сгенерированных композиций. Нейросеть создаёт многоканальную запись и разделяет трек на логические части: вступление, куплеты, развязку, финал и другие. К примеру, в специальном меню можно полностью убрать бас в начале, а в припевах добавить больше ударных.
Шаг 9. Нажмите на иконку папки и перетащите в пустое пространство аудиофайл с а капеллой в формате wav, который вы подготовили в третьем шаге. Загрузка файла может занять несколько минут — все зависит от его длины. Когда файл загрузится, запустите код.
Музыка защищена авторским правом, поэтому использовать в коммерческих целях ее нельзя. Будьте готовы к тому, что ваш сгенерированный трек могут удалить с «Ютуба» или других платформ по требованию правообладателя. Либо выбирайте песни, доступные по лицензии Creative Commons.
Suno хорошо справляется с созданием музыки, умеет работать с любыми жанрами и даже изобретать новые. А вот с текстами дела обстоят значительно хуже. Функция автоматической генерации работает только на английском. Будет ли нейронка обучаться рифмоплётству на других языках, в том числе на великом и могучем, — неизвестно.
Шаг 4. Выберите один из предложенных голосов. На сайте доступны вокалы Арианы Гранде, Дрейка, Граймс, Канье Уэста, Трэвиса Скотта и других. Есть два персонажа мультфильмов — Губка Боб Квадратные Штаны и Питер Гриффин. При этом все эти голоса могут воспроизводить русскоязычный текст.