Нейросеть которая пишет биты

0
24

Нейросеть Suno AI: пишем хиты в пару кликов

Альтернативы

Beatoven — нейросеть для генерации фоновой музыки. Она не умеет работать с голосом, но создаёт неплохие фоновые треки для фильмов, подкастов, аудиокниг или видео в социальных сетях. Для генерации пользователю нужно текстом описать эмоции, которые должна вызывать композиция, выбрать жанр и темп.

Метод MusicGen основан на авторегрессивной модели декодирования на основе трансформера. Он использует квантованные единицы из аудио-токенизатора EnCodec для моделирования музыки. Для сжатия и представления параллельных потоков данных, используется метод векторного квантования с использованием нескольких обученных кодировщиков.

Метод основан на языковой модели, которая оперирует несколькими потоками сжатого дискретного представления музыки в виде токенов. Отличительной особенностью MusicGen является использование эффективных интерлейсных паттернов токенов, что позволяет избежать необходимости каскадного соединения нескольких моделей, повышающих частоту дискретизации. Это не первая нейросеть, создающая музыку, например, в январе 2023 года GoogleAI опубликовал свой метод MusicLM, но код опубликован не был.

Разработчики Soundraw добавили ряд инструментов для редактирования сгенерированных композиций. Нейросеть создаёт многоканальную запись и разделяет трек на логические части: вступление, куплеты, развязку, финал и другие. К примеру, в специальном меню можно полностью убрать бас в начале, а в припевах добавить больше ударных.

Suno хорошо справляется с созданием музыки, умеет работать с любыми жанрами и даже изобретать новые. А вот с текстами дела обстоят значительно хуже. Функция автоматической генерации работает только на английском. Будет ли нейронка обучаться рифмоплётству на других языках, в том числе на великом и могучем, — неизвестно.

Исследователи использовали 20 тысяч часов лицензированной музыки для обучения MusicGen. Они составили внутренний набор данных из 10 тысяч высококачественных музыкальных треков, а также использовали коллекции музыки ShutterStock и Pond5 с 25000 и 365000 инструментальных сэмплов соответственно. Для оценки метода использовался бенчмарк MusicCaps, который состоит из 5500 образцов музыки, подготовленных экспертами, и 1000 сбалансированного подмножества разных жанров.

Если вам надоел ваш плейлист, а новинки не нравятся, то у нас есть решение — нейросеть Suno. С её помощью можно создавать песни любых жанров и экспериментировать с музыкальными направлениями. В этой статье рассказываем, как пользоваться нейросетью и сгенерировать музыку, достойную премии «Грэмми».

Каждый временной шаг (t1, t2, …, tn) состоит из 4 квантованных значений (k1, k2, k3, k4). При авторегрессивном моделировании можно сгладить или пересекать их различными способами, создавая новую последовательность с 4 параллельными потоками и шагами (s1, s2, …, sm). Общее количество шагов последовательности M зависит от паттерна и исходного числа шагов N. Токен 0 указывает на пустые позиции в паттерне.

ЧИТАТЬ ТАКЖЕ:  Как описать картинку для нейросети

Датасет

MusicGen — нейросеть, создающая музыку по текстовому описанию и примеру мелодии, что дает более точный контроль над создаваемым выводом. Исследователи провели обширное эмпирическое исследование, чтобы доказать превосходство предложенного подхода по сравнению с существующими методами на стандартных бенчмарках текст-музыка. Самостоятельно создать музыку с помощью нейросети можно в демонстрационной версии модели на Hugging face, полный код модели доступен в репозитории на Github.

Пока нашим нейрокомпозиторам остаётся заниматься самостоятельным сочинительством или, если муза не отвечает взаимностью, воспользоваться одной из LLM. Лучше всего с задачей справляются YandexGPT 3 Pro, интегрированная в чат «Алиса Про», и GigaChat. Можно попробовать сделать одинаковые запросы к двум нейросетям и выбрать лучший вариант или собрать текст из двух ответов.

Сервис платный, и у него нет пробного режима. Самый дешёвый тариф обойдётся в 17 долларов. Этот уровень подписки не позволяет публиковать на стримингах работы, созданные с помощью Soundraw. Перед оплатой можно послушать примеры сгенерированного контента и попробовать режим редактирования. Есть API для разработчиков.

Нейросеть генерирует полноценные песни длительностью до двух минут, знакома практически со всеми популярными жанрами и поддерживает русский язык. Так что если вы мечтали услышать рэп-версию песенки мамонтёнка или хиты Валерия Сюткина в исполнении AC/DC, то Suno — это то, что надо.

Для ограничения трафика разработчики Suno используют внутреннюю валюту — кредиты. Одна композиция стоит 5 кредитов, при этом счёт ежедневно пополняется на 50 кредитов (которых хватает на создание 10 треков). Пользователи платной версии получают больше валюты и возможностей.

Откроется поле с промптом композиции — его можно редактировать как угодно. Нейросеть попытается сгенерировать что-то похожее на исходный трек, но учтёт новые параметры. Также в режиме ремиксов есть функция Extend, которая позволяет увеличить длительность определённого фрагмента песни или сгенерировать на его основе совершенно новую композицию.

В результате сравнения с другими нейросетями, создающими музыку, MusicGen продемонстрировал превосходство по объективным метрикам. Были также проведены исследования влияния различных паттернов интерлейса кодировщика на качество создаваемых сэмплов, и было установлено, что наилучшие результаты достигаются с помощью паттерна «flattening».

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь