Содержание статьи
MusicGen: open source нейросеть для создания музыки в любых жанрах
Результаты работы нейросети
MusicGen — нейросеть, создающая музыку по текстовому описанию и примеру мелодии, что дает более точный контроль над создаваемым выводом. Исследователи провели обширное эмпирическое исследование, чтобы доказать превосходство предложенного подхода по сравнению с существующими методами на стандартных бенчмарках текст-музыка. Самостоятельно создать музыку с помощью нейросети можно в демонстрационной версии модели на Hugging face, полный код модели доступен в репозитории на Github.
Для решения этой проблемы разработчики внимательно следят за датасетами, на которых обучают нейросети. Например, создатели Stable Audio используют только стоковую музыку без авторских прав. Другие разработчики договариваются с исполнителями на использование их треков в наборе данных.
Одна из самых популярных нейросетей для создания музыки, которая завирусилась в социальных сетях. С её помощью можно переложить на музыку собственные стихи, переделать популярную композицию или создать инструментал. Кроме того, в Suno AI есть специальный режим для генерации музыки из аудио. Например, можно настучать бит и сделать из него полноценное ударное соло или напеть мелодию и исполнить её с помощью нейросетевого симфонического оркестра.
Исследователи использовали 20 тысяч часов лицензированной музыки для обучения MusicGen. Они составили внутренний набор данных из 10 тысяч высококачественных музыкальных треков, а также использовали коллекции музыки ShutterStock и Pond5 с 25000 и 365000 инструментальных сэмплов соответственно. Для оценки метода использовался бенчмарк MusicCaps, который состоит из 5500 образцов музыки, подготовленных экспертами, и 1000 сбалансированного подмножества разных жанров.
Есть две версии Stable Audio: коммерческая и открытая. Первая может создавать композиции в любых жанрах длительностью до трёх минут, а во второй доступна генерация только коротких примеров. При этом открытую версию можно использовать бесплатно и захостить на собственном сервере.
Soundful — генератор фоновой музыки для блогеров, контент-мейкеров и рекламщиков. Для создания трека надо выбрать желаемый жанр из списка и указать скорость композиции. Всего доступно около 150 шаблонных жанров, поэтому сервис не подойдёт для экспериментов с новыми направлениями в музыке.
Датасет
Метод основан на языковой модели, которая оперирует несколькими потоками сжатого дискретного представления музыки в виде токенов. Отличительной особенностью MusicGen является использование эффективных интерлейсных паттернов токенов, что позволяет избежать необходимости каскадного соединения нескольких моделей, повышающих частоту дискретизации. Это не первая нейросеть, создающая музыку, например, в январе 2023 года GoogleAI опубликовал свой метод MusicLM, но код опубликован не был.
Нейросети для генерации музыки работают так же, как и любые другие модели машинного обучения. Для получения разнообразных результатов важно, чтобы нейросеть «послушала» как можно больше треков. Например, если «скормить» модели все альбомы The Beatles, то и сгенерированные треки будут похожи на стиль британской рок-группы.
Если на стоках не нашлось подходящей мелодии, то её можно быстро создать с помощью Beatoven. Для этого надо текстом описать эмоции, которые должен испытывать человек во время прослушивания и нажать на кнопку запуска генерации. Всё остальное сделает нейросеть.
Метод MusicGen основан на авторегрессивной модели декодирования на основе трансформера. Он использует квантованные единицы из аудио-токенизатора EnCodec для моделирования музыки. Для сжатия и представления параллельных потоков данных, используется метод векторного квантования с использованием нескольких обученных кодировщиков.
Необычная нейросеть, которая поможет сгенерировать трек по картинке. Для этого надо загрузить на сайт изображение и по желанию задать короткое описание с требованиями к композиции. После этого система проанализирует картинку, опишет её и на основе этих данных создаст инструментал.
По российскому авторскому праву автором музыкального произведения считается человек, творческим трудом которого произведение создано. Если пользователь нейросети только задаёт общие параметры будущей композиции, выбирая из предложенных программой опций, то его творческий вклад в создание композиции отсутствует.