Содержание статьи
MusicGen: open source нейросеть для создания музыки в любых жанрах
Результаты работы нейросети
MusicGen — нейросеть, создающая музыку по текстовому описанию и примеру мелодии, что дает более точный контроль над создаваемым выводом. Исследователи провели обширное эмпирическое исследование, чтобы доказать превосходство предложенного подхода по сравнению с существующими методами на стандартных бенчмарках текст-музыка. Самостоятельно создать музыку с помощью нейросети можно в демонстрационной версии модели на Hugging face, полный код модели доступен в репозитории на Github.
В результате сравнения с другими нейросетями, создающими музыку, MusicGen продемонстрировал превосходство по объективным метрикам. Были также проведены исследования влияния различных паттернов интерлейса кодировщика на качество создаваемых сэмплов, и было установлено, что наилучшие результаты достигаются с помощью паттерна «flattening».
Метод MusicGen основан на авторегрессивной модели декодирования на основе трансформера. Он использует квантованные единицы из аудио-токенизатора EnCodec для моделирования музыки. Для сжатия и представления параллельных потоков данных, используется метод векторного квантования с использованием нескольких обученных кодировщиков.
Нейросеть для создания музыки работает по тому же принципу, что и ИИ для генерации картинок и текста. Сначала изучает и анализирует огромное число музыкальных композиций, затем пытается сделать похожие. Чем разнообразнее будут жанры и стили при обучении, тем больше вероятность, что нейросеть создаст абсолютно новое произведение. Искусственный интеллект пишет музыку двумя способами. Создает ноты. Такие ИИ больше подойдут профессиональным исполнителям. AI-генератор музыки пишет партитуру — последовательность нот и аккордов. Партитуру можно редактировать, добавлять звучания разных инструментов, менять аранжировку. Создает аудиосигнал. Такие алгоритмы умеют работать с голосом, динамикой и выразительностью музыкального произведения. Например, нейросеть для создания электронной музыки может упростить работу SMM-специалистов. Чтобы создать фоновую мелодию, песню со словами или новую композицию в конкретном стиле, не нужно изучать жанры и музыкальные инструменты или привлекать эксперта. Рассмотрим четыре нейросети для создания музыки онлайн. Все сервисы доступны без VPN.
Метод основан на языковой модели, которая оперирует несколькими потоками сжатого дискретного представления музыки в виде токенов. Отличительной особенностью MusicGen является использование эффективных интерлейсных паттернов токенов, что позволяет избежать необходимости каскадного соединения нескольких моделей, повышающих частоту дискретизации. Это не первая нейросеть, создающая музыку, например, в январе 2023 года GoogleAI опубликовал свой метод MusicLM, но код опубликован не был.
Чтобы наложить музыку на видео или добавить трек в сторис, приходится искать ее на стоках или разбираться в аудиоредакторах. Сэкономить время и силы поможет искусственный интеллект для создания музыки. AI может быстро сгенерировать фоновую мелодию, кавер, новую песню. В статье расскажем, какие нейросети создают музыку, как грамотно составить промт и можно ли использовать такие треки в бизнесе.
Как работают нейросети для создания музыки
Исследователи использовали 20 тысяч часов лицензированной музыки для обучения MusicGen. Они составили внутренний набор данных из 10 тысяч высококачественных музыкальных треков, а также использовали коллекции музыки ShutterStock и Pond5 с 25000 и 365000 инструментальных сэмплов соответственно. Для оценки метода использовался бенчмарк MusicCaps, который состоит из 5500 образцов музыки, подготовленных экспертами, и 1000 сбалансированного подмножества разных жанров.
Каждый временной шаг (t1, t2, …, tn) состоит из 4 квантованных значений (k1, k2, k3, k4). При авторегрессивном моделировании можно сгладить или пересекать их различными способами, создавая новую последовательность с 4 параллельными потоками и шагами (s1, s2, …, sm). Общее количество шагов последовательности M зависит от паттерна и исходного числа шагов N. Токен 0 указывает на пустые позиции в паттерне.
Стоимость. Бесплатно можно создать до 25 композиций в месяц. Для личного контента подойдет тариф Creator — это 11,69 долларов и до 500 треков в месяц. Для коммерческих публикаций и монетизации лучше выбрать Pro — 32,49 долларов и тоже до 500 треков в месяц. А тариф Business позволяет создать до 1000 композиций за 149,29 долларов в месяц.
Стоимость. В версии Basic доступно 10 бесплатных треков в день, но их нельзя использовать в коммерческих целях. Для этого есть два платных тарифа: Pro — 10 долларов и 500 песен в месяц; Premier — 30 долларов и 2000 треков в месяц. В обоих случаях авторские права на созданную музыку принадлежат пользователю.