Нейросети

Нейросеть которая делает бит

29.12.2022

Содержание

Топ-8 нейросетей для создания музыки

Библиотека пользователей

Откроется поле с промптом композиции — его можно редактировать как угодно. Нейросеть попытается сгенерировать что-то похожее на исходный трек, но учтёт новые параметры. Также в режиме ремиксов есть функция Extend, которая позволяет увеличить длительность определённого фрагмента песни или сгенерировать на его основе совершенно новую композицию.

Футуристы пророчили, что в будущем всю рутину возьмут на себя роботы, а людям останется лишь писать картины, сочинять музыку и исследовать мир. Однако мы видим, что нейросети с каждым годом всё активнее осваивают творческие профессии и уже даже польстились на хлеб музыкантов.

Нейросеть генерирует полноценные песни длительностью до двух минут, знакома практически со всеми популярными жанрами и поддерживает русский язык. Так что если вы мечтали услышать рэп-версию песенки мамонтёнка или хиты Валерия Сюткина в исполнении AC/DC, то Suno — это то, что надо.

Если вам надоел ваш плейлист, а новинки не нравятся, то у нас есть решение — нейросеть Suno. С её помощью можно создавать песни любых жанров и экспериментировать с музыкальными направлениями. В этой статье рассказываем, как пользоваться нейросетью и сгенерировать музыку, достойную премии «Грэмми».

При генерации звуков нейросеть создаёт сразу аудиосигнал, минуя нотную запись. В таком случае у модели машинного обучения нет ограничений на звучание: можно создавать вокал, звуки окружения и эффектов. При этом нейросети требуется больше вычислительных ресурсов и запуск на домашнем компьютере уже практически невозможен.

В других случаях, а особенно в случае коммерческого использования, авторы произведений, на которых обучалась нейросеть, могут предъявить претензии. Авторы или их наследники могут запретить использование композиций и потребовать выплаты денежной компенсации. Эти правила не касаются произведений, перешедших в общественное достояние.

Исследователи использовали 20 тысяч часов лицензированной музыки для обучения MusicGen. Они составили внутренний набор данных из 10 тысяч высококачественных музыкальных треков, а также использовали коллекции музыки ShutterStock и Pond5 с 25000 и 365000 инструментальных сэмплов соответственно. Для оценки метода использовался бенчмарк MusicCaps, который состоит из 5500 образцов музыки, подготовленных экспертами, и 1000 сбалансированного подмножества разных жанров.

Есть две версии Stable Audio: коммерческая и открытая. Первая может создавать композиции в любых жанрах длительностью до трёх минут, а во второй доступна генерация только коротких примеров. При этом открытую версию можно использовать бесплатно и захостить на собственном сервере.

Что такое Suno

Метод MusicGen основан на авторегрессивной модели декодирования на основе трансформера. Он использует квантованные единицы из аудио-токенизатора EnCodec для моделирования музыки. Для сжатия и представления параллельных потоков данных, используется метод векторного квантования с использованием нескольких обученных кодировщиков.

Для решения этой проблемы разработчики внимательно следят за датасетами, на которых обучают нейросети. Например, создатели Stable Audio используют только стоковую музыку без авторских прав. Другие разработчики договариваются с исполнителями на использование их треков в наборе данных.

Soundful — генератор фоновой музыки для блогеров, контент-мейкеров и рекламщиков. Для создания трека надо выбрать желаемый жанр из списка и указать скорость композиции. Всего доступно около 150 шаблонных жанров, поэтому сервис не подойдёт для экспериментов с новыми направлениями в музыке.

ЧИТАТЬ ТАКЖЕ: Искусственный интеллект как у тони старка

Нейросети для генерации музыки работают так же, как и любые другие модели машинного обучения. Для получения разнообразных результатов важно, чтобы нейросеть «послушала» как можно больше треков. Например, если «скормить» модели все альбомы The Beatles, то и сгенерированные треки будут похожи на стиль британской рок-группы.

Для ограничения трафика разработчики Suno используют внутреннюю валюту — кредиты. Одна композиция стоит 5 кредитов, при этом счёт ежедневно пополняется на 50 кредитов (которых хватает на создание 10 треков). Пользователи платной версии получают больше валюты и возможностей.

Каждый временной шаг (t1, t2, …, tn) состоит из 4 квантованных значений (k1, k2, k3, k4). При авторегрессивном моделировании можно сгладить или пересекать их различными способами, создавая новую последовательность с 4 параллельными потоками и шагами (s1, s2, …, sm). Общее количество шагов последовательности M зависит от паттерна и исходного числа шагов N. Токен 0 указывает на пустые позиции в паттерне.

Ещё одним решением может быть создание данных для датасета с нуля. Для этого надо собрать композиторов, музыкантов и записать треки, на которых будет обучаться нейросеть. Такой способ дорого обходится, поэтому чаще всего разработчики просто используют музыку без авторских прав.

Разработчики Soundraw добавили ряд инструментов для редактирования сгенерированных композиций. Нейросеть создаёт многоканальную запись и разделяет трек на логические части: вступление, куплеты, развязку, финал и другие. К примеру, в специальном меню можно полностью убрать бас в начале, а в припевах добавить больше ударных.

Ремиксы

Если на стоках не нашлось подходящей мелодии, то её можно быстро создать с помощью Beatoven. Для этого надо текстом описать эмоции, которые должен испытывать человек во время прослушивания и нажать на кнопку запуска генерации. Всё остальное сделает нейросеть.

Suno хорошо справляется с созданием музыки, умеет работать с любыми жанрами и даже изобретать новые. А вот с текстами дела обстоят значительно хуже. Функция автоматической генерации работает только на английском. Будет ли нейронка обучаться рифмоплётству на других языках, в том числе на великом и могучем, — неизвестно.

Метод основан на языковой модели, которая оперирует несколькими потоками сжатого дискретного представления музыки в виде токенов. Отличительной особенностью MusicGen является использование эффективных интерлейсных паттернов токенов, что позволяет избежать необходимости каскадного соединения нескольких моделей, повышающих частоту дискретизации. Это не первая нейросеть, создающая музыку, например, в январе 2023 года GoogleAI опубликовал свой метод MusicLM, но код опубликован не был.

Пока нашим нейрокомпозиторам остаётся заниматься самостоятельным сочинительством или, если муза не отвечает взаимностью, воспользоваться одной из LLM. Лучше всего с задачей справляются YandexGPT 3 Pro, интегрированная в чат «Алиса Про», и GigaChat. Можно попробовать сделать одинаковые запросы к двум нейросетям и выбрать лучший вариант или собрать текст из двух ответов.

Необычная нейросеть, которая поможет сгенерировать трек по картинке. Для этого надо загрузить на сайт изображение и по желанию задать короткое описание с требованиями к композиции. После этого система проанализирует картинку, опишет её и на основе этих данных создаст инструментал.

По российскому авторскому праву автором музыкального произведения считается человек, творческим трудом которого произведение создано. Если пользователь нейросети только задаёт общие параметры будущей композиции, выбирая из предложенных программой опций, то его творческий вклад в создание композиции отсутствует.

Топ-8 нейросетей для создания музыки

Библиотека пользователей

Что такое Suno

Ремиксы

ОСТАВЬТЕ ОТВЕТ Отменить ответ

ЭТО ПОПУЛЯРНО

ЭТО ИНТЕРЕСНО

ВЫБОР РЕДАКТОРА