Нейросеть которая продолжает песни

0
25

MusicGen: open source нейросеть для создания музыки в любых жанрах

Mubert

Сервис Amper Music [10] очень прост и выглядит как облачная платформа. По заданным параметрам можно генерировать треки для фильмов, игр, рекламы. Можно выбрать из двух режимов работы: в простом — сгенерировать несложный трек по разным параметрам (например, продолжительность, эмоциональность, стиль); в сложном — использовать сгенерированные отрезки, выбирать музыкальные инструменты, темп. Есть бесплатная версия. Стоимость платной подписки — от $5, есть несколько тарифных планов с разным функционалом.

Эта нейросеть [13] создает звуковой пейзаж. Например, если загрузить фото медведя в лесной чаще, то вы услышите, как зверь рычит, а на фоне шумит листва деревьев, а по фото горной реки нейросеть воспроизведет шум волн. Алгоритм придумали в Японии. Пользоваться Imaginary Soundscape можно бесплатно.

Тем не менее компании уже экспериментируют с созданием текстов для музыкальных композиций. Так, в 2016 году «Яндекс» выпустил альбом «Нейронная оборона», куда вошли песни в стиле «Гражданской обороны». Тексты для хитов написал искусственный интеллект [15]. Их озвучили авторы проекта, сотрудники «Яндекса», музыку написали также они. А через год в компании представили альбом Neurona с песнями в стиле группы Nirvana [16].

В результате сравнения с другими нейросетями, создающими музыку, MusicGen продемонстрировал превосходство по объективным метрикам. Были также проведены исследования влияния различных паттернов интерлейса кодировщика на качество создаваемых сэмплов, и было установлено, что наилучшие результаты достигаются с помощью паттерна «flattening».

Компьютерные программы, владеющие нотной грамотой, не новинка: музыкальную композицию с использованием компьютера впервые создали в 1957 году. 17-секундную мелодию [1] назвали The Silver Scale, что переводится как «Серебряная чешуя». Автором был программист Ньюман Гутман.

Создание нот: нейросеть выстраивает последовательность аккордов, нот, звуков, но такой подход не позволяет работать с тональностью звука и не может воспроизвести человеческий голос. В результате можно получить музыкальную партитуру, последовательность событий MIDI (распространенный стандарт цифровой звукозаписи), простую мелодию, последовательность аккордов, текстовое представление — символическую форму, по которой можно сыграть произведение.

Генерация музыкальных произведений похожа на такой же процесс с картинками или текстами — нейросеть использует данные, по которым обучена. Например, если загрузить в библиотеки альбомы Queen, то и выдаваемые алгоритмом произведения будут похожи по стилю. Поэтому чем больше мелодий, жанров, исполнителей изучит нейросеть, тем разнообразнее и оригинальнее окажется результат.

Генеративно-состязательные нейросети создают музыкальную композицию на примере загруженных в базу треков и затем пытаются отличить оригинал от сгенерированного экземпляра. Здесь задействованы две модели — генератор и дискриминатор. Первый создает музыку, а второй пытается определить, где сгенерированное произведение, а где оригинал. Так они соревнуются друг с другом, чтобы генеративная модель могла создавать максимально правдоподобные композиции.

Imaginary Soundscape

По такому же принципу проводится и музыкальный тест Тьюринга: нейросеть проходит его, если произведение принимают за созданное человеком. Например, так протестировали [14] алгоритм DeepBach. Более 1,6 тыс. человек должны были послушать музыку и понять, где работа алгоритма, а где — Баха. Как оказалось, сделать это непросто: 50% испытуемых приняли работу компьютера за творчество композитора.

ЧИТАТЬ ТАКЖЕ:  Нейросеть которая создает стихи

Чтобы определить, действительно ли хорошее произведение смог создать компьютер, можно использовать тест. Его создал ученый Алан Тьюринг в середине прошлого века. Тест работает так: человек взаимодействует и с компьютером, и с другим человеком, задает им вопросы. Тест пройден компьютером в том случае, если тот, кто спрашивает, не может отличить по ответам программу от человека.

Очень простая программа, в которой можно вписать ключевые слова, жанр, темп будущего произведения и нейросети этого будет достаточно. Soundraw [6] предложит несколько вариантов, понравившийся можно доработать. Подойдет для создания аудиоконтента для роликов на YouTube, кино, рекламы, подкастов, видеоигр, социальных сетей. Стоимость — от $16,99 в месяц.

Чтобы сгенерировать трек в Mubert [11], нужно выбрать жанр, стиль и настроение мелодии или составить текстовый запрос на английском. В первом случае композиция будет готова уже через несколько секунд, чуть больше времени потребуется на генерацию с помощью текстового запроса. Очень простая в использовании программа; треки можно создавать как для личных, так и для коммерческих целей — в зависимости от тарифа. Стоимость — от $14, есть бесплатная версия.

Каждый временной шаг (t1, t2, …, tn) состоит из 4 квантованных значений (k1, k2, k3, k4). При авторегрессивном моделировании можно сгладить или пересекать их различными способами, создавая новую последовательность с 4 параллельными потоками и шагами (s1, s2, …, sm). Общее количество шагов последовательности M зависит от паттерна и исходного числа шагов N. Токен 0 указывает на пустые позиции в паттерне.

После победы их страны на «Евровидении» 2019 года израильские программисты написали [2] трек с помощью искусственного интеллекта, загрузив в нейросеть песни с прошлых конкурсов. Результатом стала песня Blue Jeans and Bloody Tears, которую исполнил Изхар Коэн, первый израильский победитель конкурса 1978 года.

Исследователи использовали 20 тысяч часов лицензированной музыки для обучения MusicGen. Они составили внутренний набор данных из 10 тысяч высококачественных музыкальных треков, а также использовали коллекции музыки ShutterStock и Pond5 с 25000 и 365000 инструментальных сэмплов соответственно. Для оценки метода использовался бенчмарк MusicCaps, который состоит из 5500 образцов музыки, подготовленных экспертами, и 1000 сбалансированного подмножества разных жанров.

MusicGen — нейросеть, создающая музыку по текстовому описанию и примеру мелодии, что дает более точный контроль над создаваемым выводом. Исследователи провели обширное эмпирическое исследование, чтобы доказать превосходство предложенного подхода по сравнению с существующими методами на стандартных бенчмарках текст-музыка. Самостоятельно создать музыку с помощью нейросети можно в демонстрационной версии модели на Hugging face, полный код модели доступен в репозитории на Github.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь