Содержание статьи
Нейросети, создающие музыку по текстам и изображениям: как это происходит
Image to Music
По такому же принципу проводится и музыкальный тест Тьюринга: нейросеть проходит его, если произведение принимают за созданное человеком. Например, так протестировали [14] алгоритм DeepBach. Более 1,6 тыс. человек должны были послушать музыку и понять, где работа алгоритма, а где — Баха. Как оказалось, сделать это непросто: 50% испытуемых приняли работу компьютера за творчество композитора.
Mubert AI — нейросеть, пишущая музыку. Приложение выделяется среди конкурентов возможностью создания композиций из изображений, использованием YouTube-видео в качестве исходника и интеграцией с Adobe Premier и After Effects. Помимо этого, нейросеть пишет музыку из текстового промпта, настроения, жанра или активности. Для разработчиков присутствует API.
Инженеры обучили нейросеть на наборе данных из 1,2 млн песен (600 тыс. были на английском языке). Текст и метаданные для них взяли из библиотеки LyricWiki. Для генерации новых треков система ИИ использует метод VQ-VAE (Vector Quantized Variational AutoEncoder) — он сжимает треки и выделяет из них нужную акустическую информацию. Затем на её основе формирует новую композицию. На написание одной минуты песни Jukebox тратит около девяти часов, но пока не умеет генерировать привычные нам песни с повторяющимися припевами. Также система требует больших вычислительных ресурсов — протестировать её дома на компьютере или в студии пока нельзя. В перспективе разработчики планируют исправить эти недостатки.
Эта нейросеть появилась еще в 2016 году и с того времени продолжает совершенствоваться. У AIVA [5] даже вышел собственный альбом. Алгоритм также сочинил композицию, которая используется в видеоигре Pixelfield. Стартап запускали специально для написания мелодий для рекламы или видеоигр. Нейросеть создает собственные треки, корректирует готовые, пишет несколько вариаций одной песни. Стоимость — от €11 в месяц, разные тарифы зависят от целей.
songR — нейросеть, способная придумать песню и спеть. Приложение создаст оригинальный текст всего из нескольких ключевых слов. К сожалению, нейросеть придумывает песни и поёт только на английском языке. Предоставлены 3 голоса (два женских и один мужской) и возможность экспорта в виде .mp3 или .mp4.
При создании аудиосигналов написанием только нот программа не ограничена, здесь используются ритм, тембр, тональность. Но есть и большой минус для повседневного использования: у ПК, на котором будет запущена такая нейросеть, должна быть большая вычислительная мощность.
Создание нот: нейросеть выстраивает последовательность аккордов, нот, звуков, но такой подход не позволяет работать с тональностью звука и не может воспроизвести человеческий голос. В результате можно получить музыкальную партитуру, последовательность событий MIDI (распространенный стандарт цифровой звукозаписи), простую мелодию, последовательность аккордов, текстовое представление — символическую форму, по которой можно сыграть произведение.
За более чем полвека компьютерные алгоритмы стали более искусными. Нейросети научились сами писать музыку. До первых строчек хит-парадов этим песням еще далеко, да и без помощи человека все равно алгоритмам пока не справиться, но тем не менее результаты впечатляют.
Mubert AI
Делает это синтезатор NSynth Super. Он построен на базе системы ИИ, формирующей из предварительно записанных семплов новые, не существующие в природе, звуки. Алгоритм может объединить звучание флейты и барабана. NSynth умеет работать с 16 музыкальными инструментами — на их основе он генерирует более 100 тыс. звуков. Он анализирует их входящие характеристики, а затем линейно интерполирует, формируя математическое представление.
Эта нейросеть [13] создает звуковой пейзаж. Например, если загрузить фото медведя в лесной чаще, то вы услышите, как зверь рычит, а на фоне шумит листва деревьев, а по фото горной реки нейросеть воспроизведет шум волн. Алгоритм придумали в Японии. Пользоваться Imaginary Soundscape можно бесплатно.
Генеративно-состязательные нейросети создают музыкальную композицию на примере загруженных в базу треков и затем пытаются отличить оригинал от сгенерированного экземпляра. Здесь задействованы две модели — генератор и дискриминатор. Первый создает музыку, а второй пытается определить, где сгенерированное произведение, а где оригинал. Так они соревнуются друг с другом, чтобы генеративная модель могла создавать максимально правдоподобные композиции.
Нет зарубежной банковской карты? Вы можете выгодно оплатить подписку на иностранный сервис с помощью GetPayAll с минимальной комиссией на рынке. Назовите менеджеру промокод neural для получения скидки 30% на комиссию при первой оплате.
Компания работает как с физическими, так и с юридическими лицами. Помимо оплаты зарубежных сервисов, предлагается выпуск индивидуальной карты с возможностью пополнения.
Компьютерные программы, владеющие нотной грамотой, не новинка: музыкальную композицию с использованием компьютера впервые создали в 1957 году. 17-секундную мелодию [1] назвали The Silver Scale, что переводится как «Серебряная чешуя». Автором был программист Ньюман Гутман.
Чтобы создать музыку в этой нейросети, потребуется минимальное участие человека. Нужно лишь указать несколько жанров и скорость. Регистрация очень простая, через аккаунт Google. Soundful [7] подойдет для тех, кому нужен контент для соцсетей или фоновая музыка, например для рекламных роликов. Стоимость подписки — от $9,99 в месяц.
Чтобы сгенерировать трек в Mubert [11], нужно выбрать жанр, стиль и настроение мелодии или составить текстовый запрос на английском. В первом случае композиция будет готова уже через несколько секунд, чуть больше времени потребуется на генерацию с помощью текстового запроса. Очень простая в использовании программа; треки можно создавать как для личных, так и для коммерческих целей — в зависимости от тарифа. Стоимость — от $14, есть бесплатная версия.
Генерация музыкальных произведений похожа на такой же процесс с картинками или текстами — нейросеть использует данные, по которым обучена. Например, если загрузить в библиотеки альбомы Queen, то и выдаваемые алгоритмом произведения будут похожи по стилю. Поэтому чем больше мелодий, жанров, исполнителей изучит нейросеть, тем разнообразнее и оригинальнее окажется результат.
Особенности Suno AI:
Udio — нейросеть для создания песен. Сервис генерирует композиции высокого качества на основе простых текстовых инструкций, учитывая жанр и тему. Особого внимания заслуживает возможность дальнейшего редактирования песен, включая функции для профессионалов и новичков музыкальной индустрии. Нейросеть умеет создавать песни на разных языках.
Другой пример — система искусственного интеллекта Dadabots, которую разработали музыканты Си Джей Карр (CJ Carr) и Зак Жуковски (Zack Zukowski). Нейросеть сочиняет мелодии в стиле дэт-метал — её обучали на творчестве канадского коллектива Archspire. Решение на базе ИИ генерирует вполне гармоничные, хотя и не всегда приятные на слух композиции — на них периодически накладываются резкие акустические эффекты. Хотя для выбранного стиля это смотрится волне органично. Прослушать работы Dadabots можно на YouTube, там идет круглосуточная прямая трансляция.
Тем не менее компании уже экспериментируют с созданием текстов для музыкальных композиций. Так, в 2016 году «Яндекс» выпустил альбом «Нейронная оборона», куда вошли песни в стиле «Гражданской обороны». Тексты для хитов написал искусственный интеллект [15]. Их озвучили авторы проекта, сотрудники «Яндекса», музыку написали также они. А через год в компании представили альбом Neurona с песнями в стиле группы Nirvana [16].
Neural-Networked – ваш проводник в мире нейронных сетей. Наш сайт-каталог предлагает удобный доступ к широкому спектру нейросетевых моделей, чтобы помочь вам воплотить свои идеи в жизнь. Используйте удобные фильтры и поиск для выбора подходящего инструмента.
Имитировать человеческий голос нейросети тоже научились, тем более что это уже давно используется в организации работы call-центров или личных ассистентов вроде Siri. В 2016 году DeepMind представила алгоритм WaveNet, который реалистичным голосом озвучивает тексты на английском и китайском языках [17].
Нейросеть с открытым программным кодом Jukebox [8] была выпущена компанией OpenAI в 2020 году. С помощью этой программы можно имитировать разные музыкальные инструменты и даже человеческий голос. Эта нейросеть работает через создание аудиосигналов, а не нот, поэтому требует больших мощностей. Одна минута трека генерируется несколько часов. Чтобы пользоваться программой, необходимо обладать знаниями в программировании. Для обучения алгоритма в компании использовали 1,2 млн песен. Нейросеть бесплатна, в OpenAI предоставляют лицензию на использование в некоммерческих целях.
После победы их страны на «Евровидении» 2019 года израильские программисты написали [2] трек с помощью искусственного интеллекта, загрузив в нейросеть песни с прошлых конкурсов. Результатом стала песня Blue Jeans and Bloody Tears, которую исполнил Изхар Коэн, первый израильский победитель конкурса 1978 года.
ИИ может генерировать не только музыку. Создание текстов уже давно освоили такие нейросети, как, например, ChatGPT и Bing. Однако все не так просто. Нейросети лучше работают с текстами на английском языке. Но и здесь требуется редакторская работа: помимо осмысленного текста для музыки важны ритмическая структура и рифмы, с чем у искусственного интеллекта часто возникают проблемы.