Нейросети

Нейросеть которая поет

08.06.2024

Содержание

Нейросети, создающие музыку по текстам и изображениям: как это происходит

8 нейросетей для создания музыки

Создание нот: нейросеть выстраивает последовательность аккордов, нот, звуков, но такой подход не позволяет работать с тональностью звука и не может воспроизвести человеческий голос. В результате можно получить музыкальную партитуру, последовательность событий MIDI (распространенный стандарт цифровой звукозаписи), простую мелодию, последовательность аккордов, текстовое представление — символическую форму, по которой можно сыграть произведение.

После победы их страны на «Евровидении» 2019 года израильские программисты написали [2] трек с помощью искусственного интеллекта, загрузив в нейросеть песни с прошлых конкурсов. Результатом стала песня Blue Jeans and Bloody Tears, которую исполнил Изхар Коэн, первый израильский победитель конкурса 1978 года.

Имитировать человеческий голос нейросети тоже научились, тем более что это уже давно используется в организации работы call-центров или личных ассистентов вроде Siri. В 2016 году DeepMind представила алгоритм WaveNet, который реалистичным голосом озвучивает тексты на английском и китайском языках [17].

Чтобы определить, действительно ли хорошее произведение смог создать компьютер, можно использовать тест. Его создал ученый Алан Тьюринг в середине прошлого века. Тест работает так: человек взаимодействует и с компьютером, и с другим человеком, задает им вопросы. Тест пройден компьютером в том случае, если тот, кто спрашивает, не может отличить по ответам программу от человека.

Эта нейросеть появилась еще в 2016 году и с того времени продолжает совершенствоваться. У AIVA [5] даже вышел собственный альбом. Алгоритм также сочинил композицию, которая используется в видеоигре Pixelfield. Стартап запускали специально для написания мелодий для рекламы или видеоигр. Нейросеть создает собственные треки, корректирует готовые, пишет несколько вариаций одной песни. Стоимость — от €11 в месяц, разные тарифы зависят от целей.

Генерация музыкальных произведений похожа на такой же процесс с картинками или текстами — нейросеть использует данные, по которым обучена. Например, если загрузить в библиотеки альбомы Queen, то и выдаваемые алгоритмом произведения будут похожи по стилю. Поэтому чем больше мелодий, жанров, исполнителей изучит нейросеть, тем разнообразнее и оригинальнее окажется результат.

Image to Music

ИИ может генерировать не только музыку. Создание текстов уже давно освоили такие нейросети, как, например, ChatGPT и Bing. Однако все не так просто. Нейросети лучше работают с текстами на английском языке. Но и здесь требуется редакторская работа: помимо осмысленного текста для музыки важны ритмическая структура и рифмы, с чем у искусственного интеллекта часто возникают проблемы.

Neural-Networked – ваш проводник в мире нейронных сетей. Наш сайт-каталог предлагает удобный доступ к широкому спектру нейросетевых моделей, чтобы помочь вам воплотить свои идеи в жизнь. Используйте удобные фильтры и поиск для выбора подходящего инструмента.

Mubert AI — нейросеть, пишущая музыку. Приложение выделяется среди конкурентов возможностью создания композиций из изображений, использованием YouTube-видео в качестве исходника и интеграцией с Adobe Premier и After Effects. Помимо этого, нейросеть пишет музыку из текстового промпта, настроения, жанра или активности. Для разработчиков присутствует API.

Разработкой музыкальных систем ИИ также занимаются в Jukedeck. Этот стартап разрабатывает инструмент для генерации треков с заданным настроением и темпом. Год назад его приобрела компания, владеющая TikTok. Технологии Jukedeck помогут социальной сети экономить на роялти.

Сервис Amper Music [10] очень прост и выглядит как облачная платформа. По заданным параметрам можно генерировать треки для фильмов, игр, рекламы. Можно выбрать из двух режимов работы: в простом — сгенерировать несложный трек по разным параметрам (например, продолжительность, эмоциональность, стиль); в сложном — использовать сгенерированные отрезки, выбирать музыкальные инструменты, темп. Есть бесплатная версия. Стоимость платной подписки — от $5, есть несколько тарифных планов с разным функционалом.

За более чем полвека компьютерные алгоритмы стали более искусными. Нейросети научились сами писать музыку. До первых строчек хит-парадов этим песням еще далеко, да и без помощи человека все равно алгоритмам пока не справиться, но тем не менее результаты впечатляют.

ЧИТАТЬ ТАКЖЕ: Как улучшить качество фото онлайн нейросеть

Чтобы создать музыку в этой нейросети, потребуется минимальное участие человека. Нужно лишь указать несколько жанров и скорость. Регистрация очень простая, через аккаунт Google. Soundful [7] подойдет для тех, кому нужен контент для соцсетей или фоновая музыка, например для рекламных роликов. Стоимость подписки — от $9,99 в месяц.

Эта нейросеть [13] создает звуковой пейзаж. Например, если загрузить фото медведя в лесной чаще, то вы услышите, как зверь рычит, а на фоне шумит листва деревьев, а по фото горной реки нейросеть воспроизведет шум волн. Алгоритм придумали в Японии. Пользоваться Imaginary Soundscape можно бесплатно.

Mubert AI

Делает это синтезатор NSynth Super. Он построен на базе системы ИИ, формирующей из предварительно записанных семплов новые, не существующие в природе, звуки. Алгоритм может объединить звучание флейты и барабана. NSynth умеет работать с 16 музыкальными инструментами — на их основе он генерирует более 100 тыс. звуков. Он анализирует их входящие характеристики, а затем линейно интерполирует, формируя математическое представление.

По такому же принципу проводится и музыкальный тест Тьюринга: нейросеть проходит его, если произведение принимают за созданное человеком. Например, так протестировали [14] алгоритм DeepBach. Более 1,6 тыс. человек должны были послушать музыку и понять, где работа алгоритма, а где — Баха. Как оказалось, сделать это непросто: 50% испытуемых приняли работу компьютера за творчество композитора.

Инженеры обучили нейросеть на наборе данных из 1,2 млн песен (600 тыс. были на английском языке). Текст и метаданные для них взяли из библиотеки LyricWiki. Для генерации новых треков система ИИ использует метод VQ-VAE (Vector Quantized Variational AutoEncoder) — он сжимает треки и выделяет из них нужную акустическую информацию. Затем на её основе формирует новую композицию. На написание одной минуты песни Jukebox тратит около девяти часов, но пока не умеет генерировать привычные нам песни с повторяющимися припевами. Также система требует больших вычислительных ресурсов — протестировать её дома на компьютере или в студии пока нельзя. В перспективе разработчики планируют исправить эти недостатки.

Нейросеть с открытым программным кодом Jukebox [8] была выпущена компанией OpenAI в 2020 году. С помощью этой программы можно имитировать разные музыкальные инструменты и даже человеческий голос. Эта нейросеть работает через создание аудиосигналов, а не нот, поэтому требует больших мощностей. Одна минута трека генерируется несколько часов. Чтобы пользоваться программой, необходимо обладать знаниями в программировании. Для обучения алгоритма в компании использовали 1,2 млн песен. Нейросеть бесплатна, в OpenAI предоставляют лицензию на использование в некоммерческих целях.

Suno AI — нейросеть, способная написать текст песни и озвучить её красивым голосом. Искусственный интеллект умеет генерировать текст песен и петь на огромном количестве языков. После создания песни с помощью нейросети вы можете экспортировать её в формате аудио или видео (текст на фоне картинки), а также поделиться ссылкой.

Компьютерные программы, владеющие нотной грамотой, не новинка: музыкальную композицию с использованием компьютера впервые создали в 1957 году. 17-секундную мелодию [1] назвали The Silver Scale, что переводится как «Серебряная чешуя». Автором был программист Ньюман Гутман.

Чтобы сгенерировать трек в Mubert [11], нужно выбрать жанр, стиль и настроение мелодии или составить текстовый запрос на английском. В первом случае композиция будет готова уже через несколько секунд, чуть больше времени потребуется на генерацию с помощью текстового запроса. Очень простая в использовании программа; треки можно создавать как для личных, так и для коммерческих целей — в зависимости от тарифа. Стоимость — от $14, есть бесплатная версия.

Тем не менее компании уже экспериментируют с созданием текстов для музыкальных композиций. Так, в 2016 году «Яндекс» выпустил альбом «Нейронная оборона», куда вошли песни в стиле «Гражданской обороны». Тексты для хитов написал искусственный интеллект [15]. Их озвучили авторы проекта, сотрудники «Яндекса», музыку написали также они. А через год в компании представили альбом Neurona с песнями в стиле группы Nirvana [16].

Нейросети, создающие музыку по текстам и изображениям: как это происходит

8 нейросетей для создания музыки

Image to Music

Mubert AI

ОСТАВЬТЕ ОТВЕТ Отменить ответ

ЭТО ПОПУЛЯРНО

ЭТО ИНТЕРЕСНО

ВЫБОР РЕДАКТОРА