Содержание статьи
Нейросети, создающие музыку по текстам и изображениям: как это происходит
Подходы для систем генерации
Создание нот: нейросеть выстраивает последовательность аккордов, нот, звуков, но такой подход не позволяет работать с тональностью звука и не может воспроизвести человеческий голос. В результате можно получить музыкальную партитуру, последовательность событий MIDI (распространенный стандарт цифровой звукозаписи), простую мелодию, последовательность аккордов, текстовое представление — символическую форму, по которой можно сыграть произведение.
Эта нейросеть [13] создает звуковой пейзаж. Например, если загрузить фото медведя в лесной чаще, то вы услышите, как зверь рычит, а на фоне шумит листва деревьев, а по фото горной реки нейросеть воспроизведет шум волн. Алгоритм придумали в Японии. Пользоваться Imaginary Soundscape можно бесплатно.
Rytr. Зарубежный сервис с алгоритмом GPT-3. Работает с тонкими настройками: можно указать тип контента, ключевые слова, тон, степень креативности. Понимает 30 языков, хорошо пишет на русском, выдает на 100% уникальный контент. Лучше всего нейросети удаются описания товаров и посты для соцсетей. Интегрируется с Surfer SEO, поэтому умеет писать статьи для поисковиков и SEO-оптимизированные заголовки. Есть адаптивная мобильная версия. Ограничение в бесплатном пакете — 10 000 символов в месяц.
YandexGPT. Бесплатная нейросеть для написания текстов, созданная на базе алгоритма GPT-3. У YandexGPT нет отдельного приложения или сайта — нейросеть представлена в виде дополнительной функции «Давай придумаем» голосового помощника Алисы. YandexGPT умеет писать продающие тексты и посты, придумывать заголовки, генерировать структуру статьи, отвечать на вопросы, писать сообщения для push-уведомлений. Одна из свежих опций — составлять краткий пересказ лонгридов до 30 000 символов. YandexGPT не отвечает на вопросы, связанные с религией, политикой, медициной и другими деликатными темами.
Mubert. Бесплатная нейросеть для создания музыки. Треки можно сгенерировать по жанру, настроению и поводу. Также нейросеть предлагает внушительную библиотеку промтов: музыка для подкастов, мощные басы, рождественские ремиксы, медитативная музыка. В бесплатном режиме можно генерировать до 25 треков в месяц. Их можно скачивать и использовать в качестве музыки для социальных сетей, видео на YouTube или подкастов при условии указания ссылки на платформу.
Генеративно-состязательные нейросети создают музыкальную композицию на примере загруженных в базу треков и затем пытаются отличить оригинал от сгенерированного экземпляра. Здесь задействованы две модели — генератор и дискриминатор. Первый создает музыку, а второй пытается определить, где сгенерированное произведение, а где оригинал. Так они соревнуются друг с другом, чтобы генеративная модель могла создавать максимально правдоподобные композиции.
Генерация видео и аудио
Sketch Metademolab. Нейросеть, которая оживляет детские рисунки. Просто загружаем изображение на белом фоне и выбираем настройки анимации. Нейросеть предложит 32 анимации с вашим героем: он сможет ходить, прыгать, танцевать и выполнять разные забавные движения. Гифку можно скачать на устройство. Сервис может не только оживить нарисованных персонажей, но и анимировать фотографии с белым фоном и хорошим освещением, изменив позу человека.
DreamStudio. Нейросеть генерирует изображения в разных стилях: фотография, диджитал, пиксельная картинка, комиксы, аниме. Полученные картинки можно редактировать: изменить размер, прозрачность, скрыть или, наоборот, восстановить лишние элементы — и использовать в качестве промтов для новых генераций. Нейросеть понимает только английский язык, количество запросов и скачиваний не ограничено.
Сервис Amper Music [10] очень прост и выглядит как облачная платформа. По заданным параметрам можно генерировать треки для фильмов, игр, рекламы. Можно выбрать из двух режимов работы: в простом — сгенерировать несложный трек по разным параметрам (например, продолжительность, эмоциональность, стиль); в сложном — использовать сгенерированные отрезки, выбирать музыкальные инструменты, темп. Есть бесплатная версия. Стоимость платной подписки — от $5, есть несколько тарифных планов с разным функционалом.
Компьютерные программы, владеющие нотной грамотой, не новинка: музыкальную композицию с использованием компьютера впервые создали в 1957 году. 17-секундную мелодию [1] назвали The Silver Scale, что переводится как «Серебряная чешуя». Автором был программист Ньюман Гутман.
Шедеврум. Нейросеть от Яндекса, генерирующая изображения по тексту и фото. Работает только в мобильном приложении, но на сайте можно посмотреть сгенерированные результаты с промтами других пользователей. Интерфейс Шедеврума напоминает социальную сеть: можно листать ленту популярных изображений, подписываться на любимых авторов, делиться своими картинками и комментировать чужие работы.
Чтобы создать музыку в этой нейросети, потребуется минимальное участие человека. Нужно лишь указать несколько жанров и скорость. Регистрация очень простая, через аккаунт Google. Soundful [7] подойдет для тех, кому нужен контент для соцсетей или фоновая музыка, например для рекламных роликов. Стоимость подписки — от $9,99 в месяц.
Генерация музыкальных произведений похожа на такой же процесс с картинками или текстами — нейросеть использует данные, по которым обучена. Например, если загрузить в библиотеки альбомы Queen, то и выдаваемые алгоритмом произведения будут похожи по стилю. Поэтому чем больше мелодий, жанров, исполнителей изучит нейросеть, тем разнообразнее и оригинальнее окажется результат.
ИИ может генерировать не только музыку. Создание текстов уже давно освоили такие нейросети, как, например, ChatGPT и Bing. Однако все не так просто. Нейросети лучше работают с текстами на английском языке. Но и здесь требуется редакторская работа: помимо осмысленного текста для музыки важны ритмическая структура и рифмы, с чем у искусственного интеллекта часто возникают проблемы.