Содержание статьи
Как нейросети помогают писать музыку
Как с помощью Suno сгенерировать музыку
Если вам надоел ваш плейлист, а новинки не нравятся, то у нас есть решение — нейросеть Suno. С её помощью можно создавать песни любых жанров и экспериментировать с музыкальными направлениями. В этой статье рассказываем, как пользоваться нейросетью и сгенерировать музыку, достойную премии «Грэмми».
Пока нашим нейрокомпозиторам остаётся заниматься самостоятельным сочинительством или, если муза не отвечает взаимностью, воспользоваться одной из LLM. Лучше всего с задачей справляются YandexGPT 3 Pro, интегрированная в чат «Алиса Про», и GigaChat. Можно попробовать сделать одинаковые запросы к двум нейросетям и выбрать лучший вариант или собрать текст из двух ответов.
Beatoven — нейросеть для генерации фоновой музыки. Она не умеет работать с голосом, но создаёт неплохие фоновые треки для фильмов, подкастов, аудиокниг или видео в социальных сетях. Для генерации пользователю нужно текстом описать эмоции, которые должна вызывать композиция, выбрать жанр и темп.
Сервис Amper Music [10] очень прост и выглядит как облачная платформа. По заданным параметрам можно генерировать треки для фильмов, игр, рекламы. Можно выбрать из двух режимов работы: в простом — сгенерировать несложный трек по разным параметрам (например, продолжительность, эмоциональность, стиль); в сложном — использовать сгенерированные отрезки, выбирать музыкальные инструменты, темп. Есть бесплатная версия. Стоимость платной подписки — от $5, есть несколько тарифных планов с разным функционалом.
А теперь представьте себе неопытного музыканта. Он умеет читать ноты, но пока не понимает, как сыграть мелодию красиво и интересно. То же самое происходит с нейросетью, поэтому ей необходима помощь пользователя. Пользователь в этой системе — дирижёр. Он контролирует нейросеть мимикой, речью и жестами: поворачивает голову, даёт инструкции или просто морщится, если ему не нравится интерпретация ИИ. Через камеру на телефоне нейросеть видит, когда что-то идёт не так, и вносит изменения в своё исполнение.
При создании аудиосигналов написанием только нот программа не ограничена, здесь используются ритм, тембр, тональность. Но есть и большой минус для повседневного использования: у ПК, на котором будет запущена такая нейросеть, должна быть большая вычислительная мощность.
Альтернативы
За более чем полвека компьютерные алгоритмы стали более искусными. Нейросети научились сами писать музыку. До первых строчек хит-парадов этим песням еще далеко, да и без помощи человека все равно алгоритмам пока не справиться, но тем не менее результаты впечатляют.
Сервис платный, и у него нет пробного режима. Самый дешёвый тариф обойдётся в 17 долларов. Этот уровень подписки не позволяет публиковать на стримингах работы, созданные с помощью Soundraw. Перед оплатой можно послушать примеры сгенерированного контента и попробовать режим редактирования. Есть API для разработчиков.
Изобретение принадлежит исследовательской лаборатории Google Deep Mind. Аппарат пока ещё нельзя купить — он на стадии прототипа. Но пользователь может собрать его самостоятельно из подручных материалов: создатели поделились туториалом по созданию и программированию своего NSynth.
Нейросеть генерирует полноценные песни длительностью до двух минут, знакома практически со всеми популярными жанрами и поддерживает русский язык. Так что если вы мечтали услышать рэп-версию песенки мамонтёнка или хиты Валерия Сюткина в исполнении AC/DC, то Suno — это то, что надо.
Чтобы начать работу, любая нейросеть должна получить данные. Тогда она их обрабатывает и выдаёт результат. Так и это приложение получает партитуру, анализирует ноты, а затем выдаёт пользователю исполнение с новой выразительностью и экспрессивностью. Для этого нейросеть фиксирует длительность и громкость нот, общий темп и артикуляцию: например, считывает указания presto («очень быстро») и forte («громко») в партитуре.
Нейросеть с открытым программным кодом Jukebox [8] была выпущена компанией OpenAI в 2020 году. С помощью этой программы можно имитировать разные музыкальные инструменты и даже человеческий голос. Эта нейросеть работает через создание аудиосигналов, а не нот, поэтому требует больших мощностей. Одна минута трека генерируется несколько часов. Чтобы пользоваться программой, необходимо обладать знаниями в программировании. Для обучения алгоритма в компании использовали 1,2 млн песен. Нейросеть бесплатна, в OpenAI предоставляют лицензию на использование в некоммерческих целях.
Откроется поле с промптом композиции — его можно редактировать как угодно. Нейросеть попытается сгенерировать что-то похожее на исходный трек, но учтёт новые параметры. Также в режиме ремиксов есть функция Extend, которая позволяет увеличить длительность определённого фрагмента песни или сгенерировать на его основе совершенно новую композицию.
Проект анонсировали в феврале 2024 года. Он ещё не закончен, поэтому многие детали держатся в секрете. Например, мы ничего не знаем про источники, на которых обучалась нейросеть, — компания лишь отмечает, что в ИИ-проектах обращается к лицензионным и общедоступным материалам, чтобы не нарушать авторские права. Судя по демо, даже интерфейс прототипа ещё в разработке.
Beatoven
ИИ может генерировать не только музыку. Создание текстов уже давно освоили такие нейросети, как, например, ChatGPT и Bing. Однако все не так просто. Нейросети лучше работают с текстами на английском языке. Но и здесь требуется редакторская работа: помимо осмысленного текста для музыки важны ритмическая структура и рифмы, с чем у искусственного интеллекта часто возникают проблемы.
В 2016 году создатели поделились промежуточными наработками. Программа создала несколько песен в стиле The Beatles и американских сонграйтеров. Чтобы провести эксперимент, разработчики обучили модель на 13 тысячах разножанровых партитур, где зафиксированы только мелодия, текст и гармония. Затем за компьютер сел композитор Бенуа Карре и сгенерировал новую уникальную партитуру, выбрав стиль из палитры пресетов. Созданную песню композитор продолжил микшировать и редактировать в интерфейсе программы.
Но это опасение далеко от реальности. Всё-таки «живые» артисты создают не бездушный набор звуков, а искусство, где огромную роль играют эмоции. Нейросеть Flow Machines не сможет имитировать пронзительный вокал Фрэнка Синатры или превзойти Polnalyubvi в умении перенести слушателя в мистический мир. Зато программа поможет сонграйтеру найти и сохранить собственный стиль, а простому пользователю — познакомиться с разными музыкальными направлениями.
Эта нейросеть [13] создает звуковой пейзаж. Например, если загрузить фото медведя в лесной чаще, то вы услышите, как зверь рычит, а на фоне шумит листва деревьев, а по фото горной реки нейросеть воспроизведет шум волн. Алгоритм придумали в Японии. Пользоваться Imaginary Soundscape можно бесплатно.
Стили можно представить в виде 3D-модели, где каждый параметр — это ось системы координат, а разноцветные точки — стили из палитры пресетов. Например, если пользователь захочет найти что-то простенькое, мажорное и в среднем темпе, можно сразу отыскать нужную точку по оси координат. И не придётся долго подкручивать настройки в поисках нужного звучания.
Очень простая программа, в которой можно вписать ключевые слова, жанр, темп будущего произведения и нейросети этого будет достаточно. Soundraw [6] предложит несколько вариантов, понравившийся можно доработать. Подойдет для создания аудиоконтента для роликов на YouTube, кино, рекламы, подкастов, видеоигр, социальных сетей. Стоимость — от $16,99 в месяц.
Генерация музыкальных произведений похожа на такой же процесс с картинками или текстами — нейросеть использует данные, по которым обучена. Например, если загрузить в библиотеки альбомы Queen, то и выдаваемые алгоритмом произведения будут похожи по стилю. Поэтому чем больше мелодий, жанров, исполнителей изучит нейросеть, тем разнообразнее и оригинальнее окажется результат.
Следующая часть самая интересная. Пользователь может отредактировать результат в интерфейсе: поменять стиль, интенсивность звука, структуру песни (например, превратить мелодию в драматичный эмбиент или подогнать под шаблон хита). Ещё нейросеть позволяет растянуть или сжать отрезок, чтобы музыка вписалась в заданное время без ущерба качеству.