Содержание статьи
Нейросети, создающие музыку по текстам и изображениям: как это происходит
8 нейросетей для создания музыки
Очень простая программа, в которой можно вписать ключевые слова, жанр, темп будущего произведения и нейросети этого будет достаточно. Soundraw [6] предложит несколько вариантов, понравившийся можно доработать. Подойдет для создания аудиоконтента для роликов на YouTube, кино, рекламы, подкастов, видеоигр, социальных сетей. Стоимость — от $16,99 в месяц.
Генеративно-состязательные нейросети создают музыкальную композицию на примере загруженных в базу треков и затем пытаются отличить оригинал от сгенерированного экземпляра. Здесь задействованы две модели — генератор и дискриминатор. Первый создает музыку, а второй пытается определить, где сгенерированное произведение, а где оригинал. Так они соревнуются друг с другом, чтобы генеративная модель могла создавать максимально правдоподобные композиции.
Нейросеть с открытым программным кодом Jukebox [8] была выпущена компанией OpenAI в 2020 году. С помощью этой программы можно имитировать разные музыкальные инструменты и даже человеческий голос. Эта нейросеть работает через создание аудиосигналов, а не нот, поэтому требует больших мощностей. Одна минута трека генерируется несколько часов. Чтобы пользоваться программой, необходимо обладать знаниями в программировании. Для обучения алгоритма в компании использовали 1,2 млн песен. Нейросеть бесплатна, в OpenAI предоставляют лицензию на использование в некоммерческих целях.
Сервис Amper Music [10] очень прост и выглядит как облачная платформа. По заданным параметрам можно генерировать треки для фильмов, игр, рекламы. Можно выбрать из двух режимов работы: в простом — сгенерировать несложный трек по разным параметрам (например, продолжительность, эмоциональность, стиль); в сложном — использовать сгенерированные отрезки, выбирать музыкальные инструменты, темп. Есть бесплатная версия. Стоимость платной подписки — от $5, есть несколько тарифных планов с разным функционалом.
Экспериментируйте с разными треками, создавайте каверы по существующим песням или пишите что-то свое в разных жанрах. У Suno большая библиотека голосов, которые могут петь заданные песни, каждый из них настроен под свои жанры, поэтому иногда стоит переключаться между ними или выбирать случайные, чтобы узнать, какой результат будет наилучшим.
При создании аудиосигналов написанием только нот программа не ограничена, здесь используются ритм, тембр, тональность. Но есть и большой минус для повседневного использования: у ПК, на котором будет запущена такая нейросеть, должна быть большая вычислительная мощность.
В итоге мы получили новый файл с акапеллой из песни, где вместо голоса оригинального артиста – выбранная голосовая модель. Ее нужно использовать вместе с минусом, который был отделен при помощи онлайн-сервиса. Происходит наложение голоса на музыку, чтобы сформировать песню. Для этого можете использовать любой аудиоредактор, работающий в десктопном режиме или онлайн.
Есть и другие нейросети, работающие по такому же принципу, некоторые имеют лучше модель ИИ или же позволяют более качественно подменять голос, однако такие платные или пока еще недостаточно известные для широкого применения. Поэтому процесс создания кавера был продемонстрирован именно на RVC, как средстве, которое используется повсеместно для создания видео с каверами на YouTube или в TikTok.
Image to Music
Тем не менее компании уже экспериментируют с созданием текстов для музыкальных композиций. Так, в 2016 году «Яндекс» выпустил альбом «Нейронная оборона», куда вошли песни в стиле «Гражданской обороны». Тексты для хитов написал искусственный интеллект [15]. Их озвучили авторы проекта, сотрудники «Яндекса», музыку написали также они. А через год в компании представили альбом Neurona с песнями в стиле группы Nirvana [16].
Suno – нейросеть, работающая в виде сайта. Может создавать песни с нуля, занимаясь написанием текста и музыки. Однако она подходит и для создания каверов, поскольку вы самостоятельно можете загрузить текст или инструментал, а далее выбрать жанр и задать дополнительные подсказки для нейросети. Ее главное отличие от предыдущего инструмента – невозможность самостоятельно выбрать голосовую модель. Голос артиста будет сгенерирован тоже с нуля.
Чтобы сгенерировать трек в Mubert [11], нужно выбрать жанр, стиль и настроение мелодии или составить текстовый запрос на английском. В первом случае композиция будет готова уже через несколько секунд, чуть больше времени потребуется на генерацию с помощью текстового запроса. Очень простая в использовании программа; треки можно создавать как для личных, так и для коммерческих целей — в зависимости от тарифа. Стоимость — от $14, есть бесплатная версия.
Если мы говорим о продвинутом инструменте, который позволяет голос в треке заменить на абсолютно любой другой, то в первую очередь стоит отметить именно RVC. Это десктопная программа, имеющая несколько разных моделей нейросетей. Работает по принципу анализа загруженной голосовой модели и замены ею оригинальной. Как раз через такую программу можно сделать кавер, используя любую готовую голосовую модель.
После победы их страны на «Евровидении» 2019 года израильские программисты написали [2] трек с помощью искусственного интеллекта, загрузив в нейросеть песни с прошлых конкурсов. Результатом стала песня Blue Jeans and Bloody Tears, которую исполнил Изхар Коэн, первый израильский победитель конкурса 1978 года.
Создание нот: нейросеть выстраивает последовательность аккордов, нот, звуков, но такой подход не позволяет работать с тональностью звука и не может воспроизвести человеческий голос. В результате можно получить музыкальную партитуру, последовательность событий MIDI (распространенный стандарт цифровой звукозаписи), простую мелодию, последовательность аккордов, текстовое представление — символическую форму, по которой можно сыграть произведение.
Компьютерные программы, владеющие нотной грамотой, не новинка: музыкальную композицию с использованием компьютера впервые создали в 1957 году. 17-секундную мелодию [1] назвали The Silver Scale, что переводится как «Серебряная чешуя». Автором был программист Ньюман Гутман.
Подготовка практически завершена, остается только разобраться с голосовой моделью. Их можно скачать с самых разных сайтов, предназначенных для замены голоса через RVC. Большинство известных артистов, включая отечественных, уже имеют свои голосовые модели, созданные энтузиастами. Если вы хотите сделать кавер с голосом вашего знакомого, понадобится звуковая дорожка с его речью, длиною не менее 10 минут. После чего она должна быть обработана через другую нейросеть для получения необходимых файлов. Этот процесс сложный и требует отдельного разбора, поэтому лучше посмотреть видеогайды по этой теме.