Нейросети

Искусственный интеллект как видит песни

18.06.2024

Содержание статьи

Нейросети, создающие музыку по текстам и изображениям: как это происходит

Нейросети, создающие музыку по фото

Эта нейросеть [13] создает звуковой пейзаж. Например, если загрузить фото медведя в лесной чаще, то вы услышите, как зверь рычит, а на фоне шумит листва деревьев, а по фото горной реки нейросеть воспроизведет шум волн. Алгоритм придумали в Японии. Пользоваться Imaginary Soundscape можно бесплатно.

Имитировать человеческий голос нейросети тоже научились, тем более что это уже давно используется в организации работы call-центров или личных ассистентов вроде Siri. В 2016 году DeepMind представила алгоритм WaveNet, который реалистичным голосом озвучивает тексты на английском и китайском языках [17].

Тем не менее компании уже экспериментируют с созданием текстов для музыкальных композиций. Так, в 2016 году «Яндекс» выпустил альбом «Нейронная оборона», куда вошли песни в стиле «Гражданской обороны». Тексты для хитов написал искусственный интеллект [15]. Их озвучили авторы проекта, сотрудники «Яндекса», музыку написали также они. А через год в компании представили альбом Neurona с песнями в стиле группы Nirvana [16].

Сервис качественно генерирует песни по текстовому запросу. При фоновом прослушивании их сложно отличить от созданных людьми. Suno AI пишет музыку и слова, в том числе на русском языке. А еще может нарисовать обложку. Первые десять треков — бесплатные. На главной странице сервиса можно посмотреть работы других пользователей.

Генерация музыкальных произведений похожа на такой же процесс с картинками или текстами — нейросеть использует данные, по которым обучена. Например, если загрузить в библиотеки альбомы Queen, то и выдаваемые алгоритмом произведения будут похожи по стилю. Поэтому чем больше мелодий, жанров, исполнителей изучит нейросеть, тем разнообразнее и оригинальнее окажется результат.

Чтобы определить, действительно ли хорошее произведение смог создать компьютер, можно использовать тест. Его создал ученый Алан Тьюринг в середине прошлого века. Тест работает так: человек взаимодействует и с компьютером, и с другим человеком, задает им вопросы. Тест пройден компьютером в том случае, если тот, кто спрашивает, не может отличить по ответам программу от человека.

Длина трека зависит от текста, но обычно не превышает двух минут. Но любую генерацию можно продолжить, каждый следующий сегмент — минута. Для этого надо нажать на три точки возле трека в списке ваших генераций и выбрать Extend. Учтите, что на это тоже расходуются кредиты.

Генеративно-состязательные нейросети создают музыкальную композицию на примере загруженных в базу треков и затем пытаются отличить оригинал от сгенерированного экземпляра. Здесь задействованы две модели — генератор и дискриминатор. Первый создает музыку, а второй пытается определить, где сгенерированное произведение, а где оригинал. Так они соревнуются друг с другом, чтобы генеративная модель могла создавать максимально правдоподобные композиции.

ЧИТАТЬ ТАКЖЕ: Что изучает искусственный интеллект в информатике

Как отредактировать сгенерированный трек в Suno AI

А еще в текст песни можно вставить метатеги — то есть в квадратных скобках указать, где начинается припев и когда заканчивается трек. Это необязательно, но помогает добиться более точного результата. Например, я попыталась создать лиричную рок⁠-⁠балладу «Чипи⁠-⁠чипи чапа⁠-⁠чапа», и она закончилась очень резко. Чтобы этого избежать, пришлось разобраться, в чем проблема. Оказалось, лучше поставить тег для завершения композиции.

Чтобы создать музыку в этой нейросети, потребуется минимальное участие человека. Нужно лишь указать несколько жанров и скорость. Регистрация очень простая, через аккаунт Google. Soundful [7] подойдет для тех, кому нужен контент для соцсетей или фоновая музыка, например для рекламных роликов. Стоимость подписки — от $9,99 в месяц.

Указывать конкретного исполнителя в запросе не стоит. Создатели сервиса говорят, что нейросеть не определяет, это реально существующий человек или вымышленный. На практике сервис выдает ошибку, увидев имя в запросе, но иногда все же генерирует трек. Голос не клонируется в точности. Но в целом песня похожа на то, что исполнял выбранный человек. Например, если вы попросили балладу, спетую голосом, похожим на голос Фрэнка Синатры, за несколько попыток можно получить что-то похожее. Но это затратно по кредитам.

После победы их страны на «Евровидении» 2019 года израильские программисты написали [2] трек с помощью искусственного интеллекта, загрузив в нейросеть песни с прошлых конкурсов. Результатом стала песня Blue Jeans and Bloody Tears, которую исполнил Изхар Коэн, первый израильский победитель конкурса 1978 года.

Очень простая программа, в которой можно вписать ключевые слова, жанр, темп будущего произведения и нейросети этого будет достаточно. Soundraw [6] предложит несколько вариантов, понравившийся можно доработать. Подойдет для создания аудиоконтента для роликов на YouTube, кино, рекламы, подкастов, видеоигр, социальных сетей. Стоимость — от $16,99 в месяц.

Чтобы сгенерировать трек в Mubert [11], нужно выбрать жанр, стиль и настроение мелодии или составить текстовый запрос на английском. В первом случае композиция будет готова уже через несколько секунд, чуть больше времени потребуется на генерацию с помощью текстового запроса. Очень простая в использовании программа; треки можно создавать как для личных, так и для коммерческих целей — в зависимости от тарифа. Стоимость — от $14, есть бесплатная версия.

Финал получился вот таким. Несмотря на то что текста в запросе не было, местами вылезают фрагменты припева из исходного трека. Если хочется этого избежать, можно перегенерировать трек — результат при каждой попытке немного различается. Либо вместо текста прописать какое-то звукоподражание. Тогда нейропевцы будут исполнять его, а артефакты из предыдущих куплетов — нет.

При создании аудиосигналов написанием только нот программа не ограничена, здесь используются ритм, тембр, тональность. Но есть и большой минус для повседневного использования: у ПК, на котором будет запущена такая нейросеть, должна быть большая вычислительная мощность.

Нейросети, создающие музыку по текстам и изображениям: как это происходит

Нейросети, создающие музыку по фото

Как отредактировать сгенерированный трек в Suno AI

ОСТАВЬТЕ ОТВЕТ Отменить ответ

ЭТО ПОПУЛЯРНО

ЭТО ИНТЕРЕСНО

ВЫБОР РЕДАКТОРА