Как видит песни искусственный интеллект

0
20

Нейросеть Suno AI: пишем хиты в пару кликов

Библиотека пользователей

Способность искусственного интеллекта представлять музыку цифровым кодом нашла практическое применение в нашей жизни. Именно благодаря спектрограммам нейросети анализируют и распознают музыку, чтобы, например, с помощью Shazam находить похожие треки. Когда приложение «слышит» композицию, оно сравнивает ее спектрограмму со множеством других из базы данных и отыскивает совпадения. При этом искусственный интеллект распознает мелодию даже сквозь помехи вроде голосов за соседним столиком или шума машин.

Для ограничения трафика разработчики Suno используют внутреннюю валюту — кредиты. Одна композиция стоит 5 кредитов, при этом счёт ежедневно пополняется на 50 кредитов (которых хватает на создание 10 треков). Пользователи платной версии получают больше валюты и возможностей.

Сервис платный, и у него нет пробного режима. Самый дешёвый тариф обойдётся в 17 долларов. Этот уровень подписки не позволяет публиковать на стримингах работы, созданные с помощью Soundraw. Перед оплатой можно послушать примеры сгенерированного контента и попробовать режим редактирования. Есть API для разработчиков.

Разработчики Soundraw добавили ряд инструментов для редактирования сгенерированных композиций. Нейросеть создаёт многоканальную запись и разделяет трек на логические части: вступление, куплеты, развязку, финал и другие. К примеру, в специальном меню можно полностью убрать бас в начале, а в припевах добавить больше ударных.

Suno хорошо справляется с созданием музыки, умеет работать с любыми жанрами и даже изобретать новые. А вот с текстами дела обстоят значительно хуже. Функция автоматической генерации работает только на английском. Будет ли нейронка обучаться рифмоплётству на других языках, в том числе на великом и могучем, — неизвестно.

Эксперименты с генерацией музыки с помощью искусственного интеллекта начались еще в 50-х годах прошлого века. С тех пор нейросети научились «понимать» и распознавать песни, определять наши вкусы в стриминговых сервисах и даже писать музыкальные произведения на основании данных о движении небесных тел. Как искусственный интеллект работает со звуком и какие прорывные продукты, созданные «кибер-композиторами», мы будем использовать в будущем, рассказывают специалисты «Яндекса».

В прошлом году команда поставила перед собой еще более амбициозную задачу — перевести в музыку астрономические данные о небесных объектах. Так на свет появился альбом «Музыка звезд». Сначала астрофизики передали разработчикам информацию о космических телах: яркость, периодичность тех или иных явлений, параметры движения. Эти данные были сведены в таблицы, а затем преобразованы в нотный текст.

А еще специалисты компании учат нейросети писать персонализированные треки. В рамках одного проекта программисты создают алгоритмы для генерации композиций, которые смогут решать конкретные задачи человека. Например, помогать сконцентрироваться перед началом работы, зарядиться для занятия спортом или, наоборот, успокоиться. Эти мелодии искусственный интеллект составляет из большой библиотеки звуков: записи отдельных инструментов, эффектов и даже вокальных партий.

Как ИИ распознает музыку и рекомендует песни?

В дальнейшем, по мнению специалистов, с помощью нейросетей можно будет создавать мелодии для музыкальной терапии, так как музыка оказывает сильное воздействие на человеческий мозг. Она помогает расслабиться, прийти в тонус или, например, отвлечься от плохих мыслей.

ЧИТАТЬ ТАКЖЕ:  Где искусственный интеллект может заменить человека

В итоге вся волна превращается в набор точек, которым остается только присвоить цифровые коды. Другими словами, мы получаем большой набор цифр, описывающий каждый фрагмент песни. Эти числа можно внести в одну большую таблицу, а можно отобразить наглядно в виде спектрограммы. Так называют графическое изображение звуков в системе координат, где по вертикальной оси располагаются звуковые частоты (от высоких звуков до низких), а по горизонтальной — время. Чем теплее и ярче цвет на спектрограмме, тем интенсивнее звук в этом месте. Описать спектрограмму словами непросто, так что лучше сразу посмотрите, как она выглядит.

Кроме треков, которые мы обычно слушаем, ИИ учитывает и данные о нашем поведении. Например, информация о том, что мы смотрим на «Кинопоиске», позволят предсказать, что мы захотим послушать в «Яндекс Музыке». Любите вестерны? Держите «The Good, the Bad and the Ugly» Эннио Морриконе. Также может учитываться и наше отношение к конкретным песням или исполнителям — сколько раз мы лайкнули композиции определенного жанра или определенного артиста, а какие песни, наоборот, оценили негативно или переключили в тот момент, когда нейросеть предложила нам их послушать. История взаимодействия с музыкой внутри сервиса складывается в статистику, которая помогает ИИ разобраться, что лучше порекомендовать конкретному человеку в тот или иной период времени.

Еще более наглядное объяснение этого процесса дается в рамках «Урока Цифры» от Яндекса — «Цифровое искусство: музыка и IT». В этом проекте эксперты компании рассказывают о музыкальной оцифровке, теории звука, системах рекомендаций в медиасервисах, а после теоретической части участники могут попробовать самостоятельно продолжить композицию. Уроки и задания предназначены для школьников, но взрослым они тоже будут интересны.

Откроется поле с промптом композиции — его можно редактировать как угодно. Нейросеть попытается сгенерировать что-то похожее на исходный трек, но учтёт новые параметры. Также в режиме ремиксов есть функция Extend, которая позволяет увеличить длительность определённого фрагмента песни или сгенерировать на его основе совершенно новую композицию.

Также ИИ может удачно рекомендовать песни в стриминговых сервисах. Представим, что мы только что послушали свой любимый трек. Чтобы предложить нам следующую композицию, нейросети сравнивают нашу песню с миллионами других. В частности, ИИ анализирует большое количество спектрограмм, находит в них закономерности и с высокой точностью определяет, похожи ли два трека по жанру, используемым инструментам и даже по настроению. По сути, такие же процессы происходят и в человеческом мозге: люди отличают рок от джаза, потому что послушали много разной музыки и научились определять признаки того или иного жанра. Разница в том, что ИИ делает это на языке цифр и способен изучить трек гораздо глубже человека — буквально по тысячам параметров — и запомнить не 100 мелодий, а миллионы.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь