Содержание статьи
Как сделать звук студийного качества через нейросеть Enhance Speech от Adobe
Как работает нейросеть Enhance Speech
Сервис Adobe Podcast ориентирован на публику, которая занимается созданием подкастов. Его технологической основой является аудиоредактор Project Shasta, запущенный еще в конце 2021 года. На первых порах онлайн-сервис предлагал пользователям удаленно записывать подкасты, преобразовывать речь в текст, а также настраивать микрофон, но позже появилась та самая нейросеть.
Конволюционные нейросети (CNN) широко используются для обработки изображений, но они также находят применение в аудиообработке. CNN могут выделять важные особенности из аудиоспектрограмм, что помогает улучшить качество звука. Они особенно полезны для задач, связанных с фильтрацией шумов и улучшением четкости. CNN могут быть использованы для создания моделей, которые автоматически выделяют важные аудиофичи и устраняют нежелательные шумы. Например, CNN могут быть использованы для создания фильтров, которые удаляют фоновые шумы из аудиозаписей, делая звук более четким и разборчивым.
Автокодировщики представляют собой тип нейросетей, используемых для обучения эффективных кодировок данных. Они могут быть использованы для удаления шумов из аудиозаписей путем обучения на чистых и зашумленных данных. Автокодировщики могут восстанавливать исходный сигнал, устраняя нежелательные шумы. Они работают путем кодирования входных данных в более компактное представление и последующего декодирования их обратно в исходное состояние. Это позволяет автокодировщикам эффективно удалять шумы и восстанавливать поврежденные аудиозаписи.
Практически все нейросети, которые находятся на слуху, работают с графикой и носят скорее развлекательный характер. Но в начале января компания Adobe представила сервис Adobe Podcast с несколькими профессиональными инструментами для создания подкастов. Среди них особое место занимает Enhance Speech — нейросеть, улучшающая звук микрофона. Давайте разберемся, как она работает, действительно ли делает запись более чистой, и кому может пригодиться такой инструмент.
Но Enhance Speech свойственны те же недостатки, что и нейросетям, улучшающим качество фото. Если при работе с графикой искусственный интеллект делает картинку нарочито мультяшной, пытаясь сгладить все недостатки изображения, то ИИ Adobe слишком агрессивно отсекает внешние шумы, делая звук плоским. Для подкастов — это то, что нужно. Но, если прогнать через нейросеть Adobe аудиодорожку какого-нибудь старого телевизионного репортажа, звук получится неестественно рафинированным. Складывается впечатление, что ролик в прямом смысле слова переозвучили.
Поэтому в сценариях, выходящих за пределы создания подкастов, помимо Enhance Speech от Adobe нужно использовать дополнительные инструменты. Один из умельцев загрузил на YouTube сцену из фильма «Гражданин Кейн» (1941), которую не только прогнал через нейросеть Adobe, но и наложил на получившуюся аудиодорожку эффект реверберации. Звук стал менее плоским, но итоговый результат все равно заставляет рассматривать Enhance Speech исключительно как инструмент для работы с подкастами.
Введение в улучшение качества звука с помощью нейросетей
При первом посещении необходимо создать учетную запись. Для этого нажмите кнопку «Sign Up». Чтобы войти, можно воспользоваться аккаунтом Google или Apple ID. После успешной авторизации на экране появится кнопка «Upload», нажав которую вы сможете загрузить аудиофайл для его дальнейшей обработки.
TensorFlow и Keras являются мощными библиотеками для разработки и обучения нейросетей. Они предоставляют широкий набор инструментов для обработки аудиоданных, включая функции для загрузки, предобработки и анализа звука. Эти библиотеки поддерживают как RNN, так и CNN, что делает их универсальными для различных задач улучшения звука. TensorFlow и Keras также предоставляют удобные интерфейсы для создания и обучения моделей, что делает их идеальными для начинающих и опытных разработчиков.
В качестве эксперимента я загрузил 24-секундную аудиодорожку легендарного ролика «Пацаны ваще ребята». Чтобы ее обработать, Enhance Speech потребовалось около минуты, а итоговый размер файла увеличился с 0,2 Мб до 4,5 Мб. Но результат меня более чем устроил. Именно так звучало бы это видео, если бы его записью занималась бригада провинциального телеканала.
Рекуррентные нейросети (RNN) особенно эффективны для обработки последовательных данных, таких как аудиозаписи. Они имеют внутреннюю память, позволяющую учитывать предыдущие состояния при обработке текущих данных. Это делает их идеальными для задач, связанных с временными рядами, включая улучшение качества звука. RNN могут быть использованы для различных задач, таких как распознавание речи, удаление шума и восстановление поврежденных аудиозаписей. Одним из популярных типов RNN является LSTM (Long Short-Term Memory), который способен запоминать долгосрочные зависимости в данных, что делает его особенно полезным для аудиообработки.
Аналогичный набор функций сейчас доступен и в Adobe Podcast. По сути, это ребрендинг Project Shasta и направлен на более широкую аудиторию. Хотя для доступа ко всем возможностям необходимо подать заявку через форму на сайте, нейросеть Enhance Speech, которая является одним из инструментов онлайн-сервиса, доступна любому желающему совершенно бесплатно.
Улучшение качества звука с помощью нейросетей становится все более популярным благодаря достижениям в области искусственного интеллекта и машинного обучения. Нейросети способны анализировать и обрабатывать аудиоданные, устраняя шумы, улучшая четкость и даже восстанавливая поврежденные записи. В этой статье мы рассмотрим основные типы нейросетей, используемых для обработки звука, примеры инструментов и библиотек, а также предоставим практическое руководство по улучшению звука.