Содержание статьи
Изи гайд для установки нейросети по преобразованию голоса
Степ намбер ван — устанавливаем Python
Вы, наверное, уже видели кучу каверов на известные песни спетые другими исполнителями. К примеру, «Summertime sadness» Ланы Дель Рей перепетая Канье Уэстом. Естественно, сам он не пел, это сделала нейросеть. Так вот, в этой статье мы расскажем как установить эту нейросеть, а именно So-VITS-SVC (SoftVC VITS Singing), и как ей пользоваться. Все очень просто, программистом быть не нужно.
Хотя эта технология не нова (ее разработали в конце 2022 года), возможности Voice Engine впечатляют. Например, с помощью нейросети девушка, которая потеряла способность нормально говорить из-за сосудистой опухоли головного мозга, теперь вновь может общаться своим привычным голосом. Для этого разработчики использовали звуковую запись, которую она когда-то сделала для школьного проекта.
В просторах интернета много ресурсов, где вы можете это сделать. Вот некоторые из них: Vocalremover. Бесплатно дается 1 файл максимальной продолжительностью 10 минут, более обширен в инструментах, можно выделить и отдельные инструментальные партии. Бесплатный mvsep. Ничего сложного, загружаете аудиозапись, выбираете тип разделения «вокал, музыка», скачиваете оба файла
Охват глобальных данных и небольших сообществ. В компании Dimagi, занимающейся разработкой мобильных приложений для сбора, хранения и обработки статической информации в здравоохранении, тоже заинтересовались Voice Engine. Там начали применять ее для интерактивной обратной связи с медработниками в удаленных уголках планеты. А еще для создания обучающих роликов (например, по грудному вскармливанию младенцев) на редких языках. Только в Кении насчитывается 68 диалектов, и каждая община говорит на своем. Яркий пример — шэн — смесь английского и суахили.
Например, в обучении маленьких детей, школьников и студентов. На образовательных интернет-платформах можно найти массу курсов, и если их будет читать не механический, а естественно звучащий голос, слушать такие лекции будет намного приятнее. А значит, усваивать материал будет проще. OpenAI уже заключила контракт с одной из таких компаний, которая раньше занималась программами для обучения детей чтению и математике. Теперь с помощью Voice Engine и GPT-4 они разработали и другие курсы — например, по химии и физике.
Кроме того, с помощью Voice Engine можно переводить текст. Нейросеть способна воспроизводить голос человека не только на его родном языке, но и на любых других, при этом сохраняя акцент. Например, если франкоговорящий захочет создать аудио на английском языке, ИИ сгенерирует запись с французским произношением. Так, в компании HeyGen, которая специализируется на создании маркетинговых образов и аватаров, Voice Engine используют для перевода видеороликов. Английскую речь там трансформируют в испанскую, китайскую, немецкую, французскую, японскую. И все это голосом одной женщины.
Разделяем песню, которую хотим изменить, на отдельные части: инструментал и вокал
Есть два варианта открытия приложения. В командной строке вводим: svc gui. И должно открыться такое окно: Если вдруг у вас не получилось и вышла ошибка, например, что такой команды нет, попробуйте найти отдельно приложение svc-gui.exe в папке с Python и запустить его. У нас вышло такое окно, но мы не стали вникать, просто окнули, подождали и все открылось. В данном поле Model path выбираем ранее скачанный файл pth: В Config path файл json: В поле Input audio path выбираем аудиофайл где только вокал той песни, которую мы будем менять: Здесь вы задаете имя и расположением новой аудиозаписи, которая получиться в конце: Рекомендуем снять галочку с Auto play, чтобы не снижать производительность: Если вы хорошо шарите в звукообработке, то настраиваете поля как считаете нужным, если нет — позвольте системе применить параметры по умолчанию и самой подстроиться под ваш файл И запускайте обработку записи нажатием на Infer: В командной строке происходит процесс обработки, отображается ее статус, делать ничего не нужно: По окончанию, в заданной вами папке, найдете долгожданную запись.А здесь прикладываем наш AI-кавер на песню группы a-ha «Take on me» голосом Эрика Картмана из «Южного Парка».
Voice Engine сейчас тестируют на небольших группах людей. И хотя ее создатели опасаются, что их детище попадет в руки мошенников, они в итоге намерены сделать новинку доступной и безопасной для массового пользования. Ведь она может стать полезной во многих сферах жизни.
Также Voice Engine пригодится тем, кто общается жестами. Существуют приложения с искусственным интеллектом, которые позволяют коммуницировать людям с ограниченными возможностями. Используя новую нейросеть, они могут выбирать из числа уникальных, нероботизированных голосов.
Где нам их найти? Конечно там где сейчас есть все — в дискорде. Переходим по ссылочке в нужный нам канал и выбираем из предложенных голос того человека или персонажа, который нам нужен, кликаем на него, открывается пост, в нем указана ссылка, как правило, на облачное хранилище. Вы увидите там либо архив к скачиванию, либо файлы. Вам обязательно нужно, чтобы было два файла в форматах pth и json. Сохраняем их на компьютер. Мне нужен был голос Эрика Картмана из Саус Парка, на тот момент в дискорде не было этого файла, поэтому брали здесь. Переходим по ссылке, жмем «Files and versions» Выбираем папку с нужным голосом. Скачиваем оба файла.
При всей пользе Voice Engine критики по всему миру все же обеспокоены последними тенденциями. Речь о том, что ИИ способен создавать фальшивые видео- и аудиозаписи. В OpenAI заверяют, что сейчас все, кто тестирует их новинку, подписывают соглашение, в котором запрещено использовать любые голоса без письменного разрешения разработчика. При этом компании обязаны сообщать своей аудитории, что голоса, которые они слышат, генерирует искусственный интеллект. Наконец, OpenAI внедрила «водяные знаки», которые позволяют определить происхождение любого звука, создаваемого Voice Engine.