Как заставить нейросеть говорить голосом

0
28

Как сделать ИИ-кавер при помощи нейросети

Как сгенерировать трек на сайте musicfy

Онлайн-сервис Oddcast позиционируется как средство для создания дикторской речи с озвучкой разными голосовыми моделями. Помимо этого создается анимация, когда на экране виден сам диктор на фоне разных локаций, имитирующий ртом речь. Сейчас это выглядит немного несуразно и сразу можно понять, что картинка нереалистична, но стоит понимать, что ИИ в данной сфере только развивается и спустя некоторое время значительно усовершенствуется как в плане озвучки, так и графического сопровождения.

Разных сайтов для озвучки текста существует еще большое количество, но многие из них базируются на уже знакомых многим языковых моделях, которые не самые качественные. Останавливаться на таких я не буду, поэтому в завершение расскажу про еще однин интересный сайт – Genny. Однако учитывайте, что пока он имеет довольно ограниченный набор русских голосов (всего три самых известных), но, судя по разделу с поиском, в будущем их добавление планируется. Genny имеет очень удобный редактор с таймлайном, что позволяет добавлять почти неограниченное количество реплик, сказанных разными голосами одновременно или последовательно.

Шаг 9. Нажмите на иконку папки и перетащите в пустое пространство аудиофайл с а капеллой в формате wav, который вы подготовили в третьем шаге. Загрузка файла может занять несколько минут — все зависит от его длины. Когда файл загрузится, запустите код.

Дольше всего загружается Setup 1 — около 10 минут. Остальным требуется несколько секунд. Вам не придется загружать код для каждого трека, достаточно сделать это один раз. Но спустя примерно два часа код автоматически сбросится. В таком случае придется начинать весь процесс заново.

Способ, не требующий навыков программирования или мощного компьютера: воспользоваться нейросетью на Google Colab. Полностью готовый ИИ-кавер можно сделать примерно за полчаса. Сгенерировать песню можно с голосом исполнителя, чью модель выложили в открытый доступ энтузиасты.

История про трек разошлась, и позже его удалили со всех площадок по требованию правообладателя Universal. Но в соцсетях стали появляться другие коллаборации: голосом Фредди Меркьюри исполнили песню Imagine Dragons, а Канье Уэст «спел» Just The Two of Us. Тренд добрался и до рунета: песни стали перепевать голосами Доры и Элджея. А ИИ-каверы нейро-Моргенштерна сильно разошлись в «Тиктоке».

Нейросеть из Google Colab позволяет сгенерировать трек сотней голосов, модели которых сделали пользователи. Этот способ затратен по времени: нужно ждать загрузки кода, часто он выдает ошибки. Разобраться в причинах с ходу сложно — сервис не говорит, в чем именно проблема. Порой приходится проводить время на форумах и «Ютубе», чтобы устранить ошибку — а через пять минут наткнуться уже на новую.

Cybervoice – еще один онлайн-сервис для синтеза речи, который точно заслуживает вашего внимания. Все его функции доступны бесплатно, но есть ограничение по количеству символов для озвучки для тех юзеров, кто пока еще не выбрал для себя тарифный план. Лимита достаточно для проверки нескольких примеров и понимания того, подходит ли данный инструмент для ваших целей. Звуковых моделей здесь большое количество, начиная от известных голосов актеров озвучания и заканчивая голосами персонажей из игр (Ведьмак 3 или Genshin Impact).

ЧИТАТЬ ТАКЖЕ:  Как видит нейросеть кота

Как сгенерировать трек в нейросети so-vits-svc при помощи Google Colab

Кстати, при выборе языковой модели Zvukogram сразу предлагает прослушать пример, чтобы понять, как звучит голос, с какой интонацией говорит диктор и правильно ли расставляются все ударения. Это позволит потратить меньше времени на подбор подходящего голоса, а перед озвучкой останется только немного отредактировать скорость и высоту тона, если это понадобится.

Музыка защищена авторским правом, поэтому использовать в коммерческих целях ее нельзя. Будьте готовы к тому, что ваш сгенерированный трек могут удалить с «Ютуба» или других платформ по требованию правообладателя. Либо выбирайте песни, доступные по лицензии Creative Commons.

Функциональность сайта позволяет вам создавать не просто базовую озвучку набранного текста, но и формировать диалоги разных людей, имитируя это с помощью искусственного интеллекта. Англоязычные голосовые модели показались мне лучшими из тех, что я слышал за время знакомства с разными сайтами, поэтому я точно могу рекомендовать данный сайт всем тем, кому подойдет озвучка на английском. Остальные, кому не подходят несовершенные русские голоса, могут пока что просто пометить данный веб-ресурс и иногда мониторить обновления, просматривая, какие новые голосовые модели были добавлены разработчиками.

Конечно, главной особенностью Zvukogram является поддержка просто огромного количества самых разных звуковых моделей. Их полный список вы видите на следующем изображении. Почти все из них доступны только в платной версии, но и того количества бесплатных, что предоставляют разработчики, вполне достаточно, чтобы подобрать подходящую. Итоговый результат озвучки можно будет сохранить на компьютер как аудиофайл в одном из доступных форматов.

Шаг 6. Поочередно запустите ячейки Check GPU, Setup 1, Setup 2, Download ContentVec, Setup HF Downloads. Для этого нужно нажать кнопку Play возле соответствующего заголовка. Когда код загрузится, возле названия ячейки появится зеленая галочка. Запускайте следующую ячейку, только когда закончится загрузка предыдущей. Если вы пропустите одну из строчек, программа не сработает.

Шаг 4. Выберите один из предложенных голосов. На сайте доступны вокалы Арианы Гранде, Дрейка, Граймс, Канье Уэста, Трэвиса Скотта и других. Есть два персонажа мультфильмов — Губка Боб Квадратные Штаны и Питер Гриффин. При этом все эти голоса могут воспроизводить русскоязычный текст.

Musicfy позволяет генерировать треки гораздо проще: с коротким ожиданием, без запуска кода и возможности столкнуться с ошибками. С этим способом даже не требуется конвертировать аудиофайлы. Главный минус — на сайте представлен ограниченный набор голосов.

Первый сайт с названием NaturalReaders отлично подходит для озвучки сценариев или чтения книг. Пользователю достаточно выбрать одну из языковых моделей, вставить текст или загрузить его из документа в поддерживаемом формате. Бесплатно доступно только две языковые модели и 20 минут чтения текста в день, чего вполне достаточно для ознакомления с основными функциями онлайн-сервиса. Во время синтеза на экране могут появляться и субтитры по выбору пользователя, что позволит следить за текущим фрагментом и понимать, насколько качественно робот озвучивает содержимое.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь