Содержание статьи
Нейронные сети для озвучки текста
RESEMBLE AI
Нейросеть, которая озвучивает текст твоим голосом или голосом робота. Resemble AI создана на основе ИИ, позволяет за несколько секунд преобразовывать текст речь или речь в речь, редактировать результат и выбирать язык дублирования. Имеет интересную функцию — смешивание синтетического и человеческого голосов. Предлагает API для разработчиков.
Сервис достаточно простой, но обладает ограниченным количеством функций. Например, здесь нельзя озвучить текст на английском по фото — текст необходимо вводить в поле вручную или вставлять, предварительно скопировав. В бесплатном тарифе одна озвучка ограничена 5000 символами. В платных пакетах стоимость 1000 символов составляет минимально 1 рубль, максимально 7 руб. Плата удерживается по факту использования символов и в зависимости от выбранного типа голоса.
В бесплатном тарифе конвертирует не более 250 символов. Стоимость платных тарифов — от 5 до 20 долларов, количество знаков в месяц — от 200 тысяч до 1 млн. Кроме того, в премиальном и бизнес-тарифе увеличено количество голосов и языков, есть возможность коммерческого использования, например, озвучки видео на YouTube, выделяется до 10 ГБ для сохранения результатов в облаке.
Из этого можно сделать вывод, что сайт Cybervoice доступен для использования как в развлекательных целях, когда вы просто хотите, чтобы ваш текст был озвучен известным голосом, так и в профессиональных – для озвучки сценариев и книг. Голосовые модели функционируют довольно хорошо, особенно те, словарный запас которых покрывает практически все слова. Иногда даже не понять, был ли записан голос вживую или это обработка при помощи нейронных сетей.
Сервис предлагает озвучку текста искусственным интеллектом онлайн, пользователь сам может выбирать настройки — темп речи, наличие и длительность пауз, акцент, громкость, скорость голоса, применение эффектов. Voicemaker работает с женскими и мужскими голосами, всего в линейке 14 вариантов. Результаты можно скачать в формате mp3. Есть возможность делать озвучку для коммерческих целей — озвучивать видео на YouTube, подкасты, аудиокниги, использовать API для встраивания сервиса в call-центры, мобильные и веб-приложения.
Нейросеть, которая превращает текст в голос, не предлагает бесплатного тарифа или пробной версии. Минимальная стоимость — 0,006 доллара за секунду. В этом пакете предлагает до 10 голосов, есть только английский язык, оплата по мере использования времени. В тарифе Pro предусмотрены расширенный выбор эмоций, поддержка на более чем 20 языках, API создания голоса и другие функции.
Разных сайтов для озвучки текста существует еще большое количество, но многие из них базируются на уже знакомых многим языковых моделях, которые не самые качественные. Останавливаться на таких я не буду, поэтому в завершение расскажу про еще однин интересный сайт – Genny. Однако учитывайте, что пока он имеет довольно ограниченный набор русских голосов (всего три самых известных), но, судя по разделу с поиском, в будущем их добавление планируется. Genny имеет очень удобный редактор с таймлайном, что позволяет добавлять почти неограниченное количество реплик, сказанных разными голосами одновременно или последовательно.
Нейросеть «читает» текст голосом и преобразовывает файлы в разных форматах, в том числе PDF. С её помощью удобно создавать голос за кадром, озвучивать фильмы и игры, образовательный контент, маркетинговые видеоролики. Позволяет выбирать голоса, устанавливать скорость, выдаёт результат в формате mp3. Сервис Wideo работает онлайн, предлагает множество готовых шаблонов.
ZVUKOGRAM
В этом материале я постарался не просто собрать известные сайты для синтеза речи, а именно сделал акцент на ресурсах, которые используют технологии ИИ и предоставляют языковые модели для самых разных целей. Пять разных сайтов точно хватит для того, чтобы среди них выбрать одного или нескольких фаворитов и использовать на постоянной основе для личных или коммерческих целей.
Кстати, при выборе языковой модели Zvukogram сразу предлагает прослушать пример, чтобы понять, как звучит голос, с какой интонацией говорит диктор и правильно ли расставляются все ударения. Это позволит потратить меньше времени на подбор подходящего голоса, а перед озвучкой останется только немного отредактировать скорость и высоту тона, если это понадобится.
Первый сайт с названием NaturalReaders отлично подходит для озвучки сценариев или чтения книг. Пользователю достаточно выбрать одну из языковых моделей, вставить текст или загрузить его из документа в поддерживаемом формате. Бесплатно доступно только две языковые модели и 20 минут чтения текста в день, чего вполне достаточно для ознакомления с основными функциями онлайн-сервиса. Во время синтеза на экране могут появляться и субтитры по выбору пользователя, что позволит следить за текущим фрагментом и понимать, насколько качественно робот озвучивает содержимое.
Теперь давайте поговорим о том, какие функции доступны пользователю в демоверсии Oddcast. Изначально вы можете выбрать один из поддерживаемых языков, коих насчитывается больше двадцати, и один из существующих голосов озвучки – их количество зависит от выбранного языка. Например, для русского есть пока что три, но, скорее всего, в будущем появятся и другие модели. На голос можно наложить разные эффекты и управлять тональностью. Затем остается только ввести текст и нажать кнопку для его воспроизведения.
Онлайн-сервис Oddcast позиционируется как средство для создания дикторской речи с озвучкой разными голосовыми моделями. Помимо этого создается анимация, когда на экране виден сам диктор на фоне разных локаций, имитирующий ртом речь. Сейчас это выглядит немного несуразно и сразу можно понять, что картинка нереалистична, но стоит понимать, что ИИ в данной сфере только развивается и спустя некоторое время значительно усовершенствуется как в плане озвучки, так и графического сопровождения.
Проект Тимура Бекмамбетова, созданный ещё в 2019 году, предлагает озвучку голосом знаменитостей на русском языке. Нейросеть создавалась совместно с компанией Stafory, которая разработала HR-сервис «Робот Вера». Vera Voice поможет озвучить текст голосом знаменитости с использованием искусственного интеллекта — она копирует интонацию и другие особенности речи с оригинальных записей. Результаты можно использовать для голосовых поздравлений, розыгрышей, в ботах и «умных» устройствах, для озвучивания аудиокниг.