Содержание статьи
ТОП-5 бесплатных нейросетей для перевода текста
Перевод песни
В «Яндекс-браузере» на компьютере. Работает сразу же на всех популярных площадках, включая YouTube, Vimeo, TikTok, Twitter, Facebook и «Вконтакте». Заходить на сайты не обязательно — ролики можно переводить прямо в поисковой выдаче. А недавно браузер научился делать закадровую озвучку для курсов на образовательной платформе Coursera.
Также в открытом доступе есть много уникального и полезного контента. Например, курсы или лекции от ведущих мировых университетов. Авторы редко переводят такие видео на русский язык. Обычно их можно смотреть максимум с субтитрами. Некоторые наиболее популярные лекции переводят энтузиасты. Но таких видео мало.
Bing Microsoft Translator – переводчик от Microsoft, распознающий более 100 языков. Поддерживает голосовой ввод и озвучку переведенного текста. Представлен онлайн-сервисом, плагинами для браузеров и мобильными приложениями для Андроид и iOS. Под полями ввода находится поделенный на категории раздел с фразами, которые пользователи переводят наиболее часто. В этом разделе можно быстро находить нужные выражения, подходящие к конкретной ситуации. Есть приложение, позволяющее общаться в реальном времени собеседникам, говорящим на разных языках. Экран у каждого участника разделяется горизонтальной чертой на два поля – для введенного голосом текста и его перевода, который тут же озвучивается на другом языке. Полный функционал приложения зависит от выбранной версии, с учетом цели использования (личное общение, бизнес или образование). В бесплатной версии есть ограничения на объем введенного текста (1 000 символов) и суммарный суточный перевод (5 000 символов), отсутствует доступ к словарям, нет функции перевода статей. Лимиты и функционал переводчика можно расширять путем перехода на платный тариф, для чего нужно заключить персональное соглашение с корпорацией Майкрософт. Стоимость платного доступа не фиксирована, она зависит от типа соглашения, даты его заключения и курса валют.
GigaChat – мультимодальная нейросеть от Сбера, способная работать и с текстом, и с изображениями. Поддерживает 5 иностранных языков (английский, немецкий, французский, испанский и итальянский), может использоваться для перевода с одного языка на другой. Чтобы начать пользоваться сервисом, нужно авторизоваться через Сбер ID. Кроме веб-версии, есть Телеграм-бот. Для перевода с одного языка на другой, введите текст и сделайте перед ним пояснение для нейросети, какие действия она должна с ним произвести. GigaChat предоставляется на бесплатной основе без ограничений. Запрет стоит лишь на отдельные тематики: не получится сгенерировать или перевести текст, в котором присутствуют нарушения законодательства, призывы к насилию, пропаганда порнографии, наркотиков, алкоголя или табака.
Для работы с онлайн-мероприятиями, выступлениями иностранных спикеров, презентациями, переговорами подходит функция текстовой расшифровки, или транскрибации. Нейросеть преобразует аудиодорожку на английском или другом языке в текстовый формат, а затем текстовый файл переводится на русский.
Шестая нейросеть синтезирует речь. На этом этапе нужно избежать рассинхрона, потому что перевод предложения может оказаться в несколько раз длиннее оригинала. Иногда помогают паузы спикеров, в эти моменты можно уложить перевод. Но иногда приходится ускорять речь.
Бонус – нейросеть HeyGen
Прототип технологии машинного перевода видео и закадровой озвучки в реальном времени «Яндекс» представил в июле 2021 года. Тогда он работал только с отобранными видео на английском языке. Спустя полтора года эта функция — одна из самых полезных в «Яндекс-браузере». Технология позволяет переводить видео уже с пяти языков: английского, французского, испанского, немецкого и итальянского.
То же самое происходит при обработке книг и больших документов. В отличие от традиционных онлайн-переводчиков, искусственный интеллект не запоминает отдельные предложения, из которых потом составляет перевод. ИИ учитывает общий контекст и старается построить фразы на другом языке так, как это сделал бы человек. Это помогает программе переводить тексты на хорошем уровне: например, выбирать правильные варианты для многозначных слов.
Во время работы с прямыми трансляциями такого запаса времени нет — технология работает почти как синхронный переводчик. Чтобы задержка в переводе была небольшой, на помощь приходит нейросеть, которая расставляет в тексте знаки препинания. Это помогает понять, где начинается и заканчивается предложение, найти составные части сложносочиненного предложения, вводные фразы, перечисления и так далее.
Переведем фрагмент книги «1984» Джорджа Оруэлла: DeepL Хороший перевод, не требующий корректировки. GigaChat Нейросеть отказалась делать перевод, сославшись на то, что ее «что-то смущает». Введем еще раз тот же самый текст, и удостоверимся, что это не сбой работы. GigaChat снова отказался переводить фрагмент из Оруэлла, но без проблем перевел отрывок из сказки «Кот в сапогах». Вернемся к Оруэллу и попробуем перевести тот же фрагмент, но наоборот, с русского на английский: Фрагмент сжат, из него выброшено все «неполиткорректное» по мнению нейросети. Осталось: Был холодный ясный апрельский день, и часы пробили тринадцать. Притаившись против ветра, как испуганный кролик, Уинстон Смит поспешно проскользнул в стеклянную дверь здания «Победы», но все же впустил пыльный туман. Вывод: Роман Оруэлла «1984» нигде и никем не запрещен, однако нейросеть, видимо, расценила его как «экстремистский» по каким-то отдельным словам и фразам, вырванным из контекста. Это говорит о том, что GigaChat не всегда вложенные в ее функционал запреты может корректно применять к конкретному тексту. Reverso Неправильно переведены на русский некоторые речевые обороты, которые можно исправить вручную или при помощи встроенного корректора. Microsoft Bing Как и в предыдущем случае, некорректно переведены отдельные обороты, но в целом нейросеть справилась с задачей неплохо.
Нейронная сеть имеет несколько уровней вычислительных единиц — нейронов, которые обрабатывают данные. Алгоритмы обработки информации на этих уровнях формируются в процессе обучения. Чтобы научиться переводить, программа исследует много текстов на разных языках и тренируется на парах предложений, сравнивая оригинальные слова и фразы с переведёнными.
Профессиональные переводчики работают на стыке науки и искусства. Чтобы соблюсти эквивалентность оригиналу, нужны точность, внимание к деталям. Чтобы найти правильную языковую оформленность, нужно мыслить творчески и иметь хорошее чувство языка. Чтобы переведённый текст выполнял свою задачу, нужно понимать цели бизнеса, особенности аудитории, специфику отрасли.
Как именно нейросети переводят видео
Вторая нейросеть переводит речь спикеров в текст. Модель получает аудиодорожку, из нее она должна вычистить все посторонние звуки. Модель умеет избавляться от слов-паразитов. После всех обработок остается последовательный набор слов — с ним будут работать другие нейросети.
Технология приглушает оригинальную озвучку и поверх накладывает сгенерированную речь. Мужские голоса озвучиваются мужским голосом, женские — женским. Технология умеет распознавать нескольких спикеров на одном видео, у каждого из них будет свой голос озвучки, чтобы зрители не запутались.
Особенность нейронных сетей — хорошие способности к самообучению. Искусственный интеллект учитывает свои ошибки, углубляет знания иностранных языков. С каждым новым переведённым файлом, книгой, документом ИИ может выдавать более точный и качественный результат.
Переводить потоковые видео сложнее. Нужно одновременно решать две противоречивые задачи — поддерживать качество перевода и не отставать от речи спикеров. При переводе обычных роликов нейросети получают аудиодорожку сразу целиком. У них есть время ее проанализировать, разбить речь на предложения и синтезировать озвучку на русском языке.
Искусственный интеллект используется в технологиях распознавания и синтеза речи. Например, технология SaluteSpeech хорошо понимает человеческую речь и умеет генерировать осмысленные ответы с учётом контекста и эмоций собеседника. Технологию можно использовать в нескольких сценариях.
В настройках, которые доступны рядом с иконкой перевода, можно регулировать громкость оригинальной дорожки и включить субтитры. Некоторые видео технология переводит сразу же , потому что другие пользователи переводили их раньше. Для перевода других роликов придется подождать несколько минут. Когда ролик с русской озвучкой будет готов к просмотру, пользователю придет уведомление.
Когда началась работа над переводом видео, у браузера уже были нейросети, которые умеют переводить речь в текст и озвучивать текст с помощью синтеза речи. Они используются в других продуктах: например, голосовой помощник «Алиса» слушает человека и распознает его слова, а модуль для распознавания речи конвертирует слова в текст.
Некоторого полезного контента на русском языке нет вообще. Например, видеороликов, помогающих учиться, развиваться, решать рабочие и профессиональные задачи. Фотографы могут выбрать объектив после просмотра видео, а дизайнеры — графический планшет. Большинство обзоров техники сначала появляется как раз на английском языке.