Содержание статьи
Нейросеть «Яндекса» качественно переводит иностранные ютуб-видео: как ей пользоваться
Как именно нейросети переводят видео
В настройках, которые доступны рядом с иконкой перевода, можно регулировать громкость оригинальной дорожки и включить субтитры. Некоторые видео технология переводит сразу же , потому что другие пользователи переводили их раньше. Для перевода других роликов придется подождать несколько минут. Когда ролик с русской озвучкой будет готов к просмотру, пользователю придет уведомление.
На YouTube можно встретить целые проекты, которые занимаются озвучками иностранных роликов. Но это долго, много видео так не переведешь, к тому же переведенные ролики периодически удаляют за нарушение авторских прав. Англоязычные блогеры и образовательные проекты редко добавляют российскую озвучку — можно вспомнить разве что самого популярного ютубера в мире Mr.Beast. Закадровый перевод от «Яндекс-браузера» решает многие из этих проблем.
Некоторого полезного контента на русском языке нет вообще. Например, видеороликов, помогающих учиться, развиваться, решать рабочие и профессиональные задачи. Фотографы могут выбрать объектив после просмотра видео, а дизайнеры — графический планшет. Большинство обзоров техники сначала появляется как раз на английском языке.
Компания Яндекс не боится внедрять новые технологии в свои продукты – только так и можно сохранять их привлекательность и актуальность. И в некоторых аспектах Яндекс может даже предложить своим пользователям то, чего лишены более именитые программы-аналоги. Так, в 2021 году в фирменном Яндекс Браузере с очередным обновлением появилась очень интересная и востребованная функция. Она позволяет автоматически переводить и на русском языке озвучивать видео на различных популярных платформах, например, на том же YouTube.
Шестая нейросеть синтезирует речь. На этом этапе нужно избежать рассинхрона, потому что перевод предложения может оказаться в несколько раз длиннее оригинала. Иногда помогают паузы спикеров, в эти моменты можно уложить перевод. Но иногда приходится ускорять речь.
Об этом полезном функционале Яндекс Браузера знают немногие, а ведь возможность очень удобная. Приложение можно установить хотя бы для того, чтобы пользоваться именно этим переводчиком видео. Озвучка с помощью нейронных сетей хорошо себя показывает при онлайн-просмотре презентаций. Все же субтитры отвлекают, мешая параллельно с прослушиванием выполнять другие задачи.
Как работает перевод прямых трансляций
Когда началась работа над переводом видео, у браузера уже были нейросети, которые умеют переводить речь в текст и озвучивать текст с помощью синтеза речи. Они используются в других продуктах: например, голосовой помощник «Алиса» слушает человека и распознает его слова, а модуль для распознавания речи конвертирует слова в текст.
Изначально функция была применима только к отобранным видео, но сейчас она успешно справляется и с прямыми онлайн трансляциями. Самое интересное, что переводчик отличает пол одного спикера от другого, для этого используются разные мужские и женские синтезированные голоса.
Помогает смотреть видео в фоновом режиме. На том же YouTube неплохо обстоит ситуация с субтитрами: они даже генерируются автоматически, в том числе и русскоязычные. Но так сложнее воспринимать видео на незнакомом языке во время готовки или занятий спортом.
Вторая нейросеть переводит речь спикеров в текст. Модель получает аудиодорожку, из нее она должна вычистить все посторонние звуки. Модель умеет избавляться от слов-паразитов. После всех обработок остается последовательный набор слов — с ним будут работать другие нейросети.
В «Яндекс-браузере» на компьютере. Работает сразу же на всех популярных площадках, включая YouTube, Vimeo, TikTok, Twitter, Facebook и «Вконтакте». Заходить на сайты не обязательно — ролики можно переводить прямо в поисковой выдаче. А недавно браузер научился делать закадровую озвучку для курсов на образовательной платформе Coursera.
Обрабатывать стрим намного сложнее, чем готовый ролик. Ведь это видео нельзя заранее проанализировать и понять, как лучше сделать озвучку. В случае с готовым роликом имеется для обработки готовая аудиодорожка, тогда как со стримом все сложнее. Нейросети вынуждены осуществлять синхронный перевод прямо «на лету» создаваемой дорожки.