Содержание статьи
Яндекс» добавил в браузер закадровый перевод прямых трансляций на YouTube
Как именно нейросети переводят видео
Помогает смотреть видео в фоновом режиме. На том же YouTube неплохо обстоит ситуация с субтитрами: они даже генерируются автоматически, в том числе и русскоязычные. Но так сложнее воспринимать видео на незнакомом языке во время готовки или занятий спортом.
Нейросети передается определенный выделенный контекст, чтобы она могла лучше понять, о чем идет речь в ролике. А затем она сама расставляет все по смыслу. Но иногда требуется чуть больше времени. В случае стриминга это будет компромиссом между качеством и задержкой.
Во время работы с прямыми трансляциями такого запаса времени нет — технология работает почти как синхронный переводчик. Чтобы задержка в переводе была небольшой, на помощь приходит нейросеть, которая расставляет в тексте знаки препинания. Это помогает понять, где начинается и заканчивается предложение, найти составные части сложносочиненного предложения, вводные фразы, перечисления и так далее.
Если мы не уверены, нужно ли разбивать на предложения в данном месте, то можем подождать чуть дольше, пока не придут новые слова. Тогда мы либо лучше определимся с разбиением, либо превысим ограничение по контексту и будем вынуждены разбивать там, где почти уверены.
Нейросети умеют синхронно переводить видео с пяти языков: английского, немецкого, французского, итальянского и испанского, заявил руководитель приложения «Яндекс» и «Яндекс Браузера» Дмитрий Тимко, его слова приводятся в сообщении. Дальше компания планирует расширить число доступных языков, в частности китайский и японский, а также переводить потоковые трансляции на других ресурсах, включая популярный у геймеров Twitch, сообщил Тимко. Нейросети «Яндекса» начинают переводить предложение еще до того, как его закончили произносить, для этого пришлось перестроить всю архитектуру закадрового перевода видео, добавил он. Одна нейросеть распознает аудио и превращает его в текст, другая — определяет пол говорящего по биометрии, третья — расставляет знаки препинания и выделяет из текста смысловые фрагменты, которые содержат законченную мысль, а четвертая — отвечает за перевод.
В «Яндекс-браузере» на компьютере. Работает сразу же на всех популярных площадках, включая YouTube, Vimeo, TikTok, Twitter, Facebook и «Вконтакте». Заходить на сайты не обязательно — ролики можно переводить прямо в поисковой выдаче. А недавно браузер научился делать закадровую озвучку для курсов на образовательной платформе Coursera.
Как работает автоперевод трансляций
Переводить потоковые видео сложнее. Нужно одновременно решать две противоречивые задачи — поддерживать качество перевода и не отставать от речи спикеров. При переводе обычных роликов нейросети получают аудиодорожку сразу целиком. У них есть время ее проанализировать, разбить речь на предложения и синтезировать озвучку на русском языке.
В настройках, которые доступны рядом с иконкой перевода, можно регулировать громкость оригинальной дорожки и включить субтитры. Некоторые видео технология переводит сразу же , потому что другие пользователи переводили их раньше. Для перевода других роликов придется подождать несколько минут. Когда ролик с русской озвучкой будет готов к просмотру, пользователю придет уведомление.
По этой причине технологии немного отличаются, но языковые модели используются те же самые. В случае с трансляциями на помощь приходит третья нейросеть, ответственная за нормализацию речи. Она распознает начало и конец предложения, выделяет вводные слова, определяет сложносочиненные предложения и так далее.
На YouTube можно встретить целые проекты, которые занимаются озвучками иностранных роликов. Но это долго, много видео так не переведешь, к тому же переведенные ролики периодически удаляют за нарушение авторских прав. Англоязычные блогеры и образовательные проекты редко добавляют российскую озвучку — можно вспомнить разве что самого популярного ютубера в мире Mr.Beast. Закадровый перевод от «Яндекс-браузера» решает многие из этих проблем.
Некоторого полезного контента на русском языке нет вообще. Например, видеороликов, помогающих учиться, развиваться, решать рабочие и профессиональные задачи. Фотографы могут выбрать объектив после просмотра видео, а дизайнеры — графический планшет. Большинство обзоров техники сначала появляется как раз на английском языке.
Также в открытом доступе есть много уникального и полезного контента. Например, курсы или лекции от ведущих мировых университетов. Авторы редко переводят такие видео на русский язык. Обычно их можно смотреть максимум с субтитрами. Некоторые наиболее популярные лекции переводят энтузиасты. Но таких видео мало.
С тем же WWDC мне требовалось писать большое число статей одну за другой, а на слух английский язык я воспринимаю далеко не идеально. Поэтому гораздо удобнее, когда кто-то синхронно переводит презентацию: пишешь текст и одновременно слушаешь, что рассказывают .
Шестая нейросеть синтезирует речь. На этом этапе нужно избежать рассинхрона, потому что перевод предложения может оказаться в несколько раз длиннее оригинала. Иногда помогают паузы спикеров, в эти моменты можно уложить перевод. Но иногда приходится ускорять речь.
Зачем нужен закадровый перевод видео
«Яндекс» создал технологию автоматического перевода прямых трансляций на YouTube. Нейросети умеют переводить трансляции на пяти языках и, как утверждает компания, начинают переводить предложение еще до того, как его закончили произносить. Дальше «Яндекс» планирует переводить стримы с других платформ, включая Twitch
Российский сервис AllMyBlog в сентябре 2021 года подал в суд на «Яндекс», обвинив компанию в использовании его идеи при создании автоматического переводчика для видео. «Яндекс» возразил, что использовал только свои технологии, некоторые из которых были разработаны больше 10 лет назад. В октябре Арбитражный суд Москвы оставил иск без рассмотрения.
Пока технология работает в режиме открытого бета-тестирования, поэтому работает с ограничениями и не на всех каналах. На сайте «Яндекса» в качестве примеров приведены каналы NASA и космической компании Илона Маска SpaceX, а также канала с записями речей на английском English Speeches и платформы для лекций TED, а также каналы Apple, Google и TechCrunch. Автоматический закадровый перевод дополнит технологии голосового перевода видео и интерактивных субтитров, которые компания запустила в прошлом году, говорится в сообщении.
Вторая нейросеть переводит речь спикеров в текст. Модель получает аудиодорожку, из нее она должна вычистить все посторонние звуки. Модель умеет избавляться от слов-паразитов. После всех обработок остается последовательный набор слов — с ним будут работать другие нейросети.
Когда началась работа над переводом видео, у браузера уже были нейросети, которые умеют переводить речь в текст и озвучивать текст с помощью синтеза речи. Они используются в других продуктах: например, голосовой помощник «Алиса» слушает человека и распознает его слова, а модуль для распознавания речи конвертирует слова в текст.
Технология приглушает оригинальную озвучку и поверх накладывает сгенерированную речь. Мужские голоса озвучиваются мужским голосом, женские — женским. Технология умеет распознавать нескольких спикеров на одном видео, у каждого из них будет свой голос озвучки, чтобы зрители не запутались.