Содержание статьи
Яндекс» добавил в браузер закадровый перевод прямых трансляций на YouTube
Как работает автоперевод видео в Яндекс Браузере
Пока технология работает в режиме открытого бета-тестирования, поэтому работает с ограничениями и не на всех каналах. На сайте «Яндекса» в качестве примеров приведены каналы NASA и космической компании Илона Маска SpaceX, а также канала с записями речей на английском English Speeches и платформы для лекций TED, а также каналы Apple, Google и TechCrunch. Автоматический закадровый перевод дополнит технологии голосового перевода видео и интерактивных субтитров, которые компания запустила в прошлом году, говорится в сообщении.
«Яндекс» создал технологию автоматического перевода прямых трансляций на YouTube. Нейросети умеют переводить трансляции на пяти языках и, как утверждает компания, начинают переводить предложение еще до того, как его закончили произносить. Дальше «Яндекс» планирует переводить стримы с других платформ, включая Twitch
Нейросети передается определенный выделенный контекст, чтобы она могла лучше понять, о чем идет речь в ролике. А затем она сама расставляет все по смыслу. Но иногда требуется чуть больше времени. В случае стриминга это будет компромиссом между качеством и задержкой.
Российский сервис AllMyBlog в сентябре 2021 года подал в суд на «Яндекс», обвинив компанию в использовании его идеи при создании автоматического переводчика для видео. «Яндекс» возразил, что использовал только свои технологии, некоторые из которых были разработаны больше 10 лет назад. В октябре Арбитражный суд Москвы оставил иск без рассмотрения.
Нейросети умеют синхронно переводить видео с пяти языков: английского, немецкого, французского, итальянского и испанского, заявил руководитель приложения «Яндекс» и «Яндекс Браузера» Дмитрий Тимко, его слова приводятся в сообщении. Дальше компания планирует расширить число доступных языков, в частности китайский и японский, а также переводить потоковые трансляции на других ресурсах, включая популярный у геймеров Twitch, сообщил Тимко. Нейросети «Яндекса» начинают переводить предложение еще до того, как его закончили произносить, для этого пришлось перестроить всю архитектуру закадрового перевода видео, добавил он. Одна нейросеть распознает аудио и превращает его в текст, другая — определяет пол говорящего по биометрии, третья — расставляет знаки препинания и выделяет из текста смысловые фрагменты, которые содержат законченную мысль, а четвертая — отвечает за перевод.
С тем же WWDC мне требовалось писать большое число статей одну за другой, а на слух английский язык я воспринимаю далеко не идеально. Поэтому гораздо удобнее, когда кто-то синхронно переводит презентацию: пишешь текст и одновременно слушаешь, что рассказывают .
Как работает автоперевод трансляций
Если мы не уверены, нужно ли разбивать на предложения в данном месте, то можем подождать чуть дольше, пока не придут новые слова. Тогда мы либо лучше определимся с разбиением, либо превысим ограничение по контексту и будем вынуждены разбивать там, где почти уверены.
Если на старте функция позволяла озвучивать на русском языке только отобранные видео, то сейчас она спокойно справляется и с прямыми трансляциями, что очень удобно. Причем ты даже можешь отличить одного спикера от другого — им подбираются разные синтезированные голоса.
По этой причине технологии немного отличаются, но языковые модели используются те же самые. В случае с трансляциями на помощь приходит третья нейросеть, ответственная за нормализацию речи. Она распознает начало и конец предложения, выделяет вводные слова, определяет сложносочиненные предложения и так далее.
Особенно меня порадовало и то, что система умеет озвучивать разные голоса. И это, по всей видимости, появилось относительно недавно. Потому что на старте было доступно всего два голоса: один мужской и один женский. Теперь у каждого из них есть несколько вариаций звучания.