Содержание статьи
Heygen — нашумевшая нейросеть для перевода видео
Как пользоваться HeyGen?
HeyGen позволяет клиентам сделать собственные аватары на основании своей внешности. Придется постараться. Компания выставляет следующие требования: нужно оборудование, что работает в 4к при 60 fps, зеленый экран на фоне, штатив или стабилизатор, полная тишина. Настроить минимум три источника света. Заплести волосы, убрать украшения зеленую и полосатую одежду. Борода тоже проблема. После записать видео со случайным набором слов, лишь бы ни одно из них не повторялось. Затем отчетливо произнести какую-либо речь, без кривляний, делая 2-х секундные паузы после каждого предложения. Не забыть о языке тела — привычных нам жестикуляций.
Искусственный интеллект начинает захватывать рынок видео. ChatGPT ориентирован на текст, Midjourney работает с сюжетными образами. Логичный шаг вперед — это полностью сгенерированное видео, неотличимое от настоящего. На новом рынке уже работают десятки компаний, ведущим игроком является лондонский Synthesys, но нашумела, как обычно, Кремниевая долина.
Раздел видео требует отдельного пояснения. Нужно выбрать один из трех аватаров: анимированный мультипликационный, аватар на фоне окружения (офис, кафе, студия, кабинет), аватар без фона. После выбора открывается окно редактирования, где устанавливается текст, озвучка, скорость и тон голоса. Переводятся видео здесь. Для этого нужно предварительно залить свой файл через вкладку «Asset», дождаться, пока видео обработается, ИИ распознает текст, и нажать на кнопку перевода.
Перевод видео на разные языки будет использоваться для выхода бизнеса и блогеров на иностранные рынки. Heygen предлагает более 40 языков. Прямо сейчас технология работает практически неотличимо от оригинала. На этом компания и выстрелила — с ее помощью перевели мемы на английский и немецкий. Современное сарафанное радио.
Heygen — это калифорнийский проект, для автоматизации создания видеороликов с помощью нейросети. Платформа переводит видео, озвучивает заданный текст, клонирует голоса, оживляет фото, создает сгенерированные нейросетью ролики. Кстати, сказать, есть аналогичный проект от русских разрабочиков — speeek.io, функционала меньше но переводить видеоролики тоже можно, причем в разы дешевле. Давайте разберемся как использовать перевод видео:
Компания не раскрывает модель работы сервиса, но судить о механизме можно исходя из текущего развития технологий. Текст обнаруживается и строится с помощью автоматического распознавания речи (ASR) и технологии обработки временных последовательностей (LSTM). Первая выстраивает семантическую логику: знаки препинания, паузы, делит текст на смысловые группы, а вторая обеспечивает рекуррентную связь, помогая достроить результат с учетом прошлого опыта и контекста.
Липсинк основан на автоматической синхронизации движения губ. Это целый пласт технологий, который включает распознавание визуальных эквивалентов фонем, лицевые ориентиры, формантный подход к распознаванию речи, анализ артикуляции и позиции лица. Синхронизация губ, это флагман в переводе видео, поскольку только таким образом можно добиться близкого к реальности эффекта.
Сначала нужно авторизоваться — с помощью аккаунта Google или входом Single Sign On (для бизнеса). Для Google нужна почта на gmail, регистрироваться необязательно. После входа открывается окно с выбором шаблонов, создания видео или аватара. Шаблоны очень похожи на Adobe, со слоями, редактированием отдельных элементов. Кто знаком с фотошопом, не потеряется.
Сколько это стоит?
TLDR В данной транскрипции видео представлен обзор процесса создания цифрового аватара с использованием нейросети. Воспроизводимость человеческих характеристик, таких как внешность, голос, жесты и мимика, достигается без необходимости снимать новые видео. Вместо этого, процесс включает ввод текста и генерацию видео, что может быть применено для создания обучающих видео, тикток или онлайн-курсов. В видео рассказывается о создании более чем семи аватаров с различными вариантами озвучки. Основные требования к созданию видео аватара включают продолжительность не менее 2 минут, высокое качество, хорошее освещение и тихий фон. Ведение себя перед камерой должно быть естественным, и рекомендуется разговаривать, как если бы вы рассказывали о своем дне, планах или презентации продукта. Создание аватара занимает от 10 минут до полутора часов, после чего пользователь получает уведомление на почту. Видео с аватаром можно создать, выбрав текст и голос, а также добавив естественные паузы. В конце видео предоставлены сведения о стоимости подписок и тарифах для создания аватара.