Как сделать нейросеть видео

0
17

Runway: новая нейросеть для работы с видео

Runway ML Gen-2

Как видно, работа нейросети не дотягивает до нормально срежиссированного и снятого на камеру ролика. Люди не очень анатомичны, движения персонажей в кадре почти нет (движется в основном камера), а общая атмосфера напоминает то ли сюрреалистичную арт-хаусную котроткометражку, то ли трейлер к малобюджетному ужастику.

По мере развития нейросетей их возможности становятся всё более продвинутыми, а область распространения всё шире. Нейросеть Runway пытается заменить не только фотографа или художника, но и видеооператора с режисёром. Он умеет генерировать четырёхсекундные видео на заданную тему, которые можно использовать по отдельности или смонтировать в короткометражный фильм или рекламный ролик.

Модель создали разработчики нейросети для генерации картинок Stable Diffusion — основного конкурента Midjourney и Dall-E 3 . Главной фишкой называют понимание объема: алгоритм умеет додумывать, как выглядят предметы с других ракурсов. Stable Diffusion Video представили в конце ноября 2023 года. Доступно несколько версий.

Что умеет: генерирует видео по текстовому запросу, картинке и видео
Поддерживает ли русский язык: интерфейс на английском, но промпты понимает на русском
Сколько бесплатных попыток: три ролика по три секунды в день
Что дает подписка: больше генераций и экспорт без водяного знака стоит 8 $⁣ ( 723 ₽) в месяц, оплатить с российской карты нельзя
В каком формате экспортирует: MP4

Давайте создадим видео с шеф-поваром пиццерии, который стоит у печи и готовит пиццу. Текстовое описание для Runway должно быть на английском языке: Cinematic shot, long shot, wide angle, the chief puts the pizza in the oven, pizzeria on the background, Shallow focus, warm light (Кинематографичный кадр, общий план, шеф-повар кладёт пиццу в печь, пиццерия на заднем плане, малая глубина резкости, тёплый свет).

Вторая модель Runway — самая продвинутая среди доступных широкой публике нейросетей для видео. Она хорошо рисует переходы между кадрами, особенно при анимации картинок и фотографий. Изображение «штормит» заметно меньше, чем у других сервисов. А еще у нее есть режим, с которым можно генерировать серию видеороликов с похожим визуальным стилем.

Ещё у нейросети есть режим работы с картинкой и текстовым описанием одновременно. В более ранней версии интерфейса этот режим находился во вкладке Text — просто в нём было окошко для загрузки изображения. В него можно было перетянуть картинку, которую нейросеть использовала в качестве образца стиля, и генерировала похожее по стилю видео с заданным в текстовом поле описанием (в обучающих роликах на сайте до сих пор показан именно такой способ работы).

ЧИТАТЬ ТАКЖЕ:  Как нейросеть рисует

Да, пока еще не так хорошо, как текст или картинки. У нейросетей для генерации видео есть серьезные ограничения: они не могут создать ролик длиннее нескольких секунд, а уровень реализма пока далек от какого-нибудь Midjourney. Сгенерировать одну хорошую картинку — уже непросто. А в видео надо не только создавать множество кадров, но и сделать так, чтобы они соотносились друг с другом.

Как создать видео по текстовому описанию в Runway Gen-2

Далее идут настройки движения. General motion (2) отвечает за то, насколько динамичным будет кадр: чем выше значение, тем активнее всё будет двигаться. С помощью Camera motion можно почувствовать себя профессиональным оператором и настроить то, как будет двигаться камера в кадре. Ползунки задают направления движения (вперёд-назад, вправо-влево, вверх-вниз, наклон, поворот и зум) и его интенсивность.

А вот в актуальной версии интерфейса появилась новая вкладка Image+Description, которая ведёт себя странно: нейросеть просто анимирует загруженную картинку, а не использует её для копирования стиля. Описание в текстовом поле при этом просто игнорируется. Результат очень похож на то, что делает нейросеть во вкладке Image для работы с картинками без текста.

И, наконец, с помощью инструмента Motion brush можно создать маску и выделить только те участки, которые должны шевелиться, а всё остальное оставить неподвижным. У этой кисти тоже есть свои настройки: можно указать, куда именно должны двигаться элементы картинки.

Что умеет: генерирует видео по текстовому запросу или картинке
Поддерживает ли русский язык: интерфейс на английском, но промпты понимает на русском
Сколько бесплатных попыток: ежедневно по 25 видео продолжительностью 3 секунды
Что дает подписка: больше генераций и экспорт без водяного знака за 10 $⁣ ( 900 ₽) в месяц, оплатить с российской карты нельзя
В каком формате экспортирует: MP4

Во время генерации видео Genmo предлагает подсказки для улучшения запроса. Если их использовать, то на это уйдет «топливо». Они работают только при вводе запроса на английском и то не при каждом запросе. Стили каждый раз случайные. К примеру, по промпту «смешное видео с кошкой, гиперреализм» он выдал такие предложения:

Что умеет: генерирует видео по текстовому запросу, по картинке или по запросу и картинке
Поддерживает ли русский язык: нет
Сколько бесплатных попыток: 105 секунд видео на один аккаунт
Что дает подписка: больше генераций, улучшение качества и экспорт без водяного знака от 12 $⁣ ( 1085 ₽) в месяц, оплатить с российской карты нельзя
В каком формате экспортирует: MP4

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь