Содержание статьи
OpenAI представила нейросеть для генерации видео по текстовому описанию
Pika
Модель создали разработчики нейросети для генерации картинок Stable Diffusion — основного конкурента Midjourney и Dall-E 3 . Главной фишкой называют понимание объема: алгоритм умеет додумывать, как выглядят предметы с других ракурсов. Stable Diffusion Video представили в конце ноября 2023 года. Доступно несколько версий.
Промпт: «Стильная женщина идет по токийской улице, залитой теплым неоновым светом и анимированными городскими вывесками. На ней черная кожаная куртка, длинное красное платье и черные ботинки, в руках черная сумочка. На ней солнцезащитные очки и красная помада. Она ходит уверенно и непринужденно. Улица влажная и отражающая, создающая зеркальный эффект разноцветных огней. По ней ходит много пешеходов.»
За 11 кредитов вы получаете от двух до четырех вариантов изображений. Из них можно выбрать любое и анимировать уже без дополнительной траты кредитов. Если картинки не понравились, можно потратить еще 11 кредитов на создание новой партии. Это удобно: пользователю не только дают выбор, но и позволяют сразу внести изменения, не дожидаясь создания анимации.
15 февраля 2024 года компания OpenAI представила собственную text-to-video модель под названием Sora. Это диффузионная генеративная модель, которая создает видео по его текстовому описанию, начиная процесс со случайного шума и постепенно преобразуя его в изображение. Подобно другим GPT моделям Sora использует архитектуру трансформера. Только вместо токенов, базовых блоков текста, используемых в языковых моделях, визуальная информация в Sora разбивается на их аналоги — пространственно-временные патчи, или другими словами, на фрагменты, которые содержат в себе информацию о части кадра и о том, как эта часть изменяется со временем.
Все видео, сгенерированные в рамках одной сессии, отображаются в ленте слева. Это удобно, если нужно сделать несколько роликов и собрать из них последовательную историю. Неудачные кадры можно удалить, чтобы не мешались. Однако нет возможности поменять порядок.
Что умеет: генерирует видео по картинке и текстовому запросу
Поддерживает ли русский язык: интерфейс на английском, промпты понимает на русском
Сколько бесплатных попыток: от 13 до 15 видео по 4 секунды в день
Что дает подписка: ее нет, но можно докупить 50 генераций за 10 $ ( 1000 ₽) или 300 генераций за 50 $ ( 5000 ₽), оплатить с российской карты нельзя
В каком формате экспортирует: MP4
Остаток «топлива» в редакторе и профиле не указывается, расход для генерации тоже. Но экспериментально я выяснила, что каждая попытка расходует четыре пункта «топлива». Ежедневно можно генерировать по 25 трехсекундных видео бесплатно. У меня на старте было 200 пунктов «топлива» вместо заявленных 100. Вероятно, бонусную сотню выдают за регистрацию.
Компания OpenAI представила новую диффузионную генеративную модель машинного обучения под названием Sora, которая умеет создавать по текстовому описанию видео высокого качества с малым количеством артефактов, разрешением до 1920×1080 и продолжительностью до одной минуты. Помимо этого, Sora может дополнять новыми кадрами уже существующие видеофрагменты, а также создавать новые и анимировать уже существующие статичные изображения. Пост с кратким обзором возможностей модели, а также статья с некоторыми техническими подробностями опубликованы на сайте компании.
Genmo
Такой подход позволяет проводить обучение модели на видео с переменным разрешением и продолжительностью, а также контролировать разрешение генерируемого видео на выходе. Его диапазон может варьировать от 1920×1080p до 1080×1920. Продолжительность генерируемых моделью видеороликов составляет 60 секунд. Помимо полностью нового контента, получаемого только по текстовым описаниям, Sora также может вносить изменения в уже существующие видеоролики, дополнять их новыми кадрами, менять направление воспроизведения и соединять между собой. Кроме этого, Sora может генерировать статичные изображения разрешением до 2048×2048 пикселей, или превращать уже готовые картинки в анимацию.
По мнению разработчиков, этот неожиданный результат стал возможен благодаря использованию большого количества данных при обучении, что подчеркивает важность масштаба обучающей выборки. Также это означает, что в будущем Sora может стать основой для моделей, которые способны «понимать» и моделировать реальный мир.
Что умеет: генерирует видео по текстовому запросу, по картинке или по запросу и картинке
Поддерживает ли русский язык: нет
Сколько бесплатных попыток: 105 секунд видео на один аккаунт
Что дает подписка: больше генераций, улучшение качества и экспорт без водяного знака от 12 $ ( 1085 ₽) в месяц, оплатить с российской карты нельзя
В каком формате экспортирует: MP4
Что умеет: генерирует видео по текстовому запросу или картинке
Поддерживает ли русский язык: интерфейс на английском, но промпты понимает на русском
Сколько бесплатных попыток: ежедневно по 25 видео продолжительностью 3 секунды
Что дает подписка: больше генераций и экспорт без водяного знака за 10 $ ( 900 ₽) в месяц, оплатить с российской карты нельзя
В каком формате экспортирует: MP4
Вторая модель Runway — самая продвинутая среди доступных широкой публике нейросетей для видео. Она хорошо рисует переходы между кадрами, особенно при анимации картинок и фотографий. Изображение «штормит» заметно меньше, чем у других сервисов. А еще у нее есть режим, с которым можно генерировать серию видеороликов с похожим визуальным стилем.
Генерация видеоконтента по текстовому описанию (text-to-video) — возникшее сравнительно недавно стремительно развивающееся направление машинного обучения, которое стало логическим продолжением исследований в области генерации изображений. Существенный прогресс в этом направлении начался в течение последних двух лет. К примеру, такие крупные компании как Meta* и Google почти одновременно представили в 2022 году сразу три алгоритма: Make-A-Video, Phenaki и Imagen Video — модели, которые могли по текстовому описанию генерировать короткие видео и «оживлять» статичные изображения. Менее месяца назад Google представила более продвинутую модель Lumiere, которая способна генерировать пятисекундные видеоролики. Тем не менее, несмотря на определенные успехи, качество генерации до последнего времени оставалось довольно низким.