Содержание статьи
Решения для киноиндустрии на основе ИИ
Третий этап внедрения ИИ: Автоматическое создание контента
Автоматическая генерация изображений поможет быстро создать черновик кадра для дальнейшего планирования работы кинооператора, осветителей, режиссера. Например, в [4] показано, как буквально тремя штрихами можно дать задание нейронной сети сгенерировать реалистичное изображение требуемого пейзажа (см. рис. 3).
Продолжая жить со своими новыми родителями, Дэвид знакомится с Тэдди — игрушечным медвежонком-роботом, который берёт на себя ответственность за благополучие Дэвида. К счастью родителей, Мартин выздоравливает и возвращается домой. Теперь они вместе должны жить как братья, но вместо этого становятся соперниками. Завидуя, Мартин все более неразумно обращается с Дэвидом и однажды это оборачивается против него. Пытаясь активировать программу самозащиты Дэвида, Мартин со своими друзьями сильно пугает его, играя у бассейна. Дэвид прячется за своего брата и просит спасти себя, при этом крепко обняв. Вместе они падают в бассейн. Мартина удаётся спасти от гибели, но действия Дэвида заставляют Генри и Монику прийти к решению вернуть его обратно производителю.
Именитый режиссер на первом этапе должен отобрать из исходных видеоматериалов наиболее качественные и интересные, на его авторский взгляд, сцены, и затем смонтировать их, соблюдая кинематографические правила и собственные творческие приемы. Сможет ли искусственный интеллект повторить этот процесс?
Ученые НИКФИ работают над задачей автоматического монтажа клипов из бытовых любительских видеозаписей. Наша система учится у мастеров кино, и даже позволяет пользователям выбирать стиль монтируемого клипа. Представьте себе, что вы отдаете Квентину Тарантино несколько часов записей детсадовских утренников своего ребенка и просите его смонтировать 2-3 минутный фильм!
Но на основе новейших методов обучения с подкреплением с помощью многослойных нейронных сетей можно создать систему автоматического монтажа, способную не только повысить субъективную оценку качества монтажа, но и исправлять некоторые недостатки съемки исходных материалов, таких как неправильная композиция, кадрирование и т.п. Таким образом, автоматический агент должен обучиться выполнению аффинного преобразования изображения исходного видеоматериала. Это позволит разнообразить результат автоматического монтажа и включить в состав смонтированного фильма исходные фрагменты, которые без аффинного преобразования выглядят слишком непрофессионально.
Типичным примером второго этапа внедрения ИИ в технику кино является российский стартап Naive Software. Компания предлагает программное обеспечение — плагины для популярных систем нелинейного видеомонтажа для сокращения рутинных работ, таких как просмотр исходных материалов и сортировка по типу съемочных планов, персонажам и основным событиям в кадре. Исходные материалы обрабатываются в автоматическом режиме с помощью нейронных сетей и алгоритмов вычислительной фотографии, и предстают в окне приложения в виде отдельных дорожек, уже размеченных по указанным выше параметрам. Только исключение технически бракованных фрагментов способно сократить затраты времени на отсмотр исходных материалов на 15-20%!
Второй этап внедрения ИИ: Модификация технологии производства контента
НИКФИ накопил большой опыт в распознавании образов и извлечении смысловых метаданных из видеопотока. Мы построили собственный лицензионно чистый ИИ для распознавания лиц и поиска заданных персонажей в архивах кинофотодокументов. Разработаны отдельные классификаторы для локаций (около 1200 достопримечательностей по всей территории России), свыше 1000 наиболее значимых персон российской и советской истории, а также созданы нейронные сети, решающие разнообразные технические задачи: от распознавания съемочных планов, до детектирования скорости и направления движения камеры при съемке.
Например, технологии распознавания речи, мимики и тональности текста в совокупности позволяют создать ИИ для синтеза диалоговых сцен в полностью автоматическом режиме, подавая на вход несколько дублей, снятых с разных ракурсов. Коллектив из Стэнфордского университета разработал [2] систему для автоматического монтажа диалоговых сцен. Имея в качестве входных данных сценарий с текстом диалога и несколько дублей, снятых с разных ракурсов, система производит анализ эмоциональной тональности текста и совмещение мимического движения ключевых точек лица в видеоматериале со сценарным текстом диалога. Таким образом, для каждого дубля определяют, находится ли говорящий в кадре. Для классификации крупности кадра используют детектор лиц и оценивают медианную площадь лица в каждом съемочном плане. Базовые правила кинематографического монтажа, такие как “начинай с общего плана”, “говорящий должен быть в кадре” и “подчеркивай эмоции” кодируют за счет использования признаков, извлекаемых из анализа тональности текста, площади лица в кадре и совмещения сценарного диалога с конкретным дублем. Система предоставляет пользователю графический интерфейс для комбинирования нескольких правил монтажа и управления ритмом смонтированного фрагмента.
Он погружается на затонувшие улицы города и там видит то, что кажется ему той самой Голубой Феей. Джо поднимает Дэвида со дна, но на поверхности его арестовывают. Дэвид вместе с Тэдди погружается на амфибии туда, где он видел фею. Этой феей оказалась статуя из сказочного аттракциона. Амфибию придавливает смотровым колесом парка и Дэвид с Тэдди оказываются в ловушке. Поверив, что это настоящая Голубая Фея, Дэвид без конца просит её сделать его настоящим мальчиком.
Работа НИКФИ [7] об изложенных здесь результатах исследований возможности автоматического монтажа за счет извлечения знаний из эталонных киношедевров была отмечена наградой «За лучший доклад» на 15-ой Международной конференции по естественным вычислениям, нечетким системам и получению знаний (ICNC-FSKD 2019) в г. Куньмин (Китай) 21 июля 2019 года.
В качестве базы для обучения ИИ правилам кинематографического монтажа мы использовали DVD 68 фильмов из списка 100 лучших фильмов по версии Американского кинематографического общества [5]. С помощью нейронной сети, обученной классификации изображений, мы разделили массив эталонных шедевров на съемочные планы и выделили 1024-разрядные векторы семантических признаков каждого кадра.
Технология семантической индексации внедрена НИКФИ в киноархиве Нэт-Фильм. Кинохронику и фрагменты старых телевизионных передач часто используют при создании новых фильмов, оформлении спектаклей и массовых мероприятий. Традиционная организация архива кинохроники состоит в ручном аннотировании сохраняемых материалов. Редакторы вынуждены просматривать все принимаемые на хранение кинофильмы и вводить в базу данных текстовые описания событий. Режиссеру для поиска нужного фрагмента необходимо сформулировать текстовый запрос, но это не всегда эффективно, т.к. шансы на пересечение ключевых слов, заданных в поисковым запросе, с текстом аннотации, крайне малы. Нейросетевая технология позволяет извлекать т.н. векторы семантических признаков из изображения и находить материалы по визуальному образцу. Эта же технология работает при поиске человеческих лиц. На рис. 2 показаны некоторые примеры визуального поиска по киноархиву “Нэт-фильм”.