Содержание статьи
Где проходит граница возможностей искусственного интеллекта
HeyGen — переозвучка видео на разных языках
Искусственный интеллект уже второй год подряд становится самой обсуждаемой технологией во всем мире. К ней приковано внимание общества, бизнеса и государства. Он одновременно восхищает и пугает людей, а инвестиции в ИИ исчисляются десятками миллиардов долларов. О том, что же такое современный искусственный интеллект, в интервью «Российской газете» рассказал генеральный директор Института искусственного интеллекта AIRI, доктор физико-математических наук, профессор РАН и Сколтеха, Иван Оселедец.
Известная нейросеть HeyGen предоставляет возможности, которые еще несколько лет назад казались фантастическими. Сервис реалистично переозвучивает видео с автоматическим переводом на другие языки с сохранением голоса и мимики спикера. Инструмент используется для разных задач – от создания мемов до реализации серьезных проектов в сфере образования, SMM, бизнеса, инфлюэнс-маркетинга. Для работы можно использовать не только видео реального человека, но и готовый виртуальный аватар. HeyGen предлагает бесплатную версию, несколько тарифов платной подписки от $24 до $120 в месяц, а также персональный план по индивидуальной цене HeyGen.
За счет использования искусственного интеллекта Decktopus AI открывает новые возможности в создании презентаций. Помимо базовых функций разработки слайдов, добавления и редактирования контента, программа предлагает специальные AI инструменты – подбирает изображения в соответствии с темой и стилем презентации, формулирует тексты и комментарии, дополняет содержимое слайдов фактами, статистическими данными и другой полезной информацией. Платформа используется для задач разной сложности — от базовых студенческих работ до сложных бизнес-презентаций. Новички пользуются бесплатным планом, для профессионалов есть два премиум тарифа Decktopus стоимостью $9.99 и $34.99.
Искусственный интеллект сегодня умеет многое — писать тексты, генерировать фото, обрабатывать видео, работать со звуком и даже создавать виртуальных блоггеров, которые говорят на всех языках мира. Люди используют нейросеть для обучения, работы, бизнеса, развлечений и творчества. Некоторые AI сервисы успели войти в повседневную жизнь и стали незаменимыми помощниками в решении разных дел. Как выбрать лучший инструмент для своих задач? Подготовили для вас обзор самых популярных сервисов искусственного интеллекта в 2024 году.
Среди претензий, которые предъявляют к разработчикам нейросетей, есть такая, что они не могут объяснить, как нейросеть пришла именно такому ответу, а не к другому. Это проблема? Иван Оселедец: Да, это большая проблема и для нее пока нет каких-то хороших решений, даже для обычных моделей, которые распознают лица с точностью до 99,999%. Сейчас пытаются те же языковые модели, использовать для генерации объяснений, но какого-то вот разумного работающего подхода для повышения объяснимости работы моделей пока нет. Более того есть много примеров, когда можно злонамеренно модифицировать вход, модифицировать текст, модифицировать картинку и модель вообще начинает что-то другое предсказывать. Это одна из недавно открытых больших проблем. Но бизнес это не очень интересует, они говорят — вот у нас есть нейросеть с точностью работы 99,99% и больше нам ничего не нужно. Человек и то чаще ошибается, а почему эта модель работает хорошо нам неважно. Сейчас в целом доминирует бизнес-подход, когда компании готовы внедрять ИИ для экономической выгоды. Либо, если они боятся и переживают, что цена ошибки будет слишком высока, они не внедряют ИИ, а просто используют его как помощника, как например в медицине.
Именно с этого чат-бота в 2022 году началась эпоха распространения искусственного интеллекта на широкую аудиторию. С этого времени Chat GPT получил множество конкурентов, но остался самым известным сервисом искусственного интеллекта. Виртуальный помощник от Open AI работает по принципу онлайн чата: нейросеть анализирует вопросы пользователя, дает ответы, может поддерживать диалог. Понимает запросы на конкретный формат и размер текстов, отлично справляется с созданием контент-планов, может генерировать тексты для указанных задач. Чем более подробно сформулирована задача, тем лучше ChatGPT понимает пользователя. Платный тариф с доступом к новейшей версии GPT-4 и генератору изображений DALL-E стоит $20.
Leonardo AI – визуальное искусство с ИИ
Otter AI – это популярный сервис для транскрипции голосового контента онлайн-встреч, собеседований, совещаний, телефонных звонков. Нейросеть преобразует устную речь в текст в режиме реального времени и анализирует аудио/видео файлы в записи, формируя структурированные стенограммы в виде текстовых чатов. Otter AI поддерживает интеграцию с Zoom, Microsoft Teams и Google Meet – автоматически подключается к видеоконференциям, идентифицирует спикеров, делает итоговую выборку ключевых слов, выделяет главные темы разговора, формирует отчеты и сохраняет созданные заметки в папке с общим доступом. Бесплатная версия предоставляет 300 минут транскрипции в месяц. Стоимость платных тарифов с расширенными корпоративными возможностями Otter Pro для небольших команд – $8,33, Otter Business для компаний – $20.
Leonardo AI – это масштабная ИИ платформа для создания визуала для различных задач, от обычных развлечений до гейм-дизайна, творчества, маркетинга, рекламы, полиграфии. Сервис предлагает мощный функционал по генерации изображений и 3D текстур с возможностью легкого редактирования. Источником для создания визуала может быть как текстовый запрос, так и существующее фото, искусственный интеллект может откорректировать, улучшить качество, увеличить разрешение или создать на его основе что-то новое. Особой популярностью пользуется функция Realtime Canvas – визуализация в реальном времени, когда пользователь рисует кистью, а Leonardo создает на основе эскиза готовое изображение в выбранном стиле. Доступна как бесплатная версия, так и несколько платных тарифных планов leonardo.ai стоимостью до $60.
Безусловные лидеры внедрения ИИ сейчас сервисы и сфера услуг. Почему ИИ-продукты так медленно внедряются в промышленность сельское хозяйство? Там же очевиден огромный потенциал для ИИ. Иван Оселедец: В сельском хозяйстве действительно очень большой потенциал для ИИ-решений, связанных с обработкой спутниковых снимков, анализом различных рисков и предиктивной аналитики на основе этих данных. Просто есть высокая инерция, которая тормозит внедрение, плюс такой аспект, как стоимость труда. В тех агрокомплексах, где она невысокая, нет мотивации для оптимизации производственных процессов. Имеется еще и «человеческий фактор». Специалисты в прикладных областях часто рассматривают датасайентистов как «персональных врагов», которые учат их тому, чем они занимаются много лет. не являясь специалистами в их области. Если же говорить о промышленности, то ИИ можно использовать практически в любом технологически сложном производства, например, для контроля процесса сварки в режиме реального времени. Причем это все можно делать уже на готовых технологиях, не разрабатывая и не обучая нейросеть с нуля.
Character AI выделяется среди конкурентов особой концепцией – нейросеть используется для реалистического общения с разными виртуальными персонажами. Пользователи самостоятельно создают ботов. Сделать это просто – достаточно задать его черты характера, интересы и другие характеристики. В ходе общения персонаж анализирует контекст и стиль беседы, на основе чего продолжает свое самообучение. Чем дольше длится переписка, тем живее и естественнее становится диалог. Среди персонажей можно найти много мировых знаменитостей, героев книг и фильмов, а также виртуальных специалистов разных профилей – психологов, коучей, учителей и других. Нейросеть умеет демонстрировать эмоции, шутить, вести беседы на разные темы, проявлять интерес к собеседнику, адаптироваться под его манеру общения. Базовые инструменты для развлекательного общения доступны бесплатно. Цена месячной подписки Character AI с расширенным функционалом – $9,99.
Что вы думаете относительно социальных последствий массового внедрения ИИ? Насколько оправданы опасения его противников, что ИИ лишит их работы, профессии? Иван Оселедец: Если ИИ сможет автоматизировать рутинные процессы в этом нет ничего плохого. Люди смогут сфокусироваться на более интересных и творческих вещах. Но пока не все так просто. Возьмем, программирование и написание кода. Уже было несколько случаев, когда нейросеть за 3 минуты писала код. Очень правдоподобно писала, но с такими хитрыми ошибками, что человек потом 3 часа искал этот несчастный баг. Если же учесть, что программистов сейчас не хватает во всем мире, рынок труда перегрет, то в том, что самый простой код будет писать ИИ нет ничего плохого. Как далеко мы сейчас находимся от того, что называют «общим искусственным интеллектом»? Он в принципе возможен? Иван Оселедец: На эту тему очень много спекуляций, но если бы год назад я сказал «вряд ли» или «надо подождать», то с появлением ChatGPT многое изменилось. Почему бы те вещи, которые он сейчас делает, не рассматривать как проявление общего искусственного интеллекта, который отвечает на многие вопросы лучше среднестатистического человека, решает разнообразные задачи, выполняет роль помощника. Что тут не соответствует понятию «общего искусственного интеллекта». Кейсы с использованием современного ИИ — это очень многозадачные истории и даже в некоторых случаях достаточно креативные. В этом смысле мы подошли очень близко к общему ИИ. Он неожиданно для многих появился в форме чат-бота, который обрастает различными модальностями, то есть, уже работает не только с текстом, но и с изображениями и видео. Можно считать, что мы уже живем в эпоху более или менее «общего ИИ». Человечество в каком-то смысле пересекло эту условную черту. Конечно, можно спорить относительно определения общего ИИ, но факт остается фактом, поведение современных больших языковых моделей принципиально отличается от того, что мы видели раньше и их действительно можно назвать прототипами общего ИИ. Каково на ваш взгляд сейчас место России в мировой ИИ-индустрии в науке о данных? Иван Оселедец: В области Data Science (науки о данных), думаю, мы входим в Топ 15-20 стран. Это достаточно легко измерить количеством публикаций на конференциях. Хотелось бы, конечно, больше так как в этом нет ничего сложного. Data Science наука достаточно своеобразная и нетипичная для нашей академической традиции, так как она не подразумевает каких-то глубоких фундаментальных исследований, а представляет собой набор быстрых и успешных рецептов, которые люди придумывают и используют. Если говорить с точки зрения развития прикладных технологий у нас все очень неплохо. Я обычно привожу как пример обработку медицинских изображений, где по многим показателям Москва находится в мировых лидерах. Тут опять все сводится к тому, что нужно правильно собрать данные и обучить модели, но тем не менее, такого внедрения этой технологии, как в Москве, нигде в мире практически нет. Сегодня каждая уважающая себя российская IT-компания или банк имеет у себя отдел, занимающийся машинным обучением. В «Сколтехе» есть свои научные группы, они работают, появляются новые, но я думаю, что нужно раза в четыре-пять больше научных групп, работающих в области ML (машинного обучения). В целом же ситуация с искусственным интеллектом в стране неплохая, туда вкладываются деньги, есть проекты, есть поддержка. Обучение больших нейросетевых моделей требует значительных вычислительных ресурсов. Насколько реально создавать суперкомпьютеры в текущих условиях в России? Что для этого нужно? Иван Оселедец: Санкционная история просто повышает стоимость вычислительных ресурсов и их доступность. Но при этом программное обеспечение, которым все пользуются, не очень эффективно. Сейчас вычислительный кластер достигает при стандартной методике обучения не более 50% от своей максимальной производительности. Если же, условно, приблизиться к 100%, можно в 2 раза ускорить обучение на том же самом «железе». Одной из важных задач является разработка новых эффективных вычислительных методов обучения нейросетей, которые позволят снизить время обучения и потребление электроэнергии. Мы ведем над этим активную работу. Ситуация с вычислительными мощностями она в везде не очень хорошая, а не только в России. На рынке графических чипов, необходимых для обучения нейросетей, есть фактический монополист — компания NVIDIA, и все в мире осознают это, как глобальную проблему. NVIDIA ушла так далеко вперед, что сейчас проще купить у них процессор, чем пытаться разрабатывать свой. Даже Google для своего последнего вычислительного кластера просто закупила у нее 26 тысяч графических карт, хотя у них есть свой специальный процессор для обучения нейросетей. Наличие такого монополиста не очень хорошо, но при этом надо понимать, сколько стоит разработка каких-то своих решений. Тут тоже есть варианты, что можно сделать, но это все средне- и долгосрочные перспективы. Пока же есть один путь — закупка графических карт и оптимизация алгоритмов. Нужно думать головой, а не просто механически увеличивать размер модели и объем железа необходимого для ее обучения. Пример с ChatGPT показал простую вещь. Можно не обучать модель на сто миллиардов параметров, а создать и обучить модель в несколько миллиардов параметров. Это сокращение сложности и требуемых для обучения мощностей и электроэнергии в десятки раз. При этом можно получить сравнимое качество модели за счет более оптимальных алгоритмов обучения и грамотно подобранных данных.
Fireflies.ai – это платформа на основе искусственного интеллекта для распознавания содержания выступлений, разговоров, диалогов, телефонных звонков, митингов и любого другого голосового контента. Сервис полезен во время деловых встреч, собеседований, совещаний, когда нужно записать все, что говорил каждый участник. Программа преобразует голос в текст, структурирует материал и сохраняет в облаке с общим доступом. После завершения события нейросеть формулирует краткие выводы, подводит статистику по разным показателям, ведет трекер тем. Найти нужную информацию в созданной стенограмме можно обычным поиском. Fireflies интегрируется с календарем и популярными приложениями для онлайн-конференций (Zoom, Meet и др.). Базовая версия бесплатна, цены платных подписок Fireflies AI – от $10 до $39 за одного участника в месяц.