Содержание статьи
Нейросети в повседневной жизни
Айдентика
Так ли это – покажет время, но уже сегодня генеративный ИИ постепенно вытесняет с рынка кадры. Например, под угрозой авторы контента для наполнения сайтов, графические дизайнеры и иллюстраторы, онлайн-консультанты (им на смену приходят чат-боты), специалисты по озвучиванию и многие другие. Второе направление – отрасли, которые можно автоматизировать, речь идет о логистике, доставке, упаковке и аналогичных направлениях.
Появление множества библиотек и инструментов, которые облегчают работу программистов с нейросетью, способствовали бурному росту глубинного обучения на основе нейросетей и дошли до отрасли технических систем безопасности. В принципе, любой желающий может взять готовую нейросеть и доработать ею под свои нужды.
Еще одним примером служит проект Facebook под названием DeepFace, алгоритм распознавания лиц на фотографиях, точность которого достигает 97%, независимо от качества фото, степени освещенности и расположения человека на снимке. Разработчики обучали свой алгоритм, используя 4 тыс. фотографий из альбомов 4 млн человек.
Разноплановые «таланты» генеративного AI не на шутку испугали многих специалистов: по данным экспертов некоторые профессии вскоре могут исчезнуть с HR-рынка. В 2024 году Дженсен Хуанг, глава компании Nvidia, во время всемирного правительственного форума (проходил в ОАЭ) призвал более не обучаться программированию. По утверждению Дженсена, в ближайшем будущем кодингом начнут заниматься только нейросети. В качестве перспективной профессии он назвал промт-инжиниринг, связанный с созданием запросов для нейронок. Также акцентировал внимание на том, что получать знания стоит в сферах, связанных с сельским хозяйством, производством, биологией и образованием.
Нейросети могут быть универсальными, например, ChatGPT и YandexGPT дают ответы на вопросы, ищут информацию, рисуют картинки, составляют бизнес-планы и решают другие задачи. В это же время Midjourney и Kandinsky ориентированы на отрисовку изображений, Codeium проверяет и дополняет код, а SteosVoice идеальна для озвучки. Помимо предназначения, классификация выполняется по типу архитектуры:
А теперь вернемся в 2010 г. В 2010 г. появилась база ImageNet, содержащая 15 млн изображений в 22 тыс. категорий. Эта была достаточная выборка для обучения нейросетей. В 2012 г. Крижевски и Хинтон для вычислений в нейронной сети решили использовать ресурсы графических процессоров (видеокарт). Технология глубокого обучения с ускорением на GPU (графический процессор) вообще в корне поменяла подход к разработке программного обеспечения. Раньше ПО создавали программисты и они же писали коды для алгоритмов. Теперь машинные алгоритмы обучаются сами на многочисленных примерах из жизни, таким образом программа улучшает себя сама. Самое главное, существенно сократилось время обучения сети. Ведь мы не можем ждать год или два (время, необходимое для узнавания волка ребенком), пока наша нейросеть обучится.
Помощники
Это лишь малая часть профессий, которые нейронки не смогут заменить в ближайшие десятилетия. Однако их применение сопряжено не только с вытеснением с рынка специалистов: во многих отраслях они выполняют функцию помощника, лишь автоматизируя часть рутинных задач.
Самым известным и масштабным экспериментом с работой искусственного интеллекта по обработке изображений стал опыт Google в распознавании кошек на видео YouTube. Как и в примере с волком, изначально самообучаемая нейросеть не знала о существовании кошек, но после просмотра 10 млн случайных кадров с YouTube в нейросети сформировались нейроны, селективно реагирующие на присутствие кошачьих мордочек на изображениях.
Одно дело, если ребенок сможет определить волка, найдя его среди овец (только если волк не будет в овечьей шкуре). А если это будет большая лохматая собака, бегущая по улице? Или, наоборот, некрупный степной волк размером с обычную собаку? Не всякий взрослый найдет отличия между таким хищником и домашним питомцем. Для полноценного обучения нейросети требуется:
В запросе важны конкретика и четкие параметры, дополнительно можно использовать универсальные подсказки, знакомые каждой нейронке: «опиши пошагово», «нарисуй в стиле», «от лица маркетолога» и аналогичные. Если реализована загрузка примеров – рекомендуется прибегнуть к функции, чтобы повысить качество результата и сократить количество генераций. На старте лучше использовать бесплатные нейросети, помогающие набить руку и понять принцип формирования запросов.
В классическом программировании все очень упорядочено: разработчик пишет инструкцию, программа дает заданный результат. Например, можно указать, как выполняется расчет времени в пути, после чего программа будет делать это точно по конкретному алгоритму.
Первое: мы учим ребенка находить на наблюдаемой сцене объект. Для этого мы тыкаем пальцем и говорим: «Смотри – волк». Или: «Смотри – заяц». Такая идентификация и является первой задачей нейросети. Дальше мы обучаем ребенка на разных изображениях определять волка; если ребенок угадывает, то мы его хвалим (этап обучения). Но иногда картинок для обучения нам не хватает и тогда мы можем нарисовать волка сами, слепить его из пластилина, показать новый мультик. В машинном обучении это называется «синтетическая генерация данных», необходимая для расширения обучающей выборки. Ребенок должен узнавать волка даже в том случае, если он спрятался за деревом и когда он лежит в чепчике и очках в кровати бабушки, которую только что съел. После того как мы окончательно поняли, что ребенок узнает волка в 90–95% случаев, мы уже не говорим ребенку: «Смотри – волк», так как знаем, что он может найти волка на картинке и его безошибочно распознать. Знания ребенка проверяются на новых книжках, и на этом процесс обучения заканчивается.
Сайт предлагает множество вариантов стилей, из которых вы можете выбрать подходящий. К слову, среди них есть даже стиль «Китайский Новый год». Но имейте в виду: фотографию помещения желательно делать не широкоугольным объективом и таким образом, чтобы стены находились под углом 90 градусов по отношению к краям изображения, иначе результат вас не обрадует: созданное ИИ помещение может сильно отличаться от реального.
Очень полезным инструментом для видеоанализа оказалась сверточная нейросеть. Сверточные нейронные сети обеспечивают частичную устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям в изображениях. Сейчас в анализе видео- и фотоизображений в основном используются такие сети.
Принцип обучения нейронных сетей
На финише выводится готовое изображение, которое пользователь может сохранить. Доступны новые генерации, если результат не соответствует ожиданиям, а также возможность изменения получившегося визуала. Вместо текстовых запросов можно использовать реальные примеры, загружая собственные картинки, что помогает сети обучаться. Стоит помнить, что по одному и тому же промту выдаются разные варианты, независимо от количества генераций.
Нейронные сети с помощью аппаратных и программных средств имитируют паутину нейронов в человеческом мозге. Но так как мы говорим о машинном обучении, результатом всех вычислений являются ноль (нет) или единица (да): то есть машина нам дает ответ, который близок к значению «нет» или «да». Соответственно, для того чтобы обучить машину распознавать числа, нам понадобится нейросеть, состоящая из секторов, каждый из которых будет отвечать за свою цифру от 0 до 9. Чем больше вариантов ответов может быть, тем крупнее будет наша нейросеть.
Дополнительное направление – повышение конверсии, улучшение пользовательского опыта и иных показателей, для которых люди не привлекаются. Например, стриминговый сервис Netflix предлагает персонализированные рекомендации на базе предпочтений пользователей, внедряет ИИ в систему автооптимизации качества контента и предупреждения проблем.
Нейронная сеть – компонент искусственного интеллекта (ИИ или AI), является компьютерной системой, выстроенной на базе искусственных нейронов (вычислительные элементы). Как биологические нейроны в мозге человека, искусственные осуществляют обмен информацией. Не являются классической программой с готовыми алгоритмами, а пишут их в процессе обучения. Например, если генеративному ИИ показать тысячу примеров домов – она будет легко распознавать их в разных вариациях и сюжетах. Чем больше выборка домов, тем выше точность сети. Классическая структура включает в себя 3 слоя искусственных нейронов:
Основа взаимодействия с генеративным ИИ – запросы пользователей, которые они могут вводить как голосом, так с и помощью клавиатуры. При составлении промтов нужно использовать формулировки, применимые для обычных технических заданий, ориентированных на специалистов. Чем конкретнее изложено требование, тем релевантнее будет результат. В помощь – следующие рекомендации:
Во время одного задания можно генерировать не более 25 изображений в бесплатной версии, при этом они будут в низком разрешении. Чтобы добиться улучшенного качества, придется оформить платную подписку — безлимитную за 30 долларов или 200 изображений в месяц за 10 долларов. Правда, есть нюанс: на сегодняшний день карты российских банков на сайте не принимаются.
Слухи о том, что человека может со временем заменить искусственный интеллект и многие профессии станут невостребованными, вот уже несколько лет будоражат общество. Нейронные сети сегодня умеют многое: создавать тексты, распознавать и анализировать изображения и видео, раскрашивать черно-белые фотографии, вести осмысленные беседы.
Эта нейросеть помогает превращать обычные наброски в реалистичные фотографии. Так, на основе обычного эскиза, в котором будут обозначены лишь дверные и оконные проемы и контуры помещения, вы сможете получить полноценное изображение комнаты: ИИ самостоятельно дорисует детали, цвет и текстуру.