Содержание статьи
Что такое AI, ML и Data Science
Определение AI и его свойства
Технология Data Mining включает в себя обработку информации и извлечении потенциально полезных сведений, которые объединяются в легко воспринимающиеся структуры. Сортировка осуществляется на основе скрытых аномалий и паттернов. Технология Data Mining используется в различных сферах, в том числе в коммерческой деятельности.
Считается, что «разумность» искусственного интеллекта может быть разной: сильной или слабой. Различия между сильным и слабым ИИ заключаются в том, что первый понимает смысл информации, с которой работает (как в тесте Тьюринга) и не ограничен в спектре решаемых задач, а второй способен решать лишь конкретную задачу (играет в шахматы, распознает лица на изображениях).
Data Science (наука о данных) изучает проблемы анализа, обработки и представления данных, сочетая в себе математику, статистику, расширенную аналитику, искусственный интеллект и машинное обучение. Задача специалиста в Data Science (его еще называют дата-саентистом) — извлекать из больших наборов данных полезную информацию, которую можно использовать для улучшения результатов в бизнесе, науке и других сферах.
Конечно, до «сверхразумных» человекоподобных роботов еще далеко. Мы живем во времена узконаправленного искусственного интеллекта, который умеет делать только то, чему его научили. Тем не менее, современные технологии позволяют развивать ИИ «семимильными» темпами: Data Science, Data Mining, глубокое и машинное обучение делают его все более интеллектуальным.
Каждый день мы сталкиваемся с вышеописанной методикой обработки данных. Например, фильтрация электронных писем по признакам наличия спама выполняется на основе машинного обучения. Робот анализирует входящие письма, используя имеющиеся сведения о признаках нежелательной корреспонденции, при обнаружении которых письмо автоматически отправляется в соответствующую папку. Конечно, машине требуются и другие данные, позволяющие отличать обычные письма (слова, фразы, ссылки, графические файлы и др.). В основном, подавляющее большинство почтовых роботов прекрасно справляются с этой задачей – зайдите в папку Спам в почтовом ящике и посмотрите, сколько там сообщений!
При упоминании ИИ у многих людей возникают ассоциации со «сверхразумом» из фантастических фильмов, который очеловечивает машину, превращая ее в оплот добра или вселенское зло, в зависимости от фантазии сценариста. В бизнесе под искусственным интеллектом понимается совокупность программных решений, которая выполняет множество различных задач без участия человека. Искусственный интеллект – это в первую очередь машина, умеющая планировать, рассуждать и принимать определенные решения на основе имеющихся данных.
Искусственный интеллект (дальше ИИ) — одно из направлений в компьютерных науках, которое занимается созданием систем, своеобразная имитация когнитивных функций человека, в частности, способность анализировать данные и принимать решения на их основе. Суть термина «искусственный интеллект» (или artificial intelligence на английском) хорошо передает дословный перевод слова intelligence — «умение рассуждать разумно». В том числе ИИ-системы уже умеют выполнять творческие задачи, которые ранее считались прерогативой исключительно человека.
В настоящее время людям приходится программировать машины самостоятельно. Специалисты усиленно работают над методиками, которые помогут людям избавиться от обязанностей «учителя». Благодаря технологии машинного обучения получение новых знаний будет происходить автоматически за счет анализа массивов информации.
Определение Data Science
В случае с примером, который описан выше, реализована модель машинного обучения с участием человека (учителя). Робот учится определять спам на основе массива данных, в котором содержатся признаки нежелательных сообщений – к этой информации также добавляются электронные письма, перемещенные пользователями в соответствующую папку. Машина анализирует поступающие данные и добавляет полученные сведения к имеющимся знаниям.
Набор инструкций, в соответствии с которыми проходит обучение, называется алгоритмом машинного обучения. А уже результатом этого обучения является модель машинного обучения. Это она используется в таких задачах как классификация объектов, детекция аномалий, регрессия или прогнозирование событий. Другими словами, это те задачи, которые сложно, невозможно или нерационально (слишком трудозатратно) решить стандартными программными или аналитическими способами.
Данные стали основой, базовым фундаментом всего, что происходит в современном мире. Данные приносят бизнесу прибыль, помогают спасать жизни и выполнять множество других важных задач. Но мало иметь большие объемы данных: необходимо правильно их интерпретировать, чтобы получить реальную пользу. В этом как раз и помогает искусственный интеллект (AI, Artificial Intelligence), машинное обучение (ML, Machine Learning) и, конечно, наука о данных (DS, Data Science). Вместе они стали движущей силой, которая преобразует практически все сферы нашей жизни и открывает массу новых возможностей. Что стоит за каждым из этих трех терминов и как они формируют наше будущее — эта статья.
Дата-саентисты работают с огромными объемами данных, занимаясь составлением прогнозов и сужением информации, извлекая определенные сведения. В бизнесе это работает следующим образом: потенциальный клиент, заглянувший на сайт магазина рыболовных товаров, выбирает удочку и крючок – в дополнение к этим товарам система также предлагает ему леску и другие рыболовные принадлежности, которые приобрели покупатели, сделавшие аналогичные запросы.
В бизнесе дата-майнинг применяется для анализа корзин с целью выявления товаров, которые посетители сайта покупают вместе, и решения других задач. Технология достаточно широкого используется в сфере e-commerce. Наборы товаров определяются на основе сложных паттернов, в которых задействованы десятки признаков и данных.
Искусственный интеллект способен значительно расширить человеческие возможности. Он автоматизирует рутинные задачи, прогнозирует будущие события, используется для генерации нового контента (этим занимается генеративный ИИ, он же GenAI), разработки новых товаров и услуг. ИИ уже меняет многие сферы нашей жизни и влияет на то, как мы работаем, учимся, отдыхаем и взаимодействуем с окружающим миром.
Машинное обучение (далее МО) — подход к анализу данных, который позволяет аналитической системе обучаться в процессе решения множества подобных задач. В ходе обучения используются большие объемы данных (как структурированных, так и неструктурированных), на основе которых ИИ выявляет закономерности и паттерны. МО является важным компонентом искусственного интеллекта, так как позволяет ему максимально адаптироваться к новым ситуациям, совершенствовать свои навыки и решать сложные задачи. При этом МО делает это не напрямую, а благодаря опыту выполнения предыдущих похожих заданий.
Условно можно представить Data Science «укротителем данных», который эти данные преобразует, анализирует и представляет в удобном формате для дальнейшего использования. Результаты этой работы становятся «топливом» для машинного обучения. А уже обученная модель становится одним из инструментов работы искусственного интеллекта, позволяя выполнять ему такие задачи как распознавание лиц, обнаружение случаев мошенничества или создания персональных рекомендаций. Таким образом, роль и область деятельности Data Science сильно пересекаются с Artificial Intelligence и Machine Learning: вместе они являются ключевыми компонентами огромной экосистемы продуктов и решений, которые стимулируют инновации и прогресс в различных сферах.