Содержание статьи
Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод
Первые шаги на пути «OCRизации»
Оптическое распознавание символов (англ. optical character recognition, OCR) — технология распознавания текста, которая преобразует данные с печатных носителей в машинно-кодированный текст. Носителями могут быть разные предметы: документы, книги, счета, дорожные указатели и другие вещи, на которых есть текст. Разберем, как работает алгоритм:
● Классификация символов. Анализируя сохраненный документ, классификатор выявляет, какой символ изображен. Чаще всего программа может предложить несколько подходящих вариантов, у каждого из которых будет оценка точности соответствия, или сообщить, что элемент не является символом. Это значит, что элемент либо не относится к распознаваемому алфавиту, либо в целом не является буквой или знаком препинания, а может быть, например, рисунком на полях тетради.
● Генерация нового контента на основе распознанного. Изучив распознанный текст, система может предложить дополнения или исправления, переписать его в нужном стиле и формате. Например, на основе полученного письма ИИ может составить вариант письма-ответа, а при анализе юридических документов подсветить неверно указанную информацию: сроки договоров или номера соглашений.
● Анализ содержания, классификация и суммаризация текста. Современные сервисы на основе ИИ определяют тип документа. Они распознают суть и составляют небольшие выжимки с главной информацией. На основе этих данных сервисы могут классифицировать документ и направить его в нужную базу данных, а также маршрутизировать между сотрудниками.
4. Юристам: распознавать, оцифровывать и обрабатывать документы, выявлять риски. Сервис Contract проверяет договора на соответствие юридическим нормам, выявляет риски и предлагает исправления. Более того, компании могут обратиться за внедрением решения в свою систему ЭДО. В этом случае готовый продукт будет адаптирован под конкретные требования бизнеса и логично встроен во всю цепочку работы с документами.
● Распознавание эмоциональной окраски текста. На сегодняшний день искусственный интеллект может определять тональность текста. В отзывах на картах или сервисах-отзовиках выявлять негативные и позитивные комментарии, а также анализировать посты в социальных сетях. На основе этих данных бренды могут адаптировать коммуникационную стратегию и улучшать клиентский сервис.
● Бинаризация. Растр может быть цветным или черно-белым, поэтому на втором шаге система приводит его обязательно к ч/б-формату, выравнивает угол наклона и размер. Во время обработки алгоритм будет проходить по тексту построчно, поэтому неправильно расположенные строки могут усложнить или остановить работу.
Если предложено несколько вариантов, то алгоритмы, которые занимаются постобработкой, могут выявить, какое сочетание рядом стоящих символов наиболее вероятно. Для этого они используют словари и триграммы — часто встречающиеся последовательности из трех символов.
Что можно сделать на основе распознанного текста
На сегодняшний день технологии OCR приобрели значительный размах: алгоритмы могут выявлять информацию в документах на паспортных контролях, распознавать номера машин при превышении скорости или оцифровывать счета. Современная OCR, разработанная с применением нейросетей, способна распознавать 15 страниц печатного текста за 1 секунду, причем делать это более чем на 100 языках.
● Постобработка и аналитика. На финальном этапе система на основе оценок вероятностей символов и информации от постобработчиков формирует из символов распознанный текст, выявляет потенциальные орфографические и грамматические ошибки. На сегодняшний день доля подозрительных трудно распознаваемых символов очень мала — в среднем менее 0,2%.
Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором «эталонов». По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.
Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.
Технологии распознавания текста уже достаточно сильно интегрированы в жизнь обычных людей и работу бизнеса, а возможности искусственного интеллекта помогают сделать сервисы более понятными и автоматизировать рутинные процессы. Хотя технологии продвинулись достаточно далеко, все еще есть блокеры и направления, которые задают вектор будущих работ.
3. Сотрудникам магазинов и складов: распознавать данные о продуктах и складских запасах. Например, в Яндекс Лавке еще в прошлом году начали обновлять информацию о товарах с помощью нейросетей и OCR. Технология сканирует этикетку продукта, распознает текст, а нейросеть на основе этой информации заполняет карточку товара. Внедрение ИИ позволяет ускорить процесс и уменьшить количество ошибок из-за человеческого фактора. Кроме того, на складах Яндекс Маркета используются роботы, которые очень быстро сканируют палеты, что позволяет каждые два часа актуализировать данные о наличии товаров.