Читальный зал

Как происходит распознавание текста на ПК

Процесс оцифровки и оптического распознавания текста включает в себя пять этапов.

Чтобы упростить компьютеру распознавание текста, были разработаны специальные типы шрифтов. Первый, OCR-A (вверху), существует с 1968 года. Так как при его чтении нередко возникали трудности, позднее был создан другой шрифт – OCR -B (внизу)

1 Ввод страницы. На этом этапе отсканированный или сфотографированный документ попадает в компьютер в виде изображения.

2 Анализ макета. OCR-приложение определяет, где на странице находятся текст, рисунки, таблицы и т.п., и разбивает ее на блоки. Программа последовательно дробит страницу на все более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. В финале анализа макета документ представляет собой набор отдельных символов. Программа запоминает, в каком месте на странице каждый из них находится.

3 Распознавание символов – самый ответственный этап процесса OCR, ведь программа должна правильно идентифицировать все найденные знаки. Используется в тексте буква «В» (и какая – русская или латинская) или это цифра «8»? Если программа допустит ошибку, результат распознавания превратится в абракадабру.

Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков (более подробно о них читайте далее).

4 Реконструкция документа. После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т.д.

Для ускорения процесса используются результаты анализа макета страницы (этап 2). Кроме того, применяя специальные методы, программы пытаются учитывать грамматические особенности текста, чтобы в итоге получились корректные с точки зрения распознаваемого языка предложения.

5 Сохранение документа. OCR-приложение сохраняет распознанный документ в определенном пользователем формате (только текст – TXT; макет страницы – файлы Microsoft Word или PDF).

Как выполняется распознавание символов

Для этого используется несколько различных технологий (см. врезку ниже).

Метод сопоставления признаков. Программа распознавания текста «знает», что каждому символу присущи те или иные признаки; к примеру, буква «А» состоит из двух наклонных линий, соединяющихся вверху, и горизонтальной линии в центре. Эти признаки остаются неизменными, даже если начертание шрифта меняется на полужирное или наклонное. При выборе из нескольких вариантов предпочтение отдается символам с самой высокой степенью совпадения признаков.
Метод сопоставления с образцом предусматривает сравнение каждого отдельного символа с шаблоном, хранящимся в программе. Для этого предусмотрены большие базы данных с различными шрифтами. Если найденный символ совпадает с шаблоном в базе, то он считается распознанным. Описание выглядит просто, но на практике этот метод оборачивается большими временными затратами и отличается невысокой эффективностью. Причина: каждый символ должен на 100% соответствовать шаблону, иначе он не будет понят. Шрифты в распознаваемом документе и шаблоне для этого должны быть абсолютно идентичными, с учетом всех видов форматирования.
Отсечение цвета. Документы с цветными рисунками или диаграммами можно отсканировать, но OCR-приложение будет работать только с изображениями, записанными в градациях серого. Это практично в том смысле, что цвет распознаваемого текста будет проигнорирован, так что файл займет меньше места.

Что затрудняет распознавание текста

Распознавание текста даже для мощных компьютеров – задача не из простых. Поэтому раньше существовали специальные типы шрифтов для распознавания, символы которых машина понимала лучше (см. рис. выше).

Неправильная ориентация страницы. Необычно оформленный текст, расположенный на странице, например по диагонали, создает программе распознавания дополнительные трудности и скорее всего будет распознан с ошибками. А текст, расположенный вверх тормашками, OCR-приложение почти наверняка не сможет распознать правильно. Правда, во всех современных приложениях существуют инструменты, позволяющие автоматически повернуть страницу.
Многостраничные документы – серьезное испытание для OCR-приложений, поскольку их методы распознавания эффективно работают только в рамках отдельной страницы. Поэтому программы разбивают многостраничные документы на отдельные страницы и поочередно выполняют распознавание каждой из них.

Программы распознавания текста

Наиболее известными программами распознавания текста являются ABBYY FineReader, CuneiForm, OmniPage и Readiris (см. табл. ниже). Они доступны в различных версиях – для домашнего и профессионального использования. На прилагаемом к этому номеру журнала DVD вы найдете 30-дневную версию программы ABBYY FineReader Home Edition со скидкой на следующую покупку.
Даже самые простые версии программ способны распознавать текст, таблицы, колонки и структуру страницы. С их помощью бумажный документ буквально за пару минут превратится в текстовый файл, доступный для редактирования. Как правило, пользователь может заранее определить, в каком файловом формате программа будет сохранять данные. Некоторые приложения способны распознавать документы на нескольких языках и позволяют вносить в перевод коррективы. Это важно, так как все программы допускают ошибки. Так, к примеру, 99,9% точности означает вероятность одной ошибки на 1000 символов, то есть от трех до четырех ошибок на страницу.
Сравнительно новыми являются такие программы, как ABBYY FotoReader, способная распознавать текст на фотографиях.

Шрифт. Эффективнее всего OCR-системы справляются с такими легко читаемыми шрифтами, как Times New Roman или Courier. А вот с мелкими или декоративными шрифтами у них с большей долей вероятности возникнут проблемы, равно как и с математическими или химическими символами (в последнем случае необходимо явно указать программе, что ее задача – распознать формулы).
Профессиональные термины и слова на иностранном языке. Большинство OCR-приложений содержит мультиязычные и тематические словари и легко справляется с распознаванием слов из других языков и терминов. Однако узкоспециальные слова и выражения доставляют программам большие трудности – например, словосочетание «дезоксирибонуклеиновая кислота» может отсутствовать в словаре программы и будет помечено ею как нераспознанное, чтобы пользователь мог исправить его написание.

Пятна и грязь на документе могут сбить систему распознавания с толку. Так, две крупинки тонера способны быстро превратить «е» в «ё». Поэтому OCR-приложения имеют специальные функции «очистки» документа.
Текст на рисунках. В некоторых случаях программа должна «читать» и иллюстрации, выделяя на них текстовые блоки, к примеру, чтобы распознавать надписи на диаграммах. Эта задача решается следующим образом: как только на странице обнаруживаются элементы, похожие на текст, выполняется предварительное выборочное распознавание символов. Если результат проверки окажется убедительным, то программа продолжит работать с надписями на рисунках.

Таблицы. Для любого OCR-приложения таблица представляет собой смесь графических элементов (линий) и текста. Для того чтобы любой элемент таблицы удалось распознать, разработчики предусмотрели специальные функции. Корректно распознанные таблицы можно редактировать, к примеру в Excel или Word.

Каким должен быть сканер

Первым делом нужно определиться, с какими бумажными носителями вы чаще будете работать. Если это книги, журналы и рукописи (то есть сброшюрованные материалы), вам потребуется планшетный сканер. Требования OCR-программ к подобному оборудованию достаточно скромны: оптимальным решением будет недорогой (от 1500 руб.) «планшетник», позволяющий работать с оригиналами формата A4. Он удобен тем, что на его стекло можно класть не только отдельные бумажные листы, но также книги и журналы. Кстати, во многих моделях крышка не просто откидывается, а еще и приподнимается вверх – можно сканировать толстые книги. Планшетные сканеры обычно встраивают в многофункциональные устройства; такие интегрированные скан-модули вполне пригодны для оцифровки текста и старых фотографий.

Если вы чаще будете сканировать отдельные листы, ищите модель, оборудованную устройством для автоматической подачи оригиналов. Оно освободит вас от необходимости менять страницы вручную, а будет затягивать их из приемного лотка автоматически, аналогично тому, как принтер затягивает листы чистой бумаги.

Может ли OCR-программа распознавать рукописный текст

Решив распознать письмо, написанное от руки, вы будете неприятно удивлены, ведь рукописный шрифт для многих программ является камнем преткновения. Только в том случае, если текст написан печатными буквами, им удается добиться более-менее приемлемого результата.

Совсем по-иному распознавание рукописного текста происходит на планшетных ПК. Поставляемая в комплекте с ними программа умеет читать символы. Она понимает, каким образом пользователь пишет отдельные буквы: к примеру, букву «Е» она узнает по тому, что за вертикальной чертой следует написание трех горизонтальных линий, а цифра «1» для нее представляет собой одну вертикальную линию. Цифра «0» и буква «о» различаются лишь благодаря тому, что первый символ пишется по часовой стрелке, а второй – наоборот.

По следам госслужб

Конец 1989 года. В округе Лихтенберг города Берлина царит суета: после объединения Германии сотрудники секретных служб в спешном порядке уничтожают архивы. Результат: информация об осведомителях, жертвах службы госбезопасности и о проведении тайных операций набита в 16 000 мешков с мелкими бумажными обрезками. Согласно оценкам экспертов, человеку потребовалось бы несколько сотен лет, чтобы вручную сложить этот «пазл». С использованием же последних разработок эксперты Фраунхоферовского института производственного оборудования намерены выполнить данную задачу за пять лет. В настоящее время обрезки сканируются и объединяются в полноценные страницы. Эксперты Фраунхоферовского института намерены соединить 80% кусочков в автоматическом режиме, а позднее пропустить полученные страницы через программу распознавания текста, чтобы получить возможность поиска в архивах – по ключевым словам и именам. Согласно современным прогнозам, восстановленные документы будут переданы специальному ведомству, отвечающему за архивы «Штази», не позднее 2012 года.