Читальный зал

Переписывание телефонных номеров из записной книжки, заучивание иностранных слов... В списке этих и прочих рутинных занятий ведущее место занимает набор текста на ПК. К счастью, существует компьютер, который способен выполнять эту скучную задачу безо всякого недовольства и к тому же быстрее человека. Все, что требуется от пользователя, – поместить страницу в сканер или многофункциональное устройство и нажать на кнопку Scan. Правда, для получения полноценного текстового документа одного сканера будет недостаточно. Ведь он сохраняет оцифрованную страницу в виде изображения, независимо от того, сколько текстовых и графических блоков она содержит. Чтобы получить возможность редактировать содержимое отсканированной страницы в других программах, например в Microsoft Word, изображение необходимо преобразовать в текст. Данная процедура называется Optical Character Recognition (OCR) – оптическое распознавание текста. О программах распознавания текста, а также обо всех тонкостях этого процесса мы расскажем далее.

Как происходит распознавание текста на ПК

Процесс оцифровки и оптического распознавания текста включает в себя пять этапов.

Чтобы упростить компьютеру распознавание текста, были разработаны специальные типы шрифтов. Первый, OCR-A (вверху), существует с 1968 года. Так как при его чтении нередко возникали трудности, позднее был создан другой шрифт – OCR -B (внизу)

1 Ввод страницы. На этом этапе отсканированный или сфотографированный документ попадает в компьютер в виде изображения.

2 Анализ макета. OCR-приложение определяет, где на странице находятся текст, рисунки, таблицы и т.п., и разбивает ее на блоки. Программа последовательно дробит страницу на все более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. В финале анализа макета документ представляет собой набор отдельных символов. Программа запоминает, в каком месте на странице каждый из них находится.

3 Распознавание символов – самый ответственный этап процесса OCR, ведь программа должна правильно идентифицировать все найденные знаки. Используется в тексте буква «В» (и какая – русская или латинская) или это цифра «8»? Если программа допустит ошибку, результат распознавания превратится в абракадабру.

Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков (более подробно о них читайте далее).

4 Реконструкция документа. После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т.д.

Для ускорения процесса используются результаты анализа макета страницы (этап 2). Кроме того, применяя специальные методы, программы пытаются учитывать грамматические особенности текста, чтобы в итоге получились корректные с точки зрения распознаваемого языка предложения.

5 Сохранение документа. OCR-приложение сохраняет распознанный документ в определенном пользователем формате (только текст – TXT; макет страницы – файлы Microsoft Word или PDF).

Как выполняется распознавание символов

Для этого используется несколько различных технологий (см. врезку ниже).

  • Метод сопоставления признаков. Программа распознавания текста «знает», что каждому символу присущи те или иные признаки; к примеру, буква «А» состоит из двух наклонных линий, соединяющихся вверху, и горизонтальной линии в центре. Эти признаки остаются неизменными, даже если начертание шрифта меняется на полужирное или наклонное. При выборе из нескольких вариантов предпочтение отдается символам с самой высокой степенью совпадения признаков.
  • Метод сопоставления с образцом предусматривает сравнение каждого отдельного символа с шаблоном, хранящимся в программе. Для этого предусмотрены большие базы данных с различными шрифтами. Если найденный символ совпадает с шаблоном в базе, то он считается распознанным. Описание выглядит просто, но на практике этот метод оборачивается большими временными затратами и отличается невысокой эффективностью. Причина: каждый символ должен на 100% соответствовать шаблону, иначе он не будет понят. Шрифты в распознаваемом документе и шаблоне для этого должны быть абсолютно идентичными, с учетом всех видов форматирования.
  • Отсечение цвета. Документы с цветными рисунками или диаграммами можно отсканировать, но OCR-приложение будет работать только с изображениями, записанными в градациях серого. Это практично в том смысле, что цвет распознаваемого текста будет проигнорирован, так что файл займет меньше места.

Что затрудняет распознавание текста

Распознавание текста даже для мощных компьютеров – задача не из простых. Поэтому раньше существовали специальные типы шрифтов для распознавания, символы которых машина понимала лучше (см. рис. выше).

  • Неправильная ориентация страницы. Необычно оформленный текст, расположенный на странице, например по диагонали, создает программе распознавания дополнительные трудности и скорее всего будет распознан с ошибками. А текст, расположенный вверх тормашками, OCR-приложение почти наверняка не сможет распознать правильно. Правда, во всех современных приложениях существуют инструменты, позволяющие автоматически повернуть страницу.
  • Многостраничные документы – серьезное испытание для OCR-приложений, поскольку их методы распознавания эффективно работают только в рамках отдельной страницы. Поэтому программы разбивают многостраничные документы на отдельные страницы и поочередно выполняют распознавание каждой из них.

Программы распознавания текста

  • Наиболее известными программами распознавания текста являются ABBYY FineReader, CuneiForm, OmniPage и Readiris (см. табл. ниже). Они доступны в различных версиях – для домашнего и профессионального использования. На прилагаемом к этому номеру журнала DVD вы найдете 30-дневную версию программы ABBYY FineReader Home Edition со скидкой на следующую покупку.
  • Даже самые простые версии программ способны распознавать текст, таблицы, колонки и структуру страницы. С их помощью бумажный документ буквально за пару минут превратится в текстовый файл, доступный для редактирования. Как правило, пользователь может заранее определить, в каком файловом формате программа будет сохранять данные. Некоторые приложения способны распознавать документы на нескольких языках и позволяют вносить в перевод коррективы. Это важно, так как все программы допускают ошибки. Так, к примеру, 99,9% точности означает вероятность одной ошибки на 1000 символов, то есть от трех до четырех ошибок на страницу.
  • Сравнительно новыми являются такие программы, как ABBYY FotoReader, способная распознавать текст на фотографиях.
  • Шрифт. Эффективнее всего OCR-системы справляются с такими легко читаемыми шрифтами, как Times New Roman или Courier. А вот с мелкими или декоративными шрифтами у них с большей долей вероятности возникнут проблемы, равно как и с математическими или химическими символами (в последнем случае необходимо явно указать программе, что ее задача – распознать формулы).
  • Профессиональные термины и слова на иностранном языке. Большинство OCR-приложений содержит мультиязычные и тематические словари и легко справляется с распознаванием слов из других языков и терминов. Однако узкоспециальные слова и выражения доставляют программам большие трудности – например, словосочетание «дезоксирибонуклеиновая кислота» может отсутствовать в словаре программы и будет помечено ею как нераспознанное, чтобы пользователь мог исправить его написание.
  • Пятна и грязь на документе могут сбить систему распознавания с толку. Так, две крупинки тонера способны быстро превратить «е» в «ё». Поэтому OCR-приложения имеют специальные функции «очистки» документа.
  • Текст на рисунках. В некоторых случаях программа должна «читать» и иллюстрации, выделяя на них текстовые блоки, к примеру, чтобы распознавать надписи на диаграммах. Эта задача решается следующим образом: как только на странице обнаруживаются элементы, похожие на текст, выполняется предварительное выборочное распознавание символов. Если результат проверки окажется убедительным, то программа продолжит работать с надписями на рисунках.
  • Таблицы. Для любого OCR-приложения таблица представляет собой смесь графических элементов (линий) и текста. Для того чтобы любой элемент таблицы удалось распознать, разработчики предусмотрели специальные функции. Корректно распознанные таблицы можно редактировать, к примеру в Excel или Word.


Каким должен быть сканер

Первым делом нужно определиться, с какими бумажными носителями вы чаще будете работать. Если это книги, журналы и рукописи (то есть сброшюрованные материалы), вам потребуется планшетный сканер. Требования OCR-программ к подобному оборудованию достаточно скромны: оптимальным решением будет недорогой (от 1500 руб.) «планшетник», позволяющий работать с оригиналами формата A4. Он удобен тем, что на его стекло можно класть не только отдельные бумажные листы, но также книги и журналы. Кстати, во многих моделях крышка не просто откидывается, а еще и приподнимается вверх – можно сканировать толстые книги. Планшетные сканеры обычно встраивают в многофункциональные устройства; такие интегрированные скан-модули вполне пригодны для оцифровки текста и старых фотографий.

Если вы чаще будете сканировать отдельные листы, ищите модель, оборудованную устройством для автоматической подачи оригиналов. Оно освободит вас от необходимости менять страницы вручную, а будет затягивать их из приемного лотка автоматически, аналогично тому, как принтер затягивает листы чистой бумаги.

Может ли OCR-программа распознавать рукописный текст

Решив распознать письмо, написанное от руки, вы будете неприятно удивлены, ведь рукописный шрифт для многих программ является камнем преткновения. Только в том случае, если текст написан печатными буквами, им удается добиться более-менее приемлемого результата.

Совсем по-иному распознавание рукописного текста происходит на планшетных ПК. Поставляемая в комплекте с ними программа умеет читать символы. Она понимает, каким образом пользователь пишет отдельные буквы: к примеру, букву «Е» она узнает по тому, что за вертикальной чертой следует написание трех горизонтальных линий, а цифра «1» для нее представляет собой одну вертикальную линию. Цифра «0» и буква «о» различаются лишь благодаря тому, что первый символ пишется по часовой стрелке, а второй – наоборот.

По следам госслужб

Конец 1989 года. В округе Лихтенберг города Берлина царит суета: после объединения Германии сотрудники секретных служб в спешном порядке уничтожают архивы. Результат: информация об осведомителях, жертвах службы госбезопасности и о проведении тайных операций набита в 16 000 мешков с мелкими бумажными обрезками. Согласно оценкам экспертов, человеку потребовалось бы несколько сотен лет, чтобы вручную сложить этот «пазл». С использованием же последних разработок эксперты Фраунхоферовского института производственного оборудования намерены выполнить данную задачу за пять лет. В настоящее время обрезки сканируются и объединяются в полноценные страницы. Эксперты Фраунхоферовского института намерены соединить 80% кусочков в автоматическом режиме, а позднее пропустить полученные страницы через программу распознавания текста, чтобы получить возможность поиска в архивах – по ключевым словам и именам. Согласно современным прогнозам, восстановленные документы будут переданы специальному ведомству, отвечающему за архивы «Штази», не позднее 2012 года.