Mail.RuПочтаМой МирОдноклассникиИгрыЗнакомстваНовостиПоискВсе проекты
12 октября 2009

Читальный зал

Переписывание телефонных номеров из записной книжки, заучивание иностранных слов... В списке этих и прочих рутинных занятий ведущее место занимает набор текста на ПК. К счастью, существует компьютер, который способен выполнять эту скучную задачу безо всякого недовольства и к тому же быстрее человека. Все, что требуется от пользователя, – поместить страницу в сканер или многофункциональное устройство и нажать на кнопку Scan. Правда, для получения полноценного текстового документа одного сканера будет недостаточно. Ведь он сохраняет оцифрованную страницу в виде изображения, независимо от того, сколько текстовых и графических блоков она содержит. Чтобы получить возможность редактировать содержимое отсканированной страницы в других программах, например в Microsoft Word, изображение необходимо преобразовать в текст. Данная процедура называется Optical Character Recognition (OCR) – оптическое распознавание текста. О программах распознавания текста, а также обо всех тонкостях этого процесса мы расскажем далее.

Как происходит распознавание текста на ПК

Процесс оцифровки и оптического распознавания текста включает в себя пять этапов.

Чтобы упростить компьютеру распознавание текста, были разработаны специальные типы шрифтов. Первый, OCR-A (вверху), существует с 1968 года. Так как при его чтении нередко возникали трудности, позднее был создан другой шрифт – OCR -B (внизу)

1 Ввод страницы. На этом этапе отсканированный или сфотографированный документ попадает в компьютер в виде изображения.

2 Анализ макета. OCR-приложение определяет, где на странице находятся текст, рисунки, таблицы и т.п., и разбивает ее на блоки. Программа последовательно дробит страницу на все более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. В финале анализа макета документ представляет собой набор отдельных символов. Программа запоминает, в каком месте на странице каждый из них находится.

3 Распознавание символов – самый ответственный этап процесса OCR, ведь программа должна правильно идентифицировать все найденные знаки. Используется в тексте буква «В» (и какая – русская или латинская) или это цифра «8»? Если программа допустит ошибку, результат распознавания превратится в абракадабру.

Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков (более подробно о них читайте далее).

4 Реконструкция документа. После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т.д.

Для ускорения процесса используются результаты анализа макета страницы (этап 2). Кроме того, применяя специальные методы, программы пытаются учитывать грамматические особенности текста, чтобы в итоге получились корректные с точки зрения распознаваемого языка предложения.

5 Сохранение документа. OCR-приложение сохраняет распознанный документ в определенном пользователем формате (только текст – TXT; макет страницы – файлы Microsoft Word или PDF).

Как выполняется распознавание символов

Для этого используется несколько различных технологий (см. врезку ниже).

  • Метод сопоставления признаков. Программа распознавания текста «знает», что каждому символу присущи те или иные признаки; к примеру, буква «А» состоит из двух наклонных линий, соединяющихся вверху, и горизонтальной линии в центре. Эти признаки остаются неизменными, даже если начертание шрифта меняется на полужирное или наклонное. При выборе из нескольких вариантов предпочтение отдается символам с самой высокой степенью совпадения признаков.
  • Метод сопоставления с образцом предусматривает сравнение каждого отдельного символа с шаблоном, хранящимся в программе. Для этого предусмотрены большие базы данных с различными шрифтами. Если найденный символ совпадает с шаблоном в базе, то он считается распознанным. Описание выглядит просто, но на практике этот метод оборачивается большими временными затратами и отличается невысокой эффективностью. Причина: каждый символ должен на 100% соответствовать шаблону, иначе он не будет понят. Шрифты в распознаваемом документе и шаблоне для этого должны быть абсолютно идентичными, с учетом всех видов форматирования.
  • Отсечение цвета. Документы с цветными рисунками или диаграммами можно отсканировать, но OCR-приложение будет работать только с изображениями, записанными в градациях серого. Это практично в том смысле, что цвет распознаваемого текста будет проигнорирован, так что файл займет меньше места.

Что затрудняет распознавание текста

Распознавание текста даже для мощных компьютеров – задача не из простых. Поэтому раньше существовали специальные типы шрифтов для распознавания, символы которых машина понимала лучше (см. рис. выше).

  • Неправильная ориентация страницы. Необычно оформленный текст, расположенный на странице, например по диагонали, создает программе распознавания дополнительные трудности и скорее всего будет распознан с ошибками. А текст, расположенный вверх тормашками, OCR-приложение почти наверняка не сможет распознать правильно. Правда, во всех современных приложениях существуют инструменты, позволяющие автоматически повернуть страницу.
  • Многостраничные документы – серьезное испытание для OCR-приложений, поскольку их методы распознавания эффективно работают только в рамках отдельной страницы. Поэтому программы разбивают многостраничные документы на отдельные страницы и поочередно выполняют распознавание каждой из них.

Программы распознавания текста

  • Наиболее известными программами распознавания текста являются ABBYY FineReader, CuneiForm, OmniPage и Readiris (см. табл. ниже). Они доступны в различных версиях – для домашнего и профессионального использования. На прилагаемом к этому номеру журнала DVD вы найдете 30-дневную версию программы ABBYY FineReader Home Edition со скидкой на следующую покупку.
  • Даже самые простые версии программ способны распознавать текст, таблицы, колонки и структуру страницы. С их помощью бумажный документ буквально за пару минут превратится в текстовый файл, доступный для редактирования. Как правило, пользователь может заранее определить, в каком файловом формате программа будет сохранять данные. Некоторые приложения способны распознавать документы на нескольких языках и позволяют вносить в перевод коррективы. Это важно, так как все программы допускают ошибки. Так, к примеру, 99,9% точности означает вероятность одной ошибки на 1000 символов, то есть от трех до четырех ошибок на страницу.
  • Сравнительно новыми являются такие программы, как ABBYY FotoReader, способная распознавать текст на фотографиях.
  • Шрифт. Эффективнее всего OCR-системы справляются с такими легко читаемыми шрифтами, как Times New Roman или Courier. А вот с мелкими или декоративными шрифтами у них с большей долей вероятности возникнут проблемы, равно как и с математическими или химическими символами (в последнем случае необходимо явно указать программе, что ее задача – распознать формулы).
  • Профессиональные термины и слова на иностранном языке. Большинство OCR-приложений содержит мультиязычные и тематические словари и легко справляется с распознаванием слов из других языков и терминов. Однако узкоспециальные слова и выражения доставляют программам большие трудности – например, словосочетание «дезоксирибонуклеиновая кислота» может отсутствовать в словаре программы и будет помечено ею как нераспознанное, чтобы пользователь мог исправить его написание.
  • Пятна и грязь на документе могут сбить систему распознавания с толку. Так, две крупинки тонера способны быстро превратить «е» в «ё». Поэтому OCR-приложения имеют специальные функции «очистки» документа.
  • Текст на рисунках. В некоторых случаях программа должна «читать» и иллюстрации, выделяя на них текстовые блоки, к примеру, чтобы распознавать надписи на диаграммах. Эта задача решается следующим образом: как только на странице обнаруживаются элементы, похожие на текст, выполняется предварительное выборочное распознавание символов. Если результат проверки окажется убедительным, то программа продолжит работать с надписями на рисунках.
  • Таблицы. Для любого OCR-приложения таблица представляет собой смесь графических элементов (линий) и текста. Для того чтобы любой элемент таблицы удалось распознать, разработчики предусмотрели специальные функции. Корректно распознанные таблицы можно редактировать, к примеру в Excel или Word.


Каким должен быть сканер

Первым делом нужно определиться, с какими бумажными носителями вы чаще будете работать. Если это книги, журналы и рукописи (то есть сброшюрованные материалы), вам потребуется планшетный сканер. Требования OCR-программ к подобному оборудованию достаточно скромны: оптимальным решением будет недорогой (от 1500 руб.) «планшетник», позволяющий работать с оригиналами формата A4. Он удобен тем, что на его стекло можно класть не только отдельные бумажные листы, но также книги и журналы. Кстати, во многих моделях крышка не просто откидывается, а еще и приподнимается вверх – можно сканировать толстые книги. Планшетные сканеры обычно встраивают в многофункциональные устройства; такие интегрированные скан-модули вполне пригодны для оцифровки текста и старых фотографий.

Если вы чаще будете сканировать отдельные листы, ищите модель, оборудованную устройством для автоматической подачи оригиналов. Оно освободит вас от необходимости менять страницы вручную, а будет затягивать их из приемного лотка автоматически, аналогично тому, как принтер затягивает листы чистой бумаги.

Может ли OCR-программа распознавать рукописный текст

Решив распознать письмо, написанное от руки, вы будете неприятно удивлены, ведь рукописный шрифт для многих программ является камнем преткновения. Только в том случае, если текст написан печатными буквами, им удается добиться более-менее приемлемого результата.

Совсем по-иному распознавание рукописного текста происходит на планшетных ПК. Поставляемая в комплекте с ними программа умеет читать символы. Она понимает, каким образом пользователь пишет отдельные буквы: к примеру, букву «Е» она узнает по тому, что за вертикальной чертой следует написание трех горизонтальных линий, а цифра «1» для нее представляет собой одну вертикальную линию. Цифра «0» и буква «о» различаются лишь благодаря тому, что первый символ пишется по часовой стрелке, а второй – наоборот.

По следам госслужб

Конец 1989 года. В округе Лихтенберг города Берлина царит суета: после объединения Германии сотрудники секретных служб в спешном порядке уничтожают архивы. Результат: информация об осведомителях, жертвах службы госбезопасности и о проведении тайных операций набита в 16 000 мешков с мелкими бумажными обрезками. Согласно оценкам экспертов, человеку потребовалось бы несколько сотен лет, чтобы вручную сложить этот «пазл». С использованием же последних разработок эксперты Фраунхоферовского института производственного оборудования намерены выполнить данную задачу за пять лет. В настоящее время обрезки сканируются и объединяются в полноценные страницы. Эксперты Фраунхоферовского института намерены соединить 80% кусочков в автоматическом режиме, а позднее пропустить полученные страницы через программу распознавания текста, чтобы получить возможность поиска в архивах – по ключевым словам и именам. Согласно современным прогнозам, восстановленные документы будут переданы специальному ведомству, отвечающему за архивы «Штази», не позднее 2012 года.

Пока ни одного комментария, будьте первым!
Чтобы оставить комментарий, вам нужно авторизоваться.
Обнаружили ошибку? Выделите ее и нажмите Ctrl+Enter.
Hi-Tech Mail.Ru
Apple iPhone 6S 32GB
от35 780руб.
Apple iPhone 7 32GB
от43 400руб.
Samsung Galaxy A5 (2016)
от17 100руб.
Apple iPhone SE 64GB
от28 590руб.
Xiaomi Mi5 32GB
от16 130руб.
Apple iPhone 7 128GB
от51 480руб.
Xiaomi Redmi 3S Pro 32GB
от9 590руб.
Meizu M3 Note 16GB
от9 290руб.
Samsung Galaxy J2 Prime
от7 935руб.
Samsung Galaxy A3 (2016)
от14 000руб.
Подпишитесь на нас
Новости Hi-Tech Mail.Ru