Оптическое распознавание символов с OpenOCR

Программное обеспечение для оптического распознавания символов (OCR) — это программы, которые преобразуют изображение, содержащее текст, обычно полученное с помощью сканера, в свободно редактируемый цифровой документ с помощью текстового редактора. Обычно наиболее опытные приложения OCR также способны обнаруживать «форматирование» документа, пытаясь максимально точно воспроизвести графическую компоновку.

Сегодня на рынке доступно большое разнообразие OCR, но число тех, кто знает, как совместить бесплатность с эффективностью и эффективностью на этапе распознавания символов, довольно ограничено.

В прошлом мы неоднократно обращались к проблеме оптического распознавания символов, представляя множество решений, как бесплатных, так и платных (см. наши статьи). Однако сегодня мы возвращаемся к этой теме, представляя CuneiForm OpenOCR, программное обеспечение, которое собирает наследие коммерческого программного обеспечения CuneiForm и которое в течение нескольких лет было доступно как приложение с открытым исходным кодом. Внизу на этой страницена самом деле доступен не только установочный файл программы, но и пакет, содержащий ее исходный код.

Сразу оговоримся, что CuneiForm OpenOCR — не очень свежая программа и не особо умеет распознавать верстку и форматирование документа. Поэтому программу следует использовать только для запуска оптического распознавания символов на документах, которые не очень сложны с точки зрения форматирования.

После загрузки установочного файла для Windows нажмите здесь, в конце процедуры установки вы заметите небольшое несоответствие (мы устанавливали на машину с Windows 7).

На самом деле в меню «Все программы Windows» вы заметите наличие некоторых довольно странных пунктов:

Это пункты меню, добавленные процедурой установки CuneiForm OpenOCR. К сожалению, их имена неверны: группу newfolder1 необходимо переименовать вручную, щелкнув ее правой кнопкой мыши, выбрав «Свойства» и, наконец, набрав CuneiForm OpenOCR в соответствующем поле.

Аналогичную операцию необходимо провести как на соединении NewShortcut5, назвав его Batch Recognition, так и на соединении NewShortcut6, назвав его CuneiForm OpenOCR.

После ручного вмешательства меню «Пуск» Windows должно выглядеть так:

CuneiForm OpenOCR является основным компонентом программного обеспечения OCR, а пакетное распознавание позволит вам автоматически запускать оптическое распознавание нескольких документов.

В операционных системах Windows 7 и Windows Vista рекомендуется щелкнуть правой кнопкой мыши CuneiForm OpenOCR и выбрать команду «Запуск от имени администратора»:

В противном случае при каждом запуске программы будет отображаться следующее сообщение об ошибке:

Такую же операцию (запуск программы с правами администратора) необходимо провести и в случае пакетного распознавания. Сделав один раз, больше не нужно будет это повторять.

CuneiForm OpenOCR способен обнаруживать текст, который нужно распознать, напрямую, взаимодействуя с драйвером сканера или просматривая файл изображения, переданный пользователем. Чего он не может сделать, так это оптического распознавания символов, начиная с PDF-файла, содержащего, например, графические элементы (т.е. ранее отсканированные страницы).

Чтобы начать получение документа с помощью CuneiForm OpenOCR, просто запустите программу, а затем нажмите первую кнопку на панели инструментов (мастер распознавания):

Окно, которое будет предложено, позволяет выбрать файл изображения для открытия или указать сканер, который будет использоваться для сканирования документа.

Выбрав использование сканера, на последующих экранах вы можете установить некоторые параметры, такие как края документа, разрешение для сканирования, диапазон цветов, яркость, контрастность и так далее.

Однако, к сожалению, мы заметили, что CuneiForm OpenOCR не может корректно взаимодействовать со всеми TWAIN-драйверами сканеров, доступными сегодня на рынке. На некоторых устройствах OpenOCR действительно запускает процедуру получения документа, но в конце показывает лаконичное сообщение об ошибке «Не удается сохранить изображение». В этом случае, к сожалению, необходимо прибегнуть к оптическому распознаванию символов, начиная с файла изображения. Другими словами, документ необходимо отсканировать с помощью другой программы, а затем сохранить как изображение.

Для этой цели можно прибегнуть к использованию IrfanView, известного программного обеспечения, которое, помимо других функций, позволяет получать изображения и документы со сканера. Скачав IrfanView с этой страницы и, возможно, переведя его интерфейс на итальянский язык (для продолжения необходимо скачать этот файл, запустите его, запустите программу, щелкните меню «Параметры», «Изменить язык», затем «Итальянский.dll»), вам нужно будет выбрать используемый сканер (команда «Файл», «Выбрать источник TWAIN»):

Нажав на Получить/сканировать последовательно…, вы можете запустить процедуру получения документа или целой серии страниц.

Окно, которое появится на экране, позволит вам выбрать, ограничиться получением одной страницы (Одно изображение, показать полученное изображение в средстве просмотра) или их набором (Несколько изображений (режим серии)).

В последнем случае изображения будут храниться на жестком диске каждое как отдельный файл изображения. Затем все различные файлы можно «скормить» OpenOCR.

Различные страницы можно сканировать одну за другой, не выходя из интерфейса сканера TWAIN. Файлы будут сохранены на диске в указанном каталоге в соответствии с настройками, установленными в IrfanView:

На этом этапе, особенно если вы получили много страниц в виде файла изображения, мы предлагаем открыть программное обеспечение пакетного распознавания, другое приложение, которое является частью пакета CuneiForm OpenOCR.

После запуска вам нужно нажать на меню Действия, Создать новую партию или на первую кнопку слева на панели инструментов. OpenOCR попросит вас присвоить имя пакетной процедуре или настраиваемому вами автоматическому преобразованию, затем вам нужно будет установить язык, используемый в документах, указать, есть ли таблицы или изображения и так далее:

На этом этапе, нажав на маленькую кнопку, показанную на рисунке, вам нужно будет выбрать папку, в которой были сохранены все файлы изображений, полученные сканером:

Через следующий экран (Укажите, что следует делать с входными файлами после обработки) вам нужно будет установить, что делать с файлами изображений, полученными сканером (ничего, продолжить их удаление или переместить их в другую папку).

В качестве последнего шага вам нужно будет выбрать один или несколько форматов, в которые будет автоматически конвертироваться содержимое различных файлов изображений.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован.