OCR из PDF, как извлечь текст за несколько шагов

Мы часто говорили о программных инструментах и ​​методиках оптического распознавания символов (OCR) на страницах IlSoftware.it.

Для распознавания текста из PDF до недавнего времени требовалось наличие специальной платной программы. На самом деле, часто может случиться так, что вам придется иметь дело с PDF-документами, содержащими просто отсканированные изображения.

Многие пользователи, оказавшись перед таким PDF-файлом, думают, что это защищенный от копирования документ, и не догадываются, однако, что файл является редактируемым, а просто содержит изображения, взятые из бумажных документов и вставленные в PDF без выполнения OCR, т. е. оптическое распознавание символов.

Например, чтобы проверить, активирована ли защита от копирования в PDF-документе, просто откройте его с помощью Adobe Reader, а затем выберите «Свойства» в меню «Файл».

Если вы читаете Разрешить рядом с различными элементами Копировать содержимое и Печать, это означает, что PDF-файл не содержит какой-либо защиты. Поэтому, если вы не можете извлечь и скопировать текст из PDF-файла, весьма вероятно, что документ содержит простые отсканированные изображения.

OCR из PDF, как извлечь текст за несколько шагов

Единственная проверка, которую нужно сделать, это то, что в программе для просмотра и управления файлами PDF (например, Acrobat Reader) активирован инструмент выделения текста (нажмите правую кнопку мыши на документе и выберите инструмент «Выделение»).

OCR из PDF, как извлечь текст за несколько шагов

Вот несколько готовых решений для распознавания текста в формате PDF:

1) Используйте приложение Office Lens
Приложение Microsoft Office Lens особенно полезно для тех, кто часто имеет дело с бумажными документами и хочет сканировать их с помощью оптического распознавания символов даже без использования сканера.

Приложение Office Lens оказалось эффективным и по-настоящему универсальным: просто наведите камеру смартфона или планшета на сканируемый документ. «Границы» документа, обрамленного камерой, будут автоматически распознаны Office Lens.

После захвата, выбрав сохранение документа в формате PDF в OneDrive, а затем в облачной службе Microsoft, его содержимое будет немедленно распознано.

Вы можете проверить это, просто открыв PDF-документ в Office Online после входа в OneDrive с помощью своей учетной записи Microsoft. Выделив фрагмент текста и нажав комбинацию клавиш CTRL+C, его можно сохранить в области буфера обмена операционной системы.

Нажав CTRL+V в любом приложении, вы сможете вставить текст из PDF-файла и распознать его с помощью OCR.

Процедура подробно описана в статье Сканирование документов на Android с помощью Office Lens.

2) Используйте встроенный OCR в Office Online

Если у вас уже есть PDF-документ, состоящий только из изображений, вы можете загрузить его в OneDrive, а затем преобразовать PDF-файл в Word, щелкнув его имя и выбрав «Редактировать в Word».

Следует отметить, что распознавание текста из PDF в этом случае также выполняется на серверах Microsoft без необходимости установки чего-либо локально.

После завершения преобразования PDF в Word можно открыть полученный документ в Word Online и снова использовать комбинации клавиш CTRL+C и CTRL+V для извлечения и копирования интересующего текста.

Шаги, которые необходимо выполнить, проиллюстрированы в нашей статье Как конвертировать PDF в Word.

3) Используйте OCR PDF-XChange PDF Viewer

Очень хорошим альтернативным решением является использование бесплатной программы PDF-XChange Viewer.

Приложение включает в себя полный модуль OCR, который распознает символы, содержащиеся в PDF-файле, что делает текст, вставленный в документ в виде изображения, «доступным для поиска» и извлекаемым.

PDF-XChange Viewer позволяет загружать и использовать словарь итальянского языка: в результате тексты, содержащиеся в изображениях, вставленных в файл PDF, автоматически обнаруживаются, как правило, очень эффективным способом.

В отличие от предыдущих решений, в случае PDF-XChange Viewer PDF-документ, подлежащий распознаванию, всегда остается локально и не отправляется ни в какую облачную службу.

В статье Преобразование PDF в PDF с возможностью поиска с помощью OCR мы объяснили, как выполнить распознавание текста из PDF с помощью удобного средства просмотра PDF-XChange.

4) Извлечение текста из изображений с помощью Google Keep

Приложение Google Keep позволяет распознавать и извлекать текст из изображений.

Процедура очень проста и описана в статье Транскрипция текста с фотографий с помощью Google Keep на компьютерах и смартфонах.

В отличие от решений, описанных выше, Google Keep не работает с PDF-файлами, а только с изображениями.

Чтобы попробовать Keep, вы всегда можете извлечь содержимое документа PDF в виде изображения: Преобразуйте PDF в JPG, например, превратив PDF в изображение.

5) Используйте Microsoft OneNote

Вернувшись на орбиту Microsoft, OneNote также позволяет запускать OCR на ранее отсканированных страницах.

Приложение, которое также можно использовать со смартфонов и планшетов (используя, таким образом, в данном случае цифровую камеру для получения бумажных документов), интегрирует модуль OCR, который с помощью команды «Копировать текст с изображения» позволит вам извлечь текст из отсканированных изображений.

Функциональность OCR OneNote описана в нашей статье Что это такое и как использовать OneNote для создания заметок и заметок.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *