Преобразование PDF в PDF с возможностью поиска с помощью OCR

С вами несколько раз случалось, что вы не могли скопировать текст из файлов PDF. В большинстве случаев это происходит не из-за того, что автор документа активирует механизм, предотвращающий операции «копирования и вставки».

Чтобы убедиться, что эта защита не была проставлена, достаточно — из Adobe Reader — открыть интересующий файл PDF и затем выбрать «Свойства» в меню «Файл». На вкладке «Защита» вам нужно будет проверить индикацию рядом с «Копировать содержимое».

Если копирование содержимого PDF разрешено, весьма вероятно, что вы имеете дело с документом PDF, состоящим из серии отсканированных изображений бумажных страниц.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Как преобразовать PDF в PDF с возможностью поиска? То есть, как можно использовать функцию «Редактировать, найти», чтобы быстро найти слово или фразу в документе?

Чтобы сделать PDF доступным для поиска, вам придется подвергнуть документ оптическому сканированию символов и их автоматическому распознаванию (OCR).

Лучший способ распознавания PDF-файла и поиска информации в нем — использовать программное обеспечение Adobe Acrobat, в котором есть удобная функция для преобразования PDF-файла в PDF-файл с возможностью поиска.

Пользователи Acrobat могут применить простые инструкции, опубликованные самой Adobe:

Может ли кто-нибудь, у кого нет обычной лицензии Adobe Acrobat, исправить это с помощью альтернативного инструмента? Ответ положительный. Пользователи Windows найдут PDF-XChange Viewer более чем отличным решением.

OCR PDF-документы и превращайте их в PDF-файлы с возможностью поиска с помощью PDF-XChange Viewer

Возвращаясь к среде Windows, в качестве дополнительной альтернативы можно использовать PDF-XChange Viewer, приложение, которое интегрирует инструмент OCR, который можно активировать для любого типа файла PDF. Программное обеспечение является «запатентованным» и использует механизм оптического распознавания символов, которого нет в сети, но он очень хорошо умеет преобразовывать PDF-файлы в PDF-файлы с возможностью поиска.

Действительно, PDF-файл, полученный после обработки с помощью PDF-XChange, совсем не «тяжелый».

Чтобы сразу опробовать PDF-XChange Viewer, достаточно кликните сюда затем приступаем к установке программы.

Во время установки вас может заинтересовать отключение автоматического обновления и надстроек для различных веб-браузеров:

Мы предлагаем снять флажок «Установить средство просмотра PDF-XChange в качестве средства просмотра файлов PDF по умолчанию».

После завершения установки (убедитесь, что вы выбрали бесплатную версию, полностью бесплатную для использования в домашних и коммерческих условиях), вам нужно будет загрузить пакет европейских языков, который также включает итальянский язык (скачать).

Установка файлов распознавания ключей, написанных на итальянском языке, осуществляется простым двойным кликом на исполняемый файл, содержащийся в архиве OCRAdditionalLangsEU.zip.

PDF-XChange — это программное обеспечение, которое может стать «портативным» приложением: после установки программы и загрузки файлов для оптического распознавания символов на итальянском языке (OCR) вам просто нужно носить с собой и копировать содержимое папки в другое место. (обычно %program files%Tracker SoftwarePDF Viewer).

После запуска PDF-XChange вам нужно будет щелкнуть меню «Файл», «Открыть», чтобы найти PDF-документ для преобразования, а затем выбрать «Сканировать текстовые страницы с OCR» в меню «Документ»:

В следующем окне необходимо будет выбрать итальянский язык для текстов на итальянском языке (основной язык) и, возможно, выбрать высокую точность для получения лучших результатов.

Как только PDF-XChange завершит операцию распознавания символов (OCR), щелкните меню «Файл», выберите «Сохранить как» и сохраните файл PDF с именем, отличным от исходного.

Открыв PDF-файл, обработанный с помощью PDF-XChange, с помощью Adobe Reader или любого другого файлового менеджера PDF, вы сразу поймете, что текст будет полностью доступен для выбора, вы можете «копировать и вставлять» и можете искать любой термин или фразу, содержащуюся в файле. PDF.

Adobe Reader не может найти слова в документе, преобразованном с помощью PDF-XChange Viewer

Если вы попытаетесь «скопировать и вставить» из документа, преобразованного с помощью PDF-XChange и подвергнутого распознаванию с помощью Adobe Reader, вы обнаружите, что все работает отлично.

Однако, если Adobe Reader не разрешает поиск терминов в документах, преобразованных с помощью PDF-XChange, и отображает сообщение Reader завершил поиск в документе. Совпадение не найдено, это можно решить, открыв папку C:UsersИМЯ ПОЛЬЗОВАТЕЛЯAppDataLocalLowAdobeAcrobat11.0Search и полностью удалив все ее содержимое (могут быть многочисленные файлы с расширением .idx).

Проблема возникает из-за того, что Adobe Reader по умолчанию индексирует наиболее часто используемые PDF-файлы и хранит своего рода базу данных в вышеупомянутой папке. Если файл, преобразованный с помощью PDF-XChange, имеет тот же идентификатор, что и «начальный» PDF-документ, вполне вероятно, что программа будет введена в заблуждение.

При удалении содержимого папки «Поиск» функция «Найти» Adobe Reader (меню «Правка», «Найти» или CTRL + F) снова будет работать без сбоев.

Просмотрщик PDF-XChange
Скачать: ilsoftware.it
Совместимость с: Windows XP, Windows Vista, Windows 7 (32- и 64-разрядная версии)
После установки программы необходимо загрузить этот пакет. Это необходимо для распознавания текстов на итальянском языке.

Лицензия: Бесплатное ПО (разрешено как личное, так и коммерческое использование)

Tesseract OCR, Google и Google Диск

После возрождения проекта Tesseract OCR в 2006 году (Google возрождает Tesseract OCR) Google постепенно интегрировал его в свои онлайн-сервисы (читайте Диск; Документы Google: улучшения, примененные к функциональности распознавания текста, и Google Диск на Android: сканирование документов и распознавание текста).

Проблема в том, что, по нашему мнению, инструмент OCR, предлагаемый Google бесплатно, еще недостаточно развит. Кроме того, хотя загрузка PDF-документов на Google Диск разрешена, при установке флажка «Преобразовать текст из PDF-файла или файла изображения в формат Google Docs» каждая страница исходного документа перемежается новой страницей, содержащей распознанный текст, который, среди другие вещи, это даже не соответствует общему форматированию.

Поэтому на момент написания этой статьи Google Диск не позволял преобразовать PDF-файл в доступный для поиска PDF-файл, выполнив распознавание символов и вставив новый слой в исходный документ.

Распознавание символов на базе Linux

В прошлом мы представили WatchOCR, инструмент, предложенный в качестве настоящего дистрибутива Linux, который позволяет вам настроить сервер, способный принимать входящие PDF-документы для распознавания и автоматически создавать соответствующие «доступные для поиска» PDF-файлы.

Мы приглашаем вас прочитать нашу статью Как сделать PDF доступным для поиска с помощью WatchOCR. Как обрабатывать десятки документов одновременно, чтобы знать все о том, как работает WatchOCR.

Проблема с WatchOCR заключается в том, что это решение использует преимущества старой версии механизма OCR Tesseract. К сожалению, этот инструмент не очень хорошо подходит для итальянских текстов.

Как можно скорее мы будем искать способ сделать возможным использование WatchOCR с последней версией Tesseract OCR.

Тем временем мы хотели попробовать механизм, использующий Tesseract OCR в среде Linux вместе с некоторыми программами, которые можно запускать из командной строки.

Мы наткнулись на pdfocr, скрипт, разработанный программистом Гезой Ковач (представлен в этом обсуждении), целью которого является превращение PDF-файла в PDF-файл с возможностью поиска.

Мы попробовали сценарий (который основан на языке сценариев Рубин) в дистрибутиве Linux Mint.

Открыв окно терминала и введя следующие команды, вы сможете установить все необходимое для корректной работы скрипта в системе Linux:

sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-получить обновление
sudo apt-get установить pdfocr

Скрипт pdfocr должен автоматически установиться в каталог /usr/bin/. Чтобы проверить это, просто введите — из командной строки — следующую инструкцию:
dpkg -L pdfocr

На этом этапе введите следующее:

sudo mv /usr/bin/pdfocr.rb /usr/bin/pdfocr.ori
sudo wget http://www.techportal.it/dl/pdfocr.txt
судо мв ./pdfocr.txt /usr/bin/pdfocr.rb
sudo chmod +x /usr/bin/pdfocr.rb

Только что представленные команды позволяют вам заменить исходный скрипт Ruby скриптом, который мы модифицировали, начиная с кода Гезы Ковача. Во время наших тестов мы заметили, что скрипт Kovacs, хотя и работает безупречно, выделяет неверную строку, как только мы пытаемся найти уже обработанный скриптом PDF. Другими словами, искомые фразы не отображались в правильных позициях.

Поэтому мы попытались вмешаться, используя устройство, которое, по-видимому, приводит к лучшим результатам.

Чтобы преобразовать PDF в PDF с возможностью поиска, просто скопируйте документ для обработки в файловую систему Linux, перейдите в папку, в которой он был сохранен, и введите:

pdfocr -i имя_файлаpdforource.pdf -o имя_файлаpdfdacreare.pdf -l ita

По умолчанию pdfocr использует механизм распознавания текста Tesseract.

Однако, добавив переключатель -c или -p, можно попытаться выполнить распознавание символов, используя соответственно механизмы Cuneiform и Ocropus.

Если один или несколько пакетов не установлены, вы можете снова ввести в окне терминала следующие команды:

sudo apt-get установить tesseract-ocr-ita
sudo apt-get установить tesseract-ocr
sudo apt-get установить клинопись

Механизм, основанный на pdfocr, далек от совершенства: он по-прежнему предлагает возможность преобразования PDF в PDF с возможностью поиска, чтобы быстро найти искомую информацию в документе.

Для тестирования мы предлагаем установить Linux Mint или другой производный от Ubuntu дистрибутив на виртуальную машину (созданную, например, с помощью Virtualbox). Чтобы скопировать PDF-файлы в систему Windows и из нее, просто следуйте инструкциям, опубликованным в статье Доступ к разделам Linux из Windows: общий доступ к папкам и файловым системам.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *