Удалить теги html из документа с помощью OpenOffice.org

Предположим, мы имеем дело с HTML-документом, открытым в текстовом виде офисным пакетом OpenOffice.org. Вы хотите удалить все теги HTML из документа, чтобы получить «чистый» текст, который можно будет переработать позже.

Процедура довольно проста и может быть применена на практике с помощью команды «Редактировать», «Найти и заменить», а затем с помощью «регулярных выражений».

«Регулярные выражения» или «регулярные выражения» — это строки символов, с помощью которых можно описать большие наборы строк в соответствии с определенными синтаксическими правилами.


После открытия документа, содержащего теги HTML, в OpenOffice.org щелкните меню «Правка», пункт «Найти и заменить», затем нажмите кнопку «Дополнительные параметры».

Следующим шагом будет установить флажок «Регулярные выражения» и ввести в поле поиска следующее: <([:alpha:]+)[^>]*>([^<]*)
Вместо этого в поле «Заменить на» просто введите 2 доллара.

Кнопка «Поиск» позволит вам увидеть, как правильно идентифицируются и выделяются HTML-теги. Нажав кнопку «Заменить все», OpenOffice.org выполнит все замены за один шаг.

Однако следует отметить, что теги HTML будут надлежащим образом удалены тогда и только тогда, когда они указаны правильно. Например, HTML-тег, который впоследствии не был закрыт, не будет удален из документа.

Чтобы исключить другие теги, которые могут присутствовать в документе, вставьте строку < в поле поиска.[:alpha:]+[^>/]* /> оставив поле Заменить на пустым.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован.