htmlq: легко извлекайте контент из HTML в Linux

Возможно, вам потребуется извлечь содержимое из HTML. И, возможно, вы уже используете команду jq для извлечения данных из документов JSON, но с htmlq у вас будет инструмент, похожий на этот, он даже написан на языке программирования Rust, но для HTML.

Инструмент htmlq доступен для других Unix-подобных систем, а не только для Linux, поэтому вы также можете использовать его во FreeBSD, macOS и т. Д. Кроме того, используйте селекторы CSS для извлечения фрагментов содержимого из .html файлы. Таким образом вы указываете на нужные элементы на нужной веб-странице. Например, вы можете извлекать изображения, текст и т. Д. Из URL-адреса.

Во-первых, это установить htmlq на вашем Linux. Например, взяв дистрибутив DEB в качестве эталона (для других он был бы аналогичным, но с соответствующим менеджером пакетов), мы можем использовать:

sudo apt install cargo

cargo install htmlq

Cargo - это менеджер пакетов Rust, как и pip для языка Python… С его помощью вы можете легко установить множество пакетов, созданных в Rust. Кстати, вам также потребуется установить пакет rustc, если он еще не установлен в вашем дистрибутиве.

После установки пользоваться им очень просто. Например, представьте, что вы хотите найти контент на странице по ее идентификатору:

curl -s url | htmlq '#css-selector'
curl -s url2 | htmlq '#css-selector'
curl -s https://www.linuxadictos.com/ | htmlq --pretty '#content' | more

Или для найти все ссылки страницу, вы можете использовать эту другую команду:

curl -s https://www.linuxadictos.com | htmlq --attribute href a

Наконец, если у вас есть вопросы о варианты доступны в htmlq, вы можете проверить их помощь с помощью этой команды:

htmlq --help

Надеюсь, этот небольшой урок вам помог. Как видите, его использование простое, и вы можете комбинировать его с такими инструментами, как виться, Среди других.

Оставьте свой комментарий Отменить ответ

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

комментарий *

Имя*

Электронная почта*

Принять условия конфиденциальности*

Ответственный за данные: AB Internet Networks 2008 SL
Назначение данных: контроль спама, управление комментариями.
Легитимация: ваше согласие
Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

Я хочу получать рассылку новостей

LinuxAdictos

htmlq: извлечение содержимого из HTML в Linux

Оставьте свой комментарий Отменить ответ