htmlq: извлечение содержимого из HTML в Linux

Веб-хостинг домена

Возможно, вам потребуется извлечь содержимое из HTML. И, возможно, вы уже используете команду jq для извлечения данных из документов JSON, но с htmlq у вас будет инструмент, похожий на этот, он даже написан на языке программирования Rust, но для HTML.

Инструмент htmlq доступен для других Unix-подобных систем, а не только для Linux, поэтому вы также можете использовать его во FreeBSD, macOS и т. Д. Кроме того, используйте селекторы CSS для извлечения фрагментов содержимого из .html файлы. Таким образом вы указываете на нужные элементы на нужной веб-странице. Например, вы можете извлекать изображения, текст и т. Д. Из URL-адреса.

Во-первых, это установить htmlq на вашем Linux. Например, взяв дистрибутив DEB в качестве эталона (для других он был бы аналогичным, но с соответствующим менеджером пакетов), мы можем использовать:

sudo apt install cargo

cargo install htmlq

Cargo - это менеджер пакетов Rust, как и pip для языка Python… С его помощью вы можете легко установить множество пакетов, созданных в Rust. Кстати, вам также потребуется установить пакет rustc, если он еще не установлен в вашем дистрибутиве.

После установки пользоваться им очень просто. Например, представьте, что вы хотите найти контент на странице по ее идентификатору:

curl -s url | htmlq '#css-selector'
curl -s url2 | htmlq '#css-selector'
curl -s https://www.linuxadictos.com/ | htmlq --pretty '#content' | more

Или для найти все ссылки страницу, вы можете использовать эту другую команду:

curl -s https://www.linuxadictos.com | htmlq --attribute href a

Наконец, если у вас есть вопросы о варианты доступны в htmlq, вы можете проверить их помощь с помощью этой команды:

htmlq --help

Надеюсь, этот небольшой урок вам помог. Как видите, его использование простое, и вы можете комбинировать его с такими инструментами, как виться, Среди других.


Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.

Будьте первым, чтобы комментировать

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован.

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.