Возможно, вам потребуется извлечь содержимое из HTML. И, возможно, вы уже используете команду jq для извлечения данных из документов JSON, но с htmlq у вас будет инструмент, похожий на этот, он даже написан на языке программирования Rust, но для HTML.
Инструмент htmlq доступен для других Unix-подобных систем, а не только для Linux, поэтому вы также можете использовать его во FreeBSD, macOS и т. Д. Кроме того, используйте селекторы CSS для извлечения фрагментов содержимого из .html файлы. Таким образом вы указываете на нужные элементы на нужной веб-странице. Например, вы можете извлекать изображения, текст и т. Д. Из URL-адреса.
Во-первых, это установить htmlq на вашем Linux. Например, взяв дистрибутив DEB в качестве эталона (для других он был бы аналогичным, но с соответствующим менеджером пакетов), мы можем использовать:
sudo apt install cargo cargo install htmlq
После установки пользоваться им очень просто. Например, представьте, что вы хотите найти контент на странице по ее идентификатору:
curl -s url | htmlq '#css-selector' curl -s url2 | htmlq '#css-selector' curl -s https://www.linuxadictos.com/ | htmlq --pretty '#content' | more
Или для найти все ссылки страницу, вы можете использовать эту другую команду:
curl -s https://www.linuxadictos.com | htmlq --attribute href a
Наконец, если у вас есть вопросы о варианты доступны в htmlq, вы можете проверить их помощь с помощью этой команды:
htmlq --help
Надеюсь, этот небольшой урок вам помог. Как видите, его использование простое, и вы можете комбинировать его с такими инструментами, как виться, Среди других.