Vous devrez peut-être extraire le contenu d'un HTML. Et peut-être que vous utilisez déjà la commande jq pour extraire des données de documents JSON, mais avec htmlq vous aurez un outil similaire à celui-ci, il est même écrit en langage de programmation Rust, mais pour HTML.
L'outil htmlq est disponible pour d'autres systèmes de type Unix, et pas seulement pour Linux, vous pouvez donc également l'utiliser sur FreeBSD, macOS, etc. Utilisez également des sélecteurs CSS pour extraire les extraits de contenu du fichiers .html. C'est ainsi que vous pointez vers les éléments que vous voulez à partir d'une page Web dont vous avez besoin. Par exemple, vous pouvez extraire les images, ou le texte, etc., d'une URL.
La première est installer htmlq sur votre Linux. Par exemple, en prenant une distribution DEB comme référence (pour d'autres ce serait similaire, mais avec le gestionnaire de packages correspondant), on peut utiliser :
sudo apt install cargo cargo install htmlq
Une fois installé, son utilisation est simple. Par exemple, imaginez que vous voulez trouver contenu sur une page par son identifiant:
curl -s url | htmlq '#css-selector' curl -s url2 | htmlq '#css-selector' curl -s https://www.linuxadictos.com/ | htmlq --pretty '#content' | more
Ou pour retrouvez tous les liens de une page, vous pouvez utiliser cette autre commande :
curl -s https://www.linuxadictos.com | htmlq --attribute href a
Enfin, si vous avez des questions sur les options disponible en htmlq, vous pouvez consulter leur aide avec cette commande :
htmlq --help
J'espère que ce petit tuto vous aura aidé. Comme vous pouvez le voir, son utilisation est simple, et vous pouvez le combiner avec des outils tels que boucle, entre autres.