És possible que necessitis extreure contingut d'un HTML. I potser ja fas servir la comanda JQ per extreure dades de documents JSON, però amb htmlq tindràs una eina similar a aquesta, fins i tot està escrita també en llenguatge de programació Rust, però per a HTML.
L'eina htmlq està disponible per a altres sistemes tipus Unix, i no només per a Linux, de manera que la podràs fer servir també en FreeBSD, macOS, etc. A més, fa servir selectors CSS per extreure els fragments de contingut dels arxius .html. Així és com s'apunta als elements que es vol d'una pàgina web que necessites. Per exemple, podràs extreure les imatges, o el text, etc., d'una URL.
El primer és instal·lar htmlq en el teu Linux. Per exemple, prenent com a referència una distro DEB (per a altres seria similar, però amb el gestor de paquets que correspongui), podem usar:
sudo apt install cargo cargo install htmlq
Un cop instal·lat, el seu ús és senzill. Per exemple, imagina que vols trobar contingut en una pàgina per la seva ID:
curl -s url | htmlq '#css-selector' curl -s url2 | htmlq '#css-selector' curl -s https://www.linuxadictos.com/ | htmlq --pretty '#content' | more
O, per trobar tots els enllaços de una pàgina, podeu fer servir aquest altre comando:
curl -s https://www.linuxadictos.com | htmlq --attribute href a
Finalment, si tens dubtes sobre les opcions disponibles a htmlq, pots consultar la seva ajuda amb aquesta comanda:
htmlq --help
Espero que t'hagi servit d'ajuda aquest petit tutorial. Com veus, el seu ús és senzill, i el pots combinar amb eines com ris, Entre altres.
Sigues el primer a comentar