htmlq: extreure contingut d'un HTML a Linux

Domini web hosting

És possible que necessitis extreure contingut d'un HTML. I potser ja fas servir la comanda JQ per extreure dades de documents JSON, però amb htmlq tindràs una eina similar a aquesta, fins i tot està escrita també en llenguatge de programació Rust, però per a HTML.

L'eina htmlq està disponible per a altres sistemes tipus Unix, i no només per a Linux, de manera que la podràs fer servir també en FreeBSD, macOS, etc. A més, fa servir selectors CSS per extreure els fragments de contingut dels arxius .html. Així és com s'apunta als elements que es vol d'una pàgina web que necessites. Per exemple, podràs extreure les imatges, o el text, etc., d'una URL.

El primer és instal·lar htmlq en el teu Linux. Per exemple, prenent com a referència una distro DEB (per a altres seria similar, però amb el gestor de paquets que correspongui), podem usar:

sudo apt install cargo

cargo install htmlq

càrrec és el gestor de paquets de Rust, com pip ho és per al llenguatge Python ... Amb ell podràs instal·lar multitud de paquets creats a Rust de forma fàcil. Per cert, també necessitaràs tenir instal·lat el paquet rustc si no el tens ja en el teu distro.

Un cop instal·lat, el seu ús és senzill. Per exemple, imagina que vols trobar contingut en una pàgina per la seva ID:

curl -s url | htmlq '#css-selector'
curl -s url2 | htmlq '#css-selector'
curl -s https://www.linuxadictos.com/ | htmlq --pretty '#content' | more

O, per trobar tots els enllaços de una pàgina, podeu fer servir aquest altre comando:

curl -s https://www.linuxadictos.com | htmlq --attribute href a

Finalment, si tens dubtes sobre les opcions disponibles a htmlq, pots consultar la seva ajuda amb aquesta comanda:

htmlq --help

Espero que t'hagi servit d'ajuda aquest petit tutorial. Com veus, el seu ús és senzill, i el pots combinar amb eines com ris, Entre altres.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: AB Internet Networks 2008 SL
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.