htmlq: extreure contingut d'un HTML a Linux de manera fàcil

És possible que necessitis extreure contingut d'un HTML. I potser ja fas servir la comanda JQ per extreure dades de documents JSON, però amb htmlq tindràs una eina similar a aquesta, fins i tot està escrita també en llenguatge de programació Rust, però per a HTML.

L'eina htmlq està disponible per a altres sistemes tipus Unix, i no només per a Linux, de manera que la podràs fer servir també en FreeBSD, macOS, etc. A més, fa servir selectors CSS per extreure els fragments de contingut dels arxius .html. Així és com s'apunta als elements que es vol d'una pàgina web que necessites. Per exemple, podràs extreure les imatges, o el text, etc., d'una URL.

El primer és instal·lar htmlq en el teu Linux. Per exemple, prenent com a referència una distro DEB (per a altres seria similar, però amb el gestor de paquets que correspongui), podem usar:

sudo apt install cargo

cargo install htmlq

càrrec és el gestor de paquets de Rust, com pip ho és per al llenguatge Python ... Amb ell podràs instal·lar multitud de paquets creats a Rust de forma fàcil. Per cert, també necessitaràs tenir instal·lat el paquet rustc si no el tens ja en el teu distro.

Un cop instal·lat, el seu ús és senzill. Per exemple, imagina que vols trobar contingut en una pàgina per la seva ID:

curl -s url | htmlq '#css-selector'
curl -s url2 | htmlq '#css-selector'
curl -s https://www.linuxadictos.com/ | htmlq --pretty '#content' | more

O, per trobar tots els enllaços de una pàgina, podeu fer servir aquest altre comando:

curl -s https://www.linuxadictos.com | htmlq --attribute href a

Finalment, si tens dubtes sobre les opcions disponibles a htmlq, pots consultar la seva ajuda amb aquesta comanda:

htmlq --help

Espero que t'hagi servit d'ajuda aquest petit tutorial. Com veus, el seu ús és senzill, i el pots combinar amb eines com ris, Entre altres.

LinuxAdictos

htmlq: extreure contingut d'un HTML a Linux

Deixa el teu comentari Cancel lar la resposta