htmlq: pura sisältöä HTML:stä Linuxissa helposti

Sinun on ehkä poimittava sisältö HTML -koodista. Ja ehkä käytät jo jq -komentoa tietojen poimimiseen JSON -asiakirjoista, mutta htmlq sinulla on samanlainen työkalu kuin tämä, se on jopa kirjoitettu myös Rust -ohjelmointikielellä, mutta HTML: lle.

Htmlq-työkalu on saatavana muihin Unix-tyyppisiin järjestelmiin eikä vain Linuxiin, joten voit käyttää sitä myös FreeBSD: llä, macOS: llä jne. Käytä myös CSS -valitsimia sisällönpätkien poimimiseen .html -tiedostoja. Näin osoitat haluamasi elementit haluamastasi verkkosivusta. Voit esimerkiksi poimia kuvat tai tekstin jne. URL -osoitteesta.

Ensimmäinen on asenna htmlq Linuxissa. Esimerkiksi DEB -distron käyttäminen viitteenä (muille se olisi samanlainen, mutta vastaavan paketinhallinnan kanssa), voimme käyttää:

sudo apt install cargo

cargo install htmlq

cargo on Rustin pakettipäällikkö, koska pip on Python -kielelle… Sen avulla voit helposti asentaa lukuisia Rustissa luotuja paketteja. Muuten, sinun on myös asennettava rustc -paketti, jos sinulla ei vielä ole sitä distrossa.

Asennuksen jälkeen sen käyttö on yksinkertaista. Kuvittele esimerkiksi, että haluat löytää sisällön sivulla tunnuksen perusteella:

curl -s url | htmlq '#css-selector'
curl -s url2 | htmlq '#css-selector'
curl -s https://www.linuxadictos.com/ | htmlq --pretty '#content' | more

Tai, varten löytää kaikki linkit sivulla, voit käyttää tätä toista komentoa:

curl -s https://www.linuxadictos.com | htmlq --attribute href a

Lopuksi, jos sinulla on kysymyksiä aiheesta vaihtoehdot saatavilla osoitteessa htmlq, voit tarkistaa heidän ohjeensa tällä komennolla:

htmlq --help

Toivottavasti tämä pieni opetusohjelma auttoi sinua. Kuten näette, sen käyttö on yksinkertaista, ja voit yhdistää sen työkaluihin, kuten kiemura, mm.

LinuxAdictos

htmlq: poimi sisältö HTML -koodista Linuxissa

Jätä kommentti Peruuta vastaus