htmlq:LinuxのHTMLからコンテンツを抽出する

ドメインウェブホスティング

HTMLからコンテンツを抽出する必要がある場合があります。 また、JSONドキュメントからデータを抽出するためにすでにjqコマンドを使用しているかもしれませんが、 htmlq これに似たツールがあります。Rustプログラミング言語で書かれていますが、HTML用です。

htmlqツールは、Linuxだけでなく、他のUnixライクなシステムでも利用できるため、FreeBSD、macOSなどでも使用できます。 また、CSSセレクターを使用して、コンテンツスニペットを .htmlファイル。 これは、必要なWebページから必要な要素を指す方法です。 たとえば、URLから画像やテキストなどを抽出できます。

最初は htmlqをインストールします Linuxで。 たとえば、DEBディストリビューションを参照として使用すると(他のディストリビューションでも同様ですが、対応するパッケージマネージャーを使用します)、次を使用できます。

sudo apt install cargo

cargo install htmlq

ピップはPython言語用であるため、cargoはRustのパッケージマネージャーです。これを使用すると、Rustで作成された多数のパッケージを簡単にインストールできます。 ちなみに、ディストリビューションにまだrustcパッケージがない場合は、rustcパッケージもインストールする必要があります。

インストールすると、その使用は簡単です。 たとえば、あなたが見つけたいと想像してください IDによるページのコンテンツ:

curl -s url | htmlq '#css-selector'
curl -s url2 | htmlq '#css-selector'
curl -s https://www.linuxadictos.com/ | htmlq --pretty '#content' | more

または、 のすべてのリンクを見つける ページでは、次の他のコマンドを使用できます。

curl -s https://www.linuxadictos.com | htmlq --attribute href a

最後に、について質問がある場合 オプション htmlqで利用可能で、次のコマンドでヘルプを確認できます。

htmlq --help

この小さなチュートリアルがお役に立てば幸いです。 ご覧のとおり、使い方は簡単で、次のようなツールと組み合わせることができます。 curlなどがある。


コメントを残す

あなたのメールアドレスが公開されることはありません。 必須フィールドには付いています *

*

*

  1. データの責任者:AB Internet Networks 2008 SL
  2. データの目的:SPAMの制御、コメント管理。
  3. 正当化:あなたの同意
  4. データの伝達:法的義務がある場合を除き、データが第三者に伝達されることはありません。
  5. データストレージ:Occentus Networks(EU)がホストするデータベース
  6. 権利:いつでも情報を制限、回復、削除できます。