htmlq:在 Linux 中从 HTML 中提取内容

域名虚拟主机

您可能需要从 HTML 中提取内容。 也许您已经使用 jq 命令从 JSON 文档中提取数据,但是使用 htmlq 您将拥有一个与此类似的工具,它甚至也是用 Rust 编程语言编写的,但用于 HTML。

htmlq 工具可用于其他类 Unix 系统,不仅适用于 Linux,因此您也可以在 FreeBSD、macOS 等上使用它。 此外,使用 CSS 选择器从 .html 文件. 这就是您从所需网页中指向所需元素的方式。 例如,您可以从 URL 中提取图像或文本等。

首先是 安装 htmlq 在你的 Linux 上。 例如,以 DEB 发行版作为参考(对于其他发行版,它会类似,但使用相应的包管理器),我们可以使用:

sudo apt install cargo

cargo install htmlq

cargo 是 Rust 包管理器,就像 pip 是 Python 语言一样……有了它,您可以轻松安装在 Rust 中创建的大量包。 顺便说一句,如果您的发行版中还没有安装 rustc 软件包,您还需要安装它。

一旦安装,它的使用很简单。 例如,假设您要查找 页面上的内容通过其 ID:

curl -s url | htmlq '#css-selector'
curl -s url2 | htmlq '#css-selector'
curl -s https://www.linuxadictos.com/ | htmlq --pretty '#content' | more

或者,对于 找到所有链接 一个页面,你可以使用这个其他命令:

curl -s https://www.linuxadictos.com | htmlq --attribute href a

最后,如果您有任何关于 选项 在 htmlq 中可用,您可以使用以下命令查看他们的帮助:

htmlq --help

我希望这个小教程对你有所帮助。 如您所见,它的使用很简单,您可以将它与诸如 卷曲,除其他。


本文内容遵循我们的原则 编辑伦理。 要报告错误,请单击 信息.

成为第一个发表评论

发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。