塞玛特解释了如何从HTML网站提取所需数据

网络中呈现的大量信息被认为是“非结构化”的,因为它的组织方式不正确。 HTML网站包含组织文档的方式有所不同,并且文档中呈现的文本在基础HTML代码中进行了结构化。

HTML网站提供三种主要的数据提取方法:

  • 将网页上包含的文本保存到您的计算机;
  • 编写用于数据提取的代码;
  • 使用特殊的提取工具;

1.如何从网站中提取HTML而无需编码

您可以按照以下步骤抓取网页内容:

仅提取文字

打开包含所需文本的网页后,右键单击并选择“页面另存为”或“另存为”选项。在“文件名”字段中输入文件的名称,然后从“另存为类型”下拉菜单中选择“网页,仅HTML”。单击“保存”按钮,然后等待几秒钟。

该页面上的所有文本均被提取并保存为HTML文件。原始的页面格式设置选项保持不变,您可以在文本编辑器(如“记事本”)中编辑内容。

提取整个网页

在“文件”菜单中选择“另存为”或“页面另存为”选项。然后,从“另存为类型”下拉菜单中单击“完整的网页”。单击“保存”后,将从页面中提取文本和图像,并将其保存在所需的任何位置。文本放置在HTML文件中,而图像存储在文件夹中。

2.使用编码从网站提取HTML

您可以使用特殊工具直接处理HTML文件。另外,您可以创建代码以使用XPath或正则表达式删除所有HTML标记并保留HTML文件中包含的文本。用于此任务的一些最受欢迎的编程语言包括Python,Java,JS,Go,PHP和NodeJ。

3.使用网络数据提取工具

如果您只想从网站中提取HTML文件而无需编写任何代码,或者避免使用复制和粘贴方法而遭受折磨,请使用网络抓取工具。实际上,有很多有用的工具可以从网站上收集必要的信息,然后将其转换为结构化格式。只需尝试几种刮工具 ,您肯定会找到最适合您的刮工具的工具

send email