塞玛特解释了如何从HTML网站提取所需数据

网络中呈现的大量信息被认为是“非结构化”的,因为它的组织方式不正确。 HTML网站包含组织文档的方式有所不同,并且文档中呈现的文本在基础HTML代码中进行了结构化。
HTML网站提供三种主要的数据提取方法:
- 将网页上包含的文本保存到您的计算机;
- 编写用于数据提取的代码;
- 使用特殊的提取工具;
1.如何从网站中提取HTML而无需编码

仅提取文字
打开包含所需文本的网页后,右键单击并选择“页面另存为”或“另存为”选项。在“文件名”字段中输入文件的名称,然后从“另存为类型”下拉菜单中选择“网页,仅HTML”。单击“保存”按钮,然后等待几秒钟。
该页面上的所有文本均被提取并保存为HTML文件。原始的页面格式设置选项保持不变,您可以在文本编辑器(如“记事本”)中编辑内容。
提取整个网页
在“文件”菜单中选择“另存为”或“页面另存为”选项。然后,从“另存为类型”下拉菜单中单击“完整的网页”。单击“保存”后,将从页面中提取文本和图像,并将其保存在所需的任何位置。文本放置在HTML文件中,而图像存储在文件夹中。
2.使用编码从网站提取HTML
您可以使用特殊工具直接处理HTML文件。另外,您可以创建代码以使用XPath或正则表达式删除所有HTML标记并保留HTML文件中包含的文本。用于此任务的一些最受欢迎的编程语言包括Python,Java,JS,Go,PHP和NodeJ。
3.使用网络数据提取工具
如果您只想从网站中提取HTML文件而无需编写任何代码,或者避免使用复制和粘贴方法而遭受折磨,请使用网络抓取工具。实际上,有很多有用的工具可以从网站上收集必要的信息,然后将其转换为结构化格式。只需尝试几种刮工具 ,您肯定会找到最适合您的刮工具的工具 。