从 HTML 文件中提取文本内容是数据抓取中的一个常见任务,你可以将提取的文本信息用于编制报告、进行数据分析或其他处理。本文分享如何使用免费 Java API 从HTML 文件中提取文本内容。
要通过Java提取HTML文本,需要用到Free Spire.Doc for Java免费库。以下提供两种安装方式:
1. 通过Maven仓库安装:
- <repositories>
- <repository>
- <id>com.e-iceblue</id>
- <name>e-iceblue</name>
- <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
- </repository>
- </repositories>
- <dependency>
- <groupId>e-iceblue</groupId>
- <artifactId>spire.doc.free</artifactId>
- <version>5.2.0</version>
- </dependency>
2. 下载Free Spire.Doc for Java库,解压后手动将Spire.Doc.jar添加到程序中。
基本步骤:
示例代码:
- import com.spire.doc.Document;
- import com.spire.doc.FileFormat;
-
- import java.io.FileWriter;
- import java.io.IOException;
-
- public class ExtractTextFromHTML {
- public static void main(String[] args) throws IOException {
-
- //创建Document对象
- Document doc = new Document();
-
- //加载一个HTML文件
- doc.loadFromFile("input.html", FileFormat.Html);
-
- //获取HTML文件中的文本
- String text = doc.getText();
-
- //将文本写入TXT文件
- FileWriter fileWriter = new FileWriter("提取HTML文本.txt");
- fileWriter.write(text);
- fileWriter.close();
- }
- }
运行结果 :
参考文章:
Java: Extract Text from HTMLUse Spire.Doc for Java to extract text from an HTML file or a URL easily, without the need for any third-party libraries.https://www.e-iceblue.com/Tutorials/Java/Spire.Doc-for-Java/Program-Guide/Conversion/Java-Extract-Text-from-HTML.html在实际应用中,有问题可前往论坛讨论。