常见生成PDF文件的有两种方法,一是先生成 word文档,然后将word转换成PDF文件;另一种则是直接生成PDF文件。
生成Word文件并将其转换为PDF文件,可以使用多种Java库和JAR包。以下是一些常用的库和JAR包:
而Word到PDF转换的步骤如下所示:
由上述说明可知,生成一次PDF文件需要保存两次,这极大的浪费了系统的内存;同时,word转换PDF有限制,只能转换少量页数,当大文件转换时,就需要进入收费阶段了。种种限制,让这种方法变得并不实用。
iText是一个开源库,用于创建和操作PDF文件。本文则主要用 iText 7 进行测试与文件生成。pom核心jar文件:
-
-
com.itextpdf -
itext7-core -
7.1.16 -
pom -
-
-
-
-
org.projectlombok -
lombok -
1.18.20 -
compile -
-
-
-
org.mybatis.spring.boot -
mybatis-spring-boot-starter -
1.1.1 -
- import com.itextpdf.io.font.PdfEncodings;
- import com.itextpdf.kernel.font.PdfFont;
- import com.itextpdf.kernel.font.PdfFontFactory;
- import com.itextpdf.kernel.geom.PageSize;
- import com.itextpdf.kernel.pdf.PdfDocument;
- import com.itextpdf.kernel.pdf.PdfWriter;
- import com.itextpdf.layout.Document;
- import com.itextpdf.layout.element.*;
- import com.itextpdf.layout.property.HorizontalAlignment;
- import com.itextpdf.layout.property.TextAlignment;
- import lombok.extern.slf4j.Slf4j;
- import org.springframework.stereotype.Component;
- //import com.itextpdf.layout.property.UnitValue;
-
-
- import java.io.IOException;
- import java.util.List;
-
- @Slf4j
- @Component
- public class PdfGenerator {
-
-
- public void createPdf(String fileName, String title, String titleRow, String[] headerText, List
data) throws IOException { - PdfDocument pdfDoc = new PdfDocument(new PdfWriter(fileName));
- Document doc = new Document(pdfDoc, PageSize.A4);
-
- // 设置字体 simhei.ttf黑体 SimSun宋体
- PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, true);
- // PdfFont font = PdfFontFactory.createFont("SimSun", "UniGB-UCS2-H", false);
-
- // String text = "文章内容";
- // if (null != text){
- // txtSet(doc,text,font);
- // }
-
- // 设置标题
- if (null != title){
- titleSet(doc,title,font);
- }
-
- // 创建表格
- int numColumns = (null == headerText) ? data.get(0).length : headerText.length;
- Table table = new Table(numColumns);
- // table.setWidth(UnitValue.createPercentValue(100)); // 表格宽度设置为100%
- // table.setFixedPosition(1, 1, 1); // 设置表格在页面上的位置(可选)
- if (!(null == titleRow)){
- titleCell(table,titleRow,headerText.length,font); // 添加标题行
- }
- // 添加表头
- for (int i = 0; i < headerText.length; i++) {
- headerCell(table,headerText[i],font);
- }
- //添加内容
- for (int i = 0; i < data.size(); i++) {
- for (int j = 0; j < data.get(i).length; j++) {
- contextCell(table,data.get(i)[j],font);
- }
- }
- // 使用Div容器来居中表格
- Div div = new Div();
- div.setHorizontalAlignment(HorizontalAlignment.CENTER); // 设置Div水平居中
- div.add(table); // 将表格添加到Div中
- // 将Div添加到文档中
- doc.add(div);
- // 关闭文档
- doc.close();
- log.info(fileName+"Pdf文件创建成功!");
- }
-
- //设置文本
- public void txtSet(Document doc,String data,PdfFont font){
- Paragraph titleText = new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(12);
- doc.add(titleText);
- }
- //设置标题
- public void titleSet(Document doc,String data,PdfFont font){
- Paragraph titleText = new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(20);
- doc.add(titleText);
- }
- //设置标题行
- public void titleCell(Table table,String data,int col,PdfFont font){
- Cell headerCell = new Cell(1,col).add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(14));
- table.addCell(headerCell);
- }
- //设置表头
- public void headerCell(Table table,String data,PdfFont font){
- Cell cell = new Cell().add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(12));
- table.addCell(cell);
- }
- //设置内容
- public void contextCell(Table table,String data,PdfFont font){
- Cell cell = new Cell().add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(10));
- table.addCell(cell);
- }
-
- }
PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, false);同PdfFontFactory.createFont(new File("path/to/font.ttf"), PdfEncodings.IDENTITY_H, true)。
这行代码的主要目的是加载一个名为“simhei.ttf”的字体文件,并使用Unicode编码方式,但不将其嵌入到生成的PDF文档中。
PdfFontFactory.createFont(): PdfFontFactory是iText库中的一个工具类,用于创建PdfFont对象。它的createFont()方法是创建新字体的主要方法。
"simhei.ttf": 这是字体文件的路径或名称。在这个例子中,它指的是“黑体”字体的TrueType字体文件(.ttf)。你需要确保这个字体文件在你的项目路径下是可用的,或者提供完整的文件路径。该字体在网上容易下载,所以本文没有提供。实在找不到的,可以使用下面的宋体(SimSun)。字体很重要,因为个别时候会中文乱码。
PdfEncodings.IDENTITY_H: 这是字体的编码方式。PdfEncodings.IDENTITY_H通常用于Unicode字体,确保在PDF文档中正确地表示和显示字符。
false: 这个布尔值参数通常用于指示字体是否应该被嵌入到生成的PDF文档中。设置为false意味着字体不会被嵌入,这通常在你确定阅读PDF的客户端已经安装了该字体时是可行的。但是,为了确保最大的兼容性,通常建议将字体嵌入到PDF中,因此你可能会将这个值设置为true。
值得一提的是,iText5 和 iText7 创建字体所用的方法不一样。
iText5:
- BaseFont baseFont = BaseFont.createFont("path/to/simhei.ttf",
- BaseFont.IDENTITY_H, BaseFont.EMBEDDED);
- Font font = new Font(baseFont, 12);
iText7:
- PdfFont font = PdfFontFactory.createFont("path/to/simhei.ttf",
- PdfEncodings.IDENTITY_H, true);
“文章内容” 被注掉了,该内容本应由方法入口传入,但我这里为测试大数据生成文件,所以正文由表格组成。把注释放开,并把内容加到方法入口,该工具类使用起来就就更全面。
在 iText 7 中,并没有表格居中的设置,所以如果需要表格居中,通常使用div。在iText 7中,设置表格居中通常涉及设置表格的对齐属性或者将表格放置在一个容器元素中,如Div
,并设置该容器的对齐属性。
Div
元素允许您将多个内容元素(如段落、表格、图像等)组合在一起,并设置这些元素的整体属性,比如对齐方式、边距、填充等。这对于创建具有特定布局和样式的内容块非常有用。
如果您在尝试使用Div
元素时遇到问题,可能是因为您没有正确地导入相关的包或类。请确保您的项目中包含了iText 7的依赖,并且您已经导入了com.itextpdf.layout.element.Div
类。
测试一日志打印:
- : /data/NFS/bypay\20240417\20240417_6a9c1b1b_1.pdfPdf文件创建成功!
-
- : 表格数据字节数1191974,运行时间97951ms
测试一文件展示:(表格行数3.8W)
测试二日志打印:
- : /data/NFS/bypay\20240422\20240422_27ccb22b_1.pdfPdf文件创建成功!
-
- : 表格数据字节数3760636,运行时间917214ms
测试二文件展示:(表格行数12W+)
测试三日志打印:
- : /data/NFS/bypay\20240407\20240407_a60bda47_1.pdfPdf文件创建成功!
-
- : 表格数据字节数4916250,运行时间1602610ms
测试三文件展示:(表格行数17W+)
由上述示例可知,仅仅几M 大小的文件,就需要10min+来处理数据,而10M+的数据,更是用了26min+,这严重占用了系统内存,生成效率更是低下。
第一、回顾测试工具类,发现在每添加一个单元格,都会新建一个Cell单元格对象,每个Cell里还会添加一个Paragraph段落对象,7*17W*2 ≈ 240W,这些对象都会被分配在堆内存中,因为对象实例总是存储在堆中。因此,这个操作会对堆内存造成显著影响。如果堆内存不足以容纳这么多对象,程序可能会抛出OutOfMemoryError
。
第二,可以看到,每创建一个Cell,都会进行一次I/O操作,这也严重影响了系统性能。
第三, fileName 如果涉及未创建目录,也会抛出 java.io.FileNotFoundException,所以,还需要对方法进行改造。
分块处理数据:
不要一次性加载所有数据到内存中。相反,你应该分块或分页加载数据,并为每块或每页数据创建PDF内容。这样,你可以控制内存使用,并避免因内存溢出而导致的错误。
使用流式API:
iText7提供了流式API,允许你逐步构建PDF文档,而不是一次性将所有内容加载到内存中。这对于处理大量数据特别有用。
优化字体和图像的使用:
如果你在PDF中使用了大量字体或图像,确保它们被有效地重用,而不是为每个页面或每个元素都加载一个新的实例。
减少复杂的布局和格式:
复杂的布局和格式可能会增加PDF生成的时间和内存使用。尽量使用简单的布局和格式,或考虑在必要时使用分页和表格来组织数据。
使用缓存:
对于重复使用的对象(如字体、颜色、样式等),考虑使用缓存来减少内存分配和垃圾收集的开销。
异步处理:
如果可能的话,使用异步处理来生成PDF。这样,你可以在不阻塞主线程的情况下处理数据,并提高应用程序的响应性。
监控和调优:
使用性能分析工具来监控你的代码,并找出可能的瓶颈。根据分析结果,对代码进行调优,以提高PDF生成的速度和效率。
考虑其他解决方案:
如果iText7无法满足你的性能需求,你可能需要考虑其他解决方案,如使用数据库报告工具或专门的PDF生成库(如Aspose.PDF、FOP等)。
升级硬件和配置:
确保你的服务器或开发机器具有足够的RAM和CPU资源来处理大量数据。根据需要调整JVM参数,如堆大小(Xmx),以优化内存使用。
测试和验证:
在将解决方案部署到生产环境之前,确保在测试环境中充分测试你的代码。验证生成的PDF文件的准确性和完整性,并测试在不同数据量和配置下的性能。