java 解析pdf

作者：唯憾梦倾城发布日期:2025-12-10 浏览:184

import com.itextpdf.kernel.pdf.PdfDocument;
import com.itextpdf.kernel.pdf.PdfReader;
import com.itextpdf.kernel.pdf.canvas.parser.PdfTextExtractor;

import java.io.File;
import java.io.IOException;

public class PDFParserExample {

    public static void main(String[] args) {
        // 指定PDF文件路径
        String pdfPath = "example.pdf";

        // 创建PdfReader对象，读取PDF文件
        try (PdfReader reader = new PdfReader(pdfPath);
             PdfDocument pdfDoc = new PdfDocument(reader)) {

            // 获取PDF文档的总页数
            int totalPages = pdfDoc.getNumberOfPages();
            System.out.println("Total Pages: " + totalPages);

            // 遍历每一页并提取文本
            for (int i = 1; i <= totalPages; i++) {
                String pageContent = PdfTextExtractor.getTextFromPage(pdfDoc.getPage(i));
                System.out.println("Page " + i + " content:\n" + pageContent);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

解释说明：

引入依赖库：此代码使用了iText库来解析和提取PDF文件中的文本。你需要在项目中添加iText库的依赖（例如通过Maven或Gradle）。
指定PDF文件路径：String pdfPath = "example.pdf";指定了要解析的PDF文件的路径。
创建PdfReader对象：PdfReader reader = new PdfReader(pdfPath);用于读取PDF文件。
创建PdfDocument对象：PdfDocument pdfDoc = new PdfDocument(reader);用于表示整个PDF文档。
获取总页数：int totalPages = pdfDoc.getNumberOfPages();获取PDF文档的总页数。
遍历每一页并提取文本：使用PdfTextExtractor.getTextFromPage()方法从每一页中提取文本，并打印出来。
异常处理：使用try-with-resources语句确保资源被正确关闭，并捕获可能的IOException异常。

如果你没有安装iText库，可以通过以下方式添加Maven依赖：

<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itext7-core</artifactId>
    <version>7.1.15</version>
</dependency>

上一篇：java跳出while循环

下一篇：java.lang.arraystoreexception