python之PDF提取文字(超级简单)

前言
在python中,有一些可以用来从PDF文件中提取文本内容的包。以下是几个常用的包,有了前辈们的努力, 我们就可以直接使用轮子了, 直接上代码
测试文件

PyPDF2
PyPDF2 是一个纯 Python PDF 库,能够分割、合并、裁剪和转换 PDF 文件页面。它还可以添加自定义数据、查看选项和密码到 PDF 文件。PyPDF2 可以从 PDF 中检索文本和元数据,也可以将整个文件合并在一起。
安装
pip install PyPDF2
使用
1 | import PyPDF2 |
输出
1 | 测试文档 |
PyMuPDF
PyMuPDF是一个基于MuPDF库的Python封装,它提供了在Python中处理PDF文件的能力,包括读取PDF文本、图像、元数据以及进行一些基本操作的功能。MuPDF是一款高性能的PDF渲染和解析引擎
安装
pip install PyMuPDF
使用
1 | import fitz |
输出
1 | 测试文档 |
pdfplumber
pdfplumber 是一个用于从 PDF 文件中提取文本和表格数据的 Python 库。它建立在 PDFMiner、pdftotext 和 pyPDF2 等库之上,提供了更加高级和便捷的界面,使得从 PDF 中提取文本、表格和其他数据变得更加简单
安装
pip install pdfplumber
使用
1 | import pdfplumber |
输出
1 | 测试文档 |
总结
以上只是一些PDF解析的一部分模块和使用示例,根据输出结果来看, 可以满足基本使用, 开发过程中应该根据需求和项目要求,选择最适合的模块来解析和处理PDF文件。无论你选择哪个模块,都可以通过合适的方法提取PDF文件中的文本和数据。
当然还有其它的模块, 这里列举的是比较好用且简单的模块, 复杂的还可以使用OCR(光学字符识别)来进行提取数据, python常见的ocr模块有pytesseract, OpenCV, easyocr
精彩推荐
