Python Package

pdfplumber

2022-03-24

PDFPlumber 是基于pdfminer.si 实现的 [[Python]] PDF 文本和表格解析工具。

安装

Terminal window
1
pip install pdfplumber

使用

读取

1
import pdfplumber
2
3
# 读取文件
4
pdf = pdfplumber.open('file.pdf')
5
6
# 用 with 方式
7
with pdfplumber.open('file.pdf') as file:
8
page_list = pdf.pages # 获取所有页
9
10
for page in page_list:
11
print(page.extract_text()) # 获取文本
  • pdf.pages: 获取所有页(列表)
  • page.extract_text(): 获取页文本(字符串,含表格数据)
  • page.extract_tables(): 获取表格数据

参考