Python Package

pdfplumber

2022-03-24

PDFPlumber 是基于pdfminer.si 实现的 [[Python]] PDF 文本和表格解析工具。

安装

Terminal window
pip install pdfplumber

使用

读取

import pdfplumber
# 读取文件
pdf = pdfplumber.open('file.pdf')
# 用 with 方式
with pdfplumber.open('file.pdf') as file:
page_list = pdf.pages # 获取所有页
for page in page_list:
print(page.extract_text()) # 获取文本
  • pdf.pages: 获取所有页(列表)
  • page.extract_text(): 获取页文本(字符串,含表格数据)
  • page.extract_tables(): 获取表格数据

参考