pdfplumber

2022-03-24

install:: pip3 install pdfplumber

import:: import pdfplumber

github::

doc::


PDFPlumber 是基于pdfminer.si 实现的 Python 标准库|Python PDF 文本和表格解析工具。

读取

1
import pdfplumber
2
3
# 读取文件
4
pdf = pdfplumber.open('file.pdf')
5
6
# 用 with 方式
7
with pdfplumber.open('file.pdf') as file:
8
page_list = pdf.pages # 获取所有页
9
10
for page in page_list:
11
print(page.extract_text()) # 获取文本
  • pdf.pages: 获取所有页(列表)
  • page.extract_text(): 获取页文本(字符串,含表格数据)
  • page.extract_tables(): 获取表格数据

参考