Python提取pdf表格数据如何实现?Python提取pdf中表格的代码怎么写

python能够使用不同的模块来在程序内实现对各种类型文件的读写操作,而除了字符数据之外,表格以及图片都是能够通过合适的方法取出来的 。下文要讲解的内容就是python提取pdf表格数据的方法教程,一起往下看看吧 。

Python提取pdf表格数据如何实现?Python提取pdf中表格的代码怎么写

文章插图
一、pdfplumber库
python之中如果只是要将pdf文件中文字数据或者是某一页取出来的话,是不需要使用到这次的第三方库的,而是使用pdfplumber库 。因为该第三方库能够将pdf文件解析之后转为txt文档进行处理,这样就可以把表格数据取出来 。打开终端或者控制台进入到命令行窗口,然后以管理员权限执行命令来安装它,示例如下:
pip install pdfplumber二、代码实例
【Python提取pdf表格数据如何实现?Python提取pdf中表格的代码怎么写】该第三方库内有两个方法能够用来实现pdf文件表格数据的提取,这两个方法之间的区别仅仅在于数据提取出来之后格式上的差异 。
1. extract_table( ):这个方法会将pdf文件之中所有的表格数据都合并成为一个之后再取出来,它的格式可以看作为从行到列 。也就是说会将表格每一行数据都取出来,在其中的就是对应的列数据 。而在提取数据时还可以去指定pdf文件页面,然后for循环调用即可,代码如下所示:
import pdfplumberwith pdfplumber.open(r'F:python.pdf') as pdf:     page = pdf.pages[45]     for row in page.extract_table() :          print(row)          print(row[0])2. extract_tables( ):这个方法在名字上多加上了一个s表示复数,因为它提取出来的表格数据会全部放在一个列表结构之中来形成二维数组这样的结构 。也就是一个大的中括号内存在很多小的括号,而这些列表对象也是按行来保存数据的 。只需要修改方法名即可,示例如下:
for row inpage.extract_tables() :以上就是关于“Python提取pdf表格数据如何实现?Python提取pdf中表格的代码怎么写”的全部内容了,希望对你有所帮助 。

    推荐阅读