python能够使用不同的模块来在程序内实现对各种类型文件的读写操作,而除了字符数据之外,表格以及图片都是能够通过合适的方法取出来的 。下文要讲解的内容就是python提取pdf表格数据的方法教程,一起往下看看吧 。
文章插图
一、pdfplumber库
python之中如果只是要将pdf文件中文字数据或者是某一页取出来的话,是不需要使用到这次的第三方库的,而是使用pdfplumber库 。因为该第三方库能够将pdf文件解析之后转为txt文档进行处理,这样就可以把表格数据取出来 。打开终端或者控制台进入到命令行窗口,然后以管理员权限执行命令来安装它,示例如下:
pip install pdfplumber二、代码实例
【Python提取pdf表格数据如何实现?Python提取pdf中表格的代码怎么写】该第三方库内有两个方法能够用来实现pdf文件表格数据的提取,这两个方法之间的区别仅仅在于数据提取出来之后格式上的差异 。
1. extract_table( ):这个方法会将pdf文件之中所有的表格数据都合并成为一个之后再取出来,它的格式可以看作为从行到列 。也就是说会将表格每一行数据都取出来,在其中的就是对应的列数据 。而在提取数据时还可以去指定pdf文件页面,然后for循环调用即可,代码如下所示:
import pdfplumberwith pdfplumber.open(r'F:python.pdf') as pdf: page = pdf.pages[45] for row in page.extract_table() : print(row) print(row[0])2. extract_tables( ):这个方法在名字上多加上了一个s表示复数,因为它提取出来的表格数据会全部放在一个列表结构之中来形成二维数组这样的结构 。也就是一个大的中括号内存在很多小的括号,而这些列表对象也是按行来保存数据的 。只需要修改方法名即可,示例如下:
for row inpage.extract_tables() :以上就是关于“Python提取pdf表格数据如何实现?Python提取pdf中表格的代码怎么写”的全部内容了,希望对你有所帮助 。
推荐阅读
- 怎么用seaborn自带的数据集画散点图?Python第三方库如何绘图
- Python类可以传递参数吗?Python类的传参代码怎么写
- pdf加密文件怎么打印 打印pdf加密文件操作步骤
- 如何去除pdf水印,免费pdf去水印的方法盘点
- 如何取消pdf加密,教你一招轻松解除pdf密码
- 《思考致富》pdf下载在线阅读,求百度网盘云资源
- 住房公积金的提取条件 公积金可以取出来吗
- pdf怎么转换成jpg图片 把PDF转成JPG图片方法
- Python数据拼接如何实现?Python中数据拼接的实现方法
- Python程序如何删除具有特定扩展名的所有文件?删除具有特定扩展名的所有文件的方法