python基本上能够来完成对任意类型文件的所有操作,而对于pdf文件的处理也是可以通过不同模块来实现的 。而这篇文章主要来介绍的内容就是,怎么通过pdfplumber这个第三方库模块来完成,一个pdf文件中所有表格数据的获取,感兴趣和想学习的话就往下看看 。
文章插图
一、安装pdfplumber
win+r组合快捷键打开运行窗口之后输入cmd并回车即可进入到命令行窗口,在该窗口里面只需要调用pip工具以及install命令就能完成任意模块和库的下载安装操作,命令如下所示:
pip install pdfplumber二、代码编写
模块安装完成之后新建py文件作为脚本来编写代码,使用pycharm等集成开发工具或者编辑器将其打开之后先使用import关键字导入模块,然后用这个模块里面的open()方法才可以将pdf文件打开并且执行后续的读写等操作 。
因为要获取的是整个pdf文件之中所有的表格数据,那么就需要创建for循环迭代结构,而迭代的对象则是range()函数通过pdf文件页码总数生成出来的数字序列 。在每次迭代之中都需要用切片方式来指定页面并返回对象,然后再调用extract_tables()方法就可以将该页码内所有的表格都取出了 。
这个表格取出来之后会以多维数组形式返回,那么调用print()函数就可以直接将其输出 。因为是有多个表格存在,所以在输出时还需要去将其换行或者隔开才可以,详细代码示例如下所示:
import pdfplumberpdf = pdfplumber.open("example.pdf")for x in range(len(pdf.pages)): page01 = pdf.pages[x] table2 = page01.extract_tables() print(table2)【Python获取pdf文件表格怎么做?Python如何获取pdf所有表格】以上就是关于“Python获取pdf文件表格怎么做?Python如何获取pdf所有表格”的全部内容了,希望对你有所帮助 。
推荐阅读
- Matplotlib绘图如何保存到表格中?Python画出的图怎么写入Excel内
- Python自动化办公有哪些方法?Python自动化办公场景有哪些
- Python如何识别验证码文字输出?Python怎么使用ddddocr模块识别验证码
- Python怎么查看模块帮助文档?Python模块信息如何查看
- 求亚当斯密的《道德情操论》PDF
- 怎么免费抽特斯拉 和平精英特斯拉免费获取方法
- 江南百景图颜料怎么得到 江南百景图颜料获取方法介绍
- pdf是扫描件吗?
- 手机上怎么获取比特币 用手机怎么挖比特币
- 想问一下二元期权交易平台一般靠什么获取利润?用什么系统比较合适?