Python处理pdf文件用什么库?Python哪些方法可以操作pdf文件

pdf文件类型是平常的工作之中经常会遇到的一种文件,而它一般来说是用来保存一些变化不会太大的数据和内容 。而这篇文章要来给大家介绍的内容就是python处理pdf文件的库pypdf2,以及其所使用的具体方法,感兴趣的话就往下看看吧 。

Python处理pdf文件用什么库?Python哪些方法可以操作pdf文件

文章插图
(1)对于文本类型的文件来说,实际上所有的操作无非就是读取数据和写入数据而已,而在PyPDF2的第三方库之中常用的方法也是PdfFileReader和PdfFileWriter这两个,它们的作用分比为读取和写入,导入模块的代码如下所示:
from PyPDF2 import PdfFileReader, PdfFileWriter(2)那么要使用这两个方法来操作pdf文件也很简单,只需要使用reader()方法将pdf文件的所有内容都给读取出来 。然后通过for循环迭代每一页的pdf文件数据,因为在pdf文件之中是可以直接将图片作为一页插入进去的,所以读取出来的数据也是分页格式的 。之后调用addPage()方法将pdf文件取出来的数据先添加到写入对象中,代码如下所示:
path = r'D:\asd\tep'pdf_writer = PdfFileWriter()for i in range(1, 6):    pdf_reader = PdfFileReader(path + '/INV{}.pdf'.format(i))    for page in range(pdf_reader.getNumPages()):        pdf_writer.addPage(pdf_reader.getPage(page))最后只需要用open()函数打开一个pdf文件,然后使用write()方法将之前取出来的所有数据都重新写入到这个新的文件中即可 。不过调用写入数据方法的对象不是文件对象,而是保存了数据的pdf文件写入对象,代码如下:
with open(path + r'\merge.pdf', 'wb') as out:  pdf_writer.write(out)【Python处理pdf文件用什么库?Python哪些方法可以操作pdf文件】以上就是关于“Python处理pdf文件用什么库?Python哪些方法可以操作pdf文件”的全部内容了,希望对你有所帮助 。

    推荐阅读