Python删除重复的行怎么做?Pandas库如何删除Dataframe中列重复数据

Dataframe是python数据处理第三方库pandas中能够用来创建行列形式的数据结构和方法,而有些时候是需要将其中重复行给删除掉的 。所以本文主要介绍的内容就是怎么使用drop_duplicates()方法来删除df对象中的重复行,想要学习的小伙伴就要仔细阅读文章了 。

Python删除重复的行怎么做?Pandas库如何删除Dataframe中列重复数据

文章插图
一、方法语法
调用该方法之前需要知道它是由什么类型对象去调用的,而方法之中又有哪些参数,这些参数的作用以及可以接收的值是什么,示例如下:
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
从示例之中可以看到drop_duplicates()方法是通过Dataframe类型的对象来调用的,而该方法可以去接收的参数有四个,其中参数subset为必选参数 。它表示操作的列是哪一个,不写的话默认就是删除列所有值 。
参数keep需要接收first、last以及False三个值,含义分别为保留第一个重复项、最后一个重复项以及删除所有重复项、默认值为first 。
参数inplace的值也是布尔类型的True和False,意思为是否直接对原本的Dataframe对象操作,False就是不会修改原对象 。
最后一个参数gnore_index的默认值为True,意思就是重置索引,会按照顺序为剩余的列指定索引值 。
二、代码示例
import pandas as pddf = pd.DataFrame({'a':[1,1,2,2],'b':['a','b','a','b']})df.drop_duplicates('b', 'first', inplace=True)以上代码就是删除掉了对象df中列b中所有的重复元素,并且只保留了第一个重复项,所以结果就是只剩下了a和b两行,示例如下:
   a  b0  1  a1  1  b还可以传入列表或者元组类型的参数来实现对多列进行操作,代码如下:
df.drop_duplicates(subset=['a', 'b'], keep='first', inplace=False)【Python删除重复的行怎么做?Pandas库如何删除Dataframe中列重复数据】以上就是关于“Python删除重复的行怎么做?Pandas库如何删除Dataframe中列重复数据”的全部内容了,希望对你有所帮助 。

    推荐阅读