Python数据预处理有哪几种情况?Python常见的数据预处理方法

当我们在对大量的数据进行清理或者是转换的时候,难免会操作数据的缺失或者是有重复的值出现,又或者是出现异常的情况,难免面对这些问题该如何解决呢,下面带大家一起学习关于“Python数据预处理有哪几种情况?Python常见的数据预处理方法”的文章 。

Python数据预处理有哪几种情况?Python常见的数据预处理方法

文章插图
Python数据预处理,可以分成以下三种情况:
1、缺失数据的处理
在处理大量的数据的时候,导入数据时有些数据缺失了是一种经常发生的事情,最简单的操作方法就是将缺失的那一块数据删除,删除的是缺失数据的数据行,需要使用到的是pandas 中的.dropna()方法,不仅可删除存在着缺失值的行列,还可以对指定的列进缺失值的处理 。举个例子:
dfNew = dfData.dropna(axis = 0))这一段代码是对含有缺失值的行进行清除 。
2、重复数据的处理
当数据中出现了一些重复的数据使,也可以采用删除重复行的操作,将一些多余的数据清除了,实现的方法是,首先对数据进行查看,找到有哪些重复的数据内容,采用的方式是pandas中的.duplicated()方法,然后再对这些重复发数据进行删除时,使用的方法是.drop_duplicated(),当然也可以对指定的数据列去重 。举个例子:
 dfNew = dfData.drop_duplicates(inplace=True)   删除重复的数据行3、异常值处理
异常的值出现,就表示一个样本中的数值和之前的需要的数值存在着一定的偏差,想要对异常值进行识别的话,我们可以通过两种图来进行操作,分别是:箱线图、正态分布图,还有其他的方式可以识别这里主要说的是箱线图技术,它可以查看整体的异常情况,进而发现异常值 。绘制箱型图的方法如下:
【Python数据预处理有哪几种情况?Python常见的数据预处理方法】dfData.boxplot()  # 绘制箱形图有关“Python数据预处理有哪几种情况?Python常见的数据预处理方法”的文章就分享到这里了,如果还想学习其他的Python知识,可以继续关注了解哦 。

    推荐阅读