当我们在对大量的数据进行清理或者是转换的时候,难免会操作数据的缺失或者是有重复的值出现,又或者是出现异常的情况,难免面对这些问题该如何解决呢,下面带大家一起学习关于“Python数据预处理有哪几种情况?Python常见的数据预处理方法”的文章 。
文章插图
Python数据预处理,可以分成以下三种情况:
1、缺失数据的处理
在处理大量的数据的时候,导入数据时有些数据缺失了是一种经常发生的事情,最简单的操作方法就是将缺失的那一块数据删除,删除的是缺失数据的数据行,需要使用到的是pandas 中的.dropna()方法,不仅可删除存在着缺失值的行列,还可以对指定的列进缺失值的处理 。举个例子:
dfNew = dfData.dropna(axis = 0))这一段代码是对含有缺失值的行进行清除 。
2、重复数据的处理
当数据中出现了一些重复的数据使,也可以采用删除重复行的操作,将一些多余的数据清除了,实现的方法是,首先对数据进行查看,找到有哪些重复的数据内容,采用的方式是pandas中的.duplicated()方法,然后再对这些重复发数据进行删除时,使用的方法是.drop_duplicated(),当然也可以对指定的数据列去重 。举个例子:
dfNew = dfData.drop_duplicates(inplace=True) 删除重复的数据行3、异常值处理
异常的值出现,就表示一个样本中的数值和之前的需要的数值存在着一定的偏差,想要对异常值进行识别的话,我们可以通过两种图来进行操作,分别是:箱线图、正态分布图,还有其他的方式可以识别这里主要说的是箱线图技术,它可以查看整体的异常情况,进而发现异常值 。绘制箱型图的方法如下:
【Python数据预处理有哪几种情况?Python常见的数据预处理方法】dfData.boxplot() # 绘制箱形图有关“Python数据预处理有哪几种情况?Python常见的数据预处理方法”的文章就分享到这里了,如果还想学习其他的Python知识,可以继续关注了解哦 。
推荐阅读
- Python怎么用subplot画多个子图?Python画布如何显示多个图像
- Python切片有哪些特征?Python切片中的特点
- python怎么判断字典是否有key?python判断字典是否有key的方法
- Python中切片类型是什么?Python有哪些切片类型?
- python列表怎么添加多个元素?列表添加元素的三种方法
- Python中if语句的嵌套如何实现?Python里面if嵌套怎么写
- Python怎么判断两个字符串不相等?Python判断两个字符串不相等的方法
- Python字典如何进行运算?Python字典的运算方法是什么?
- Python给图片加相框怎么做?Python如何给图像加上边框
- Python执行pip命令不成功为什么?pip出现不是内部命令提示如何解决