在数据处理的时候很多情况并不能获取到理想的没有问题的数据,也就是说数据缺失是普遍存在的。在出具处理的时候我们通常要先对数据缺失进行处理才能继续下一步的操作,以pandas为例,pandas数据数据缺失会将缺失部分填充为NaN,那么pandas NaN缺失值处理要如何进行呢?接下来的这篇文章带你了解。
本文主要介绍了pandas中NaN缺失值的处理方法,主要有两种方法,具体如下:
import pandas as pd
缺失值处理
两种方法:
- 删除含有缺失值的样本
- 替换/插补
处理缺失值为NaN
先判断数据中是否存在NaN,通过下面两个方法中任意一个
pd.isnull(dataframe)
# dataframe为数据
如果数据中存在NaN返回True,如果没有就返回False
pd.notnull(dataframe)
该方法与isnull相反
any() 和 all()
"""
pd.isnull(dataframe).any()
判断哪一个字段中存在缺失值没有就返回False
pd.notnull(dataframe).all()
判断哪一个字段中存在缺失值没有就返回True
"""
使用numpy也可以进行判断
import numpy as np
np.any(pd.isnull(dataframe)) # 如果返回True,说明数据中存在缺失值
np.all(pd.notnull(dataframe)) # 如果返回False, 说明数据中存在缺失值
然后进行数据处理
方式一: 删除空值行
dataframe.dropna(inplace=False)
"""
dropna() 是删除空值数据的方法, 默认将只要含有NaN的整行数据删除,
如果想要删除整行都是空值的数据需要添加how='all'参数
默认是删除整行, 如果对列做删除操作, 需要添加axis参数,
axis=1表示删除列, axis=0表示删除行
inplace: 是否在当前的dataframe中执行此操作,
True表示在原来的基础上修改,
False表示返回一个新的值, 不修改原有数据
"""
方式二: 替换/插补
dataframe.fillna('替换的值value',inplace=False)
'''
把替换NaN的值传入到fillna()中
'''
缺失值NaN有默认标记的值
比如有的空值不是NaN, 有的是一个'?'
先替换
使用numpy把"?"替换为NaN
import numpy as np
# 替换
dataframe.replace(to_replace="?", value=np.nan)
把其他的缺失值换为NaN后, 然后就按照缺失值为NaN的方式就行操作
删除数据
如果只是单独的删除数据可以使用drop()方法
DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)
'''
代码解释:
labels : 就是要删除的行列的名字,用列表指定
index : 直接指定要删除的行
columns : 直接指定要删除的列
inplace=False : 表示返回一个新的值, 不修改原有数据
inplace=True : 表示在原来的基础上修改
'''
例:
import pandas as pd
df = pd.read_csv('/text.xlsx')
# 删除第0行和第1行
df.drop(labels=[0,1],axis=0)
# 删除列名为 age 的列
df.drop(axis=1,columns=age)
以上就是pandas NaN缺失值处理的全部内容,希望能给小伙伴带来帮助,也希望大家以后多多支持W3Cschool!