数据清洗是数据分析中很重要的一步,好比蔬菜水果要洗过之后再吃,不然容易拉肚子;
本文目的是持续搜集总结python对各种数据进行清洗的方法,之后遇到忘记的在这里Ctrl+F就找得到;
文中有提供简单的案例,看到的同学可以复制黏贴操作一下;
数据清洗
数值类
1缺失值
1.1缺失值的类型
NaN – not a number – 对于数来说,非数字
None – 对于object来说,没东西
NaT – not a time --对于时间来说,非时间
test11 = pd.DataFrame({'num':[1,2,np.nan,4],
'obj':['a',None,'c','d'],
'time':pd.to_datetime(['2022-01-01','2022-01-02','2022-01-03',np.nan])})

1.2缺失值的探索分析
#isnull(),探索上述缺失值类型,返回bool型
test11.isnull()
#对布尔型的dataframe进行求和聚合查看数量
test11.isnull().sum()
#计算缺失值占比
test11.isnull().sum()/test11.isnull().count()
#定位空值在哪些行
test11[~test11.index.isin(test11.dropna().index)]

数据清洗在数据分析中至关重要,本文详细介绍了Python处理数值类和文本类数据的缺失值与异常值方法。针对缺失值,区分了NaN、None、NaT三种类型,并探讨了其处理策略,包括删除和插值等。对于异常值,通过数据限制和分布分析来识别并提出相应处理方案。此外,文本数据的清洗挑战,如object类型、混合格式和无定向数据,也提供了相应处理思路。
6538

被折叠的 条评论
为什么被折叠?



